项目与资助
Image source: dargadgetz

项目与资助

课题组正在进行/已经完成的项目情况

国家项目:

  • 下一代信息检索研究,自然科学基金重点项目,与哈工大、中科院软件所共同承担
  • 基于内容的多媒体信息检索,“973”项目二级课题
  • 基于语义挖掘的智能搜索技术与评价方法,“863”项目
  • 智能信息处理的理论与方法,自然科学基金优秀创新群体项目
  • 主题无关的高质量WEB页面预选与检索,自然科学基金
  • 包含识别错误的汉语文本检索研究,自然科学基金
  • 智能信息获取理论、方法及其在网上的应用,973项目二级课题
  • 中文古籍数字化方法与系统,863项目

部委项目:

  • 精品课内容专用搜索引擎,教育部
  • 互联网多媒体信息内容分析相关项目,北京市广播电视局
  • 互联网相关某项目,国家广电总局

企业合作项目:

  • Automatic Search Engine Evaluation Using Click-through Data,微软Internet Service项目
  • 用于搜索的中文垃圾网页判别,微软项目
  • Effective information finding and extraction,IBM项目
  • 清华—搜狐搜索技术联合实验室项目(多个)
  • 基于互联网的领域相关的情感分析资源构建,富士通项目
  • 互联网软件信息专用搜索项目,横向合作
  • 大型中文古籍识别系统,横向合作

校系重点建设项目:

  • 网络信息检索用户行为分析与用户建模,系基金
  • 互联网多媒体信息检索的关键技术研究与试验平台建设,系重点基金

课题组科研成果展示

说明:请点击相关链接,可以看到演示系统或者更详细的说明。

商品评论信息挖掘系统 电子商务网站记录了用户对产品的大量评论信息,我们将这些信息进行分析整合,并以图形化的方式展现在用户面前,方便比较各产品的优劣。

BrandInBlog:企业口碑分析 BrandInBlog是一个针对企业在微博环境下的用户口碑进行自动分类整合与展示的系统,可以对用户关注热度、正负面情感、主要情绪等进行实时在线分析。

THUIRDB:高性能Key-Value DB THUIRDB是一个C++语言实现的基础库,用于在单机上实现共性能Key-Value持久化存储和高速查询。点击以上小标题可以免费下载使用。

观点检索与分类 对网上产品评论信息自动抓取,实现对产品的观点检索与分类,自动对评论中的正反两方面的评价进行分类。特点是有关产品的属性词以及观点词是自动从评论语料库中挖掘出来的,其观点倾向性也是自动标注的,而不像目前多数系统一样,用的是人工选择的通用观点词。其好处是可以自动适应评论信息中的各种不规范用法。比如“给力”、“杯具”等。 演示系统界面中左侧部分就是自动抽取出来的产品属性词。

搜索引擎查询Bad Case自动发现 搜索引擎查询Bad Case的发现对于改进搜索引擎性能具有重要意义,本演示系统,以搜狗搜索引擎为例,展现了如何根据用户的查询日志,自动的发现搜索引擎查询的Bad Case。每周自动运行一次,从10000个真实查询中,找出可能的Bad Case,并给出为什么判断为Bad Case的两个主要理由。

搜索引擎检索结果异常发现 当某个搜索引擎对某个查询的返回结果,与大多数搜索引擎相比发生了以下情况时,我们就认为该查询发生了异常:

  1. 某个结果排序位置不固定;
  2. 某个结果排序位置突然下降;
  3. 某个结果排序位置突然上升;
  4. 某个结果与其他搜索引擎的结果相比,位置一直很靠后;
  5. 某个结果与其他搜索引擎的结果相比,位置一直很靠前。

发生异常的结果有可能是一个Bad Case,当然也有可能是一个有特点的结果。该系统可以帮助人们查找搜索引擎的Bad Case,以便有针对性的提高搜索引擎的性能。

搜索仪 中文网络搜索引擎为1亿多中国网民访问网络信息资源提供了巨大的便利,而准确评价搜索引擎的检索性能,对于网络用户、互联网广告商和搜索引擎研发人员都有着极为重要的作用。 清华大学智能技术与系统国家重点实验室具有网络信息检索的多年研究经验,经过对网络用户行为的深入分析和挖掘,实验室推出“搜索仪”服务,利用收集到的海量网络数据和用户行为信息对搜索引擎的性能进行客观公正的评价。希望我们的努力,能为营造更好的中文网络信息环境贡献力量。

动态实时的互联网新闻聚类 目前互联网上的新闻数量众多,但其中大量内容都集中在特定的新闻或话题上,特别是热点的新闻话题则更可能产生大量的相关讨论。课题组研发了互联网上新闻的动态实时增量式话题聚类方法,每隔5分钟自动从网上下载新闻网页,自动聚类,以对互联网上的新闻信息进行有效的组织,方便用户进行一目了然的新闻话题浏览。这一技术同时也是网络舆情与趋势分析的关键基础技术之一。 最近我们又对该系统进行了改进,可以通过配置文件自动形成新闻专题,按专题进行对每天、每周和每月的新闻进行聚类。点击查看演示系统

查询词纠错 当你在搜狗搜索中不小心输错了查询词时,搜狗会自动给出一个正确的提示。比如,你输入的查询词是“清华大雪”,则搜狗会提示你:“你是不是要找:清华大学”。 对输入的英文查询同样也支持自动纠错。一些英文的纠错例子如下:

i phone => iphone
internetexplorer => internet explorer
googl => google
avirl => avril
badu => baidu
maxhon => mathon

这里使用了我们小组的查询词纠错技术。

基于网络用户行为分析的流行病发病趋势预测

Smithsonian Image

近年来,传染病的传播与流行已经对公众健康造成了越来越大的威胁,因此,对传染病发病趋势的分析与预测研究越来越受到广泛的重视。随着互联网的广泛使用,搜索引擎已经成为当今获取信息的主要渠道之一,而搜索引擎用户行为也相应的成为人们分析社会热点事件和群体用户兴趣的重要载体。传染病传播作为一种社会性的事件,不可避免的也会在搜索用户行为中有所反映。我们基于某中文商业搜索引擎收集的海量规模用户查询日志与万维网访问日志对用户行为中反映的传染病传播事件进行分析,通过对与传染病相关的用户查询行为、网络资源访问行为、媒体报道行为等的挖掘实现来对传染病发病趋势的预测。针对北京地区手足口病发病趋势的预测实验说明,基于用户行为分析的方法能够较为准确的实现对一段时间内发病趋势的预测。这一研究成果将会对一些季节性传染病和慢性传染病的传播预测有一定的指导意义。

基于网络用户行为分析的垃圾网页识别 随着互联网的飞速发展,网络资源呈爆炸式增长,在这种情况下,搜索引擎已经成为用户查询信息最主要的渠道,对网站流量的引导起着非常重要的影响。因此,许多网站为了提高在搜索引擎结果中的排名,采用各种作弊手段欺骗搜索引擎,使网络中充斥着大量的垃圾网页,严重影响了搜索引擎的检索性能和用户体验,反垃圾已经成为搜索引擎所面临的重要挑战之一。但目前的反作弊研究大多是针对某一种已知的,已经造成较大影响的垃圾页面类型,基于该类页面的内容或链接特征进行识别的,无法识别不同类型、新出现的垃圾页面。为了解决现有垃圾页面识别方法存在的”普适性”和”时效性”不足这两大问题,我们提出了一种基于网络用户行为分析的垃圾网页识别方法,该方法的最大特点是与垃圾网页的作弊类型无关,且时效性强。

《四库全书》数字化系统

Smithsonian Image

采用脱机手写汉字识别技术,实现了大型中文古籍《四库全书》的数字化。 我国历史源远流长,在漫长的历史发展过程中,历代文人墨客撰写了多不胜数的珍贵典籍,形成了我国所特有的灿烂文化和古代文明。在计算机高速发展的今天,有必要利用现代化的高技术手段,对这些宝贵的文化遗产进行整理和研究,其中一个重要的问题就是古籍的电子化问题。一方面,古籍数量庞大,以《四库全书》为例,全书收录图书3462种,共79337卷,36000余册,其中汉字约8亿字,动员了4千多名学者和工作人员,历时10年,手抄完成。缩印1/4后的影印本,重量约为2.5吨重,售价高达几十万元,别说是普通的研究人员,就是一般的图书馆也很难承受。而电子化的古籍版本可以光盘这样的媒介方式出版发行,体积小,成本低,全文本版只需几张光盘即可,便于广大的研究人员和爱好者购买与使用。另一方面,也是最重要的方面,电子化后的古籍,给阅读和研究古籍带来极大的方便,如检索、查找、用字统计等,可以利用计算机技术轻而易举地完成很多以前难以想象的研究工作。古籍的电子化有着非常重要的意义。

Smithsonian Image

由于古籍的数量过于庞大,其电子化必须采用现代化的技术和手段,才有可能尽快尽好地完成。为此,我们在多年汉字识别研究的基础上,针对中文古籍识别的特点,研究了中文古籍的版面分析与识别问题,开发了“大型中文古籍识别系统”,并以《四库全书》的识别作为具体的应用对象,完成了《四库全书》识别系统。由香港迪志文化出版有限公司组织并投资,北京书同文公司具体实施,采用本系统已经成功地制作完成了《四库全书》的数字化版,共182张光盘,由上海人民出版社(在国内)和香港中文大学出版社(在境外)出版发行。

海量网络信息综合分析系统 互联网发展到现阶段,其产生和存储的信息越来越多,而人们对信息处理的需求也趋于复杂和高层次,无法通过有限的人力在有限的时间内,对信息进行甄别和综合处理,需要专用的信息处理系统,以自动和人机交互的方式对海量原始信息按不同主题和不同重要程度进行分类分级处理,并得出相应报告,这是本课题研究的主要关注点。

互联网舆情与热点视频节目归类与分析系统 该系统与信息学院内多个课题组合作完成。 该系统自动从互联网上抓取音视频信息以及相应的文本信息,实现音视频描述信息的自动抽取、按照文本信息检索音视频信息、获取访问量信息、视频摘要、按照视频片段检索视频节目、相似视频检索等。

专家检索系统 专家检索是一类人们在日常生活中很常遇到的一个问题。例如员工遇到技术问题想寻找专家进行解决,病人寻找医院的主治医生等。但是目前传统的通用搜索引擎的检索目标是互联网上的文档,而专家检索是一个相对传统检索更加困难的问题,因为它涉及的是检索一个抽象的概念——人。能够准确的寻找到人们需要的领域的专家对于网络用户、企业员工和搜索引擎研发人员都有着极为重要的作用。 ExpertFinder是由清华大学智能技术与系统国家重点实验室信息检索组开发的用于检索企业专家的检索系统。根据用户给定的需求,利用搜索引擎收集的信息自动分析判断,返回一个相关专家结果列表,提供专家信息满足用户查询”

Updated on THUIR