Sogou-SRR数据集

English Version

Sogou-SRR 数据集可用于搜索引擎查询结果相关性预测及排序任务中。数据集包括6,338个查询词及其对应的前10条查询结果。对于每个查询结果,我们提供了结果截图标题摘要HTML源码解析树链接以及四级相关性标注结果类别信息。数据集中包含的查询词是从搜狗检索日志中取样得到的。这些查询词的出现频率介于100到1,0000之间,通常被认为是中频查询词,也是排序算法设计中最主要考虑的一部分查询词。

Image 1: An example of Sogou-SRR dataset..

数据集分析

Sogou-SRR中包含6,338个查询词及其对应的前10条查询结果,共计63,380条查询结果。查询词、标题和摘要分词后的长度分布以及相关性标注的等级分布见下图。查询结果截图的平均宽度和高度分别是549和128像素。

#查询词 #查询结果
6,338 63,380

Image 2: Statistics of SRR dataset.

所有查询结果根据其在搜索引擎结果页面中的展现形式分为19种不同的类别。对每个类别的详细描述见下表。

结果类别 描述
纯文本结果 由一个标题链接和文本摘要组成。
图文类结果 相对于纯文本结果增加了左侧的插图。
百科类结果 百科类网站的结果,一般与图文类结果展现形式类似。
单行图片类结果 结果包含一行图片。
单行视频类结果 结果包含一行视频。
多行图片类结果 结果包含多行图片。
多行视频类结果 结果包含多行视频。
经验教程类结果 提供问题解答,通常包含一些图表来进行说明,例如百度经验的结果。
论坛聚合类结果 对一个论坛网站内的结果进行聚合,通常左侧包含一张图片,右侧为一个链接列表,例如知乎、百度贴吧的结果。
地图类结果 提供一个缩略的地图以及对应的查询输入框。
新闻类结果 整合多条新闻结果,通常详细展示一条新闻并配以插图,其余新闻只展示标题。
问答类结果 整合一个问答网站的多条结果,通常详细展示一条回答,其余回答只展示标题,例如搜狗知识、百度知道等。
文本链接类结果 提供按照特定结构组织的多个文本链接。
下载类结果 提供应用下载链接, 包含要下载应用的图标,下载按钮,应用信息简介等。
信息类结果 直接提供能满足用户需求的信息(如客服电话、明星生日、天气、日期等)。
应用类结果 可以在查询结果上直接操作完成相应搜索任务(如快递查询、音乐试听)。
导航类结果 结果分为上下两部分,上面包含一张图片和相关文字信息,下面是一些导航链接或者信息摘要。
购物类结果 购物类网站结果,直接在查询结果页面展示商品信息。
其他 不包括在上述类型中的结果。

数据集介绍

Sogou-SRR数据集中所有文件和目录见下表。数据集压缩后的大小为3.2GB。

文件或目录 数据
SRR.json 记录查询结果的所需信息。
Screenshot/ 查询结果的截图。
Tree/xml_raw/ 查询结果的解析树XML文档(未剪枝)。
Tree/xml/ 查询结果的解析树XML文档(剪枝)。
Tree/image/ 查询结果解析树中包含的图片。
Train.txt/Val.txt/Test.txt 训练/验证/测试集。

“SRR.json”是一个按照层级结构记录的json文件。“results”中的键值‘0’,‘9’等表示查询结果出现在搜索引擎结果页面的位置,值越小表示结果越靠前,最小为0最大为9。键值“tree”表示每个查询结果所对应的解析树,可以是“Tree/xml_raw/”目录下未剪枝的原始XML文件或者“Tree/xml/”中剪枝后的文件。

[...
  {
    "query": cat,
    "results": 
      {'0':
        {
          "screenshot": cat_0.png,
          "title": "Cat- Wikipedia",
          "snippet": "Kingdom: Animalia Abstract...",
          "html": <div ...>,
          "tree": cat_0.xml,
          "url": "https://en.wikipedia.org/wiki/Cat",
          "relevance": 4,
          "result type": Encyclopedia Vertical
         }
        ...
        '9':
         {
           "screenshot": cat_9.png,
           "title": "Adopt a cat | Blue Cross",
           "snippet": "We have lots of lovely cats...",
           "html": <div ...>,
           "tree": cat_9.xml,
           "url": "https://www.bluecross.org.uk/rehome/cat",
           "relevance": 3,
           "result type": Organic Result
         }
       }
     }
...]

如何获取Sogou-SRR

我们提供了一份Sogou-SRR 的样例数据,其中包含10个查询词对应的结果,用于帮助研究者们快速上手。如果想获取Sogou-SRR全部数据,请通过邮件联系我们(thuir_datamanage@126.com),完成在线申请后即可获得。

引用

如果您在研究中使用了Sogou-SRR,请将如下bibtex内容加入到您的引用列表中。关于Sogou-SRR论文,您可以在此处找到。

@inproceedings{JointRelevanceEstimation,
 title = {Relevance Estimation with Multiple Information Sources on Search Engine Result Pages},
 author = {Zhang, Junqi and Liu, Yiqun and Ma, Shaoping and Tian, Qi},
 booktitle={Proceedings of the 2018 ACM on Conference on Information and Knowledge Management},
 year = {2018},
 numpages = {10},
 organization={ACM}
}