Sogou-SRR数据集
Sogou-SRR 数据集可用于搜索引擎查询结果相关性预测及排序任务中。数据集包括6,338个查询词及其对应的前10条查询结果。对于每个查询结果,我们提供了结果截图、标题、摘要、HTML源码、解析树、链接以及四级相关性标注和结果类别信息。数据集中包含的查询词是从搜狗检索日志中取样得到的。这些查询词的出现频率介于100到1,0000之间,通常被认为是中频查询词,也是排序算法设计中最主要考虑的一部分查询词。
数据集分析
Sogou-SRR中包含6,338个查询词及其对应的前10条查询结果,共计63,380条查询结果。查询词、标题和摘要分词后的长度分布以及相关性标注的等级分布见下图。查询结果截图的平均宽度和高度分别是549和128像素。
#查询词 | #查询结果 |
---|---|
6,338 | 63,380 |
所有查询结果根据其在搜索引擎结果页面中的展现形式分为19种不同的类别。对每个类别的详细描述见下表。
结果类别 | 描述 |
---|---|
纯文本结果 | 由一个标题链接和文本摘要组成。 |
图文类结果 | 相对于纯文本结果增加了左侧的插图。 |
百科类结果 | 百科类网站的结果,一般与图文类结果展现形式类似。 |
单行图片类结果 | 结果包含一行图片。 |
单行视频类结果 | 结果包含一行视频。 |
多行图片类结果 | 结果包含多行图片。 |
多行视频类结果 | 结果包含多行视频。 |
经验教程类结果 | 提供问题解答,通常包含一些图表来进行说明,例如百度经验的结果。 |
论坛聚合类结果 | 对一个论坛网站内的结果进行聚合,通常左侧包含一张图片,右侧为一个链接列表,例如知乎、百度贴吧的结果。 |
地图类结果 | 提供一个缩略的地图以及对应的查询输入框。 |
新闻类结果 | 整合多条新闻结果,通常详细展示一条新闻并配以插图,其余新闻只展示标题。 |
问答类结果 | 整合一个问答网站的多条结果,通常详细展示一条回答,其余回答只展示标题,例如搜狗知识、百度知道等。 |
文本链接类结果 | 提供按照特定结构组织的多个文本链接。 |
下载类结果 | 提供应用下载链接, 包含要下载应用的图标,下载按钮,应用信息简介等。 |
信息类结果 | 直接提供能满足用户需求的信息(如客服电话、明星生日、天气、日期等)。 |
应用类结果 | 可以在查询结果上直接操作完成相应搜索任务(如快递查询、音乐试听)。 |
导航类结果 | 结果分为上下两部分,上面包含一张图片和相关文字信息,下面是一些导航链接或者信息摘要。 |
购物类结果 | 购物类网站结果,直接在查询结果页面展示商品信息。 |
其他 | 不包括在上述类型中的结果。 |
数据集介绍
Sogou-SRR数据集中所有文件和目录见下表。数据集压缩后的大小为3.2GB。
文件或目录 | 数据 |
---|---|
SRR.json | 记录查询结果的所需信息。 |
Screenshot/ | 查询结果的截图。 |
Tree/xml_raw/ | 查询结果的解析树XML文档(未剪枝)。 |
Tree/xml/ | 查询结果的解析树XML文档(剪枝)。 |
Tree/image/ | 查询结果解析树中包含的图片。 |
Train.txt/Val.txt/Test.txt | 训练/验证/测试集。 |
“SRR.json”是一个按照层级结构记录的json文件。“results”中的键值‘0’,‘9’等表示查询结果出现在搜索引擎结果页面的位置,值越小表示结果越靠前,最小为0最大为9。键值“tree”表示每个查询结果所对应的解析树,可以是“Tree/xml_raw/”目录下未剪枝的原始XML文件或者“Tree/xml/”中剪枝后的文件。
[...
{
"query": cat,
"results":
{'0':
{
"screenshot": cat_0.png,
"title": "Cat- Wikipedia",
"snippet": "Kingdom: Animalia Abstract...",
"html": <div ...>,
"tree": cat_0.xml,
"url": "https://en.wikipedia.org/wiki/Cat",
"relevance": 4,
"result type": Encyclopedia Vertical
}
...
'9':
{
"screenshot": cat_9.png,
"title": "Adopt a cat | Blue Cross",
"snippet": "We have lots of lovely cats...",
"html": <div ...>,
"tree": cat_9.xml,
"url": "https://www.bluecross.org.uk/rehome/cat",
"relevance": 3,
"result type": Organic Result
}
}
}
...]
如何获取Sogou-SRR
我们提供了一份Sogou-SRR 的样例数据,其中包含10个查询词对应的结果,用于帮助研究者们快速上手。如果想获取Sogou-SRR全部数据,请通过邮件联系我们(thuir_datamanage@126.com),完成在线申请后即可获得。
引用
如果您在研究中使用了Sogou-SRR,请将如下bibtex内容加入到您的引用列表中。关于Sogou-SRR论文,您可以在此处找到。
@inproceedings{JointRelevanceEstimation,
title = {Relevance Estimation with Multiple Information Sources on Search Engine Result Pages},
author = {Zhang, Junqi and Liu, Yiqun and Ma, Shaoping and Tian, Qi},
booktitle={Proceedings of the 2018 ACM on Conference on Information and Knowledge Management},
year = {2018},
numpages = {10},
organization={ACM}
}