信息化技术与基础设施

谷歌发布大型数据集合Wikilinks Corpus

日期:2013-04-16

|  来源:【字号:

2013年3月,谷歌公司发布了一个大型数据集合——Wikilinks Corpus,它将帮助开发人员构建能准确解释人类语言的软件。Wikilinks Corpus包含了来自各大网页及维基百科文章的4000多万条个人链接,它们被称为“提及”(mention)。开发人员通过分析每一条mention的内容以及目标文章的内容,来确定一些模棱两可的单词的意思。

Wikilinks Corpus的规模大于以往的数据集合,而且它是免费的。

来源:中文业界资讯网站

附件: