发布网友 发布时间:2022-06-09 12:30
共3个回答
热心网友 时间:2023-09-29 17:52
做机器阅读理解研究的学者想必对由斯坦福大学自然语言计算组发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛并不陌生,它也被誉为“机器阅读理解界的ImageNet”。诸多来自全球学术界和产业界的研究团队都积极地参与其中,目前微软亚洲研究院的自然语言计算研究组持续稳居榜首,与包括艾伦研究院、IBM、Salesforce、*、谷歌以及CMU(卡内基·梅隆大学)、斯坦福大学等在内的全球自然语言处理领域的研究人员,共同推动着自然语言理解的进步。2017年5月8日SQuAD排名和结果截图,其中微软亚洲研究院的集成模型(ensemble)和单模型(single model)分列各自排名首位那么,SQuAD机器阅读理解挑战赛是怎样进行的呢,SQuAD通过众包的方式构建了一个大规模的机器阅读理解数据集,即将一篇几百(平均100,最多800)词左右的短文给标注者阅读,随后让标注人员提出最多5个基于文章内容的问题并提供正确答案。
热心网友 时间:2023-09-29 17:52
机器阅读理解技术可以从两方面来看,数据集和算法。数据集有时候,提出问题比解决问题更有意义。那么,如何评估机器的理解水平呢。问答是一种常见的评估形式。目前来看,机器阅读主要有两种问答形态:完型填空(cloze)文本段(text span)2015年,deepmind根据cnn新闻语料构建了一个(也是首个)大规模阅读理解数据集——CNN/Daily Mail。随后,从儿童故事书中也构建了一个数据集,也是完型填空类型——CBT。此后的工作主要围绕这两个数据集展开。然而,完型填空这种限定条件的问答形式基本无法应用于实际。对CNN数据集进行了详细的评估后指出,现有方法基本达到了CNN数据集的准确率上限,并且CNN数据集中包含的推理十分简单。更接近实际的问答形式和更有挑战的数据集是迫切需要的。2016 emnlp会议上,Rajpurkar等人提出了SQuAD数据集,这是首个大规模文本段类型的问答数据集。在给定文档D,给定问题Q的情况下,答案A是D中的一个text span。数据集一经提出就受到了学界的广泛关注,截至到目前,leaderboard (The Stanford Question Answering Dataset) 上排名第一的模型已经可以给出84%的F1指标,而人类水平为91%。后续一些工作,如NewsQA,MS MARCO,都是文本段问答类型的数据集,在构建方式上有别于SQuAD,难度也更大,但尚未引起关注。除上述两大类之外,还有一些其它类型的数据集如bAbI,Story Cloze,,Winograd Schema Challenge等等,主要聚焦于机器的推理能力,可能需要引入外部知识。算法目前主流的阅读理解模型使用深度学习来做。完型填空类型的问答,简单来说就是一个匹配问题。
热心网友 时间:2023-09-29 17:53
大规模语料集的构建是推进机器阅读理解发展的重要前提。从 15 年提出的 CNN/DM 完形填空数据集,到近期的 SQuAD 数据集,再到之后的若干新数据集,每一个新数据集都提出了当前方法无法有效解决的新问题,从而促使研究人员不断探索新的模型,促进了该领域的发展。针对抽取式阅读理解任务,可以看到有如下几个技术创新点:建立在单向或双向注意力机制上的Interaction层对于模型理解原文和问题至关重要,更复杂的双Interaction 层设计无疑要优于之前的单 Interaction 层设计,原因是在问题,原文交互层之上的原文自交互层使得更多的语义信息能在原文中流动,因此在某种程度上部分解决了长文本中存在的长时依赖问题。