,其中记q和s中的单词分别为qi和sj。对每个问题与支持文本对(q,s),我们可以生成词级别配对特征集合{(qi,sj)},这些词对出现的次数作为特征用来训练分类器。需要指出的是,这里仅尝试了最简单的二分类方式,主要目的是检验附加文本资源的作用;而使用线性优化、或神经网络等更精巧的融合方式可能会带来更明显的准确率提升。实验
我们使用WebQuestions数据集进行相关实验。该数据集一共包含5810个自然语言问题以及答案。其中训练集包含3778个问题(65%),测试集包含2032个问题(35%)。我们使用答案的平均F1值来评测本框架。表1给出了不同方法在WebQuestions数据集上的结果。 方法
平均F1
(Bast et al. 2015) (Berant et al. 2015) (Reddy et al. 2016) (Yih et al.2015)
本研究工作
Structured Structured + Joint Structured + Unstructured Structured + Joint + Unstructured
49.4 49.7 50.3 52.5
44.1 47.1 47.0 53.3
表1基于关系抽取问答技术在WebQuestions数据集上的结果
为了确定所提出框架中不同模块的重要性,我们详细比较了以下几种模型变
种的结果。
Structured 该方法只包含基于结构化知识库Freebase的问题求解。具体地讲,我们首先进行实体链接,将自然语言问题中包含的实体名词映射到Freebase中的实体,其中得分最高的实体被当做结果。然后我们进行关系抽取并从候选关系中选择与实体最匹配的关系当做最终的实体-关系配置。最后,我们使用这个实体-关系配置来预测问题的答案。
Structured + Joint 与上面的方法略有不同,这个方法使用联合消歧的方法去选择全局最优的实体-关系组合,并进行基于结构化知识库的问题解答。
Structured + Unstructured 这个方法里,我们使用流水线的实体链接和关系抽取结果进行基于结构化知识库的问题求解,进而,利用基于维基百科的浅层推理来筛选答案。
Structured + Joint + Unstructured 这是我们所提出的融合多种知识资源的完整的问答框架。我们首先在结构化知识库Freebase上进行问题求解,即,进行实体链接和关系抽取的联合优化,并在Freebase上获得候选答案集合;在此基础上进行基于文本的浅层推理,即,从维基百科中抽取答案支持文本,并对候选答案进行筛选,获得最终答案。
从表1中的结果,我们可以发现实体链接和关系抽取的联合推理结果会优于
流水线方法,整体效果提高了3%,并且比大部分语析的方法要好。另一方
面,与(Yih et al. 2015)利用人工编写规则的工作相比,融合结构化知识库与文本知识资源的方法在问答准确率上整体提高了0.8%,这进一步说明了恰当的使用非结构化的文本知识资源可以在很大程度上代替人工编写规则来辅助回答自然语言问题。
本文提出的融合不同知识资源的问题解答框架具有较好的可扩展性,无论在结构化知识库求解部分,还是多种资源的融合利用方面都可进一步改进,以更大限度的发挥不同资源之间的互补作用,提高知识类问题的解答精度。
参考文献
Hannah Bast, Elmar Haussmann. More Accurate Question Answering on
Freebase. CIKM. 2015, 1431-1440
Jonathan Berant, Percy Liang. Imitation Learning of Agenda-based
Semantic Parsers[J]. Transactions of the Association for Computational Linguistics. 2015, 3:545–558
Siva Reddy, Oscar Täckström, Michael Collins, Tom Kwiatkowski,
Dipanjan Das, Mark Steedman, Mirella Lapata. Transforming Dependency Structures to Logical Forms for Semantic Parsing[J]. Transactions of the Association for Computational Linguistics. 2016, 4: 127-140
Kun Xu; Siva Reddy; Yansong Feng; Songfang Huang; Dongyan Zhao
Question Answering on Freebase via Relation Extraction and Textual Evidence. ACL 2016,
Kun Xu; Yansong Feng; Songfang Huang; Dongyan Zhao, Hybrid
Question Answering over Knowledge Base and Free Text, COLING 2016 Yi Yang; Ming-Wei Chang, S-MART: Novel Tree-based Structured
Learning Algorithms Applied to Tweet Entity Linking, ACL 2015
Wen-tau Yih, Ming-Wei Chang, Xiaodong He, Jianfeng Gao. Semantic
Parsing via Staged Query
Graph Generation: Question Answering with Knowledge Base[C]. ACL-IJCNLP. 2015,1321-1331