面向健康问答社区的语义检索技术研究与分析

发布时间:2018-10-23 18:54:05

面向健康问答社区的语义检索技术研究与分析
作者:范桥青 方钰
来源:《电子技术与软件工程》2017年第02

         本文以Axiomatic检索模型为基础,利用Word2Vec在健康问答数据集上训练出的词向量来衡量词语语义相似度,来实现对问答数据的语义检索。此外,实验对比了不同的词义相似度计算方法在不同数据集下的检索效果,并分析了使用外部词典作为词义相似度计算方法时存在不足的原因,结果表明本文的检索方法能够有效地提升检索准确率。

        【关键词】语义检索 Word2Vec 词向量 自动问答

        1 概述

        健康问答社区中存在大量重复冗余的数据,构建自动问答系统的第一步就是从这些众多的问题中检索出相关信息。目前工业中使用的基于词形的检索技术[1]在海量数据处理上存在诸多不足,尤其是在揭露信息的语义上存在局限性。比如在健康问答社区中,存在着许多义似而形不似的问题:有什么减肥建议?怎么瘦身?,再加上用户在提问时大量使用口语化的词语,使得传统的基于词形的检索技术在这类信息的检索上略显无力;另外又由于健康问答领域中的信息专业性强,很多专业词语在语义词典[2-3]中并没有编录多少同义词,甚至没有被收录。因此,一般的语义检索技术使用在健康问答领域乏善可陈。

        2 相关工作

        目前,语义检索领域的研究主要集中在本体技术、语义词典和主题模型上:

        本体概念源自于哲学中的本体论,是对事物原样及其自身的描述,而后被借鉴到计算机领域。Studer根据前人的研究将本体拆解成了四层含义:概念模型、明确、形式化和共享[2]。借此,诸多以本体技术为基础的检索技术出现[3-5]。然而本体知识库的建立需要多位领域专家的参与,面对海量的健康问答社区数据源构建一套知识库无疑是一件相当巨大的工程。

        同义词词典为每一个被收录的词维护了相关的语义信息,代表有WordNet[6]HowNet[7]。语义词词典对检索时关键词的拓展起到了重要的作用,同时刘群等人提出了以HowNet为基础的词语相似度计算方法[8],为中文词义相似度的计算填补了空白。但同义词词典存在一个巨大的缺陷:收录的词有限。对于不存在于词典中的词,无法衡量它们的相似度,如上述问句中的瘦身,因为没有被收录,所以就无法衡量瘦身减肥之间的语义关系,从而两个语义上相似的问句也因核心词的不相似而变得不相关。

面向健康问答社区的语义检索技术研究与分析

相关推荐