(完整版)自然语言处理

发布时间:2020-05-20

自然语言处理技术课程总结
自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)统计学、语言学等多个方面。
自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。
一、 常用技术分类
1
模式匹配技术
模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2
语法驱动的分析技术
语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文
无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。 3
语义文法
语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4
格框架约束分析技术
格框架是由一个头部和一组辅助概念组成的。头部一般是由主要动词构成,辅助概念也称“域”,以某种规范形式与头部相连。格框架定义规定了与头部相应的必有格、随意格和禁止格。在进行格框架约束分析技术时,输入的自然语言被转化为格内容,它既结合了语法驱动分析技术和语义文法分析技术的优点,能够克服语义文法中不合文法的现象,解决语句的多义性问题。是计算机语言研究中的重大发展之一。 5
系统文法
系统文法是从多个层次分析自然语言的分析方法,它强调句子的整体结构。其主要是从语法、语义和语音等层次来分析自然语言。每一层次又有三种不同的分析,分别为功用说明、特征说明和组成成分结构分析。系统文法可以根据自然语言的功能特性和组成成分来分析自然语言,但也有系统结构复杂等缺点。 6
功能文法
功能文法是对句子的完全功能描述,它描述了自然语言的特征组合、功能分配、词语组成成分顺序,是一种既可以用于分析,也可以用于生成的文法。功能
文法的分析形式是分析自然语言的主动句规则、主谓一致规则,构成相应的字典入口形式。有一种与功能文法相似的文法系统为词功能文法,它则更强调词典的功能。 7
故事文法
故事文法的研究则显示计算机翻译输入的自然语言时,不仅仅从语句的语法、语义、结构的角度,还能够从整个故事的情节发展的角度将信息整合得准确到位。但此类文法一般只适用于处理较为简单的,文体较为形式化的故事描述,对于一些情节较为复杂的故事,则不一定能够精确描述。这种技术仍然有待进一步发展研究。
二、 中文自然语言处理的关键技术
1
词法分析
词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 2
句法分析
句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。 3
语义分析
语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。 4
语用分析
语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。
它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。 5
语境分析
语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。 三、自然语言处理的研究内容
自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向
本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 2)数据处理方向
是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 3)人工智能和认知科学方向
在这个方向 中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 4)语言工程方向
主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程” 四、自然语言处理的应用
以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、
书面语输入 、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储 、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。
13项内容都涉及语言学。这些研究都要对语言进行形式化的描述, 建立合适的算法, 并在计算机上实现这些算法, 因此, 要涉及数学、计算机科学和逻辑[4]。口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。由于它的对象是语言, 因此, 它基本上是一个语言学科, 但它还涉及众多的学科, 特别是计算机科学和数学。
五、自然语言处理的发展的未来趋势:
21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.算机辅助设计系统(CAD计算机辅助教学系统(CAl计算机辅助决策系统,公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
当前国外自然语言处理研究有三个显著的特点:第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。

近年来自然语言处理获得了巨大的发展,其关键技术也获得了突破。该技术所开发的新技术能对文本处理与语音业务处理产生广泛而深远的影响。目前,以肯定的是自然语言处理技术能对文本处理与语音处理在建模、识别、理解方面将产生极大的作用,甚至可以预测随着该技术的进一步发展,将对多媒体技术及应用起到重大的作用。如果经过进一步的开发,该技术将能对目前控制方式产生较大的影响。



(完整版)自然语言处理

相关推荐