基于统计翻译框架的蒙古文自动拼写校对方法

发布时间:


基于统计翻译框架的蒙古文自动拼写校对方法
苏传捷1,侯宏旭1,杨12,员华瑞1

【摘要】在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于短语的统计机器翻译模型来构建拼写校对模型,然后对测试文本进行校对。实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识。使用该方法对包含1026个正确词、1102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可达97.55%
【期刊名称】中文信息学报【年(,期】2013(027006【总页数】5
【关键词】蒙古文;拼写检查;拼写校对;机器翻译
1引言
随着信息时代的到来,各种各样的文本资料以数字形式被广泛地存储在本地硬盘或者互联网上。我们可以很容易地获得大量的电子文本。但是这些电子文本的质量普遍不高,存在不少拼写错误,需要进行拼写校对。人工校对不仅无法应对飞速增加的文本数据,而且成本极高。所以,许多学者致力于自动文本校对方法的研究。Pollock等人曾就科学文章的自动校对问题进行了深入的探讨1Kukich对英语文本中存在的错误进行了系统的分类,并总结了相应的校对方法[220世纪90年代,国内的一些学者也开始了对中文文本自动校对


基于统计翻译框架的蒙古文自动拼写校对方法

相关推荐