查询结果:   牛秀萍,马建芬.HMM词性标注中高频生词的处理[J].计算机应用与软件,2014,31(2):86 - 88.
中文标题
HMM词性标注中高频生词的处理
发表栏目
应用技术与研究
摘要点击数
595
英文标题
PROCESSING HIGH-FREQUENT UNKNOWN WORDS IN HMM POS TAGGING
作 者
牛秀萍 马建芬 Niu Xiuping Ma Jianfen
作者单位
太原理工大学 山西 太原 030024     
英文单位
Taiyuan University of Technology,Taiyuan 030024,Shanxi,China     
关键词
隐马尔科夫模型 词性标注 生词处理
Keywords
HMM POS tagging Unknown words processing
基金项目
山西省留学归国人员科研项目(2011-027); 山西省留学人员科技活动择优项目(2011-762)
作者资料
牛秀萍,硕士,主研领域:词性标注。马建芬,博士。 。
文章摘要
介绍在一种确定语料库中高频生词的处理方法。在分析隐马尔科夫模型在词性标注中的具体实现以及生词问题的关键所在的基础上,结合现有的生词处理方法,通过设定相应的阈值,并结合生词的词性特征,针对英汉生词词性分布的特点,选取生词中更加有价值的高频词加入训练文本,达到完善语料库,提高标注准确率的目的?⒍訦MM模型和加入生词处理方法之后的模型的标注准确性进行比较。实验表明,上述方法可以有效地选择出某领域具有代表性的高频词,在训练文本中加入这些词,能够较大提高词性标注的准确率,满足了词性标注应用于实际的基本要求。
Abstract
The thesis introduces a method to process high-frequent unknown words in POS tagging.On the basis of analyzing the concrete implementation of HMM in POS tagging and the key points of unknown words problem, by combining existing unknown words processing methods, configuring correspondent threshold values, integrating POS characteristics of unknown words, targeting at characteristics of English-Chinese unknown words  POS distribution, the thesis chooses more valuable words from unknown words to be added to the training corpora in order to perfect the corpora and improve the accuracy of tagging.Moreover comparison is carried out between tagging accuracies of HMM and the model that has been added with unknown word processing method.Experiment shows that the above methods can effectively choose the representative high-frequent words from a certain field.When those words are added into the training corpora, the POS tagging accuracy is significantly promoted.Therefore it satisfies the fundamental demands of applying POS tagging to practice.
下载PDF全文