查询结果:   杨颖,戴彬.基于多特征的中文关键词抽取方法[J].计算机应用与软件,2014,31(11):109 - 112.
中文标题
基于多特征的中文关键词抽取方法
发表栏目
应用技术与研究
摘要点击数
652
英文标题
CHINESE KEYWORD EXTRACTION METHOD BASED ON MULTI-FEATURES
作 者
杨颖 戴彬 Yang Ying Dai Bin
作者单位
川北医学院基础医学院 四川 南充 637100 西华师范大学商学院 四川 南充 637009    
英文单位
School of Foundation Medical, North Medical College, Nanchong 637100, Sichuan, China School of Business, China West Normal University, Nanchong 637009, Sichuan, China    
关键词
关键词抽取 词频 关联度 文本聚类
Keywords
Extraction Word frequency Word correlation Text clustering
基金项目
四川省教育厅2010年青年基金项目(10ZC102)。
作者资料
杨颖,讲师,主研领域:计算机网络,计算机应用,NAT-PT。戴彬,副教授。
文章摘要
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。
Abstract
Keywords extraction is the basis for the techniques of information retrieval, text classification, text clustering and automatic summarisation. According to the analysis on shortcomings of traditional Chinese keyword extraction methods, we propose a multi-feature-based Chinese keyword extraction method. The method comprehensively inspects the keywords in the process of Chinese keyword extraction from multiple features such as the word frequency, correlation, part of speech (POS) and position, etc., and effectively avoids the derivations in traditional keywords extraction methods. Experimental results demonstrate that the average recall rate of the keywords extraction improves significantly on different test sets compared with traditional methods.
下载PDF全文