查询结果:   王萌,唐新来,何婷婷.一种文本分割技术的多文档文摘方法研究[J].计算机应用与软件,2014,31(9):40 - 44.
中文标题
一种文本分割技术的多文档文摘方法研究
发表栏目
数据工程
摘要点击数
722
英文标题
ON AN MULTI-DOCUMENT ABSTRACT APPROACH BASED ON TEXT SEGMENTATION TECHNOLOGY
作 者
王萌 唐新来 何婷婷 Wang Meng Tang Xinlai He Tingting
作者单位
广西工学院计算机学院 广西 柳州 545006 广西工学院鹿山学院 广西 柳州 545616 华中师范大学计算机学院 湖北 武汉 430079   
英文单位
College of Computer, Guangxi University of Technology, Liuzhou 545006, Guangxi, China College of Lushan,Guangxi University of Technology, Liuzhou 545616, Guangxi, China College of Computer,Huazhong Normal University, Wuhan 430079, Hubei, China   
关键词
文本分割 自动文摘 HowNet
Keywords
Text segmentation Auto-abstract HowNet
基金项目
国家自然科学基金项目(90920005);广西教育厅项目(201106LX873)
作者资料
王萌,讲师,主研领域:自然语言理解,信息检索。唐新来,副教授。何婷婷,教授。 。
文章摘要
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。
Abstract
In this paper, we propose a multi-document auto-abstract method which is based on text segmentation technology. The method uses HowNet as the conceptual access tool, and segments the text through constructing the concept vector space model (CVSM) of sentence and using improved DotPlotting model. The CVSM of sentence is used to compute the importance degree of the sentences, and the text abstract is generated according to the factors of sentences importance degree, text segmentation result and the similarity of the sentences in abstract, etc. ROUGE-N evaluation method and F_Score are used as the evaluation index to evaluate the abstract formed by the system, the results show that to use text segmentation technology for multi-document abstract is effective.[HQ]
下载PDF全文