查询结果:   周艳平,李金鹏,宋群豹.一种基于SVM及文本密度特征的网页信息提取方法[J].计算机应用与软件,2019,36(10):251 - 255,261.
中文标题
一种基于SVM及文本密度特征的网页信息提取方法
发表栏目
算法
摘要点击数
296
英文标题
A WEB PAGE INFORMATION EXTRACTION METHOD BASED ON SVM AND TEXT DENSITY FEATURES
作 者
周艳平 李金鹏 宋群豹 Zhou Yanping Li Jinpeng Song Qunbao
作者单位
青岛科技大学信息科学技术学院 山东 青岛 266061     
英文单位
School of Information Science and Technology, Qingdao University of Science and Technology, Qingdao 266061, Shandong,China     
关键词
SVM 正文抽取 DOM树 文本密度特征
Keywords
SVM Text extraction DOM tree Text density features
基金项目
国家自然科学基金项目(61402246);山东省高等学校科技计划项目(J14LN31)
作者资料
周艳平,副教授,主研领域:智能优化算法,生产计划,生产调度。李金鹏,硕士生。宋群豹,教授。 。
文章摘要
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。
Abstract
Aiming at the diversity, complexity and non-standardization of web pages, this paper proposed a web page information extraction method based on SVM and text density features. We parsed the whole web page into a DOM tree, and proposed five kinds of web page density features according to the web page structure. Then we used a mathematical model to perform density ratio analysis, and used a Gaussian kernel function to train the sample data. The data model trained by the method could accurately remove noise information such as web page advertisement, navigation, and copyright information. And it retained the body information block, and performed noise removal in the body information block. Experiments show that this method not only has high accuracy, but also has good versatility.
下载PDF全文