查询结果:   林椹尠,袁柱,李小平.结合文本密度的语义聚焦爬虫方法[J].计算机应用与软件,2019,36(9):270 - 275.
中文标题
结合文本密度的语义聚焦爬虫方法
发表栏目
算法
摘要点击数
38
英文标题
SEMANTIC FOCUSED CRAWLER METHOD COMBINING TEXT DENSITY
作 者
林椹尠 袁柱 李小平 Lin Zhenxian Yuan Zhu Li Xiaoping
作者单位
西安邮电大学理学院 陕西 西安 710121 西安邮电大学通信与信息工程学院 陕西 西安 710121    
英文单位
School of Science, Xi’an University of Post and Telecommunications, Xi’an 710121, Shaanxi, China School of Communication and Information Engineering, Xi’an University of Post and Telecommunications, Xi’an 710121, Shaanxi, China    
关键词
聚焦爬虫 核心内容 LCS Word2vec 链接优先级
Keywords
Focused crawler Core content LCS Word2vec Link priority
基金项目
陕西省教育厅专项科学研究基金项目(18JK0699)
作者资料
林椹尠,教授,主研领域:自然语言处理。袁柱,硕士生。李小平,讲师。 。
文章摘要
针对聚焦爬虫网页核心内容提取算法准确性偏低以及相似度计算模型语义信息考虑不充分造成的爬取准确度和效率偏低的问题,提出结合文本密度的语义聚焦爬虫方法。引入核心内容提取算法,使用标题结合LCS算法定位核心内容文本的起始和终止位置,提取网页核心内容。引入基于Word2vec的主题相关度算法计算核心内容的主题相关度,改进PageRank算法计算链接主题重要度。结合主题相关度和主题重要度计算链接优先级。此外,为提高聚焦爬虫的全局搜索性能,结合主题词使用搜索引擎扩展链接集。与通用爬虫和多种聚焦爬虫相比,该方法爬虫爬取准确度和效率更优。
Abstract
In view of the problems of low accuracy and low efficiency of focused crawler caused by the low accuracy in web core content extraction algorithm and insufficient consideration of semantic information in similarity computing model, we proposed a semantic focused crawler method combining text density. The core content extraction algorithm was introduced to use the title combined with the LCS algorithm to locate the starting and ending positions of the core content, then extracted the core content of the web page. A topic relevance algorithm based on Word2vec was introduced to calculate the topic relevance of core content, and the PageRank algorithm was improved to calculate the importance between the link and the topic. We combined topic relevance and topic importance to calculate the link priority. In addition, in order to improve the global search performance of focused crawler, search engine was used to expand the link set with keywords. Compared with universal crawlers and multiple focused crawlers, our method is more accurate and efficient.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
作文段落句间逻辑合理性等级评测
杨正祥
人工智能与识别
2019
9
175
[摘要]
2
结合文本密度的语义聚焦爬虫方法
林椹尠
算法
2019
9
270
[摘要]
3
基于核函数的改进k-means文本聚类
张国锋
算法
2019
9
281
[摘要]
4
基于实体识别的软件开发问答网站中的API讨论主题分析
和晓健
人工智能与识别
2019
7
213
[摘要]
5
一种主题自适应聚焦爬虫方法
林椹尠
算法
2019
5
316
[摘要]
6
基于依存关系和双通道卷积神经网络关系抽取方法
吴佳昌
算法
2019
4
241
[摘要]
7
基于依存语法的祈使句分类研究
涂锦宇
算法
2019
2
279
[摘要]
8
基于LDA扩展主题词库的主题爬虫研究
费晨杰
数据工程
2018
4
49
[摘要]
9
基于卷积神经网络的情感分析算法
李佳丽
算法
2018
4
287
[摘要]
10
深度置信网络的Spark并行化在微博情感分类中的应用研究
张翔
数据工程
2018
2
48
[摘要]
11
一种中小学汉语作文表现手法分类方法
马晓丽
应用技术与研究
2018
10
49
[摘要]
12
OPEN:一个基于评论的商品特征抽取及情感分析框架
卿勇
应用技术与研究
2018
1
65
[摘要]
13
一种基于Word2Vec的训练效果优化策略研究
王飞
应用技术与研究
2018
1
97
[摘要]
14
基于改进的萤火虫算法的PID控制器参数寻优
李恒
算法
2017
7
227
[摘要]
15
基于隐马尔科夫模型与语义融合的文本分类
高知新
算法
2017
7
303
[摘要]
16
基于网络爬虫和改进的LCS算法的网站更新监测
周孝锞
算法
2017
1
222
[摘要]