查询结果:   路畅,何震瀛,荆一楠,王晓阳.热点词汇的最长时间区间查询算法[J].计算机应用与软件,2019,36(8):249 - 254,305.
中文标题
热点词汇的最长时间区间查询算法
发表栏目
算法
摘要点击数
62
英文标题
A HOT TERMS MAXIMAL TIME RANGE QUERY ALGORITHM
作 者
路畅 何震瀛 荆一楠 王晓阳 Lu Chang He Zhenying Jing Yinan Wang Xiaoyang
作者单位
复旦大学计算机科学技术学院 上海 201203 上海市数据科学重点实验室(复旦大学) 上海 200433 上海智能电子与系统研究院 上海 201203   
英文单位
School of Computer Science, Fudan University, Shanghai 201203, China Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 200433, China Shanghai Institute of Intelligent Electronics and Systems, Shanghai 201203, China   
关键词
TF*PDF Top-k 热点词汇 Prefix Cube 在线查询
Keywords
TF*PDF Top-k Hot terms Prefix Cube Online query
基金项目
国家重点研发计划项目(2018YFB1004404)
作者资料
路畅,硕士生,主研领域:数据库,数据挖掘。何震瀛,副教授。荆一楠,讲师。王晓阳,教授。 。
文章摘要
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线提取以及最长时间范围的在线查询。为此提出一种在线查询算法,在类别和时间的二维区间上提取热词并查询用户指定词汇成为热词的最长时间范围。该算法基于Prefix Cube技术,对传统的TF*PDF算法加以改进,在空间复杂度不变的情况下,降低TF*PDF算法的时间复杂度。实验表明,与传统的TF*PDF算法相比,该算法在路透社、纽约时报和BBC三个语料库上提取热词并查询最长时间区间的运行时间减少了81%,验证了该算法的高效性。
Abstract
Hot term query is searching hot terms from textual data in a specific time range. Finding the longest time range in which a series of given terms become hot terms is an important task of topic detection and tracking. Existing hot term extraction algorithms generally have high time complexities and do not consider different users’ preferences, which lead to the difficulty of online queries to hot terms and longest time ranges. In this paper, an online query algorithm was proposed to extract hot terms and find the longest time range in the two-dimensional range of category and time. This algorithm was based on Prefix Cube and optimized traditional TF*PDF algorithm. It reduced the time complexity of TF*PDF without increasing the space complexity. Experimental results show that compared with TF*PDF, it reduces the running time by 81% to extract hot terms and find the longest time range on three corpuses: Reuters, NYT and BBC. It proves the efficiency of this algorithm.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
热点词汇的最长时间区间查询算法
路畅
算法
2019
8
249
[摘要]
2
动态图上基于2-HOP COVER的TOP-K最短路径算法
施琴儿
算法
2019
4
210
[摘要]
3
生产设备实时数据远程监测研究与实现
张为民
应用技术与研究
2018
9
126
[摘要]
4
基于线性四分树的空间关键词最近邻查询方法研究
于启迪
应用技术与研究
2018
11
81
[摘要]
5
基于Skyline服务的Top-k选择方法
杨莉
算法
2016
11
253
[摘要]
6
一种基于QoS的Web服务组合算法
黄涵
算法
2015
4
271
[摘要]
7
基于链接关系的Web页面相似度搜索
靳黛露
应用技术与研究
2014
1
57
[摘要]