查询结果:   陈诗雅,刘梦赤.基于信息网模型的动态数据划分策略[J].计算机应用与软件,2018,35(11):42 - 48.
中文标题
基于信息网模型的动态数据划分策略
发表栏目
数据工程
摘要点击数
31
英文标题
DYNAMIC DATA PARTITION BASED ON INFORMATION NETWORK MODEL
作 者
陈诗雅 刘梦赤 Chen Shiya Liu Mengchi
作者单位
武汉大学计算机学院 湖北 武汉 430072     
英文单位
School of Computer, Wuhan University, Wuhan 430072, Hubei, China     
关键词
信息网模型 数据划分 大对象分割 负载阈值
Keywords
Information network model Data partition Large object division Load threshold
基金项目
国家自然科学基金面上项目(61672389);国家杰出青年科学基金(外籍)项目(60688201)
作者资料
陈诗雅,硕士生,主研领域:数据库。刘梦赤,教授。 。
文章摘要
为了满足大规模数据管理与查询的需要,设计并开发了基于信息网模型INM(Information Networking Model)的分布式并行数据库管理系统。分布式环境下数据的划分方式将影响系统的可扩展性和查询分析效率。根据信息网模型的数据结构和查询特性,设计一种轻量级的数据动态划分方法。该方法结合数据的水平分割和垂直分割,以INM对象为单位,未存储过的数据对象直接划分到当前操作节点,并记录数据对象的存储位置,否则根据数据对象的历史位置信息将其划分到不同的存储节点。同时,单个INM对象可能由于其包含的关联对象增多到一定程度成为大对象,而对系统的性能造成影响,因此将此类大对象分割成多个小对象,并按照一定的策略划分到不同节点进行存储。集群中的每个处理节点被赋予一个负载阈值。随着数据量的增加,如果超过负载阈值则增加新的机器,保证系统的可扩展性和各个处理节点数据量的均衡。实验结果证明,该方法能够保障系统良好的可扩展性,同时提高数据的查询分析效率。
Abstract
To meet the needs of large-scale data management and query, we designed and developed a distributed and parallel database management system based on information network model(INM). The way to divide data in distributed environment would have an effect on scalability and the efficiency of query analysis of the system. We proposed a lightweight dynamic data partition method according to the data structure and query characteristics of INM. The method combined the horizontal and vertical segmentation of data. The unstored data objects were directly divided into the current operation nodes, and the storage locations of the objects were recorded in units of INM objects. Otherwise, the data objects were divided into different storage nodes according to their historical location information. A single INM object might become a large object because its associated objects were increased to a certain degree, which would have an impact on the performance of the system. Therefore, these large objects were segmented into multiple small objects and divided into different nodes for storage according to certain strategies. We gave each processing node in the cluster a load threshold. As the amount of data increased, a new machine would be added if stored data exceeded the load threshold, so as to ensure the scalability of the system and the balance of the amount of data in each processing node. Experimental results show that this method can guarantee good scalability of system and improve the efficiency of query analysis of data as well.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
大规模数据集下基于DBSCAN算法的增量并行化快速聚类
王兴
算法
2018
4
269
[摘要]
2
基于信息网模型的动态数据划分策略
陈诗雅
数据工程
2018
11
42
[摘要]
3
基于信息网模型的分布并行多连接查询优化
徐晶
网络与通信
2017
7
66
[摘要]
4
基于INM的在线教学系统的设计与实现
李杰
数据工程
2017
4
28
[摘要]
5
适应冷热数据存储的多编码架构的设计与实证
魏学才
数据工程
2017
2
35
[摘要]
6
基于MapReduce的内存并行Join算法研究
李成
算法
2016
7
257
[摘要]
7
一种基于数据划分实现分布式SPARQL查询的方法
杜方
数据工程
2016
10
23
[摘要]
8
INMDB中复合事件监测机制的设计与实现
贺宏达
数据工程
2016
10
41
[摘要]
9
一种基于局部保持的子流形可视化方法
李春利
图像处理与应用
2014
9
206
[摘要]
10
使用MapReduce构建列存储数据的索引
丁祥武
数据库技术
2014
2
24
[摘要]
11
一种基于角色划分的ERP通用信息检索策略研究
黄炜
基金项目论文
2013
3
136
[摘要]