查询结果:   闫河,董莺艳,王鹏,罗成,李焕.基于CNN-LSTM网络的声纹识别研究[J].计算机应用与软件,2019,36(4):166 - 170.
中文标题
基于CNN-LSTM网络的声纹识别研究
发表栏目
人工智能与识别
摘要点击数
511
英文标题
VOICEPRINT RECOGNITION BASED ON CNN-LSTM NETWORK
作 者
闫河 董莺艳 王鹏 罗成 李焕 Yan He Dong Yingyan Wang Peng Luo Cheng Li Huan
作者单位
重庆理工大学计算机科学与工程学院 重庆 400054 重庆理工大学两江人工智能学院 重庆 400020    
英文单位
College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China College of Artificial Intelligence, Chongqing University of Technology, Chongqing 400020, China    
关键词
声纹识别 CNN-LSTM网络 语谱图 时序特征
Keywords
Voiceprint recognition CNN-LSTM Network Spectrogram Timing features
基金项目
国家自然科学基金项目(61173184);重庆市自然科学基金项目(cstc2018jcyjAX0694)
作者资料
闫河,教授,主研领域:图像识别。董莺艳,硕士生。王鹏,硕士生。罗成,硕士生。李焕,硕士生。 。
文章摘要
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。
Abstract
The traditional voiceprint recognition method is complex with low recognition accuracy, which is a key issue in the development of voiceprint recognition applications. In this paper, we used deep learning with autonomous feature extraction and classification, combining with convolutional neural network(CNN) and long-term and short-term memory network(LSTM). A combined network model was proposed to learn the features of voiceprint recognition and identity authentication. The original speech was converted into a fixed-length spectrogram, and sequentially entered into the combined network CNN and LSTM for training, and learning voiceprint feature. By comparing CNN, LSTM and DNN, We verified the high accuracy of the CNN-LSTM network in voiceprint recognition with fewer iterations. The experimental results show that the speech space features and time series features are important factors in voiceprint recognition. The accuracy of CNN-LSTM network model in the experiment reaches 95.42%, and the loss value is 0.0973. The method is benefical to the practical application of voiceprint recognition.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于深度残差网络的双阶段视频显著性检测
张亮
人工智能与识别
2019
8
160
[摘要]
2
基于CNN-LSTM网络的声纹识别研究
闫河
人工智能与识别
2019
4
166
[摘要]
3
基于规则拟合的TCP数据包流量混淆系统
张琪鑫
网络与通信
2018
2
145
[摘要]
4
STARFM算法生成湿地类型TM反射率数据的应用评价
赵艳丽
算法
2016
3
267
[摘要]