1. 研究目的与意义
语言种类识别是指通过语音来自动识别说话人的过程,是根据人的声音来识别说话人的一种生物认证技术,其以独特的方便性、经济性和准确性等优势受到世人瞩目,它在现代许多领域内有良好的应用前景。
此次设计就是研究基于矢量量化模型(VQ)算法的语言种类识别的方法。
它是根据Shannon的信息理论,采用量化能够获得优于标量量化性能的基本思想提出的。
2. 课题关键问题和重难点
本次实验是以语音信号的LPC倒谱系数,差值倒谱系数,基音周期和差值基音周期的混合特征参数作为语言种类识别的特征矢量集,所以我们需要先搞清线性预测分析LPC参数是什么,再得到倒谱系数其中。
常用的聚类算法有 K均值法,LBG 算法,模拟退火 K均值算法,三种算法的优缺点分别是什么都是本课题中最关键的问题。
就目前查阅的资料,比较倾向于LBG算法,但他也存在两个在实验中可能产生的问题,第一个是关于扰动矢量的确实,还有无效码子使码子效率大大降低的问题。
3. 国内外研究现状(文献综述)
矢量量化研究的基础是信息论的一个分支:率畸变理论,矢量量化的研究目的就是针对特定的信息源和矢量维数,找到一种最优的矢量量化器,它能够在R一定时给出更小的畸变值。
在模式识别中,还需要完成对每一个所要识别的矢量进行分类的任务。
为此,通常的做法是将所有要识别矢量的集合分成若干子集,各子集中的矢量有相似的特征,因而能用一个具有代表性的矢量来表示,完成这一任务的算法称为聚类算法。
4. 研究方案
失真测度(距离测度)是将输入矢量用码本重构矢量来表征是所产生的误差,描述了两个或多个模型矢量间的相似程度。
失真测度的选择将直接影响到聚类结果,进而影响说话人识别系统的性能。
在语音信号处理采用的矢量量化中,最常用的是失真测度是欧式距离测度和加权欧式距离测度。
5. 工作计划
第一周:查找文献资料,对基于矢量量化模型算法的语言种类识别技术有个大体的了解;第二周:对课题中涉及的知识作深入掌握,掌握参数分析方法、基于矢量量化模型算法的语言种类识别技术等;第三周:制定研究计划,写开题报告;第四周:学习程序语言以及编程方法;第五周:练习编程;第六周:实现参数分析方法软件部分;第七周:实现基于矢量量化模型法的语言种类识别软件部分;第八周:实现基于矢量量化模型算法的语言种类识别方法软件部分;第九周:实现系统软件联调的主要功能;第十周:实现软件的可视化界面;第十一周:程序修改和完善,结果分析;第十二周:写论文以及准备答辩;第十三周:写论文以及准备答辩;第十四周:验收程序,进行毕业设计答辩;
