太原理工大学信息工程学院
本科毕业论文(设计)开题报告
毕业设计(论文)题目
情感语音信号中共振峰参数的提取方法 学生姓名
专 业
班 级
赵智越 通信工程 报告日期 0902班 20xx年3月5号 导师姓名 孙颖
指导教
师意见
签字 年 月 日
专业(教
系主任
研室)主
意 见
任意见
年 月 日 年 月 日
一 选题意义
随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语音信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义。
语音信号处理技术作为一个重要的研究领域有着很长时间的研究历史,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。语音情感识别是语音识别的一个重要的分支,而语音识别则是数字信号处理技术与语音学的交叉学科,它和心理学、计算机科学、认知科学、语言学、人工智能和模式识别等学科紧密联系。近年来,人们研究发现情感所引起的语音信号变化对语音识别、语音合成、说话人确认等方面有较大影响,所以语音情感处理的研究逐步提高了人们的重视。目前有很多研究者在致力于研究并处理语音情感信息有效方法以及情感对语音的影响。
汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基因频率和共振峰频率等。共振峰频率简称共振峰,它与声道的形状和大小有关,一种形状对应着一套共振峰。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,人在语音感知中也利用了共振峰信息,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会发生不同的变化。共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理是极其有意义的。
二 情感语音识别技术的国内外发展现状
九十年代中期之后,语音情感信息处理受到了越来越多的关注,这方面的研 究也在不断深入,并取得了一定的进展。近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、心理学角度的情感建模到语音情感的声学关
联特征,以及各种针对语音情感识别和合成的算法、理论展开了深入的研究,还从工程学的角度将情感作为信息信号工学的研究对象。
但是,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个低级水平,存在一些需要进一步深入研究的课题。如:合理的有效的语音情感特征建模方法;开发更全面更有效的语音情感特征;对情感语句中主要反映情感变化的关键词和短语的研究。下面将分别简单介绍国内外情感语音识别发展现状。 1 国际情感语音识别发展现状
目前,关于情感的研究正处在不断的深入之中,语音的情感识别因为涉及到不同语种之间的差异,发展也不尽相同。
美国MIT媒体实验室Rosalind Wpicard教授领导的情感研究组织首次尝试了用基频、时长、音质和清晰度等声学参数的变化来合成情感语音。她后来又验证了情感状态与语音声学参数的相关性,并提出悲伤情感最容易区分,而高兴、惊讶和愤怒等具有相似的语音特性参数,不容易区分。此后,MIT媒体实验室Raul Fernandez在2003到20xx年还完成了关于从语音的韵律学参数入手的语音情感识别的计算模型研究,试验用有韵律特征进行分类实验,比较了与人类情感识别的性能差异。
英国贝尔法斯特女王大学的RoddyCowie和EllenDouglas-Cowie教授领导的情感语音小组研究的重点在于心理学和语音分析。他们收集并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一个FEELTRACE工具用来记录人类从语音中感知到的情感信息。他们还开发了一个情感语音分析的ASSESS工具,用统计的方法分析语音的声学特征与情感的相关性,并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤怒、害怕、高兴和悲伤4类主要情感进行了分类,用判别分析的方法达到了55%的识别率。
美国南加州大学语音情感组由Narnyanan教授领导。在语音情感识别方面,他们以客服系统的呼叫中心为应用背景,研究识别正面情感和负面情感。首次将语音的声学信息、词汇和语义信息结合,并将模糊推论系统用于识别系统,初步试验结果表明,结合这三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了38.5%。
C N Anagnostopoulos和T Iliou.建立了德语语音库,提取了133个语音特征
来识别其中语音情感,根据统计分析来估计每种语音特征、人工神经网络用于训练情感分类,最后达到了平均51%的识别率。
2 国内情感语音识别发展现状
目前,国内也已经有多所高校从事语音情感识别的研究,东南大学、清华大学、浙江大学、中国台湾大学、中国科学院、微软亚洲研究院、哈尔滨工业大学等机构在这方面做了大量工作。
东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究。他们分析了不同情感的语音在时间构造,能量构造,基音构造,共振峰构造等方面的差别,以情感语音和自然语音特征向量的差值作为情感识别特征,用主成分分析法识别高兴、惊奇、愤怒、悲伤四类情感,在较小的实验数据集中能达到约80%的识别率。
由清华大学计算机科学与技术系的蔡莲红教授领导的人机语言交互实验室也开展了普通话语音情感识别研究。蒋丹宁通过特征的区别特性分析和分类实验,研究了韵律特征在普通话语音情感识别中的作用。将韵律特征分解为纯语音的特征和纯情感的特征,并将后者运用于语音情感识别,用多层感知器对六种情感进行识别,得到平均82.4%的识别率。
台湾大同大学资讯工程学系的包苍龙教授领导的数据通讯与信号处理实验室也较早地致力于普通话语音情感识别的研究。他们构建一个包含愤怒、高兴、悲伤、厌烦和中立五个情感类别,约800句情感语音的普通话情感语音数据库。在语音情感识别中,提取16个LPC参数,12个LPCC参数,16个LFPC参数,16个PLP参数,20个MFCC参数组成向量,作为识别特征,用LDA,KNN和HMM分类器对说话人无关和说话人相关两组语音素材做识别,得到最高88.7%的识别率。
中国电子科技研究院的付丽琴等人以HMM作为语音情感分类器模型,对不同情感状态选择不同的特征向量进行识别。系统分两个阶段完成:首先基于漏识率和误识率最小的决策原则,采用优先选择(PFS)算法分别为每种情感状态选择最优的特征向量,然后用这些特征向量分别建立对应情感状态的HMM模型。利用北航情感语音库(BHUDES)对算法进行验证,将所有实验样本分为训练样本集、特征选择样本集和测试样本集3组,采用交叉实验的方法对本算法进行验证,
结果表明,与单特征向量HMM相比,多特征向量HMM可达到更高识别精度。
三 主要研究内容 1.研究情感语音信号共振峰提取的背景及研究意义,分析情感语音识别技术的国内外研究现状、应用领域。
2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。
(1)虚假峰值 (2)共振峰合并 (3)高音调语音
3.分析共振峰的多种提取方法。
(1)谱包络提取法
共振峰信息包含在语音频谱包络中, 因此共振峰参数提取的关键是估计自然语音频谱包络, 并认为谱包络中的最大值就是共振峰。
(2)倒谱法提取共振峰
因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。 去除了激励引起的谐波波动, 所以可以更精确地得到共振峰参数。
(3)LPC法提取共振峰
从线性预测导出的声道滤波器是频谱包络估计器的最新形式, 线性预测提供了一个优良的声道模型 (条件是语音不含噪声) 。
(4)求根法提取共振峰
找出多项式复根的过程通常采用牛顿—拉夫逊 (Newton-Raphson)算法。
(5)LPC倒谱法提取共振峰
语音信号的倒谱可以通过对信号做傅里叶变换, 取模的对数, 在求反傅里叶变换得到。
4.重点研究分析倒谱法提取语音信号共振峰,并利用这种方法提取情感语音中的共振峰。
四 拟实现的主要功能
利用倒谱法实现情感语音共振峰提取!具体过程如下:
倒谱将情感语音谐波和声道的频谱包络分离开来。倒谱的低时部分可以分析
声道、声门和辐射信息,而高频部分可用来分析激励源信息。对倒谱进行低时选窗,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位,即可提取共振峰。
五 设计方案及进度安排
第1周 收集资料,通过多种方式(图书馆查阅、网上查阅、和指导老师交
流) 确定课题。
第2-5周 根据课题以及要实现的功能,大量阅读相关文献,了解与课题相关
的知识、原理以及实现过程
第5-6周 了解共振峰提取的基本方法及过程,并选定一种方法作为重点研究
对象。
第7周 写开题报告
第8-12周 编写程序,运行结果
第13-15周 写论文
第十六周 做ppt
六 参考文献
[1] 胡航. 语音信号处理[M]. 哈尔滨: 哈尔滨工业大学出版社, 2000: 113-116.
[2] 张刚, 张雪英, 芬. 语音处理与编码[M]. 北京, 兵器工业出版社, 2000.
[3] Rosalind W Picard. Affective computing[J], Minds and Machines, 1999,
9:443-447.
[4] Cowie R and Cornelius R. Describing the emotional stares that are expressed in
Speech[J], Human-Computer Studies, 2003, 40:5-3.
[5] D Ververidis and C Kotropoulos, Emotional speech recognition:Resources,
features and methods[J], Speech Communication, 2006, 48(9):1162-1181.
[6] Cowie, R.Douglas-Cowie, E.Savvidou, MeMahon, E.Sawey, M.Sehroder,
M.FEELTRACE’:An Instrument for Recording Perceived Emotion in Real Time.
In ISCA Workshop on Speech and Emotion, Belfast 2000.
[7] Cowie, R.Douglas-Cowie, E.Speakers and hearers are people:Reflections on
Speech deterioration as a consequence of acquired deafness in Profound Deafness and Speech Communication. London, 1995.
[8] R.Cowie,E.Douglas-Cowie, E.Automatic statistical analysis of the signal and
prosodic signs of emotion in speech.In Proc. 4th Int. Conf. Spoken Language Processing.PhiladelPhia, PA, 1996:1989-1992.
[9] Fernandez,R.A Computational Model for the Automatic Recognition of Affect in
Speech.MIT Media Arts and Science, February 2004.
[10] Ang J,Dhillon R, KruPSki A, Shriberg E, Stoleke A.Prosody-based automatic
detection of annoyance and frustration in human-computer dialog[C], IPIC on spoken Language Processing,Denver, 2002, 3:2037-2040.
[11] 赵力, 蒋春辉, 邹采荣. 语音信号中的情感特征分析和识别的研究[N]. 电子
学报, 2004, 4:606-609.
[12] Dan-NingJiang,Lian- Hong Cai. Classifying Emotion in Chinese Speech by
Decomposing Prosodic Features.IEEE Signal Processing Magazine.2001, 15:32-36.
[13] TSang-Long Pao, Yu-Te Chen, Jun-Heng Yeh. Emotion Recognition From
Mandarin Speech Signals.ISCSLP, 2004:301-304.
[14] 付丽琴, 王玉宝, 王长江. 基于多特征向量的语音情感识别[M]. 计算机科学,
2009, 36(6):231-134.
第二篇:毕业论文开题报告
韩山师范学院
毕业论文(设计)开题报告
学生姓名: 林彦芹
学 号: 2010141424
院 (系): 外国语言文学系 专 业 英语 题 目: 浅析跨文化交际中的语用失误 指导教师: 邹慧民
20xx年12月 25日
毕 业 论 文(设 计)开 题 报 告