基于多模态信息融合的语音意图理解方法(2)_代写论文

= − 。 (2)
3 基于概念关系图的命令解析
目前通用的命令控制系统往往只能理解符合预设格式的语音命令，限制了说话人的表达
方式。为使说话人能够更自然地进行表达，本文在分析命令结构的基础上，设计了一个基于
关键概念限制关系的解析算法，不仅可以适应不同的命令表达方式，还允许用户在一句话中
包含多条命令。
由1.1 节的分析可知，智能家居控制场景中的命令包含设备位置、类别、属性及操作4
个要素，设备的位置及类别、类别与属性、属性与操作之间存在直接的限制关系，据此构造
并维护一个无向图（概念关系图）来表征不同命令要素即关键类别概念之间的关系（不考虑
user_state 类概念），图3 给出了关键概念图的一部分。图中的节点表示关键概念项。概念关
系图中的节点分为四层，只有相邻层之间存在边，代表直接的限制关系。当2 个节点之间存
在边连接时，表明这2 个节点表示的关键概念可以在同一条命令中出现。若1 个节点和相邻
层只存在1 条边，说明如果该节点代表的关键概念存在，可以直接推理出相邻层对应的关键
概念也存在。
图3 概念关系图
Fig. 3 Concept relations graph
命令解析算法以关键概念序列为输入，根据命令模式输出0、1 个或多个关键词组合。
利用概念关系图进行命令解析的过程如下：首先将语音中未出现但可由输入KC 唯一确定的
KC 加入待解析序列，并令新加入的KC 与对应的原始KC 匹配位置相同；统计每类KC 的
个数并取其最大值M，构造M 条候选命令；从KC 个数最多的一类开始，对其中的每个KC
按照概念关系图规定的邻接关系（左/右）在输入序列中查找与其相关的KC，直至查找到概
念关系图中的第1（4）层；若在相邻层查找关键概念时只找到1 个，将其加入包含当前KC
的候选命令；若找到多于一个KC，计算这些KC 与当前KC 的匹配位置之间距离，则选取
距离最小或未被加入候选命令的一个；最后对抽取得到的候选路径进行筛选，去除重复路径
和不完整路径，输出合法路径对应的关键词组合结果。
为提高命令检出率，在进行二次识别时考虑历史信息：历史信息为用户上一次语音输入
中的关键概念，在查找时若找不到相关的概念项，则用合适的历史信息概念代替。
4 说话人情绪状态判定及多模态信息的线性加权融合
说话人的情绪状态是比命令内容更高层次的语义信息，对意图理解有重要的影响。为对
说话人状态进行判定，利用情绪相关的关键词和语音声学特征的多模态信息进行融合，提出
了一种线性加权的多模态信息融合方法。
4.1 基于文本的情绪状态判定
命令解析模块只处理命令内容相关的关键概念，基于文本信息的情绪状态判定以关键词
抽取模块得到的属于“user_state”类的关键概念为输入，输出语句属于4 种基本情感类别的置
信度得分，其值域为0～1。当user_state 类的关键概念被检测到，令文本属于情感类别k 的
置信度得分为
1
T
CW( , )
C ( ) 0
0 0
{angry,happy,sad,surprise}
Nk
i
k
k
k
k
k i
k N N
N
k
=
⎧⎪⎪
> =⎨⎪⎪
⎩ =
∈
Σ
Σ ，
，
。(3)
其中，Nk 表示检测到的第k 类情感的关键词数，CW(k,i)表示属于k 类情感的第i 个词的置信
度得分（关键词匹配得分）。
4.2 基于语音韵律特征的情绪状态判定
近年来，国内外已有大量语音情感识别的研究成果，其基本的研究思路是通过对语音声
学特征进行分析和抽取，利用不同的模式分类方法将语音判别为某一类情感类型。本文借鉴
语音情感识别的一般方法，构建了如图4 所示的模式分类框架。
图4 情感分类一般框架
Fig. 4 General framework of emotion classification
情绪状态相关的声学特征对识别结果有重要影响。目前在语音情感识别中使用最为广泛
的声学特征包括韵律特征、音质特征和频谱特征。情感语音相关的大量分析结果表明，在这
几类声学特征中，语音情感信息主要体现在韵律特征的变化上[9]。语音的韵律特征包括基频、
能量和语速的相关统计或时序特征。因此选用音节平均时长、平均短时能量、平均基频、最
大基频和基频范围作为用于识别的声学特征。声学特征的抽取利用praat 软件完成[10]。
有关语音情感识别的大量研究证明了支持向量机（SVM）分类方法的有效性，因此，
获得特征向量后，利用SVM 的开源工具包libsvm[11]进行模型训练和识别。其中分类器类型
选定为C-SVM，核函数采用3 阶的径向基函数 (RBF)，分类器的输出为Cp(k)，为语句与第
k 类基本情感相对应的匹配得分。
4.3 多模态信息的线性加权融合
多模态信息融合进行说话人情绪状态和命令状态的最终判定，可以在特征层或决策层进
行融合。由于声学特征和文本特征在形式上存在很大差异，选择在决策层进行融合。
文献[12]提出了一种求均值的方法来进行决策级的多模态信息融合，该方法简单易行，
相当于对各模态信息赋予相同权重，但是忽略了不同模态本身的置信度。为描述不同模态信
息的置信度，提出了一种加权求和的多模态信息融合方法。
融合算法的输入为基于文本和韵律特征的情绪状态判定模块的输出结果，二者均为输入
语句属于4 类基本情感的置信度得分，可以看作为四维的置信度得分向量，其各分量均为0～
1 之间的实数。计算语句最终属于第k 类情感置信度得分的线性加权公式为
T P C( ) C ( ) (1 )C ( ), k=μ k+ −μ k k∈{angry,happy,sad,surprise} 。(4)
其中μ 为加权系数，取值范围是0～1。采用实验方法确定加权系数，对语料库中的每个训
练语句进行2 种模态置信度得分向量的抽取，选取令分类正确的语句数最多的系数值μ，最
终选定μ 为0.45。μ 的取值也说明了情绪信息主要蕴含在语音的声学特征中，所以语音模态
的置信度应当高于文本模态。
多模态信息融合模块还对命令状态进行基于规则的判定：如果命令解析模块没有输出完
整命令，则将命令视为无效；否则命令有效。对于命令优先级，若最终用户状态融合结果属
于愤怒情感的置信度最高，置优先级为最高级level-2；若属于悲伤情感的置信度最高，置优
先级为最低级level-0；对其他有效命令置优先级为普通级level-1。
5 测试与实验
5.1 命令内容检测性能测试
在命令集中选择15 条命令进行测试，其中包含2 个关键概念的命令有2 条，包含3 个
关键概念的有10 条，包含4 个关键概念的有3 条。对每条命令进行60 次语音输入，不限制
测试者对命令的表达方式，如“开门”也可以说成“把门打开”。
测试指标为命令的1 次检出率和2 次检出率。
一次检出率P1 定义为进行一次命令输入时的检出率，有
1
P= 1 ×100% 第次输入检出正确命令数
测试命令总数
。(5)
当第1 次输入未得到合法命令时，系统提示用户进行第2 次输入，在进行命令解析时利
用历史信息。二次检出率P2 定义为
2
P=2 1 ×100% 次输入至少次检出正确命令数
测试命令总数
。(6)
测试结果如图5 所示。
图5 15 条测试命令的一次与二次识别准确率
Fig. 5 P1 and P2 of 15 test commands
15 条测试命令的平均1 次识别准确率为91.3%，平均2 次识别率达到99.3%，说明系统
能有效地从用户语音中抽取命令内容。
5.2 情绪状态判定实验
为进行说话人情绪状态的判定，用一个包含4 种情感语句的语料库进行训练和测试，这
4 种基本情感分别为愤怒、高兴、难过和惊奇。每种情感含有220 个语句。句子文本并不限
于命令内容。对文本中情感相关的关键词进行人工筛选构造关键词库。每种情感选用200
句作为训练数据，其他句子用于测试。
定义情绪状态判别准确率为
100% e P= × 情绪状态判别正确的语句数
测试语句总数
。(7)
只采用语音声学特征时，对情感状态包含在训练数据中的80 个测试语句，情绪状态判
别准确率达到88.8%。加入文本情绪状态信息时，情绪状态判别准确率达到93.8%。证明了
融合多模态信息能提高情绪状态判别的准确率。
6 结束语
本文提出一种基于多模态信息融合的语音意图理解方法，通过从识别文本和语音信号中
抽取多模态信息进行融合进行说话人意图理解。该系统能获得包括说话人命令内容、情绪状
态和命令状态在内的更加全面的用户意图信息，有利于人机交互的顺利进行。

学术论文网Tag：代写论文论文发表代写工科论文职称论文发表

搜索

热门标签:

基于多模态信息融合的语音意图理解方法(2)