呼叫中心语音检测系统_代写论文

呼叫中心语音检测系统
万兆阳，詹舒波*
作者简介：万兆阳，男，北京邮电大学网络技术研究院硕士研究生，主要研究方向是电信网络管理及下一
代增值业务的研究与开发。 E-mail: wanzhy_bupt@yahoo.cn
通信联系人：詹舒波，男，（1965-），北京邮电大学网络技术研究院教授，博士生导师，主要研究方向电
信增值系统、智能网及多媒体技术在电信网络中的应用研究与开发。E-mail: zhanshubo@cincc.cn
（北京邮电大学网络技术研究院，北京 100876）
5 摘要：当主叫方拨通电话后，出现在电话信道里的声音通常有标准Tone 音、音乐、应答方
的自然人类语音（Live Speech）或者自动答录机语音等。不同的声音通常指示了电话系统
或通话双方不同的状态，例如，Tone 音里的忙音和自动答录的某些录音说明被叫方在当前
不方便接听电话等。目前，企业用户希望能通过各种智能技术将电话系统里的这些声音分开，
以达到针对不同的声音采取不同的应对措施的目标。
10 关键词：语音检测；Tone 音；人类自然语音；AM 音
0 引言
以达到针对不同的声音采取不同的应对措施的目标，需要将电话系统里的这些声音分
开，例如当发现自然人类语音出现后，立即将电话线路转给相关话务员人工处理；当发现是
自动答录机的声音时则简单地针对应答种类做好相关记录，而不需要人工干预。
30 通过相关的技术和产品调查[1]，有类似需求的用户很多。虽然国外已经出现了一些与
AMD（Answering Machine Detection）技术相关的产品，例如Asterisk[2]和CARE 等等。但
是目前国内很少有公司能够提供基于中文的电话声音识别和匹配分类的完整解决方案。通过
对电话信道[3]里常见声音的信号分析和AMD 相关技术的研究，我们提出了一套语音自动检
测与匹配算法来实现相关的功能。
35 将语音信号的频谱分为若干子带[4]，通过对子带能量最大值的分析，以及通过将静音段
和有效语音段的时长与标准进行比较，可以有效识别Tone 音；通过对人类自然语音（Live
Speech）的特点进行分析，采用一系列启发式规则来区分它们与非自然语音也取得了很好的
效果；最后，将特征库的信息进行有效地组织，选择有效地距离度量和查找方法，可以很快
地找到匹配段在库中的位置。
40 1 模块结构
前端语音数据处理模块，用来对语音进行预处理和特征提取。数据管理模块，主要工作
为建库。标准Tone 音匹配模块，匹配标准Tone 音。人类自然语音（Live Speech）检测模块，
进行人类真实接听语音的判断。AM 音匹配模块，从库中匹配合适的模板音和判断是否为库
外音。
45
图2 语音识别的模块组成
1.1 前端语音数据处理模块
前端的语音数据处理模块在所有的处理模块中非常重要。对于数据管理模块来说，AM
50 库文件的每一条内容是经过前段语音数据处理以后的特征；而后面的三个检测或匹配模块都
是建立在前端数据处理以后的数据基础之上的。因此，前端语音数据处理的方法和所选用的
特征对于检测或匹配的准确率和算法的效率都至关重要。
该模块负责进行语音识别的第一步：预处理和特征提取。该模块在模块处理中的地位非
常重要，对于数据管理模块来说，AM 库文件的每一条内容是经过前段语音数据处理以后的
55 特征；而后面的三个检测或匹配模块都是建立在前端数据处理以后的数据基础之上的。因此，
前端语音数据处理的方法和所选用的特征对于检测或匹配的准确率和算法的效率都至关重
要。
1.2 数据管理模块
本模块的核心工作是对给定的Tone 音标准和AM 模板音库进行分析和特征提取，并存
60 成相应的特征库文件。特征库主要分为Tone 库和AM 库，其建立过程如下：
Tone 库的建立过程比较简单。因为有既定的标准，不需要从模板文件中读取再生成。
所以，采用的方法是直接从记录有标准Tone 音标准的文本文件中逐条逐项读取，然后依样
存成二进制库文件Tone.dat。
AM 库的建立过程比Tone 音库稍微复杂一些，原因是要经过从相应的pcm 文件模板进
65 行分析和提取特征的过程，因此就多了一个前端语音数据处理模块。存入库中的信息包括模
板ID 号、是否静音帧、模板帧数目、FFT 特征序列以及归一化后的特征序列。归一化前的
特征序列会用于Tone 音检测模块，而归一化后的特征序列用于AM 匹配。
1.3 标准Tone 音匹配模块
该模块的功能是进行标准Tone 音匹配。该系统采取的是顺序检测，即首先检测是否是
70 DTMF[5]，再检测是否是单频的Tone 音。
Tone 音的一个显要特点是在频域上的某一个子带上的能量特别强，而且这种情况是在
后续所有非静音的连续帧上都是持续的。基于此特点，有许多检测Tone 音的现有算法，比
如SETI 等等，但我们决定用自己的。基本步骤如下：
1. 取第一帧非静音帧的16 个子带能量特征，求出其最大子带能量所在的子带序号（在
75 DTMF 阶段是取最大的两个子带序号）。
2. 如果最大能量值所在的子带序号一直保持若干帧不变，则我们认为从频率角度满足
了作为一个Tone 音的基本条件。
1.4 人类自然语音（Live Speech）检测模块
该模块负责判断人类真实语音。人类自然语音检测在三个检测或匹配模块中是最难处理
80 的一块。因为本质上说，自动应答机的话音也是人通过录音机事先录好的，所以从声学层次
并不能有效地将它们区分开。该系统利用人类自然语音特有的一些规律进行启发式判断，来
进行人类语音的识别。
所采用的一些规律如下所述：
A. 如果正式语音之前的静音段超过某一阈值，则认为是人类自然语音。
85 B. 如果问候语过长，时间上超过某一阈值，则认为是应答机录音。
C. 如果问候语之后的静音段过长以至于超过某个门限，则认为是人类自然语音。
D. 如果问候语中的词语数目过多，则认为是应答机录音。
除此之外，我们还设定了一个检测最大时间，如果超过这一时间还没有一个检测结果，
则返回一个“无法判断”的结果。
90 1.5 AM 音匹配模块
AM 音匹配模块的主要任务是将输入的语音经过处理后，与库文件中的特征模板进行比
较，选择出最为相近的一条作为匹配结果返回。若经过与所有的特征模板都进行比较后得出
的最小距离仍然大于某一个门限值，则认为输入语音是库外音。
不像Tone音检测模块中使用的是各帧在前端处理过程中产生的16 个子带上的能量具体
95 值，这里使用的特征却是经过归一化后的二进制向量。把每帧的归一化的16bit 值放到短整
数据结构里面，用这待匹配的m帧同模板的开始处m帧算距离，然后将待匹配音顺次后移，
一直到末端为止，得到的最小距离就是这个输入样本同这一模板的距离。设置一个距离门限
值，既可以判断AM 音是否检测成功。
2 算法流程
100 默认情况下，对输入的语音依次进行上述标准Tone 音、人类自然语音Live Speech 和
AM 音三种可能的检测，当检测出任何一种肯定的结果后返回结果并退出当前检测流程。用
户也可以选择通过控制相应的标志位来指定只进行其中某一项或某两项的检测。三种可能的
属性检测模块的顺序和流程如下图1 所示：
105 图1 语音处理流程图
（VAD: Voice Activity Detection；LV: Live Speech；AM: Answering Machine）
3 结论
本文给出了该系统能够在拨打固定电话、手机、软电话、传真机等通信终端后，对与各
110 种可能的回传语音进行匹配，实现准确的语音检测分类功能。内部模拟测试和实际坏境的压
力测试都显示本算法具有良好的效果，在准确率、性能和并发性上都能满足需要。
表1 语音匹配系统系统功能表
性能指标模块功能说明
准确性时效性并发性稳定性
标准Tone 音匹配能够对标准Tone 音进行
检测并分类
≥99% 在播放1 个周期后一秒
内给出匹配结果
人类自然语音
（Live Speech）检
测
能够对Live Speech 与AM
音进行快速检测
≥95%
不影响实时通话效果，
人接通电话后3 秒内给
出检测结果
AM 音匹配
能够区分出是库内音还
是库外音；如检测出是库
内提示音则能匹配出是
哪一类
库内：≥
97%
库外：≥
95%
在提示音播放一遍（中
文或者英文）后一秒内
给出匹配结果
支持多
线程，能
够在标
准硬件
平台上
并发执
行600
路以上
在多线
程安全
的前提
下，系统
连续运
行高于
72 小时
数据管理能对Tone 音库和AM 音
库的条目进行维护
离线管理
115 [参考文献] (References)
[1] 王敏妲.语音识别的研究与发展[J].微型机与应用，2009 年，23（期）：1-2.
[2] 王丹，赵卫东.基于Asterisk 的呼叫中心系统的研究与设计[J].2009 年，9（期）：1-2.
[3] 田野，李涓子，王作英，陆大金.电话语音识别系统[J].计算机工程与应用,2001 年,37(13)：1-4.
[4] 夏斌，于永学，李小瑞. 戈泽尔算法在DTMF 信号检测中的应用与改进[J].电子测量与仪器学报，2008
120 年，S2（期）：1-4.
[5] GB-T 5443-198. 电话自动交换网铃流和信号音技术指标测试方法[S]. 国家标准局，1985 年10 月30 发
布，1986 年06 月01 日实施.

学术论文网Tag：代写论文代写代发论文论文发表职称论文发表

搜索

热门标签:

呼叫中心语音检测系统