重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425
音频检索技术的算法实现
音频检索技术的算法实现
张伟浩*
作者简介:张伟浩,(1987-),男,计算机网络与多媒体通信. E-mail: zhangweihao87@gmail.com
(北京邮电大学计算机学院,北京 100876)
5 摘要:音频检索是基于内容的多媒体检索技术的一个重要的部分,它是利用一个或多个客观
的声学特征,首先将需要检索的音频进行数据化处理,然后通过指出主观概念来进行分析分
类,最后根据其特征从音频数据库中检索出相关的信息。在文章中重点介绍了基于语音数据
相关性算法、基于模板的音频检索方法以及基于分特征的检索方法,文章最后做出了系统的
总结。
10 关键词:音频检索;语音数据相关性;模板的音频检索;分特征
中图分类号:TP37
0 引言
音频检索的基本分析技术就是对语音的主观特性进行匹配和比较[1]。
音频检索中使用的声学属性主要有:
30 (1)音调:是听觉分辨声音高低的特性,它完全由频率决定,可以通过计算一系列短时
傅里叶频谱来估计。
(2)响度:表示声音轻重的程度,以声音的振幅表示。
(3)带宽:用短时傅里叶频谱的加权值方差计算。
以上特性可能随时间变化,因此分析时要计算在时间上的轨迹。对于每个轨迹只计算和
35 存储几个参数,包括平均值、方差、自相关值、最大和最小值、临界点及音调变化数等。另
外还存储了声音的持续时间。这样对于每个声音要素,测量属性的N 维向量是由持续时间
和上面提到的参数组成的。实现查询的基本算法包括:①基于语音数据相关性算法:两个相
似度大的证章文件其相关性也较大;②基于模板的音频检索方法:通过分析音频数据特征矢
量在特征矢量空间中的分布来计算音频数据的相似度;③基于分特征的音频检索算法:即只
40 选择某个或某几个特征进行检索。
完整的音频检索系统一般由两个子系统构成,即数据库子系统和查询子系统,如图1
所示,且每个子系统由相应的功能模块组成。而本文所要介绍的音频检索算法是其中查询模
块的核心内容[2]。
45 图 1 音频检索系统
Fig. 1 audio retrieval system
下面分别介绍这三种算法的实现过程。
1 基于语音数据相关性的算法
50 该算法的基本思想来源于概率论中的相关性概念,两个相似度大的证章文件其相关性也
较大。
算法的理论基础如下:
上式中E 和E’均表示期望值,σ 和σ ’表示方差,ρ 表示相关度。
理想情况下,两个语音如果相似,相关值应该等于1。系统的设计分为特征计算和检索
60 匹配两部分。为了提高系统的灵活性,对原始数据进行隔m 点抽取,并且在文件匹配起始点
方面,采用灵活的隔m 点对应[3]。
基于相关性的比较算法的流程框图如下图2 所示:
开始
均值方差计算
库文件结束?
结束标志
相关值计算
计
算
结
果
否
是
图2 基于相关性的比较算法
Fig. 2 Correlation-65 based comparison algorithm
2 基于模板的音频检索方法
基于模板的音频检索方法(TBAR)通过分析音频数据特征矢量在特征适量空间中的分
布来计算音频数据的相似度。系统基本检索过程如下:
70 首先根据系统的应用需求,以此为依据收集一定量的音频样本作为训练数据。这些断气
越多越丰富越好。如果要进行分类,则需要各类的数据。例如,要分辨音乐和语音,就应提
供音乐和语音数据,并且要指明各音频数据的类别;然后系统提取所有训练数据的特征,综
合作为音频数据的特征空间,并按照矢量量化的方法将特征空间分割为不相交的区域或称为
子空间,我们假设分为K 个区域,记为{Ci}(1≤i≤K)。
75 模板定义为特征矢量序列落在各个区域{Ci}中的分布以百分比计算。要按照相似度检索
音频数据(即QBE 查询方式),首先要生成模板,这就要提取样本数据的特征,得到特征
矢量序列,通过分析此特征矢量序列在特征适量空间中的分布,即可得到音频数据的模板。
模板其实是牲适量序列落在各个区域{Fi}中的计数值,或称直方图。模板基本反映了特征矢
量序列落在矢量空间的分布。我们认为,相似的音频数据的特征矢量序列在特征矢量空间的
80 颁布是相似的,从而在区域{Fi}中具有相似的直方图;反之,不同类的音频数据的特征矢量
序列在特征矢量空间的分布是不同的,从而在区域{Fi}中具有不相似的直方图。也就是说,
特征矢量序列在区域{Fi}中的直方图(即音频模板)反映了音频数据的相似程度,音频数据
相似,刚模板距离小,反之亦然。从而比较音频数据相似度的计算转化为计算音频模板的距
离,而音频模板是归一化后的K 维矢量,故易于计算。其中查询的样本数据的模板称为查
85 询模板。
基本的音频检索过程如下图所示[4]:
特征提取
音频数据
加窗处理
特征序列
矢量量化
音频模板
图3 音频检索过程
Fig. 3 Audio retrieval process
90
首先对音频数据进行加窗预处理,将音频数据分割成短时帧数据,提取其特征,计算结
果为一个音频特征矢量序列。然后根据系统预先生成的特征空间区域,计算此序列在各区域
中的分布,得到数据的查询模板,比较此查询模板与数据库文件的音频模板就可得出查询数
据与数据库文件的相似度。最后按相似度排序即可输出结果。这种方法既适用于一般的数字
95 化音频也适用于音乐和语音[5]。
3 基于分特征的音频检索
在前述的模板计算中,如果只提取一个特征(如音调)按照前述介绍的矢量量化和模板
计算方法计算音频模板,那么此时的音频模板反映的是音频数据在音调方面的相似性。如果
用户希望查询与样本数据在音调方面的相似性,刚只需比较音调的分模板即可。这就是音频
100 分模板定义的初衷。
假设特征A 的分模板记为P,刚P 表示的是A 特征序列在矢量空间的分布。首先根据
检索数据,分别对单个特征的特征空间进行矢量化,将该特征空间分割成N 个不相交的区
域,并将其形心存入元数据库。然后就可以根据特征空间的分割情况进行矢量量化,计算音
频分模板。这时分模板的距离函数可受用欧几里得距离函数或余弦函数。这样基于单个分模
105 板的音频相似度可采用原来的方法求得[6]。基于多个分模板的音频相似度是基于单个分模板
的音频相似度的加权平均,其权值表示的是该特征的重要性,可由用户定义。这里假设x,y
为两段音频数据,特征A 的分模板记为P,基于P 的相似度记为S(x,y),P 的重要性为W,
那么音频相似度可采用下式:
1
( , ) ( , )
N
i i
i
S x y WS x y
=
= Σ
110 根据分模板进行音频检索时,首先判定用户选取的特征及重要性,采用矢量量化方法计
算出样本数据的分模板,然后就按前面的分工比较样本数据音频模板和数据库中的音频模
板,最后按相似度排序后即可输出结果。需要注意的是,基于分模板的音频检索与分类检索
过程是非常相似的,只是音频模板的定义和音频相似度的计算不一样。
4 结论
115 前面介绍的两种是基于全部特征的检索算法,将全部特征看成一个整体计算其模板。然
而,在实际音频检索中用户也可能只选择某个或几个特征,或者指定各特征的重要性来检索,
这时只受用上述模板检索方法就行不通过了。因此在第三种方法中我们改变了模板的计算方
法,改进为只计算各特征的模板,并最后综合计算音频的相似度。
显然上述三种方法各有自己的优点和缺点,所以只有在适当的系统中选择合适的音频检
120 索算法,才能得出更高的命中率,从而间接提高检索效率。
基于内容的音频检索已经取得了许多成果,像美国加得福尼亚有限公司建立的Muscle
fish 系统,然而,仍然还有许多问题和疑问值得也需要研究:
(1)数据模型:是CBR 系统的核心。建立的数据模型要能够充分反映对象的内容。
(2)特征提取:需要容易使用能对原始的特征进行抽取的自动化工具,还需要新的特
125 征表示方法,如基于分形或小波的特征数学表示形式和方法。
此处还有查询说明模式、索引、性能及集成查询等。因此,虽然在基于内容的音频检索
方面已取得一定的成绩,但是前边的路依旧是任重而道远。
[参考文献] (References)
130 [1] 李国辉,曹莉华,柳伟.基于内容的多媒体数据查询和检索[J].小型微型计算机系统,1998,4:42-49.
[2] 朱学芳,苏勇,王勇等.基于内容的多媒体信息查找技术的研究[J].自动化理论、技术与应用,1998.8:
14-18.
[3] 曹莉华等.基于内容检索中的模糊处理[J].模糊系统与数学,1996,10(3):135-138.
[4] 胡晓峰.多媒体数据与多媒体信息处理[J].小型微型计算机系统,1993,8:20-29.
135 [5] 国防科大多媒体实验室.基于内容的多媒体数据库系统CDB 技术报告[D].长沙:国防科技大学,2000.
[6] 胡航等.语音信息处理[D].哈尔滨:哈尔滨工业大学,2001,5
学术论文网Tag:代写论文 论文发表 计算机论文 代写毕业设计 代发论文 信息系统论文
|
本站郑重声明:
1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------