学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 工科论文

查询扩展中扩展词提取算法研究

查询扩展中扩展词提取算法研究
王阿园,肖波*
作者简介:王阿园,(1987-),女,硕士,主要研究方向:信息检索. E-mail: bupt.way.1987@gmail.com
(北京邮电大学信息与通信工程学院,北京 100876)
5 摘要:相关反馈是一种重要的查询重构技术,其重要方法之一是查询扩展。而查询扩展的关
键在于选择什么样的词语来进行查询扩展。本文详细描述了一种在初检索文档基础上进行扩
展词提取的方法,利用聚类方法扩展相关文档集,利用语言模型粗提取扩展词,并且从上下
文语义分析出发结合词语之间的共现、距离以及词激活力等特征,对粗提取出的扩展词利用
SVM 分类的方法进行细筛选。实验结果表明,该方法能够有效地改善检索效果。
10 关键词:信息检索;语言模型;词激活力;扩展词分类
 0 引言
30 随着互联网的飞速发展,如何从海量的数据中高效准确的检索相关的信息变得尤为重
要。相关反馈是信息检索领域重要的应用。通常情况下,用户提交的查询比较短,如果仅根
据用户的查询来返回相关文档,那么就很有可能会出现和查询相关的文档由于该文档不含有
该查询词或者出现该查询词的频率不高而检索不到的情况,导致出现相关文档覆盖面比较小
的问题。因此查询扩展成为信息检索中的研究热点。查询扩展指的是利用计算机语言学、信
35 息学等多种技术,把与原查询相关的语词或者与原查询语义相关联的概念以逻辑或方式添加
到原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的查全率和查准率,解
决信息检索领域长期困扰的词不匹配问题,弥补用户查询信息不足的缺陷[1] 。因此,相关反
馈中扩展词的选择可以认为是重中之重。
本文对查询扩展中扩展词提取的整个流程进行了详细描述。并且根据最新提出的词激活
40 力的概念将其加入文献[2]中提到的分类特征当中。因此,我们筛选扩展词的方法融合了语
言模型、聚类分析以及SVM 分类等方法,对扩展词进行选择,应用于查询扩展。首先利用
聚类分析提取相关文档、然后将语言模型用于对扩展词的粗筛选,再利用SVM 分类的方法
对扩展词进行细筛选,最后赋予扩展词一定的权重,重构查询,重新进行检索。这种查询扩
 展的方法改善了检索结果。
45 本文的结构如下:1 介绍国内外相关反馈研究现状2 介绍本文中扩展词提取的算法3 实
验以及结果分析4 给出实验结论。
1 相关工作
传统的查询扩展方法主要分为基于全局分析、基于局部分析、基于用户查询日志和基于
关联规则挖掘等几大类[1] 。基于全局分析的查询扩展是对整个文献集的语词进行相关分析,
50 得到每对语词的关联程度,选取与原查询关联程度较高的词作为扩展词进行查询扩展。基于
局部分析的查询扩展是基于初始查询所检索出的文档集进行的。其主要技术有伪相关反馈
(或称局部反馈)、用户相关反馈和局部上下文分析等。基于用户查询日志的查询扩展[3]
充分利用用户的查询日志分析词间各种关联,自动选择与原查询高度相关的词或词组作为扩
展词的来源。基于关联规则挖掘的查询扩展通过文本挖掘技术挖掘词间关联规则,将关联规
55 则的后件或者前件作为扩展词的来源。
在文献[4]中,对原始查询返回的文档进行片段切割,从语义片段中提取出与原始查询
相关的扩展词实现查询扩展。在文献[5]中,提出基于伪相关反馈的查询扩展方法,对原始
查询返回的排序靠前的文档中挖掘与原查询相关的词最为扩展词实现查询扩展。在文献[2]
中,提出利用词语共现技术在原始查询文档集中提取出与原查询相关的词作为扩展词,实现
60 查询扩展。在文献[6]中,提出了一种将查询扩展技术与机器学习方法结合用于博客检索的
方法。
2 查询扩展中的扩展词提取算法
扩展词的选择对于相关反馈起着关键的作用。本文将扩展词的提取分为两个主要步骤,
即扩展词的粗筛选与细筛选。算法整体流程图如图1 所示。
65
图1 扩展词提取算法整体流程图
Fig.1 Overall flow chart of expansion words extracting algorithm
2.1 扩展词的粗筛选
70 扩展词的粗筛选我们主要采取了两种方法:基于伪相关反馈的扩展词粗筛选方法以及基
于KNN 聚类的扩展词粗筛选方法。基于伪相关反馈的扩展词粗筛选的方法:将原始查询返
回结果的前20 篇文档作为相关文档集,然后利用语言模型进行扩展词提取。基于KNN 聚
类的扩展词粗筛选方法:我们选定一篇相关文档(该相关文档可以选择原始查询返回的第一
 篇文档作为相关文档),然后基于这篇文档做聚类,得到距离最近的20 篇文档作为相关文
75 档集,然后利用语言模型进行扩展词提取。
2.1.1 相关文档集的获取方法
在查询相关的文档中,应当含有适合的扩展词,但是通常情况下,能够确定的相关文档
数目总是少之又少,因此,必须采取一定的数据挖掘的算法扩大相关文档的范围,我们采取
两种方法获得相关文档,一种是利用改进的KNN 聚类的方法,另一种为伪相关反馈的方法。
80 伪相关反馈提供了一种自动全局分析的方法。该方法首先进行正常的检索过程,返回最
相关的文档构成初始化集。然后假设排名靠前的K 篇文档是相关的,最后在此假设上进行
相关反馈。其假设在伪相关文档中存在与查询相关的扩展词。这种反馈的优点在于简单,不
用依赖外部的其他资源。缺点在于过分依赖于返回的前几个结果的准确度。
与伪相关反馈相对应的扩大相关文档集合的方法为KNN 聚类的方法。我们采取了一种
85 改进的KNN 分类方法作为一种有效的聚类方法。该方法将原始查询结果作为文档集D,利
用向量空间模型计算相关文档与文档集D 中的每篇文档的相似度,并按照相似度由高到低
的顺序对文档集D 排序,取排名靠前的若干篇文档作为聚类后的相关文档,用于提取扩展
词。
2.1.2 语言模型
90 在这个模块中,我们采用了一种改进的语言模型,它把通过语言模型计算每一篇文档生
成原始查询的概率转化为从相关文档中计算每一篇文档生成每个词的概率[7]。这些词的概率
是可以衡量查询和词之间的相似性的。我们可以抽取和查询相似的前n 个词作为扩展词。
在信息检索中,一个语言模型是针对一篇文档的,同时文档的每个词是根据模型生成词
的概率估计来排序的。词t 在文档d 的词分布下的最大似然概率估计是:
d
t d
ml d dl
tf
p t M ( , ) ) ( | ) = 95 (1)
是词t 在文档d 中的词频, 是文档d 中的总的词条数。公式的假设前提给定一
个语言模型,这些词的出现是相互独立的。
对于这个估计,有一个问题是数据量不是很充分。为了解决这个问题,我们需要一个来
自更大的数据量估计,如下:
( )
t
d ml d
avg df
p t M
p t t d
( ( | ))
ˆ ( ) Σ ∈ 100 = (2)
是词t 的文档词频,即含有t 的文档数。如果我们有更多的数据,那么这是一个健壮
的统计,但是它有个一问题是用平均值去估计。另外,如果我们用词概率的平均数
量,包含不同词频的文档的差别将会被忽略。
为了减少这个风险,我们对词t 在文档d 中的风险用几何分布来建模,如下:
tft d
t
t
t
t d f
f
f
R
,
(1.0 ) (1.0 )
1.0
, ⎟
⎟⎠

⎜ ⎜⎝

+
× ⎟
⎟⎠

⎜ ⎜⎝

+
=
)
105 (3)
是词t 在文档中的平均词频,它被用文档长度归一化了。
作为一个混合参数,这个风险函数被用在了的计算中。一个文档模型产生一个
词的概率估计如下:
 ⎪ ⎪

⎪ ⎪


>
×
=

otherwise
cs
cf
if tf
p t d p t
p t M
t
t d
R
avg
R
ml
d
t d t d
0
( , ) ( )
ˆ( | ) ( , )
(1.0 ˆ , ) ˆ ,
(4)
110 是整个为文档集中词t 出现的总数。cs 是整个文档集的总词数。我们利用这个函数
来计算文档d 中每个词的概率,然后根据概率从高到低对文档中的所有词进行排序。
2.2 扩展词的细筛选
通过上一节提到的扩展词粗提取的方法,将会得到一个扩展词的候选集合。在这个候选
扩展词的集合中,如果使用合理的扩展词对原始查询进行扩展可以提高查询的准确度,相反,
115 不合理的扩展词将会产生负面的效果。因此,我们现在应该解决的问题是如何自动的区分合
适的扩展词与不合适的扩展词。
从机器学习的角度来看,很显然,如何选择合适的扩展词对原始查询进行扩展这一个二
分类问题,因此本文中采用二元分类的方法对扩展词进行分类。
2.2.1 分类器介绍
120 所有两元分类器都可以作为扩展词分类的分类器。在本文中,选择支持向量机的分类方
法。
二元线性可分问题存在大量可能的线性分界面。直观地看,一个处于中间空白处的决策
面比那些靠近某个类的决策面更好。对于SVM 而言,它定义的准则是寻找一个离数据点最
选的决策面。SVM 的基本思想是:通过非线性变换φ (•)将输入空间映射到一个高维特征空
125 间,在这个特征空间中求取最大间隔分类超平面f (x) = wTφ (x)+ b ,其中w、b 分别是这
个超平面的权值和阈值[8]。从决策面到最近数据点的距离决定了分类器的间隔。这种构建方
法也意味着SVM 的决策函数完全由部分的数据子集所确定,并且这些子集定义了分界面的
位置。这些子集中的点被称为支持向量机。
支持向量机是近年发展起来的一种通用机器学习新方法。它不仅具有坚实的理论基础、
130 简洁的数学形式、直观的几何解释,而且能够较好的解决小样本、非线性、维数灾和局部极
小等问题。在我们的实验中,使用了LIBSVM1工具包。
2.2.2 扩展词特征
既然是二分类问题,我们必须考虑到扩展词特征的选择。由于在扩展词的粗筛选过程中,
并没有考虑到查询词与扩展词之间的共现、位置等语义信息。因此在扩展词特征选择中,特
135 征的选择将主要从基于上下文的语义信息出发考虑。
学术论文网Tag:代写论文 代写代发论文 代发论文 职称论文发表

本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容