首先我们定义扩展词的特征表示。对于SVM 来说,将每一个特征定义为一个向量: 其中T 表示的是向量的转置,e 表示扩展词, 表示扩展词e 的第i 的特征。 在本文中,使用5 种特征,其描述如下: 1 LIBSVM 是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM 模 式识别与回归的软件包 140 (1)扩展词词频占所有词总个数的比率[2] ( ) ( ) Σ Σ ( ) Σ ∈ = ∈ t dF d F tf t d tf e d f e | | log 1 (5) f(e | d)表示扩展词e 在文档d 中的词频。f (t | d )表示扩展词t 在文档d 中的词频。F 表示特征计算的文档集。 (2)扩展词与查询中的单个查询词共现信息[2] 145 许多研究表明,通常情况下与经常与查询词同时出现的词语应该是与查询相关的词语 [9]。因此我们定义如下特征: ( ) ( ) Σ Σ Σ ( ) Σ = ∈ = ∈ n i t dF d F i tf t d C q e d n f e 2 1 , log 1 , | (6) C(q e d ) i , | 表示查询词i q 与扩展词e 在文档d 中限定文本窗口的共现次数。窗口大小 选择13。n 表示查询词的个数。 150 (3)扩展词与查询中的成对出现的查询词的共现信息[2] 这个特征表示一个扩展词在限定的窗口内与两个查询词共现,这样的扩展词应当比与单 个查询词共现的相关性更大[9]。 ( ) ( ) Σ( ) Σ Σ ( ) Σ ∈ ∈ = ∈ t t N t dF d F i j i j tf t D C t t e d N f e 3 , , log 1 , , | (6) N 表示查询词两两组合的集合, N 表示集合中的元素个数。窗口的大小选择18。 155 (4)查询词与扩展词之间的词激活力 在文献[10]中,作者提出词激活力的概念,词激活力综合考虑两个词之间的共现与距离 的属性。从相关反馈的角度来看,它可以描述扩展词与查询词之间的相关程度。我们可以认 为查询词与扩展词之间的这种激活力越强,则说明该扩展词与查询词的相关性较高,反之, 则认为扩展词与查询词的相关性较弱。因此我们可以基于这种激活力定义一种特征,他描述 160 了查询词激活扩展词的一种力量。 ( ) Σ Σ ( ) ∈ = = d F n i i f e waf q e 4 1 log , (7) ( , ) ( ( , | ) q )( ( , | )/ e ) q2e waf q e = C q e d tf C q e d tf d (8) qe d 表示查询词q 和扩展词e 之间的距离。窗口大小选择13. (5)查询词与扩展词共同出现的文档频率 165 文档频率DF 定义为在一个文档集中,出现词t 的文档总数。我们将查询词与扩展词同 时出现的文档总数也作为一种特征。 ( ) log⎣ ( , | ) 0.5⎦ 5 f e = df t e t ∈ q + (9) df(t,e | t ∈q)表示扩展词和查询词同时存在的文档总数。 另外,一般认为合适的扩展词是那些扩展原始查询后,能够最大的区分相关文档和不相 170 关文档的词语。因此我们的特征计算分别在两个文档集合上计算,一个文档集是我们得到的 相关文档集,另一个文档集我们从原始查询返回的全部文档。 2.2.3 标注方法 我们将扩展词分为合适扩展词和不合适的扩展词。合适扩展词指对原始查询进行扩展能 够提高查询效果,不合适的扩展词是指对原始查询进行扩展后,并没有提高查询效果。 175 本文通过对扩展词赋予不同的权重来对扩展词进行标注。合适的扩展词:当权重w 为 0.01 时,返回的结果比原始查询好,即正反馈效果;当权重为-0.01 时,返回结果比原始查 询差,即负反馈效果;不合适扩展词:与合适扩展词的判定准则正好相反,当权重w 为0.01 时,返回的结果比原始查询差,即负反馈效果;当权重为 -0.01 时,返回结果比原始查询好, 即正反馈效果;如果不属于这两种的任何一个,则认为其效果不明显,称为中性扩展词,不 180 作为训练词语。 作为二分类问题,我们划分正负样本的标准采用文献[2]提到的方法: chg(e) =[MAP(q ∪ e)− MAP(q)]MAP(q) (10) 其中e 表示扩展词,q 表示原始查询,MAP(q)表示Mean Average Precision,即平均准 确率。 185 对每一个扩展词的chg 进行计算,如果 chg(e) > 0.005 ,则认为e 为正样本,否则将 其认为是负样本。 3 实验以及结果分析 3.1 数据准备 3.1.1 数据集 190 本文采用ClueWeb09 TREC Category B 测试集作为我们的检索数据集。采用indri2建立 索引。我们将TREC2009 年相关反馈评测的查询作为我们的训练数据,TREC2010 年相关反 馈评测的查询作为我们的测试数据。 3.1.2 查询模型 实验采用indri 的查询语言来构建我们的查询。原始查询形式如下: 195 Combine(query).(title) #weight(1.0 #combine(query)1.0 #uw(query)) 我们将扩展词赋予一定的权重加入到原始查询中,其扩展后的查询形式如下: Combine(query).(title) #weight(1.0 #combine(query) 1.0 #uw(query)) w expansion term 实验中,查询结果均从返回结果中选择前2500 篇文档。 3.2 扩展词提取 200 我们分别利用第一节提到的获取相关文档的方法得到相关文档集,利用语言模型提取扩 展词,针对每一个查询提取前20 个相关扩展词。我们在实验中发现,基于伪相关反馈的方 法相对于基于KNN 聚类的方法来说,其结果的广泛性要比KNN 聚类的方法效果好,得到 的相关文档面比较广,而基于KNN 聚类的方法相对来说得到的相关文档比较片面,但是得 到的扩展词中的准确性会稍高。本文接下来的实验,相关文档集来自基于伪相关反馈的方法。 205 我们选择原始结果返回的前15 篇文档作为我们的相关文档集。在相关文档集确定后,我们 在这15 篇文档上利用语言模型获得扩展词候选集。 提取完候选扩展词后,我们将得到的所有扩展词按照上一节提到的标注方法对提取出的 扩展词进行正负样本标注。为避免正负样本比例不协调的问题而影响分类效果,最后选定 2 indri 系统是CMU 和UMass 两个大学联合推出的一个用于信息检索研究以及自然语言处理的系统 220 个样本作为训练样本。其中150 个负样本,70 个正样本。分类器我们选择开源工具 210 LIBSVM。在训练过程中,采取了交叉验证的方法。将数据平均分成5 组,并保证每一组数 据有14 个正样本。最后分类器平均准确率为69.26834%。 表1 两个查询的扩展词示意 Tab.1 Representation of expansion words of two queries “wedding budget calculator” “website design hosting” wedding Free Design Page budget Contact Website Lebanon calculator Bridal Web Washington weddings Calculate Hosting Contact planning Planner Services Dc expense Checklist Development Business florida List Free Portfolio cost Spreadsheets Company Search copy Plan Home Marketing love Online Custom Engine 215 注:黑体字代表标记为合适的扩展词,非黑体字代表标记为不合适的扩展词 Tab.1 中,列举了实验中,经过语言模型计算后,两个查询的扩展词分类后的结果。其 中黑体字为分类器标记出的合适扩展词。从分类结果可以看出,从语言模型得到的前20 个 扩展词中被划分为合适扩展词中大部分是与查询相关的,被划分为不合适扩展词中的一部分 220 也是与查询相关的。这表明我们的分类器起到了一定的分类效果。 3.3 IR 实验结果 我们利用上述方法得到的好扩展词,将其加入原始查询,重新构造查询,并利用该查询 重新进行检索,其查询格式如下: Combine(query).(title) #weight(1.0 #combine(query) 1.0 #uw(query) 0.2 expansion term ) 225 实验结果我们利用查询结果的MAP 值进行衡量。 表2 相关反馈平均准确率VS 初始检索平均准确率 Tab.2 RF-system VS Baseline Topic Rf-MAP Base-MAP Sys-R-B 1 0.3962 0.3726 6.33% 2 0.0624 0.0533 17.07% 3 0.0950 0.0824 15.29% 4 0.1635 0.1612 1.43% 5 0.2774 0.2772 0.07% 6 0.0301 0.0293 2.73% 7 0.2245 0.1985 13.10% 8 0.6024 0.5034 19.67% 9 0.0601 0.0523 14.91% 10 0.7105 0.7201 -1.33% 11 0.2643 0.1663 58.93% 12 0.2604 0.2024 28.66% 13 0.4178 0.4171 0.17% 14 0.5221 0.5214 0.13% 15 0.2635 0.266 -0.94% 16 0.2753 0.2719 1.25% 17 0.1820 0.1806 0.78% 18 0.1901 0.1899 0.11% 19 0.2843 0.2744 3.61% 20 0.4985 0.492 1.32% 230 在Tab.2 中,Topic 是TERC2010 相关反馈评测的前20 个查询,Rf-MAP 表示使用我们 的检索系统得到的检索结果。Base-MAP 表示初始检索模型得到的检索结果。Sys-R-B 表示 我们的检索系统的MAP 相对初检模型的MAP 的差值百分比。从这个表中,我们可以看出, 我们的检索系统可以改善初始检索效果,对于不同的查询其改善结果不尽相同。 4 结论 235 本文给出了一种基于扩展词分类的相关反馈方法,该方法能够有效的改善查询结果。本 文提到的方法关键点在于扩展词候选集合的选取和分类特征的选择。我们分别采用基于 KNN 聚类和伪相关反馈的方法来选取扩展词候选集合,在分类特征中不仅考虑了传统的词 频与文档频率特征,还考虑了词语之间的共现以及距离特征,并引入了一种叫做词激活力的 特征,这种特征同时考虑词语之间的共现与距离,来描述词语之间的相关性。实验结果表明, 240 该方法能够有效的改善查询结果。 学术论文网Tag:代写论文 代写代发论文 代发论文 职称论文发表 |