3.3 多义词上下文向量化表示,并将其映射到向量空间模型中 130 根据经验,本文确定古籍文本中距离待消歧多义词左、右各10 个字为有效范围,并将 其形式如下: w-10,w-9,w-8,w-7,w-6,w-5,w-4,w-3,w-2,w-1,polysemous-word,w+1,w+2, w+3, w+4, w+5, w+6, w+7, w+8, w+9, w+10 将其映射到向量空间模型中,其向量表示为: 135 Vpolysemous-word=<wterm_1,wterm_2, wterm_3 ,…,wterm_n> 其中,向量中每个分量wterm_i 为词语term_i 的权重值。如果词语term_i 在此待消歧多义 词上下文中出现,即 term_i є {w-10,w-9,w-8,w-7,w-6,w-5,w-4,w-3,w-2,w-1,w+1,w+2, w+3, w+4, w+5, w+6, w+7, w+8, w+9, w+10} 则词语term_i 的权重值采用公式/ i i w =tf n进行计算,其中i 140 tf 为词语在上下文中出现 的次数,n 为上下文包含的词语总数,否则wterm_i=0。 3.4 相似性计算,标注词义 通过构造义项特征词向量空间模型,将词义消歧问题和信息检索问题进行了一个有趣的 转换,即将词义消歧里多义词的一个上下文转换成信息检索中的一个查询,而将多义词义项 145 转换成信息检索中的答案文档。计算多义词上下文与义项之间的相似程度,无需利用同一义 项的不同义项特征词向量在义项类中的凝聚点来计算相似度,可以直接采用k-NN(k=1)计 算每个义项向量与多义词上下文向量之间的相似度,并取距离最近的义项来标注该词语在上 下文中的语义义项。向量之间的相似性计算公式采用典型的cosine 距离计算方法,如公式2 所示。 Sim(C,S)= 1 2 2 1 1 ( ) ( ) n j cj sj n n j cj j sj w w w w = = = × × Σ Σ Σ 150 公式2 其中,Sim(C,S)为上下文向量与义项向量之间的相似度, cj w 为词语在上下文向量中的权 重, sj w 为词语在义项向量中的权重。 4 实验与结果讨论 依托“中国农业科技遗产信息数据库”项目,南京农业大学农业遗产研究室成功搭建了 155 农业古籍全文数据库,该库共收集、加工、整理了包含《农政全书》、《齐民要术》、《茶 史》、《棉书》、《稻品》等在内的214 种农业古籍的数字化资料,分为六大类:农业总论 目、时令节气目、树桑育蚕目、土田耕耘目、畜牧养殖目、作物栽培目,共约600 万字,为 本研究的开展准备了丰富的语料。实验的整个过程如下: (1)从农业古籍全文数据库中提取出左、右范围为10 个字的多义词义项特征词的上下 160 文; (2)逐一抽取并记录义项特征词上下文中的关键词及其频次,合并生成每个义项特征 词的关键词项序列; (3)按义项合并特征词的关键词频次,生成某一义项的关键词项序列; (4)合并多义词所有义项的关键词项,记录关键词出现的义项编号及其频次信息,保 165 存到indexWords.txt 文件中; (5)以indexWords.txt 文件记录信息为基础,分别计算多义词所有义项的向量表现形 式,关键词权重由公式1 计算所得。 (6)利用公式2,逐一计算多义词待消歧上下文与所有义项向量的相似度,根据相似 度距离最近的义项,标注多义词在某一上下文中的词义。 170 本研究选取10 个古汉语多义词,共29 个义项,1836 条待消歧上下文,进行词义消歧 实验,详细实验数据见表2。 表2 实验结果 Tab 2 Test Result 正确率 多义词 词义 义项特征词(上下文数量) 待消歧上下 文本数量 平均正确率(%) S1 砍伐 砍(171);木(8563);树(5732) 14 S2 砍杀 杀(1439); 击(454) 469 S3 讨伐 征(207);侵(460);兵(491);军(743); 国(2546);师(1207) 伐 65 S4 自夸 功(2312);善(1574);德(1008); 智 (275) 5 69.1% S1 拾取,摘取 拾(521); 摘(1706) 52 S2 搬取 置(3781); 搬(68); 挪(30);提 掇 (741) 41 S3 哄骗 骗(5); 哄(4); 赚(5) 2 57.9% S1 怀胎,孕育 育(683); 胎(509) 215 孕 S2 分娩,生孩子 产(1115); 娩(28) 5 95.9% 79.5% S1 卜兆,预兆 卜(250); 卦(168);龟(157);梦(5); 预(714); 雪(2005) 122 S2 百姓 民(6141);庶(730);姓(660);众 (999) 39 兆 S3 墓地 葬(52);埋(864);亡(400);死(2687) 2 82.8% S1 病症 症(331);痛(1198) 37 瘕 S2 过失,缺点 瑕(29);疵(37);痕(218) 3 92.5% S1 冰 冰(284) 19 S2 侵犯,欺压 欺(143);辱(80);侮(15) 14 凌 S3 杂乱,交错 乱(1081);杂(2102) 4 S4 高出,越过, 逼近 越(884);渡(188);宵(157);冬 (5261);晨(486) 102 58.3% S1 病愈 恙(38);健(295);病(3528);疾 (1289) 12 瘳 S2 损害,减损 损(2008);减(464);失(1756) 2 85.7% S1 超出,冲破, 猛冲 奔(266);驰(144);冲(118);贯(780) 93 S2 触犯,欺诈 浡(10);犯(358),诈(47) 3 S3 烟囱 烟(1434);灶(55);薪(430) 37 突 S4 忽然 忽(878);匆(19) 7 71.4% S1 胸骨,胸部 胸(354) 49 臆 S2 主观地,意料, 推测 断(239);度(2097);决(213) 29 96.2% S1 种植 植(2848);圃(1012);种(18111) 328 艺 S2 才能,技术 技(83);才(278) 63 S3 准则,法度 法度(25) 3 83.5% 175 由于目前没有统一的古汉语词义消歧测试集,所以待消歧义上下文样本采用人工事先标 注好的词义作为参照。经测试发现,自动消歧平均准确率达到79.5%,总体上取得了较为满 意的效果。分析其原因主要有两点: ①将词义识别转换为信息检索问题,并利用义项特征词的上下文关键词扩展了多义词义 180 项的信息覆盖度,从而提高了多义词义项的识别率。 ②采用信息检索中的tf.idf 文档词语计算方法,比简单的共现频率提供了更为准确的词 语表示方法,为后续相似度计算处理提供了基础。 在实验过程中,笔者还发现各义项识别的正确率存在一定的差异性,例如多义词“伐”的第 1 个义项“砍伐”识别的正确率达到了“78.6%”,而第4 个义项“自夸”识别的正确率仅 185 为40%。分析其原因可能为:由于本研究采用农业古籍全文数据库构造义项向量空间模型, 该语料库本身偏重于农作物耕种、养殖方面,多义词在该语料库中的常用义项识别准确率高, 而非常用义项识别准确率较低。 5 结束语 本文的研究主要是基于词语间上下文的相似性决定了它们语义的相似性这一假设,与鲁 190 松等人的研究相比,本研究通过直接构造多义词义项向量空间模型,计算多义词待消歧上下 文向量与该词各义项向量之间的关系,简化了计算过程,并取得了较为接近的实验效果。因 此,本研究提出的古汉语词义消歧方法是可行的,但仍存在一些问题,需要进一步解决: 首先是义项特征词的选取。选取的特征词要能最大可能地待消歧多义词提供信息,同时 不能包含太多的噪音。如何自动化的选择具有一定敏感度的义项特征词,需要进一步研究。 195 其次是义项向量空间模型的优化问题。由于语料库中某义项的相关实例少,导致该义项 的识别率低,即义项向量空间模型的构建与语料库关系十分密切。如何构造尽可能完善的义 项向量空间模型,并把影响义项识别的各种因素加以整理,并制定计算机能执行的规则,从 而保证各义项识别率的均衡性,还有待进一步研究。 200 [参考文献] (References) [1] 百度百科:古书注解[OL]. [2011-12-10].http://baike.baidu.com/view/793424.htm#3. [2] 卢志茂等.统计词义消歧的研究进展[J].电子学报,2006(2):33-342. [3] C D Manning, H Schutze. Foundations of statistical natural language processing[M]. The MIT Press, Cambridge, Massachusetts, London, England,1999:229-260. 205 [4] David Yarowsky. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora[A]. In COLING14[C]. Nantes,1992:545-460 [5] H T Ng, H B Lee. Integrating multiple knowledge sources to disambiguate word sense: An example based approach[A]. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics[C].Santa Cruz, California, 1996:40-47. 210 [6] 鲁松等. 基于向量空间模型中义项词语的无导词义消歧[J]. 软件学报,2002(6):1082-1089. [7] 陈浩等. 基于K-means 聚类的无导词义消歧[J]. 中文信息学报,19(4):10-16. [8] Li Juan zi. The research on Chinese word sense disambiguation[D].Beijing: Tsinghua University,1999(in Chinese). [9] Kilgarriff, A. 1997. I don't believe in word sense[J]. Computers and the Humanities,31:91-113. 215 [10] Veronis, J. Sense tagging Does it make sense?[OL].[2012-55.23]. http://sites.univ-provence.fr/veronis/pdf/2001-lancaster-sense.pdf. [11] Agirre, E and P. Edmonds, etc.. Word Sense Disambiguation Algorithms, Applications and Trends[M] Amsterdam: Kluwer,2006. 学术论文网Tag: |