基于向量空间模型的古汉语词义自动消歧研究# 摘要:解释词义是整理古籍的重要研究内容之一,人工释义费时费力。借鉴现代汉语词义消 歧的研究成果,本研究提出了一种改进的向量空间模型词义消歧方法,即在古汉语义项词语 10 知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义 消歧任务。本文以中国农业古籍全文数据库作为统计语料,对10 个典型古汉语多义词,共 29 个义项,1836 条待消歧上下文,进行义项标注的实验,消歧平均正确率为79.5%。 关键词:向量空间模型;词义消歧;古汉语 Word Sense Disambiguation of the Ancient Chinese based on Vector Abstract: To explain sense of the words is the important part of the arrangement of Chinese ancient books. Manual interpretation is very time-consuming. Learning from the research of modern word sense disambiguation, an improved unsupervised word sense disambiguation 25 method of the ancient Chinese was proposed based on vector space model of senses. In this article, the knowledge base of the senses of the polysemous words in the ancient Chinese was build, and the contexts and the senses of the polysemous words were mapped to the vector space model in order to complete the task of word sense disambiguation. It was full-text database of ancient Chinese agricultural books that used as statistics corpus, and the word sense tagging experiments 30 were taken for ten typical polysemous words of the ancient Chinese, a total of 29 senses, 1836 contexts. The results showed that the average accuracy of word sense disambiguation was 79.5%. Key words: Vector Space Model; Word Sense Disambiguation; the Ancient Chinese 1 引言 35 古籍是中华文化瑰宝,但由于古代文献产生的时代背景、文化特点、典章制度、风俗习 惯等极具时代特色,古代文字用法与现代汉语差异较大,有些词句若没有注释,后人无从知 道其含义,容易出现理解错误。古代书籍好像水道阻塞,必须灌注才能疏通,因此我们把对 经文的解释也叫注。古籍注释就其特点而言,可以分为传、笺、章句、集解、疏五类1。由 于人工注解古籍费时费力,学者们废寝忘吃、皓首穷经,穷其毕生精力仅能完成有限几部古 籍的注释。若将词义自动消歧义技术引入古籍注释中,尝试古籍词义自动标注,无论是对研 究古汉语的学者,还是普通读者都具有重要意义。 解释词义难点在于一词多义这种普遍存在的语言现象,但在具体的上下文语境中一个词 语就只有一个确定含义。中文信息处理、自动翻译等领域进行了诸多词义消歧研究,并取得 了丰硕的成果。上个世纪中后期,古籍数字化蓬勃发展,建成了一批卓有成效的古籍数字化 45 全文数据库,亦为古籍词义自动消歧研究奠定了基础。本文拟将现有农业古籍全文数据库作 为统计语料库,采用无导消歧方法进行古籍词义自动标注研究。 2 词义消歧相关算法 词义消歧(word sense disambiguation,WSD)是指计算机根据上下文语境来自动确定 词语的意义,是计算语言学和自然语言处理领域的基础研究课题,可应用到信息检索、机器 50 翻译、文本分类、语音识别等诸多领域。国内外学者在词义消歧领域展开了大量的研究,取 得了丰硕的成果。卢志茂等人将词义消歧算法概括为三种:基于词典的方法、基于实例的方 法、基于语料库统计的方法2。 基于词典的词义消歧始于1986 年,Lesk 通过计算词典中词语义项的解释文本与多义词 所在当前文本的匹配程度,选择匹配度最大的义项作为正确的词义。该方法简单易行,正确 55 率在50%~70%之间,但词条解释的长度会影响排除歧义的效果。1988 年,Pook 和Catlett 提出另外一种新的改进方法,即对上下文词语进行同义词扩展,从而增大计算义项与当前文 本覆盖度的成功率3。1992 年,Yarowsky 把主题分类法引入了消歧实验,即首先将多义词 词义归入不同的语义主题,利用Bayesian 模型计算当前文本与多义词词义主题的相似度, 从而确定多义词词义4。基于词典的词义消歧优点在于不需要训练语料,但由于现有词典知 60 识通常是静态的,而且缺乏完备性,限制了该方法的发展。 基于实例的词义消歧方法受到了基于实例的机器翻译方法的启发,主要包含两个关键问 题,一个是词义消歧实例的获得,另一个是实例间相似度的计算。1996 年Ng等人在其LEXAS 系统中采用WordNet 定义词语词义,综合利用多种知识源指导词义判断,其中包括多种语 法知识,如上下文的词性知识、歧义词的用法、词语搭配关系等5。 65 基于统计的词义消歧方法,主要运用统计学手段自动在语料库中获取所需知识用于词义 识别,如多义词与上下文词语之间的语法或语义关系等。根据是否对语料库进行标注,可分 为有指导和无指导词义消歧法。有指导消歧方法取得了较好的效果,由于需要事先人工标注 词义,费时费力,并且统计结果存在严重的数据稀疏问题,因此很多学者致力于研究无指导 词义消歧方法。鲁松等人6 采用向量空间模型进行无导词义消歧,通过构建多义词义项特征 70 词语的向量空间模型,从而为无导词义消歧提供了一个有效的知识表示方法和计算平台,然 后计算多义词上下文向量与义项特征词语向量之间的相似度,完成语义消歧任务,该方法平 均正确率为83.13%。陈浩等人7 提出了基于K-means 聚类的无导词义消歧方法,该方法采 用二阶上下文方式构造上下文向量,利用K-means 算法进行聚类,最后通过计算相似度进 行词义排歧,消歧正确率在80.87%-82.67%之间。李涓子等人8 则采用可能的句法关系对语 75 境进行限制,并利用预排序方法减少规则搜索次数进行无导词义标注。 3 一种改进的向量空间模型词义消歧方法 借鉴了鲁松等人的研究,本文提出了一种改进的词义消歧算法,即从多义词义项词典中 提取各义项的特征词,并从语料库中抽取义项特征词上下文中的关键词,构造多义词义项的 向量空间模型(而非义项特征词的向量空间模型),进行词义消歧。本研究核心内容包含构 80 建多义词词典、多义词义项向量空间模型等几个方面。 3.1 多义词词典的建立 构建一部适合计算机消歧用的多义词词典是本研究的重要组成部分,多义词词典拟采用 以下格式: No=记录号 85 W_X=词语 G_X=词语词性 DEF=义项解释 E_X=词语例子(包括,例句、短句、常用词组、同义词等) F_D=义项的特征词 90 在多义词词典中,每一个词语(W_X)对应多个不同的义项(DEF),每一个义项对应 一组义项特征词(F_D)。 词语的义项划分是建立多义词词典的一大难题。Kilgarriff 批评书本型词典由于受到“传 统、印张、易接受性”等多种因素的制约在义项分合上存在许多不足,这种词典并不能很好 地用于词义分析9。Veronis 曾做过一个有趣的实验10:600 个词语分配给6 名语言学专业的 95 学生,由他们依据辞书中的解释对语料进行词义标注。结果发现,不同学生标注的一致性非 常低,对于有些词语,标注的不一致性甚至和随机标注一样糟糕。很多学者认为传统词典的 义项划分过于细致,不利于语言信息处理,因此倾向于粗粒度的义项划分11,这样可以保证 更高的标注一致性,提高机器消歧的准确度。 本文主要针对古籍文本进行词义消歧研究。相比于现代汉语,古代汉语以单音词为主, 100 并且单义词很少,绝大部分是多义词,一个词往往有几个甚至十几个义项,有些义项是由本 义引申出来的。因此,本文采用粗粒度义项划分方法,人工合并相近义项构建多义词词典, 以提高自动消歧的准确度。 义项特征词是构造多义词义项向量空间模型的基础,本研究拟利用词典中各义项的解 释、例句、短句、常用词组等信息,结合待消歧语料库,筛选各义项的特征词存入多义词词 105 典。由于时间和精力所限,本研究选择了10 个典型的古汉语多义词,通过在线汉典 (www.zdic.net)找出这10 个多义词的所有义项,经过人工审核,构建了一部小型的多义词 词典用于古汉语词义消歧实验,并利用多义词词典和语料库,挖掘各义项的义项特征词进行 语义消歧。 3.2 构造多义词义项向量空间模型 110 本研究为每一个多义词构造该词的义项向量空间模型。在向量空间模型中,义项被形式 化为n 维空间中的向量,空间中的一维是倒排表中的一个词语,形式如下: C_W=< wterm_1,wterm_2, wterm_3 ,…,wterm_n > 该向量中每一分量表示该词语在表示义项时的相对重要程度。词语权重计算唯一的准则 就是要最大限度地区分不同义项,采用公式1 进行计算: [ ]2 1 log( / 0.01) log( / 0.01) ki k ki n k ki k w tf N n f Nn = × + = Σ × + 115 公式1 其中, ki w 表示词语在义项向量空间中的权重, ki tf 为词语k 在义项i 中出现的频率,分 母为归一化因子, log( / 0.01) k N n + 表示词语k 在多义词所有义项的分布情况的量化,其 中N 为多义词义项的数目, k n 为出现过词语k 的义项数目。 下文以“伐”这个多义词为例,具体介绍构造多义词义项向量空间模型的方法。多义词 120 “伐”共有4 种义项,其中第2 义项包括“杀”和“击”2 个义项特征词,见表3。 首先,在语料库中找出义项特征词“杀”的所有上下文共1439 条,然后抽取各上下文 中的关键词,生成义项特征词“杀”的关键词序列。依此方法,找出并生成义项特征词“击” 的上下文关键词序列。然后,将这2 个义项特征词的关键词进行合并后,生成多义词“伐” 的第2 义项的关键词序列。依此方法,分别生成其余三种义项的关键词序列。最后,将4 125 种义项关键词序列进行合并后,依此为基础构造多义词“伐”的“义项-标引项”向量空间 模型,见表1。 表1 多义词“伐”的义项-标引项矩阵(部分) Table 1 Indexing Metrix of the polysemous words as fa Def1 Def2 Def3 Def4 云 0.1494 0.8797 0.3515 0.2832 能 0.2399 0.6311 0.3851 0.6291 多 0.1238 0.8833 0.3091 0.3301 子 0.0765 0.9647 0.184 0.1723 食 0.2231 0.8548 0.3688 0.2891 物 0.2069 0.8577 0.2627 0.3905 日 0.2059 0.7361 0.32 0.5597 雖 0.144 0.6902 0.4271 0.5661 力 0.1763 0.4574 0.2479 0.8356 用 0.1159 0.9255 0.1972 0.3019 学术论文网Tag: |