重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425
一种崭新的机器翻译策略
一种崭新的机器翻译策略
邹晓辉,邹顺鹏**
基金项目:中美合作项目:塞尔研究双语信息处理课题
作者简介:邹晓辉,(1958-),男,研究员,双语信息处理:协同智能计算系统
通信联系人:邹顺鹏,(1986-),男,研究生,基于知识本体的高校学科建设. E-mail: qhkjy@yahoo.com.cn
(中国地质大学(北京)高等教育研究所,北京 100083)
5 摘要:针对此前机器翻译依据的基本假设存在的问题,本文分别从普通语言学的研究对象和
基本翻译策略的角度,论述了一种崭新的机器翻译策略。其优点,不仅在于它能更有针对性
地消解汉英双语转换必然遭遇的各种歧义,具体指语汇和语句两个层次多个结构单位对译的
取舍问题,而且,还在于它既有利于计算机更恰当地处理自然语言,也有利于自然人更方便
地用计算机处理自然语言。
10 关键词:机器翻译;双语信息处理;翻译策略
25
0 引言
本文旨在针对此前机器翻译依据的基本假设存在的问题,分别从普通语言学的研究对象
和总体翻译策略的角度,论述一种崭新的机器翻译策略。
其意义在于它具有以下优点:不仅在于它能更有针对性地消解英汉双语转换必然遭遇的
30 各种歧义——具体指语汇和语句两个层次多个结构单位对译的取舍问题,而且,还在于它既
有利于计算机更恰当地处理自然语言,也有利于自然人更方便或更容易地采用计算机双语信
息系统处理自然语言。
此前有人指出:机器翻译的主要问题不是与计算机技术相关而是与人类通信的语言、意
义、理解,社会的与文化的区别相关。[1] 这与笔者的观点是一致的。因此,本文的一个创
35 新就是对自然语言理解和自然人制定的一般机器翻译策略中隐含的问题分别以相应模型来
呈现。
此前还有人指出:机器翻译的主要问题是:歧义问题,语言之间词汇和构式的不同所引
起的问题,以及像习语和搭配那样的多种词汇单位的问题。[2]这也与笔者的观点是一致的。
因此,本文的另一个创新是对它们做进一步区分,而且,是着重对第一类问题的二分策略和
40 对第二类问题的简化策略。
1 此前机器翻译所依据的基本假设存在的逻辑悖论
从一般的机器翻译策略洞悉此前机器翻译所依据的基本假设中隐含的问题。
图1 直译和转译的金字塔模型
Fig. 1 Direct translation and transfer 45 translation pyramid [3]
由图1 可见,直译和转译的金字塔模型,即:一般的机器翻译策略,笔者在其上下加注
了a=b 与a≠b 两个代数式,旨在揭示其中蕴含这么一个基本假设,即:
在原文(a)和译文(b)之间存在一个中介文本(c)。就是说,本来没有联系的原文
50 (a)和译文(b)通过共同的中介文本(c),则可建立可互译的等价关系。
这就相当于说,虽然a≠b 但是因为a=c 且b=c 因此可推导出a=b 的结论。但是这个
推理链条在此存在一个严重的逻辑问题。仔细推敲,读者也不难发现以上这个推理过程之中
隐含着a≠b 且a=b 这样一个悖论。
这么严重的一个逻辑问题,机器翻译学界竟然长期视而不见。
55 也许有的读者会这样想:因为a=c 且b=c 所以a=b 成立。可是,又怎么看待a≠b 与
a=b 之间的相互对立或冲突呢?专家们也没有更好的办法来解决这个悖论。
也许还有读者会那样想:如果a=c 且b=c 那么a=b 成立,就相当于说a≠b 不成立。
因为,既然a=b=c 成立,那么a≠b 也就不成立,否则就必然会自相矛盾。
问题在于,凭什么做a=c 且b=c 这样的判断?图1 的模型说不出道理仅凭假设而已。
60 也就是说,人们假设a=c 且b=c 所以a=b 而忽略了图1 的模型中存在a≠b 的情形。
2 基于上述错误的基本假设而引出的一系列错误推理
下面,让我们针对上述直译和转译的金字塔模型(一般的机器翻译策略)隐含a≠b 且
a=b 这样一个逻辑悖论的基本前提,来剖析此前机器翻译所依据的具体假设存在的问题。
为了能清楚地揭示上述这个根本性地逻辑错误究竟是怎样具体地影响不同层次的机器
65 翻译的具体策略,笔者不仅在直译和转译的金字塔模型上下加注了a=b 与a≠b 两个代数式,
而且,还举例从下到上标注了由0 到4 的五个阿拉伯数字,以便揭示其中蕴含的几个问题。
由起点0 开始,说明由于a≠b 因此策略1 即所谓词对词的机器直译就必然遭遇歧义性
即多义项选择的问题。接着,基于其上的策略2 即所谓基于句法规则的推理策略也必然会再
遭遇歧义性即多义项选择的问题。于是,进一步提出策略3 即所谓基于语义知识的意译策略
70 试图回过头来寻求词和句乃至其中包括的词组或短语的具体意义从而弥补前两策略的不足,
然而,由于此处不仅存在可进行形式化推理的取值问题(塔斯基的语义学奠定了基础)[4],
而且还存在不同主体即自然人的置信问题与前述取值问题相互纠结的一系列问题(弗雷格的
意义与指称开启了这个方向并引出了西方哲学界所谓语言学转向带来的众多研究进路)[5]。
可以毫不夸张地说,所谓语义泥潭也就从那时开始引起了学界不同的反响(美国上世纪中后
75 期机器翻译评估报告指出的问题是当时乃至现在机器翻译学界难以逾越的一道坎)[6]。至此,
基于示例和基于规则乃至后来基于统计的机译均没有从根本上找到解决多义项选择问题的
更好办法。即使引入中介语作为桥梁的转换机译策略即策略4 也免除不了歧义的困扰。可见,
从0 到4 的全过程人们竟然把a≠b 与a=b 这两个从根本上说是完全对立的情形在有意无意
之间发展成为似乎是有机联系的一般的机器翻译策略(直译和转译的金字塔模型)。
80
图2 机器翻译的不同策略(应用直译和转译的金字塔模型)
Fig. 2 Different Strategies for Machine Translation [7]
由图2 可见,从1 到4 的几个台阶的具体机译策略并不是一回事,它们各有各的基础和
85 具体的适用条件。问题出在人们用同一个金字塔模型(一般的机器翻译策略)把这些个具体
策略捆绑在一起之后给人造成的错觉,致使0 和4 的尖锐冲突(即隐含a≠b 且a=b 这样的
逻辑悖论)被错误地合理化了。实际上,这个一般的机器翻译策略并不具有逻辑自洽的属性。
各种具体的机译策略被放到同一个金字塔模型之中仅仅是一种直观的表达方式。相反,这个
金字塔模型只要稍加标注就正好可揭示出悖论蕴含在以往所谓的一般的机器翻译策略之中。
90 因此,我们认为,要从根上解决问题就必须从普通语言学基本研究对象的进一步分析入手。
3 以英语和汉语为例重新分析普通语言学的研究对象
普通语言学的研究对象究竟是什么?或者说,什么是语言?它主要指什么?可否进一步
区分为言和语?为什么不能在英语的言与汉语的言之间划等号?
索绪尔尝试性地回答了前面三个问号,他不仅区分了语言和言语,而且,还指出语言是
95 一个价值系统[8],进而,他系统分析了其中音义结合的词素、单词、词组、句子等结构单位。
从而开创了科学地探讨语言学的先河。汉语的情形很特殊,例如,在文言中就根本没有印欧
系语言的词素、单词、词组、句子那样的结构单位,而只有偏旁部首、字、辞、链、块、读、
句这样的结构单位[9]。又如,白话文以及现代汉语引入印欧系语言的结构单位却造成了多次
本位转移或本位之争,其中最典型的是马寅初、黎景熙、朱德熙和徐通锵等人的本位说[10]。
100 我们提出言和语两个系列的细分价值系统,指出两者的区别在置信而联系却在取值[11]。
例如,假设英语的言是词,汉语的言是字,那么,英语的语就是词组与句子,汉语的语则是
字组1(即:辞、链、块)与字组2(即:读、句)。如果从普通语言学的基本研究对象的
言及其取值的角度看,那么,说英语与说汉语的社团可视为对英语的言是词与汉语的言是字
分别置信的社团。同理,如果从普通语言学的派生研究对象的语及其取值的角度看,那么,
105 说英语与说汉语的社团可视为对英语的语是词组与句子而汉语的语是字组1(即:辞、链、
块)与字组2(即:读、句)分别置信的社团。这样,我们就可以得到以英语与汉语为例的
普通语言学研究的言和语两个系列的细分价值系统,即:作为基本符号对象的普通语言学的
基本研究对象的言及其取值与置信的细分价值系统;作为符号组合解释的普通语言学的派生
研究对象的语及其取值与置信的细分价值系统。
110
图3 普通语言学的基本研究对象
Fig. 3 the fundamental object of study in General Linguistics
由图3 可见,以汉语为例的普通语言学研究可以区分两类具体的基本研究对象,然而,
115 以英语(或其它印欧系语言)为例的普通语言学研究却必然遗漏文言的字这样的研究对象。
鉴于白话的词属于外来或引进的语言结构单位,故被纳入区别于字的另一类语言结构单位。
图4 普通语言学的研究对象
Fig. 4 the object of study in General Linguistics
120
由图4 可见,在以汉语为例的普通语言学一系列具体的研究对象之中,言具有基本结构
单位的地位,简称:言本位。用这种基本的语言观可以克服以汉语为例的普通语言学研究中
的其它几种本位说的错误、缺点或不足。这就为以下崭新的机译策略奠定了语言理论基础。
4 以英语和汉语为例的“解释+翻译”模型
125 以英语(a)和汉语(b)为例,其中,词(a1)与字(b1)分属英语和汉语各自的基本
研究对象,由于基于字母的词(a1)和基于笔画的字(b1)分属截然不同的两套符号体系,
因此,可以验证两者作为各自具体的对象语言分属两个不同的符号类,即a1≠b1 是事实;而
词组(a2)与字组1 或语辞(b2)、句(a3)与字组2 或语句(b3)分属英语和汉语各自的
派生研究对象,由于双方均可表述相同的思想概念或指称相同的世界物象,因此,也可验证
130 两者虽然分属各自不同的符号的组合,但是,两者作为解释语言却是等价的,即a2=b2 以及
a3=b3 均可成立,考虑不同语言共同体的文化差异,退一步考虑,至少可视之为是相似的,
即a2≈b2 以及a3≈b3 均可成立。也就是说,我们假设对象语言a1≠b1 是事实,同时,假设
学术论文网Tag:代写论文 代写代发论文 论文发表 职称论文发表
|
本站郑重声明:
1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------