支持下建构起语言科学的形式化理论大厦;同时,另一方面也为在标准化与个性化结合形成 的协同智能计算系统支持下显著地改变“言”和“语”的教学、研究和服务(即运用或应用 “言和语”服务于各领域诸方面,其中包含机器翻译这样代表自然语言处理与理解的典型)。 当然,笔者必须有支持上述确信的置信态度以及一系列相应的取值措施,即:可对语言 215 和言语两类杂多集合进行理想分类的形式体系——单一集合、分层集合、标志集合。同时, 还有学界专家乃至高年级的普通大学生都看得明学得会的计算机辅助解释和翻译工具平台。 它是有明确的系统工程蓝图(并有配套的技术措施和计算机辅助教学与分析)作为指导的。 图5 以汉字汉语为示例而描述的基因文本和文化基因系统工程蓝图 220 由图5可见,汉字汉语有两类基因文本,即:可视为子全域元素的汉字基本笔画和汉语 单音节字,其特征是可且易枚举,这是简单的基础文本;而可视为超子域元组的汉字及偏旁 部首和汉语的言即字和语即各级字组(繁杂的衍生文本),其特征是经过理想分类之后置于 孪生图灵机双列表中不仅可能而且容易进行有针对性地搜索。笔者凭什么能这么说呢? 225 不仅凭借图5所述的文本基因系统工程蓝图可得到最优化的数据结构类型与最好算法 的配套支持,例如:图5已经告诉我们这样几个道理:它揭示了“全域=子全域+超子域” 及“目标域=已知域+未知域”这样的可最优化的数据结构类型——采用间接形式化方法, 并指明了“未知域=目标域-已知域”这样的可导向最好算法的间接计算模型及其收敛策略。 前一个公式描述的是理想分类集,后两个公式描述的是广义和狭义的信息方程。其中,根据 {基本笔画}可构造{230 各类偏旁部首}进而可构造{单音节字},根据{单音节字}可进一步构造 {各级字组}。而且,上述两类汉语文本基因构造原理如结合下述孪生图灵机(图6)和理想 分类集(图7),便可导出一套高效处理图5所述基因文本的协同智能计算系统方略。 下面笔者以中文信息数据结构优化处理为例来介绍一个实用的虚拟孪生图灵机实施例。 它是一个典型的协同智能计算系统。其基础和核心就是笔者结合中文信息处理的实际需求而 235 构造的一个基于间接计算模型和间接形式化方法相结合的协同智能计算系统程序数据库。因 其良序化数据结构蕴含着很好的算法,所以,汉语的单音节字和由它组合衍生的各级字组, 一方面,可发挥计算机处理标准化形式信息自动生成的优越性;另一方面,又可发挥自然人 熟悉个性化形式信息处理的习惯,即可从自动采集的数据中进一步选出汉语使用者普遍认可 的语辞(相当于英语的词和短语或词组)作为解释汉语单音节字即言的各义项的用例字组, 240 作为进一步进行计算机辅助教学、研究或分析的自动计算和统计基础。 图6 已实现的间接形式化的言(字)和语(字组)的关系数据库直观示意图 由图6可见,左边呈现的是可并行计算的一系列虚拟孪生图灵机,中间呈现的则是可且 245 易计算的矩阵及线性方程组,右边呈现的是已经实现间接形式化的言(字)和语(字组)及 其相互关系。具体说明如下:首先,在图6所示的数据库中,目标域不仅实现了言(字)和 语(字组)及其相互关系的间接形式化,而且,可随时方便进行间接计算——无论是枚举, 还是搜索,都准确而高效。也就是说,图6所表示的协同智能计算系统,不仅其“检全率” 和“检准率”均有质量保证,而且其“重用率”的计算和统计也是十分方便、准确和高效的。 250 如果说前述图5是从宏观上把握言与语、字与文的关系的文化基因系统工程蓝图,例如: 由图5可见,汉语有两个子全域,也就是说,汉语的文本基因元素类的取值有二,即:文本 基因元素集合1={笔画},文本基因元素集合2={单音节字};英语的文本基因取值仅有一, 即:文本基因元素集合1={字母},那么,上述图6就是从微观上解析言与语、字与文及其 相互关系的基因文本数据库(加上相应的个性化界面和具体而有针对性的调用程序即系统), 255 例如:由图6可见,汉语的文本基因元素集合2={单音节字}即有穷集合所具有的排列组合, 借助“言2=词”以及“语1=短语”使用频率统计,可有效地收敛成为文本基因元素组合类 ——相对有限的文本基因元组类,其进化发展阶梯各个层次的具体形式(简称:进阶层式) 即{二字组},{三字组},…,{多字组},诸=均为相对有限集的取值或用户选择频率的记录 数据。这样,整个语言学的研究对象也就可由三类理想的集合划分而变得易于对之进行科学 260 记录,从而,也就更便于对之做进一步的技术处理和针对用户个性化需求的相应艺术处置。 为表述方便和理解容易,下面笔者仅以二进制数为例来描述三类次一级的理想集合。 图7 理想分类集的直观示意图 265 由图7可见,笔者对Σ * = {ε , 0, 1, 00, 01, 10, 11, 000, 001, 010, 011,…}[7]所做的理想 分类,即:单一集合、分层集合、标志集合以及原先不做这样进一步细分的杂多集合(即: Σ *)。以二进制数为例来描述理想分类集,不仅可以揭示其中蕴含的信息基本定律假说, 而且,还可以通过这种细分为进一步最优化各类数据结构提供一种切实可行的方略,更重要 的是:这样论述理想分类集可以做到言简意赅。例如,把图5 与图7结合就可描述由子全域 270 元素构成的单一集合与由超子域元组构成的分层集合从抽象而转化为直观的文本基因序列。 以此类推,也就易于理解把由图7所示的由子全域元素构成的单一集合:二进制数{0,1}推 广至十进制数{0,1,2,3,4,5,6,7,8,9}以及英文字母{a,b,c,d,e,f,g,h,I,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z} 乃至中文{笔画}和{单音节字}等等以及基于它们而演绎或衍生的由超子域元组构成的分层 集合。由此可见,这不仅是汉语而且也是其它任何种类的语言实现间接形式化处理的捷径。 275 图8 针对“字、式、图、表、音、像、立体、活体”的间接形式化方法原理示意图 由图8可知,“字、式、图、表、音、像、立体、活体”均可基于双列表而间接形式化。 本文所述的虚拟的孪生图灵机具有(双列)表格化、(左列)数字化、(右列)字组化这样 280 的“三化”功能。图8的“文”即广义文本,“义”即一系列孪生图灵机、双列表、或序位 恒等式所记录或表达的序位关系。由图8所示八类形式信息或广义文本的间接计算原理揭示 它是计算机自动处理和计算机辅助处置的一一条坦途。 4 结论 综上所述,本文报告了一项研究成果,即:在以印欧语言为例的普通语言学里不明确的 285 研究对象,却由于笔者在学习以汉语为例的普通语言学基础研究中探寻如何解决汉语理论界 分别坚持字词本位的两派学者之间的尖锐冲突难题的过程中,运用语言哲学的取值与置信的 基本方法得到了较为满意的分析结果。本报告的研究方法是在以汉语为例的普通语言学基础 理论研究中采用语言哲学的价值判断与置信假设相结合的方法。其中,分别由汉语的言即字 的基本符号对象和语即字组的符号组合解释为例加以说明的部分,就是言本位的核心理论。 290 由于汉语的字所具有的可穷举性以及经过间接形式化途径重新描述之后,其各个义项解释的 用例——字组所具有的可分层性所具有的可且易被重用的特点,致使主体对经过间接形式化 途径重新描述的字与字组关系的选择过程,既便于记录和重用,也便于解释和分析。这样, 就把语言学中长期不明确的研究对象,经过去粗取精、去伪存真的反复推敲,明确地收敛到 语言科学可描述的纯形式技术处理的范围,为灵活解释和严谨分析及艺术处置提供了方便。 295 5 致谢 我们应向对论文有帮助的有关人士或单位表示谢意,他们是美国加州大学贝克莱分校的 信息学院和东方语言系以及哲学系和高等教育研究中心等单位与笔者有过直接交流的有关 学者和技术人员以及行政助理。我们还要特别感谢冯志伟教授和钱冠连教授以及江怡教授, 因为,与他们的交流和对话,促使笔者注意到了取值问题与置信问题及其相互关系问题这一 300 直接影响人机乃至人际之间交流效果的根本性问题。同时,还要感谢已故的徐通锵教授以及 健在的陆建明教授和潘文国教授以及周上之教授,因为,与他们的交流和对话,曾促使笔者 注意到了以汉语为例的普通语言学研究对象存在的问题。还有许多需要感谢的学人,在此, 均一并表示谢意,就不再一一列举了。 学术论文网Tag:代写代发论文 论文发表 职称论文发表 教育论文代写 |