基于自然语言处理的文本分类分析与研究
1项目的立项依据
1.1 课题研究的背景
随着信息技术尤其是Internet相关技术的发展与成熟,Internet、企业内部网和电子图书馆中可获得的信息越来越多并且还在不断增长。面对海量信息,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源。信息是什么,如何多快好省的存储信息,处理信息,传输信息和利用信息;围绕信息有一系列需要研究的科学和工程问题。而且,研究的成果直接与人们的工作生活息息相关。这个课题的背景就是如何利用信息方面。
信息的利用包括众多方面,比如图像处理技术帮助医务人员从医学影像中获得更多有价值的知识帮助诊断,数据挖掘在金融领域帮助从业人员从已有的股票数据中获得某种模式,分析影响走势的因素,模式分别在航空航天以及信息安全中的应用,都是利用计算机技术帮助信息在各个应用领域能够被充分的分析,充足的应用,从而分析的发掘信息的价值。计算机处理过的信息必须经过筛选,挖掘和分析,才能被充分利用,产生效益。这个课题的应用背景之一便是在网络世界中,从动态变化,海量大小的网页中获取信息,按用户的需求尽量准确的呈现给用户。这和当下搜索引擎的目标是一致的。搜索引擎拓展了传统的信息检索(IR , Information Retrieval),因为传统的检索是在相对静止的文档库中进行,文档库的组织形式规范(很少存在文档间的链接),并且容量不太大,而且信息的形式主要是文本,不涉及图像、声音等多媒体信息。互联网上的搜索引擎还要考虑在大量用户的时变检索需求下,能够以用户可以接受的时间,将符合用户检索需求的网页返回给检索用户,同时希望这个返回的网页列表尽量满足用户的信息需求。总之,就是在海量的,不断变化的网页信息库中,在尽量短的时间里返回尽量准确的网页列表给用户。
1.2 课题研究的目的和意义
随着Internet的飞速发展,网上电子文档和电子邮件的信息量成爆炸趋势,大规模的文本处理已经成为一个挑战,而文本自动分类是将文本划分到预定义的类中,帮助人们检索、查询、过滤和利用信息的有效手段。这里主要讨论文本分类的一般过程,在自然语言处理技术的基础上,使得用户能够迅速找到自己所需要的信息资源。随着信息技术的发展,互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类(text categorization,简称 TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20 世纪 90 年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。
.
1.3 文本分类研究现状
随着信息技术的进步和网络的不断扩大,信息资源在全球范围得到了共享。为了更有效地利用资源,我们必须对这些资源进行分类以便用户查询。文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法, 最初的文本分类是依靠专家手工进行的,它对领域知识要求较高且花费巨大,不能满足大规模文档处理的要求。文本自动分类能较好地解决大量文档信息归类的问题并可以应用到很多情况下,包括基于受控词典的文档自动索引、文档过滤、元数据的自动生成、词义辨别、类似于Yohoo!的 Web资源层次分类等,它是很多信息管理任务的重要组成部分[1]。
在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别是Internet上在线文本信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。但是,随着信息量日趋丰富,人们对于内容搜索的准确率、查全率等方面的要求会越来越高,因而对文本分类技术需求大为增加,所以一个有效地文本分类系统是很重要的。
自动分类研究始于50年代末,H. p. Luhn在这一领域进行了开创性的研究。1961年,Maron发表了有关自动分类的第一篇论文[2],随后许多著名的情报学家如Sparck、Salton等[3~6]都在这一领域进行了卓有成效的研究。到八十年代末之前,有效的建立自动分类系统的方法大多是知识工程的方法,即利用专家规则来进行分类;到了九十年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法;机器学习方法较少考虑文本的语义信息,因此将语义分析和概念网络等方法与机器学习方法相结合会取得更好的分类效果。Web文档中包含了链接、文档结构等更丰富的信息,利用这些信息进行Web文档的挖掘和分类[7]是目前研究的热点之一。
2基于自然语言处理的文本分类的基本概念和实现过程
2.1 自然语言处理(Natural Language Processing,NLP)
自然语言处理技术被用来对自然语言进行处理,目的是让计算机“理解”自然语言的内容(NLP的基本处理模式如图1所示)。
图1 NLP的基本处理模式
分析器对输入字符串的词汇、句法特征作出描述,并用结构表达式给以记录,同时将语义赋给这些结构式。分析器本身可由不同的子分析器组成,或自顶向下,或自低向上,分别对词汇、句法、语义进行逐层分析。
词典是一个词汇的集合。一般由词根和词缀组成,按一定规则与输入的词汇匹配,并将其携带的句法、语义或语用信息赋给输入词,这些信息在确定词汇在句中的句法和语义功能方面起着重要作用。
分析器是 NLP的核心。根据不同的分析方式,把NLP的分析技术分为四类,即模式匹配分析技术、句法-语义分析技术、基于知识的分析技术和基于语料库的分析技术。
自然语言处理包括自然语言处理技术和自然语言处理资源。信息检索中常常使用到的自然语言处理技术包括去除停止词、取词根、词性标注、词义消歧、句法分析、 命名实体识别、 指代消解等, 自然语言处理资源包括的则是WordNet和HowNet这样的词典。
自然语言处理技术最大的难点在于自然语言中有各种级别的歧义难以消除,包括词汇级别、句法级别和语义级别。歧义的存在使计算机在“理解”自然语言时发生了困难,并很可能出现了错误。所以图1中分析器是自然语言处理的核心,只有这个过程处理的效率高对于文本分类才有很大的帮助。也就是说自然语言处理技术的发展可以促进文本分类的发展。
2.2文本分类
文本自动分类是分析待定文本的特征,并与已知类别中文文本所具有的共同体征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。
也就是将大量文本文档划分为若干组,每组一个类别,使得各个类别代表不同的概念主题。这种分类通常是一个有指导的学习过程。它根据一个已经被标注的训练文档集合,找到文档体征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。
2.2.1 文本分类的定义
定义:是文本自动分类(ATC, Automated Text Classification)的简称,是指用计算机程序自动确定指定文档和预先指定类别的隶属关系[8]。比如指定一篇文本属于体育类别,或者属于音乐类别,政治类别等预先设定好的一个或者多个类别。
完成文本分类主要有三大思路。一种最直观的方式是简单的匹配,比如某文本中类别词出现多就认为属于这个类别,这种方法比较粗糙,因为往往类别词是“元数据”性质的,因此并不一定会多次出现在属于这个类别的文本中。比如政治类别的文章可能很少出现“政治”这个词。因此,第二种方法发展了第一种方法,统计类别元素下专家认为可能出现的词,认为如果这些词出现的次数多,则相应文本属于这个类别。可以认为这是一种基于规则的知识工程的方法,规则由专家制定,制定过程繁复并且容易出错,成本也很高。因此现在广泛采用的方法是统计学习的方法。这里也是采用这种机器学习的方法,同时,结合自然语言处理的技术来完成文本分类。
文本分类所针对的文本在使用的语言上有单一语种或者交叉语种的情况,在这里研究的是在单一语种情况。而且不同语种的文本分类在预处理阶段的工作略有不同,会涉及到采用不同的自然语言处理技术。本文工作是针对汉语文本进行,因此需要先对文本进行分词。
2.2.2 文本分类的一般过程和框架
文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。本分类系统的总体框架如图2所示,其主要功能模块为:
(1)预处理:将原始语料格式化为同一格式,便于后续的统一处理;
(2)索引:将文档分解为基本处理单元,同时降低后续处理的开销;
(3)统计:词频统计,项(单词、概念)与分类的相关概率;
(4)特征抽取:从文档中抽取出反映文档主题的特征;
(5)分类器:分类器的训练;
(6)评价:分类器的测试结果分析。
图2 文本分类系统的总体框架
3基于自然语言处理的文本分类关键技术
3.1 文本预处理技术
在这个过程中就要应用到自然语言处理,对文本进行预处理,文本预处理即去掉一些文本标记,在英文中包括去除禁用词,词根还原等,在中文中包括词性标注,一般选择名词作为特征项,因为名词包含丰富的信息量。主要任务包括:文本建模、特征选择和抽取。
3.2 文本分类的主要算法
(1)原型法文本分类算法,构造每个类的原型向量,分类时分别计算待分类文本与每个类原型向量的相似度,相似度最大的类即为文本对应的类该方法训练于分类时间较短,效果一般,是一种比较简单的分类方法。
(2)SVM分类方法
Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到 使用非线性函数中去,这种分类器被称为支持向量机(Support Vector Machine,简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。
学术论文网Tag:代写论文 代写开题报告 开题报告
|