学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 开题报告

基于自然语言处理的文本分类分析与研究(2)


     SVM的主要思想可以概括为两点:首先,它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;再次,它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

3.3神经网络
神经网络(Neural network,NNet)技术是人工智能中的成熟技术。Wiener和Ng曾分别将该技术用于文本分类[1,15,16,17]。神经网络由一组神经元组成,其输入单元通常代表词项,输出单位表示类别或类别兴趣度,神经元的连接权重表示条件依赖关系。对于文本分类,文档向量权重通常作为输入,其训练通常用BP算法来进行,但是时间开销一般很大。

4论文拟研究内容及可行性分析
4.1 研究内容
为了提高检索精度和检索时效,提出了基于自然语言处理的文本分类。这样对文本进行分类能给用户提供很大的帮助,比如一个用户需要了解一些政治的新闻,就可以在有关新闻的文本进行搜索,对检索效率的提高有很大的作用。如图2,展示了文本分类的大致过程。

 图 2 文本分类的过程图
文本分类主要分为三个过程:一、文本预处理;二、使用训练集训练文本分类器并对分类器分类效果进行评估;三、使用分类器对新文本进行分类。
第一阶段,文本本身含有大量的词汇和不规则的格式,并不适合直接对其进行文本分类,文本预处理阶段主要任务是利用自然语言处理技术对文本进行建模,选择和抽取其中信息量大利于分类的词汇来表示文本。
第二阶段,需要已经标注类别标签的文本集合,并划成两块,一块作为训练集并利用分类算法训练分类器,使得分类器能尽量识别特定类别的文本特征,另一块作为测试集来测试已被训练的分类器的效果,这是一个循环过程,可以按一定的规则划分训练集和测试集不断的训练分类器,不断地对分类器进行评估,直到分类器达到要求的效果,比如较高的准确率。
最后阶段,对新的文本进行预处理,然后利用分类器将新文本归结到某一类别。
在文本分类过程中,需要重点考虑的问题包括:文本的表达方式、分类器的选择及训练、基准平台选择、分类器的结果评价等。
为此,本课题准备从以下几个方面对基于自然语言处理的文本分类进行研究:
(1)深入总结和分析自然语言处理技术、文本分类算法的研究现状,以及文本分类的性能分析。
(2)研究特征选择抽取过程中,以提高特征选择抽取的效率和效果为目的,利用现有的特征选择方法来确定阈值,通过实验确定最佳值。
(3)文本分类的各种技术方法,改进特征降维方法,这样可以提高分类效率。
(4)对于现有的文本分类算法,发现其不足之处,进行改进。
4.2 创新点
文本分类是这个课题的核心任务,主要采用了自然语言处理的方法。这里需要讨论了完成文本分类所需要采用的各种技术方法,改进特征降维方法,以提高文本分类效率为目的来改进当前算法。目前用于将维的思路主要有两种:一种是把特征转换到新的特征空间,即计算旧的特征的某种函数,形成新的特征,例如LSI(Latent Semantic Indexing);另一种是从原始的特征空间中选取一个子集即,特征选择[19]。主要是要更新特征空间,找出新的特征值。降低文本分类算法的时间复杂度,为用户提供更快捷的服务。
4.3 可行性分析
本文采用了自然语言处理的技术进行文本分类,对其预处理后,利用BP神经网络具有的函数逼近功能,训练出一个适合的BP网络,文档所有关键词的权重向量,计算出该文本与某类别的相似度。通过学习,归纳和更新用户模型,对分类结果进行优化,可以更加准确的理解用户需求,使检索结果更加准确,检索更加快速。虽然硕士学位论文研究阶段可能存在多种技术难关;但是考虑到也有可利用的条件、技术、可参考的文献资料,所以本课题的研究是可行的。
5 时间安排
2009年8月~2009年10月:文献收集与文献调研
2009年10月~2009年11月:文献泛读、拟写开题报告并开题。
2009年12月~2010年2月:熟悉编程工具
2010年3月~2010年6月:算法设计和算法实现
2010年7月~2010年11月:学位论文初稿撰写
2010年12月~2011年3月:学位论文修订,论文提交
2011年4月~2011年6月:论文答辩
6 参考文献
[1]Sebastiani F.  A tutorial on automated text categorization[J].  In: Proceedings of Argentinean Symposium Artificial Intelligence(ASAI-99, 1st) Buenos Aires, 1999:7-35.
[2]Maron, M.  Automatic indexing: an experimental  inquiry[J].  Journal of the Association for Computing Machinery, 1961, 8(3):404-417
[3]Cheng Ying, Shi Jiu-Lin.  Research on the automatic classification: present situation and prospects[J]. Journal of the China Society for Scientific and Technical Information, 1999, 1:20-27.
[4]Sparck J K, Willett P, et al.  Readings of information retrieval. San Mateo, US: Morgan Kaufmann, 1997.
[5]Salton G  et al.  A vector space model for automatic indexing[C].  Communications of the ACM, 1975, 18: 613-620
[6]Salton G and Buckley C.  Term-weighting approaches in automatic text retrieval[C].  Information Processing and Management, 1988, 24(5):513-523.
[7]Han Jia-Wei, Meng Xiao-Feng, Wang Jing, and Li Sheng-En.  Research on web mining: a survey.  Journal of Computer Research and Development, 2001, 38(4): 405-414
[8]V.Hatzivassiloglou and K.McKeown.Predicting the Semantic Orientation of Adjectives[C]. InProceedings of the 35th Annual Meeting of the ACL, ,Association for Computational.   Linguistics,Somerset,New Jersey,1997: 174-181
[9]Sebastiani Fabrizio Sebastiani. Machine Learning in Automated Text Categorization. Proceedings  of THAI一99,EuroPeanSymPosiumonTelematies,Hypermedia and artificial Intelligenee.1999
[10]朱德熙,语法讲义. 北京:商务印书馆.1982
[11]俞士坟,计算语言学概论[M]. 北京:商务印书馆
[12]JmaeSAllne著,刘群等译. 自然语言理解[M]. 第二版. 北京: 电子工业出版社. 2005
[13]刘群,计算语言学讲义. 中国科学院研究生院. 2004.www.nlp,org.cn.
[14]张春霞,郝天永. 汉语自动分词研究的现状及困难[J]. 系统与仿真学报,2005,17(1)
[15]Yang Yiming.  An evaluation of statistical approaches to text categorization[J].  Journal of Information Retrieval, 1999, 1(1/2): 67-88
[16]Yang Yiming, Liu Xin.  A re-examination of text categorization methods[J].  In: Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR,99), 1999: 42-49
[17]Aas K, Eikvil L. Text categorization: A Survey.  1999.   http://citeseer.nj.nec.com/aas99text.html.
[18]李凡,鲁明羽,陆玉昌.关于文本特征选择新方法的研究[J]. 清华大学学报,2001, 41(7):98-101
[19]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报,2004, 18(1):26-32.
[20]姚天顺,朱靖波,张俐等. 自然语言理解一一种让机器懂得人类语言的研究[M]. 北京:清华大学出版社,2003
[21]王涛,文本自动文本自动分类研究.图书馆学研究,2007.12
[22]成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,1:20-27
[23]周文霞,现代文本分类技术研究[J],武警学院学报,2007.12
[24]奉国和,自动文本分类技术研究[J],情报杂志,2007.12
[25]崔彩霞,张朝霞.文本分类方法对比研究[J],太原师范学院学报(自然科学版),2007.12
[26]吴军,Google黑板报数学之美系列,http://googlechinablog.com.
[27]刘霞,卢苇.SVM在文本分类中的应用研究[J],计算机教育,2007.1.
[28]都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程,2002, 28(11)
[29]周昭涛,卜东波.文本的图表示初探[J].中文信息学报,19(2)
[30]Baeza-Yates,R.and Ribeiro-Neto. Modern Information Retrieval,1st ed. Addison Wesley Longman, Reading,
MA, 1999.
[31]李莼,罗振声,基于语义相关和概念相关的自动分类方法研究[J],计算机工程与应用,2003.12
[32]单松巍, 冯是聪, 李晓明. 几种典型特征选取方法在中文网页分类上的效果比较[J]. 计算机工程与应
用,2003.22
[33]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings
of the Fourteenth International Conference on Machine Learning(ICML~97),l997


 


学术论文网Tag:代写论文 代写开题报告 开题报告
本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容