重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425
Web新闻关键词抽取与主题特征自动化构建研究
Web 新闻关键词抽取与主题特征自动化
构建研究#
单艳雯,刘鲁,刘志明*
基金项目:国家自然科学基金课题(No. 90924020),教育部博士点基金(No.200800060005)课题
作者简介:单艳雯,女,硕士研究生,主要研究方向:电子商务,数据挖掘. E-mail: buaa35082106@126.com
通信联系人:刘鲁,女,教授,博士生导师
5 (北京航空航天大学经济管理学院,北京 100191)
摘要:将词汇位置信息引入权重的计算过程,提出了基于位置重要性的Web 新闻关键词抽取
算法。进一步,将算法引入Web 新闻主题特征构建框架中,提出了面向主题的Web 新闻特征
自动化构建框架。使用突发事件“甲型H1N1”Web 新闻报道对本文提出的算法和框架进行了
实验分析,实验结果验证了本文提出方法的有效性。
10 关键词:Web 挖掘;关键词抽取;特征构建
25 0 引言
如今,互联网已经成为一种快速高效且覆盖面广的传播媒介。但对于某一特定事件来说,
相关的新闻报道很容易被淹没在大量网站的海量新闻数据中,很难加以充分分析应用。新闻
报道能够很好地反映一个事件的发展态势,如能将海量的突发事件Web 新闻利用起来,寻
找其特征,研究其演化趋势,将会为突发事件的检测、监控、跟踪和预警以及应急措施的及
30 时制定带来便利,也可以达到辅助新闻监管及掌握网络舆情发展态势的目的。因而面向主题
的Web 新闻挖掘是一个具有极大现实意义的研究领域。
每条新闻都有要表达的主题,而在构成一条新闻众多的词汇中,仅有少部分词汇表达的
意思直接与主题相关,这些词汇即构成该主题的特征。本文对面向Web 新闻主题的关键词
抽取方法与特征自动化构建机制进行了研究,并用实验验证了所提方法的有效性及可行性。
35 本文第1 节引入了一种Web 新闻关键词抽取算法以及权重计算方法;在此基础上,第
2 节提出了一种Web 新闻的特征构建框架;第3 节是实验验证,以公共卫生类突发事件—
—甲型H1N1 流感为对象,进行了该类事件新闻报道的关键词抽取和特征构建,并对实验结
果进行了综合分析;最后进行总结并提出了进一步的研究方向。
1 基于位置重要性的Web 新闻关键词抽取
要40 构建面向主题新闻报道的特征首先关键的一步是从新闻文本中抽取能够代表主题的
关键词。
目前在文本特征词抽取领域已有多种方法被提出并被不断完善,如基于特征相关性的方
法[1,2],基于PAT 树的方法[3],基于遗传算法的方法,基于语义的方法等。而基于权重评价
函数的方法因其简便直观高效的特点而被广泛关注和应用[4]。该方法通过确定候选词的权
45 重,从中筛选出权重较大者作为关键词。因此,候选词权重的确定就成为关键词抽取的核心。
常用的权重函数多只考虑了词频因素(如布尔权重、TF-IDF 权重、熵权重等),而没有考
虑位置因素。
但在一篇新闻报道中,处于不同位置的词汇其重要程度可能具有很大差别,如标题和摘
要中的词语应该比正文中的更接近新闻的中心思想。本研究采用的方法综合考虑了词频和位
50 置两个因素,应用非线性函数和成对比较判断矩阵相结合的方法[5]计算词汇权重,继而抽取
每篇新闻的关键词。
1.1 构造权重函数
算法考虑词频和位置两个因素,构造权重函数公式(1):
i i i weight = α × fre + loc (1)
其中, i weight 表示某个词语i 的权重, i fre 表示词语i 的词频因子, i 55 loc 表示词语i
的位置因子,α 为词频因子和位置因子的调节因子。
1.2 确定函数因子
1.2.1 词频因子的计算
采用非线性函数方法[6]来计算词频因子,如公式(2)所示:
i
i
i f
fre f
+
=
1
60 (2)
其中, i f 表示词语i 在一篇文章中出现的次数。
应用这种方法既保证了词频因子可以随词频的增加而逐渐上升,又使上升速度不会很
快,比线性方法更符合实际情况。
1.2.2 位置因子的计算
65 在确定多个影响因子对目标的影响比重时,遇到的主要困难是这些比重常常不易定量
化。此时可以采用构造“成对比较判断矩阵”(简称判断矩阵)的方法。本文便采用该方法
来确定函数的位置因子。其思想是:设要比较n 个因素对目标Z 的影响,每次取两个因素i、
j,用ij a 表示i、j 对目标的影响程度之比,由ij a 构成一个两两比较的判断矩阵ij n n A a × = ( ) ,
通过计算矩阵的特征向量得到每个因素在目标中所占的比重。
70 新闻报道中词汇的位置对词汇反映新闻主题程度的影响也与此类似。通常认为标题中的
词比正文中的词明显重要,而摘要、结论中的词比正文中的词略微重要。接下来就可以用“成
对比较法”将这种由词汇位置决定的重要程度进行量化。其步骤如下:
i. 确定词汇强度
关于如何确定ij a 的值,Saaty 等建议引用数字1~9 进行度量[7]。他们认为,在成对比较
时,用5 种75 判断级较为合适,即相等、较强、强、很强、绝对强表示差别程度,相应地取1,
3,5,7 和9。
本文设定新闻标题、摘要和正文中词汇的强度分别为9、5、1。对于没有摘要的新闻,
将正文第一段作为摘要赋予强度5,正文除第一段外的其他段落赋予强度1。
ii. 生成成对比较矩阵
80 成对比较矩阵中的每个元素代表两个词在反映主题时重要性的比值。设任意两词的重要
性之比等于它们的词汇强度比,如:词i 强度为5,词j 强度为1,那么= 5 ij a 。这样每篇
文章就对应生成了一个矩阵ij n n A a × = ( ) ,即词汇位置强度的成对比较矩阵。
iii. 计算位置权重
用上述方法生成的矩阵为一致性矩阵,即ij jk ik a ⋅ a = a ,此时,求出矩阵的主特征向量
85 便可得出元素的位置权重向量[8],其各个分量即为所对应元素的位置因子。
1.2.3 确定调节因子
过去的研究表明,作为调节词频因子和位置因子关系的调节因子α 取2 时实验效果较
为理想[5]。因此本研究在实验过程中将α 取值为2。
1.3 计算词汇权重
90 在通过上述步骤确定了权重函数中的各个因子之后,利用公式(1)即可得出一篇新闻
中各个词汇的最终权重。
1.4 抽取关键词
将一篇新闻中的词汇按照权重从大到小的顺序排列,抽取权重最高的n 个(该数目可根
据研究需要设定)词汇即得到该篇新闻的关键词。
95 2 Web 新闻特征构建机制
2.1 面向主题的Web 新闻特征分析
首先给出本研究中出现的“主题”所指代的意义,即一则新闻报道针对某一事件所阐述
的主要内容。一个事件可以拥有多个子事件,一个子事件又可以拥有多个具有不同侧重点的
主题。“事件”、“子事件”、“主题”这三个概念之间的关系可用图1 表示。
100
图1 概念之间的关系
所谓“面向主题”指研究的对象不局限于事件本身,而是深入到事件的不同主题。以某
105 一事件为报道对象的Web 新闻往往呈现“主题聚集”现象:即在不同的阶段新闻报道的主
题侧重点不同,又可称为随时间的主题演化现象。
以2010 年4 月发生的青海玉树地震为例,其中“子事件”即为“青海玉树地震”,其
所属“事件”为“自然灾害突发事件”。某门户网站制作的针对该事件的新闻专区[9]将新闻
报道主要分为了如下几个主题:最新消息,现场直击,救援情况,伤亡情况,震区故事,分
110 析评论和各方反应等。随着时间的推进,主题的热度不同,发布的新闻数量也不同。
因此,对Web 新闻进行面向主题的特征分析,可以对事件进行持续跟踪,发现其主题
演化情况并预测演化趋势,对Web 新闻的挖掘和应用无疑具有重要意义。
2.2 特征模板设计
基于上述分析,本研究根据Web 新闻报道的特点提出了一种面向主题的特征模板。如
115 图2 所示,该模板由3 个关键字段组成,分别为:事件定位字段,主题定位字段,主题特征
词字段。其中,事件定位字段又可根据需要分为多级子事件定位字段。
图2 特征模板关键字段组成
120
应用特征模板可以有针对性地构建某一类Web 新闻报道的模板,并以特征词表的形式
进行表示和存储,从而可以应用其对该类新闻进行搜索、数据采集和挖掘。
2.3 特征构建流程
Web 新闻报道的特征构建过程即是以特征词表表示的特征模板的建立并不断完善的过
125 程。具体的构建流程如图3 所示。
图3 面向主题的Web 新闻特征构建流程
该过程以“主题特征词表”为中心,以机器文本处理及关键词抽取过程为重点,通过反
130 复训练使特征词表不断完善,从而构建起面向事件主题的Web 新闻特征模板。
3 实验:算法和机制实现与分析
为了检验本文提出的方法在对Web 新闻进行关键词抽取和特征构建时的可行性和效
果,进行了以下实验与分析。
3.1 实验过程
135 3.1.1 关键词抽取
实验选择了“突发事件”这一近年来被广泛关注和报道的热门事件类型为切入点,选取
了突发事件中“甲型H1N1”这一有代表性的公共卫生事件为子事件(研究对象),以国内
著名门户网站专题新闻中心作为新闻数据来源。
通过分析网站结构将事件主题分为以下几类:(1)头条新闻;(2)应对措施;(3)
140 中国疫情;(4)分析评论;(5)最新消息(2010 年4 月到6 月间发布);(6)固定时间
段抽取(本实验选择了2009 年10 月12 月,因为这段时间内甲流在我国开始被大规模关注
并产生了大量报道)。各类主题对应抓取的新闻条数如表1 所示。
表1 新闻主题及抓取的新闻数
主题 新闻数
头条新闻 18条
应对措施 14条
中国疫情 12条
分析评论 40条
最新消息 22条
2009.10.1~12.31 12 条
145
在特征词表初建阶段,通过分析公共卫生类事件新闻报道内容特点,以及参考国家颁布
的权威性政策法规(如《国家突发公共事件总体应急预案》),初步人工建立了公共卫生事
件特征词表。用该词表对分词库进行扩充,以提高机器分词精度。
经过计算机文本预处理,每条新闻均对应得到一张候选关键词表(如表2 所示)。
学术论文网Tag:代写硕士论文 代写论文 代写MBA论文 代写代发论文 代写职称论文 论文发表
|
本站郑重声明:
1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------