150 表2 候选关键词表(部分) NewsID Word PoS Position frequency 1 卫生部 nt 9 3 1 儿童 n 9 7 1 中国 ns 5 4 1 甲型H1N1 n 5 9 1 建议 v 5 1 1 通知 n 5 6 1 下发 v 5 2 1 中新网 nt 5 1 1 流感 n 5 9 1 国家 n 1 1 … … … … … 注:newID—新闻编号;PoS—词性;Position—位置强度(以词语第一次出现的位置为准);frequency— 词频。 155 接下来计算每条新闻中的每个词汇对应的词频因子和位置因子,并进一步计算出每个词 汇在所出现新闻中的权重。按权重大小对词汇进行排序,从中抽取权重较大的前10 个词作 为该条新闻的关键词。 如编号为1 的新闻为2010 年2 月发布在新浪网上的《卫生部:6-35 月龄儿童列入甲流 疫苗接种人群》,其被抽取为关键词的前10 个词汇权重计算结果如表3 所示。 表3 第一条新闻关键词权重抽取结果 新闻编号 词汇 词频因子 位置因子 词汇权重 1 疫苗 0.93 0.28 2.14 1 接种 0.90 0.28 2.08 1 月龄 0.88 0.28 2.03 1 儿童 0.88 0.28 2.03 1 甲型H1N1 0.90 0.17 1.97 1 流感 0.90 0.17 1.97 1 通知 0.86 0.17 1.88 1 人群 0.75 0.28 1.78 1 卫生部 0.75 0.28 1.78 1 列入 0.75 0.28 1.78 165 3.1.2 特征构建 在初建的特征词表中已经根据不同主题对词汇进行了分类,分别为:疾病原理及症状、 疫情报道、防治防控措施、机构和政策法规。通过前面的实验,将从各个主题的新闻中抽取 的关键词对特征词表进行补充。如此经过多次补充完善,即得到甲流事件的主题特征词表, 如表4 所示。 170 表4 事件(甲型H1N1)主题特征词表(部分) 事件名称 子事件名称 主题 特征词 疾病原理及 症状 {病毒,感染,变异,抗体,基因,症状,临床,发热, 高热,体温,感冒,肺炎,重症……} 疫情报道 {死亡,病危,治愈,确诊,疑似,病例,疫情,首例, 新增,爆发,蔓延,传染源……} 防治防控措 施 {疫苗,接种,不良反应,住院,隔离,达菲,副作用, 防治,卫生,消毒,上报,截止,累计……} 突发事件——公共卫 生事件 甲流 机构政策法 规 {卫生部,世界卫生组织,哨点,疾控中心,预警,草 案,管理办法,诊疗方案,医保……} 该表共包含4 个字段:事件名称、子事件名称、主题和特征词。其中前两个字段用于对 事件进行定位,第三个字段用于对主题进行定位,第四个字段是与第三个字段相关的特征词 175 汇的汇总。 通过该表的建立,可以对所选事件的特征有较为清晰的了解,为分析该类事件的新闻报 道的主题提供了一个判断的依据。 3.2 实验分析 一般情况下,对一条新闻进行预处理后,位于新闻标题中的词汇其重要性应明显高于正 180 文词汇,故在“新闻标题能很好概括新闻主题”这一假设前提下,标题词汇应以更高的概率 被抽取为关键词。基于这一点,为了检验本文所提方法的有效性,对全部实验新闻的标题词 汇“漏检率”进行了比较分析。在这里,“漏检率”指标题中词汇未被抽取为关键词的概率。 另外,为了减少同义词(如“甲流”和“甲型H1N1”)的存在对结果的干扰,又引入“调 整后漏检率”的概念,即若未被抽出的某个标题词汇能在抽取的关键词中找到完全可替代的 185 词,则视为已被抽出。漏检率的计算如表5 所示。 表5 新闻标题词汇漏检率(部分) newsID n(title) miss miss-adjusted miss rate miss rate-adjusted 1 8 1 0 0.13 0.00 2 6 3 2 0.50 0.33 3 9 2 1 0.22 0.11 4 7 4 2 0.57 0.29 5 7 4 3 0.57 0.43 注:newID-新闻编号;n(title)-190 分词后标题中保留下的词数;miss-标题中的词未被抽取为关键词的数目; miss-adjusted-对miss 进行调整后的数目;miss rate-miss 与n(tit le)的比率;miss rate—miss-adjusted 与n(title)的比率。 各类主题新闻的平均漏检率(包括未调整和调整后两类)及比较结果如图4 所示。 195 图4 各类新闻标题词汇漏检率比较 从图4 可以看出,各类新闻的平均漏检率均处于较低水平,用本文提出的方法进行关键 词抽取可以收到较为理想的效果。 200 比较不同主题之间的漏检率可以发现,“应对措施”和“中国疫情”两个主题新闻的平均漏 检率明显低于其他类新闻。通过比较各类新闻的特点得到:平均漏检率低的类别中,新闻标 题往往能够高度概括新闻主题;而漏检率高的则相反。本文将这两类新闻分别定义为“主题 凝聚”类和“主题发散”类,主题越凝聚,漏检率越低,关键词抽取效果越好。这一结论也 与我们的直观判断相一致。 205 另一方面,特征模板构建也达到了良好的效果,通过多次训练使得特征词表的结构更加 完善,特征词汇量也更加丰富。在很大程度上弥补了因缺乏主题所属领域专业知识而造成的 错误、遗漏和片面。 但同时,实验过程中也发现了两点问题:一是由于同义词的存在而造成的关键词冗余及 语义重复;二是由于无特殊含义普通词汇(如“人”)的大量存在而导致新闻向量维度过高, 210 并使这些词易被作为关键词抽取出来而影响主题特征模板的精确性。在进一步的研究中,可 以通过建立同义词库,引入语义,改进文本预处理程序等方法来降低这两类问题所带来的影 响。 4 结论 本文以Web 新闻为研究对象,提出了面向主题的关键词抽取方法和特征构建机制。并 215 选取了当前的研究热点——突发事件中的热点主题,通过实验验证了应用所提出的方法能够 达到较为理想的关键词抽取和特征构建效果,同时也通过对Web 新闻特点的分析提出了主 题凝聚和发散的概念,可以作为依据对关键词抽取结果进行解释。 虽然算法取得了理想的效果,但是也存在关键词冗余的问题,使用同义词表可能会有效 的解决这个问题,另外,不同类型突发事件Web 新闻特征具有很大的差异,为了提高突发 220 事件主题检测和跟踪的效果,使用本文提出的方法构建不同类型突发事件特征词库也是下一 步的研究方向。 同时,面向主题的Web 新闻挖掘是一个需要结合领域内专业知识来进行的研究,因此 跨学科合作也可作为未来研究的发展方向之一,这将会产生更大的实用价值和现实意义。 学术论文网Tag:代写硕士论文 代写论文 代写MBA论文 代写代发论文 代写职称论文 论文发表 |