基于情感主题的博客性别分类模型# 王昊,杨亮,林鸿飞** 基金项目:国家自然科学基金资助项目(编号:60673039,60973068)、国家863高科技计划资助项目(编号:2006AA01Z151)、教育部留学回国人员科研启动基金和高等学校博士学科点专项科研基金资助课题(编号:20090041110002) 作者简介:王昊(1986-)男,研究生,研究方向为情感计算 通信联系人:林鸿飞(1962-),男,教授,主要研究方向:搜索引擎,文本挖掘,情感计算和自然语言理解. E-mail: hflin@dlut.edu.cn (大连理工大学 计算机学院) 5 摘要:随着互联网的发展,博客已经被广大用户熟知,大型的门户网站以及SNS网站都拥有自己的博客空间。在学术界博客也成为研究是热点,博客性别分类是博客研究的重要组成部分。本文提出了基于情感的博客分类模型,通过情感主题来分析解决博客性别分类问题。该模型首先给出了一种基于LDA的情感词扩展方法;其次利用WordNet-Affect的情感词以及扩展的情感词,通过LDA模型给出了男性和女性的情感主题并提出了筛选情感主题的方10 法,得到更有性别区分度的情感主题;最后,通过情感主题与内部词典给出了模型的性别计算公式。实验表明,情感主题有助于提升博客性别分类结果。 关键词:自然语言处理;博客性别分类;情感主题;LDA模型; 中图分类号:TP391.1 15 A Blog Gender Classification Model Baed on Sentiment Topic Wang Hao, YangLiang, Lin Hongfei (School of Computer Science and Technology,Dalian University of Technology) Abstract: As long as the development of Internet, bolg is more and more popular. Web portal and 20 SNS platform always has their own blog space.Researchers are also very interested in blog while blog gender classification is an important part of blog research. This paper provides a blog gender classification model based on sentiment topic. First,the model provides a sentiment extension method based on LDA, then sentiment topics of men and women are proposed using LDA while a selecting method is also proposed to get the useful topic.At last the blog gender classification 25 model is provided by mixing sentiment topic and inside dictionary. The experiment result shows that sentiment topic is useful to advance the blog gender classification result. Key words: Natrual Language Processing ;Blog Gender Classification; Sentiment Topic; LDA Model 30 0 引言 博客来源于英语的Blog,又被译为部落格、网志等。博客是一种由个人管理、不定期张贴新的文章、图片或影片的网页或线上日记,用来抒发情感或分享资讯[1]。博客一般根据发布的时间,以倒叙的方式由新到旧排列。 随着互联网的不断发展,博客已经为大众普遍接受和熟悉,目前中国的著名的门户网站35 如新浪,网易,搜狐等都拥有自己的博客空间,同时如facebook,人人,朋友网等SNS网站也都有博客功能。 在学术界,博客也成为一个重要的研究对象。其中,博客性别研究也成为一个比较热门的研究方向。Carl J. Case等人在收集的博客语料上通过语义分析、词汇分析、情感分析等手段研究男性和女性对事件的认知[2];Cory L. Armstrong等人研究了性别怎样影响人们对博客 40 内容的认知和信任[3];William Gauvin等人研究和分析了在MySpace上博文发布的特点[4]。 在性别分类方面,Xiang Yan等人通过朴素贝叶斯的方法预测博主的性别[5];Bing Liu提出了POS序列的模板以及一种新的特征选择特征的方法,在传统的博客分类方法的基础上有效的提高了准确率[6]。 45 本文采用了Bing Liu在网络上公布的实验数据集,提出了情感主题的概念,并且通过情感主题,内部词典与写作风格建立基于情感主题的博主写作模型,通过博主写作模型对博主进行性别分类,取得了与Bing Liu近似的结果。 本文按照如下方式组织:第1节描述涉及到的相关工作,包括wordnet以及LDA模型;第三节介绍博主写作模型,包括情感主题,内部词典和写作风格;第四节总结工作并讨论下50 一步的研究方向。 1 相关工作 1.1 WordNet-Affect WordNet-Affect是WordNet Domains的一个扩展,它主要包括了一个表达情感的语义的子集[7]。类似于WordNet Domains,WordNet-Affect是在WordNet原有的基础上增加了情感55 的标签。 在WordNet-Affect3.2版本中,情感分为positive-emotion、negative-emotion、neutral-emotion、以及am biguous-emotion四大类,同时,四大类又分为32个小类(对应四大类情感小类的种类分别为13,10,2,7),每个小类又可以分为数个小类。WordNet-Affect的层次结构如图1所示(图1以情感joy为例显示部分层次)。本文采用WordNet-Affectd60 的二级分类,即四大类下的32小类作为情感标签。 图1 WordNet-Affect层次图(以joy为例) Fig. 1 Schematic diagram of WordNet-Affect(joy as an example) 65 1.2 Latent Dirichlet Allocation(LDA)模型 Latent Dirichlet Allocation(LDA)模型由Blei等在2003年提出[8],属于概率主题模型(Probabilistic Topic Models)的一种。概率主题模型的基本思想是:文档是由不同主题构成的,概率主题模型[9]。这些概率主题模型的主要区别在于统计的估计不同。 1.2.1 LDA模型的组织 70 LDA是一个多层的产生式全概率生成模型,是典型的有向概率图模型,是一种对文本 数据的主题信息进行建模的方法 [10],包含词,文档,主题,三层结构(如图2所示)。其中,α,β是dirichlet分布的参数,在模型中,α可以理解为在文档中的主题未被指定之前,主题在文档上的先验分布;β可以理解为在所有的词在预料中被观察之前,主题中词的分布[9]。θ代表文档-主题(doc-topic)分布,z代表主题-词分布,θ和z都是隐含变量。w是观察75 到的词,是显示变量。N代表文档的总个数,Nd代表文档中词的总个数。 图2 LDA模型 Fig.2 LDA Model 1.2.2 LDA模型的估计 80 LDA的估计方法有多种,在模型提出时采用的是EM算法,目前比较常用的是Thomas L.Griffiths等提出Gibbs抽样算法[11]。Gibbs采样是MCMC方法的一种特殊形式,它的前提是N维目标分布的任意一维可以由其他N-1维的数据计算得到[12]。 Gibbs采样的过程是对每一维利用其他N-1维计算该维度的值,计算完毕之后,将该维度的值实时更新。也就是说在一个迭代过程中,迭代采用的值是实时变化的,比如在第一次85 迭代中,在计算第2个维度的值时,计算采用的第1维的值是刚刚更新过的。Gibbs采样在采样值符合目标分布时终止,在应用过程中更多的是通过指定迭代的次数终止。 在利用Gibbs采样估计LDA模型时,Thomas L.Griffiths利用(1)来进行迭代。 ,,11(|,,,)iiWTDTwjdjiiiWTiWTDTwjdjwtCCPzjwdCWCTz (1) 在(1)中,izj代表了主题j中 词i的概率,iZ 代表了其他所有的词的概率,“⋅”90 代表了除了词i和文档i之外所有的观察到的信息。WTC和DTC是W*T和D*T的矩阵,存储的是词w被指派到主题T的次数以及文档D中被指派到的主题T的词的个数。1WWTwjwC指的是不包含当前词i之外的所有词被指派到主题j上的次数。1TDTdjtC值的是不包含当前文档i的所有文档中,被指派到主题j的词的个数。 2 基于情感的博客写作模型 95 2.1 Latent Dirichlet Allocation(LDA)模型 情感充分存在于我们的日常生活和写作中,但是由于情景不同,资源的限制,在一些文本中并没有含有情感词,但这并不代表该文本不含有情感。为了解决文本中情感词稀疏的问题,本文提出了一种基于LDA的情感词扩展方法。 本文采取含有情感词个数超过20个作为目标文本。对目标文本的处理流程如下:首先,100 将文本进行词干化处理,这可以在很大程度上减少稀疏性,使得聚类结果更优质;其次,将 z w NN Nd dd 对应的情感词换成它们对应的类别,如图3所示,将文本中funny的换成对应的情感general-dislike。第三,对应输入好的文本利用LDA模型进行分析,得到主题和对应的主题词的概率。 105 图3 LDA预处理示例 Fig.3 Example of LDA preprocess 由于在输入时把词替换成相应的情感类别,情感类别更容易在聚类的某个主题中拥有高的概率。在得到的主题中,当概率最大的主题词为情感类别时,可以认为该主题拥有了某种110 情感,那么在该主题中出现的词也会带有这种情感。我们采用32维(情感类别为32种)的向量来描述扩展的情感词。 每个主题的主题词概率之间的差别也被考虑在内,本文通过公式(2)计算主题词阈值。其中,topic_pro是当前词的主题概率,topic_pro_max是当前主题中主题词最大概率。阈值ε满足条件(这里取ε>=0.1)时,将对应的概率(topic_pro)加入该词的32维的情感向量。115 在处理所有主题之后,我们选取32维中值最大的维度作为该词的情感。 ___maxtopicprotopicpro (2) 2.2 情感主题 在日常生活中人们往往以符合的形式表现情感。比如在汉语中:“哇,这真是一个惊喜”。或者在英语中:“It’s beautiful. How extraordinary”。本文将这种情感的组合形式称为“情120 感主题”。Yashar Moshfeghi等在改进协同过滤时,加入了情感主题的信息,得到了比较好的效果[13]。他们在论文中采用的是OCC体系,通过语义网络得到情感。本文更关注情感词,采用的是WordNet-Affect。 2.2.1 情感主题模型 情感e是可以直接观察到的,因为情感e由情感主题产生,所以情感e可以通过情感主125 题T的概率以及情感主题与情感的联合概率求得(公式3所示)。这样模型被抽象为情感-情感主题,与情感主题-文档两个矩阵,满足概率主体模型的定义。本文采用LDA对情感主题进行建模。 1()(|)()TiijPePetjPtj (3) 具体的流程为:首先,把所有的文档按照扩展的词典抽取情感。其次,将抽取出的情感130 按照男性和女性分别存放于两个文档,第三,对这两个文档执行LDA模型进行建模,得到情感主题。 2.2.2 情感主题的筛选 得到的主题有很多种,为了情感分类本文需要对得到的情感主题进行筛选。这种筛选可以理解为:情感主题中,有一些是男女共有的相似的情感主题,有一些是男女各自不同的主135 题。为了完成性别分类的任务,男女各自不同的主题需要被关注和抽取。 抽取情感主题主要通过训练集来实现,利用训练集存在的类别标签,判断主题是否拥有 holidai sneer alwai general-dislike to me when people Holiday Sneer always funny to me when people 性别分类的能力,如果满足阈值条件,该主题就被记录,被情感主题的分类算法调用。因为分布间的距离越小,说明两个分布越相似,因此,本文采用主题和训练样本中不同于主题情感的所有文本的平均值与主题和训练样本中相同于主题情感的所有文本的平均值的差来表140 示主题的区别,并将求得的差与相同情感文本的平均值做比值得到主题的性别区分度θ,具体如公式(4)所示。 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |