111(1)(,)(1)(,)(1)(,)dssNNdshanjtopicsshanjtopicjjNsshanjtopicjNdisDDNdisDDNdisDD (4) 其中,Ns代表和topic拥有同样情感文档总数,Nd代表和topic拥有不同情感文档的总数。dis()代表文档中情感分布与主题(分布形式)之间的距离。通过公式4可以看出,θ越大,145 说明情感主题对于类别分类的作用越明显。 本文在计算分布之间的距离时都采用香浓公式[14](如公式5所示),香浓距离首先需要确定两个分布的中间分布((P+Q)/2),然后分别计算目标分布P,Q对于中间分布的KL距离(公式6),并把得到的值相加。 (,)(,()/2)(,(/2))shanKLKLdisPQdisPPQdisQPQ (5) 150 ()(,)()log()KLjPjdisPQPjQj (6) 2.2.3 情感主题的分类算法 目标文档与所有的满足筛选要求的男性情感主题与女性情感主题计算分布间的距离,并求出该文档与男性情感主题与女性情感主题的平均距离。通过公式(7),将平均距离映射到0-1的数值上,越靠近0,该文档的作者就越有可能是男性,越靠近1说明该文档的作者越155 有可能是女性。 1(,)||()11(,)(,)||||mfmTshaniimemoTTshanishanjijmfdisDTTscoreDdisDTdisDTTT (7) 其中1(,)||mTshaniimdisDTT代表了文档与男性情感主题的平均距离,1(,)||fTshanjjfdisDTT代表了文档和女性情感主题的平均距离。Tm是男性情感主题的集合,Tf是女性情感主题的集合。D代表了测试文档的情感分布。从公式中不难看出,当文档更趋向女性时,文档与男160 性情感主题的平均距离显然更大,由于分子是男性情感主题的平均距离,因此得分会更靠近1,反之得分更靠近0。 2.3 内部词典 语言心理学中把词在长时记忆中的表征叫做内部词典。内部词典包括语音知识,语法知识,词法知识等等[15]。人们在写作时,基本通过自己的内部词典进行写作,尤其是博客这165 种比较随意的载体。本文主要采用内部词典的词作为特征进行规则分类,主要采用了一元和二元的词特征。 规则分类的流程如下:1)根据训练集中每个特征所在文档统计该词在男性和女性文档中出现的次数。2)通过置信度计算选择公式(公式7),选择那些更能分辨男女性的规则加入 规则库。3)利用规则库进行投票。求出男性规则和女性规则的置信度的和,分别除以对应规170 则总数作为正规化;同时通过公式(8)把内部词典规则投票的结果映射到0-1上,如上文所示,靠近0代表男性,靠近1代表女性。 置信度选择公式如公式7所示,阈值由规则判断正确的文档数和文档总数的比值得到,本文取0.95。 rightsumcountcount (7) 175 内部词典的得分总公式如公式(8)所示,其中j是对应规则的置信度,mR为男性规则集合,fR为女性规则的集合。 1||()11||||mfmRiimdicRRijijmfRscoreDRR (8) 2.4 内部词典 基于情感的写作模型,建立在情感主题模型和内部词典之上,通过对二者结果的线性插180 值,得到博客写作分类模型(如公式9所示)。线性插值参数λ将在实验分析中进行讨论。 ()*()(1)()sumdicemoscoreDscoreDscoreD (9) 3 实验结果与分析 185 3.1 语料来源 本文采用的语料来自BingLiu公布的的英文语料,共有文章3231篇,本文采用10倍交叉验证的方法来选取测试集和训练集。 3.2 情感词扩展的实验结果分析 本文采用Wordnet-Domain以及通过WordNet-Affect的同义关系扩展,情感词共有1291190 个。经过LDA模型扩展之后,情感词增加了904个。可以看到,在选取扩展词时,关于概率值的阈值不会让大量的词作为情感词加入这从一定程度上也减少了噪音的输入。 为了观察在加入了扩展的情感词之后,博客情感分布的情况,本文分别统计了扩展情感词之前博客中的情感分布和扩展情感词之后博客中的情感分布,并用箱图显示这些分布,如图4所示。 195 其中,箱图的底部显示的是情感词的平均数,可以看到,在扩展之前,博客中的情感个数平均为5,扩展之后的结果为41,博客中的情感得到了有效的放大。同时,在扩展之前的箱图的中位线很接近0,这说明在扩展之前的情感分布中,有大量的无情感的博客存在,在扩展之后,通过扩展词典,情感词得到了放大,使得中位线集中在50左右,说明大量的无情感的博客在放大的作用下也带有了情感。本文认为博客中都带有一定的情感,所谓的“无200 情感”不是没有情感,而是情感比较弱,为了找到男性和女性的情感主题,需要把这些微弱的情感进行放大。 放大情感主要产生了两个有益的结果,一是给更多的无情感博客的带上了情感,解决了 情感稀疏的问题,第二是更多维的情感更有利于LDA模型进行学习。 同时,在扩展之后,有一些文档的情感词数量会过于多,这也引入了噪音,通过实验结205 果表明,这些噪音对整体结果的影响比较有限。 图4 情感词扩展结果 Fig.4 Result of Sentiment Extending 210 3.3 情感主题筛选分析 在得到了情感主题之后,性别区分度会通过训练集给出,用于筛选那些更能进行性别分类的主题。图5显示了实验得到的男性主题和女性主题的性别区分度。 图5 主题的性别区分度 215 Fig.5 Degree of Distinguishing Gender of Topic 一个值得注意的现象是男性主题和女性情感主题都有近一半的主题区分度为负值。男性和女性的情感主题是由男性的训练集和女性的训练集分别给出的,从训练集的常理来看男性主题和女性主题应该更加具有区分度。 220 结果显示男性主题和女性主题的区分度不都是很强,而且还有一些主题并没有达到区分的效果。这可以从一个角度理解为男性和女性的共性,男性和女性在情感上虽然有不同的地方,但是很多时候男性和女性也会表现出共同的情感,这也符合我们对男性和女性情感的认识。 在阈值的选取上,通过多次实验,我们确定了男性性别区分度阈值为0.05,女性为0.04。 225 3.4 博客写作模型的分类结果分析 得到男性和女性的情感主题后,通过情感主题模型与内部词典,我们可以得到博客分类模型,并通过线性插值的方法得到了性别得分,如前文所述,当得分更靠近0时,说明博客的作者更趋近男性,当得分更靠近1时,博客的作者更趋近女性。图6给出了线性插值参数λ在0-1上取值时,分类准确率的变化。 230 图6 λ取值与实验结果 Fig. 6 λ and Experiment Result 从图中可以看到,λ趋近与0和1时,得到的分类结果都不是特别理想,这说明无论是235 情感主题还是内部词典单独进行分类效果都不理想。从0.1开始当λ的值不断增大时,结果变得更理想,这说明,内部词典对于分类是有积极作用的,同时,在λ大于0.7时结果会变得更差,这说明情感主题也对分类起了积极的作用。 图7显示了本文给出的分类结果和BingLiu在论文中给出的方法[6]的对比。通过对比可以发现,基于情感主题的博客性别分类模型在性能上比现有的大多数博客性别分类模型都要240 好,其主要原因是,现有的方法都更关注与词特征,词性,语法等显示的信息,没有考虑到男性和女性天然的情感上的差别。实验结果证明情感主题对于博客性别分类来说是有帮助的。 图7 实验结果 245 Fig. 7 Experiment Resultt 同时文的结果并没有达到BingLiu结果的高度,主要因为BingLiu的算法是基于特征选择的方法,它会自动学习到那些更有利于分类的特征,在进行分类时,BingLiu的特征的噪音很小。而本文因为情感的稀疏性对情感进行了放大,对情感词进行了扩展,这不可避免的250 引入了噪音。这使得本文的模型无法进一步提升结果。 综上所述,本文从情感主题这一新的角度提出了基于情感的博客性别分类模型,实验表 明该模型的性能要优于大多数博客性别分类模型,同时该模型的性能也接近目前最优秀的模型。这证明情感主题对博客性别分类是有帮助的。 4 结论 255 本文关注了博客性别分类问题采用了WordNet-Affect的情感词分类体系,首先提出了一种基于LDA的情感词扩展方法,其次利用WordNet-Domain的情感词以及扩展的情感词,通过LDA模型给出了男性和女性的情感主题并提出了筛选情感主题的方法,得到更有性别区分度的情感主题,最后,情感主题与内部词典,给出基于情感的博客分类模型。 实验表明,本文从新的角度提出的博客性别分类模型比大多数博客性别模型的效果更好,情260 感主题对博客性别分析可以提供有效的帮助。但是该模型与目前最好的方法相比还有差距。在接下来的工作中,本文计划提升该模型的整体性能,同时也寻找新的方法提高情感词扩展的准确率。从句子和词的角度分别给出情感主题,并比较二者关系也在未来的研究工作之中。 [参考文献] (References) [1] 维基百科, 博客[OL].[2012]. http://zh.wikipedia.org/zh/%E7%B6%B2%E8%AA%8C 265 [2] Hugo Liu, Rada Mihalcea. Of Men, Women, and Computers: Data-Driven Gender Modeling for Improved User Interfaces[A].Proceedings of the ICWSM'2007: Boulder, Colorado, USA: 2007: 601-611 [3] Cory L. Armstrong, Melinda J. McAdamsBlogs of Information: How Gender Cues and Individual Motivations Influence Perceptions of Credibility[J]. Journal of Computer-Mediated Communication, 2009, 14(3):435-456 [4] William Gauvin, Bruno Ribeiro, et al. Measurement and Gender-Specific Analysis of User Publishing 270 Characteristics on MySpace[J].IEEE Network, 2010, 24(5) :38-43 [5] Xiang Yan, Ling Yan. Gender Classification of Weblog Author[OL].[2006].http://www.aaai.org [6] Arjun Mukherjee, BingLiu. Improving Gender Classification of Blog Authors[A].Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing[C]. Massachusetts, USA,2010.207-217 [7] George A. Miller.WordNet-Affect[OL].[2012]. http://wndomains.fbk.eu/wnaffect.html 275 [8] D. Blei, A. Ng,, et al.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022 [9] Mark Steyvers, Tom Griffiths.Probabilistic Topic Models[J]. IEEE Signal Processing Magazine, 2007, 27(6): 77-84 [10] X. Wei, W. B. Croft.LDA-based document models for ad-hoc retrieval[A]. Proceedings of the 29th SIGIR Conference[C]. Seattle, USA: 2006 :178-185 280 [11] Griffiths, T. L, Steyvers, M. Finding scientific topics[A]. Proceedings of the National Academy of Science[C], USA:2004:5228-5235 [12] Ethem Alpaydin.Introduction to Machine Learning[M].USA: MIT, 2004 [13] Yashar Moshfeghi, Benjamin Piwowarski, et al. Handling Data Sparsity in Collaborative Filtering using Emotion and Semantic Based Features[A].Proceedings of the Special Interest Group on Information Retrieval[C], 285 Beijing, China:2011: 625-634 [14] Lin, J. Divergence measures based on the Shannon entropy[J]. Information Theory,1991,37:145-151 [15] D.W.卡罗尔.语言心理学[M].上海:华东师范大学出版社,2004 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |