微博僵尸粉的行为特征和识别方法# 于光,于璇* 基金项目:国家自然科学基金资助项目“群体性突发事件的社会网络演化和预警的动态模糊粗糙集建模” (项目编号:71171068) 作者简介:于光,女,(1963-),哈尔滨工业大学管理学院教授,博士生导师,主要研究方向:信息管理和 信息计量学。E-mail: yug@hit.edu.cn (哈尔滨工业大学管理学院,哈尔滨 150001) 5 摘要:本文梳理了新浪微博中僵尸粉的有关概念,并归纳为两大类:关注型僵尸粉和散布型 僵尸粉,分别抽取和描述了两类僵尸用户的行为特征,提取出一些非常基础的识别规则,提 出了一些识别方法;为微博数据科学分析奠定了基础。 关键词:新浪微博;僵尸粉;行为特征;识别 中图分类号:G206 10 Micro-blog zombie fans behavioral characteristics and recognition method Yu Guang, Yu Xuan (School of Management, Harbin Institute of Technology, Harbin 150001) 15 Abstract: This paper summarizes the concepts of zombie fans in the Sina micro-blog, and classified into two types: Attention model and Dispersion type, and then behavior characteristics of two types of zombie users are collected and described, and some very basic rules of identification are extracted, at last some recognition method are put forward for scientific analysis of micro-blog data. 20 Keywords: Sina micro-blog; zombie fans; behavior characteristic; recognition 0 引言 微博是微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取 平台,用户可以通过WEB、WAP 以及各种客户端组件个人社区,以140 字左右的文字更新 25 信息,并实现即时分享[1]。从美国的twitter 到2009 年8 月中国“新浪微博”,其用户数量 已经需要用亿来计算,新浪微博作为中国第一家微博网站,成为中文上网主流人群信息传递 和交流的平台。微博作为一种通过关注机制分享简短信息的广播式的社交网络平台, 为社会网络研究者提供了大量分析数据,基于巨大的社交信息数据可以开展社会学、 人际关系网络、信息扩散模式、突发事件演化等方面的理论研究。随着微博注册用户 30 的迅猛增长,账户的粉丝数成为网民关注的重点,网上流传这样的说法“微博离不开粉丝, 粉丝象征着人气,人气挂钩着利益”[2]。在微博里,粉丝是对某一博主保持持续关注的群 体,当博主在其微博上发表新的留言,第一时间关注他的大多数情况下就会是该微博的粉丝。 同时粉丝们又会将其言论传播到更大的范围,使得博主的影响力逐步扩大,由此引发了粉丝 数量上的竞争和虚假粉丝(即僵尸粉)的买卖行为[3][4]。微博门户也通过假粉丝的制作攫 35 取短期利益,让微博数据受到很大的污染,给基于微博社交信息进行研究的数据过滤带来困 难,给微博营销带来不良影响[5]。因此,有学者还提出了降低僵尸粉影响的方法[6]。如何 识别僵尸粉,如何进行社交信息数据的过滤和清洗是我们面临的重要研究课题。本文对僵尸 粉的概念和基本类型进行了梳理,分析他们的行为特征,并提出基于其行为特征的基本识别 方法,为清理微博社交网络中的垃圾信息提供有效的途径。 40 1 僵尸粉的基本类型 关于僵尸账户的概念,从早期的新浪官方给出的关于僵尸粉的简单定义,到现在随着僵 尸账户的发展而出现的多重身份,首先,根据现在新浪微博僵尸账户的发展,应当准确界定 两个词:“僵尸粉”同“高级僵尸粉”或者“活粉”。在僵尸账户出现的初期,其表现特征 是以关注别人为目的的低级机器账户,因此,将其定义为“僵尸粉丝”简称“僵尸粉”。其 45 活动主体主要停留在粉丝活动群体中,行为特征简单,容易区分。接着随着僵尸账户的进一 步发展和新浪对“僵尸粉”的处理,慢慢演变出了另一种僵尸账户。这种僵尸账户则不仅仅 以关注别人为目的了,更重要的功能是发布消息,吸收真实粉丝,扩大影响力来达到从事营 销活动的目的。网络上对于这类的账户的定义,以“活粉”或者“高级僵尸粉”来称呼。因 为这类账户的功能不再是粉丝,而更重要的是账户的影响力,这两种僵尸账户的行为特征, 50 性质形态等等均有很大差异。为了区别仅以关注别人为目的而没有影响力的关注型僵尸账 户,本文提出僵尸型账户的类型按其主要目的和行为特征应该区分为:关注型僵尸和散布型 僵尸账户。 1.1 关注型僵尸粉 关注型僵尸账户是最早出现的典型“僵尸粉”。“僵尸粉”的全称应为“僵尸粉丝”。 55 其重要的特征是以关注为目的,不考虑影响力的账户。 新浪官方在2010 年8 月27 日表示,用手机注册新浪微博,系统都会自动分配昵称,这 些昵称是一串以“180”或“170”开头的数字。由于每一串数字代表对应一个手机号,因此, 据新浪的解释,所谓的“僵尸粉”是手机用户注册时,由系统自动产生的关注。但这其中要 考虑新浪官方对于自身利益的顾虑而做的辩解,新浪方面并不排斥这些所谓“僵尸粉”,并 60 解释为可能是手机注册的账户活跃度不高的用户,这些手机号的使用者可能在用电脑时,又 进行了再注册,只要手机号码和新账户没有绑定,就不会显示同步更新的资料。 对于猖狂的僵尸军团,新浪或腾讯的表现都讳莫如深,相比国外的Twitter 对营销僵尸 的账户采取关闭的严厉措施,国内各大微博都只是让将“僵尸”消除,而不敢关闭账户。事 实上,本土微博网站甚至拒绝承认为了吸引用户,参与过或正在参与制造僵尸的勾当。 65 百度百科对僵尸粉的定义是目前比较公认的一个定义。即,僵尸粉是微博上的虚假粉丝, 指花钱就可以买到“关注”,有名无实的微博粉丝,它们通常是由系统自动产生的恶意注册 用户[3]。手机用户注册时,僵尸粉是由系统自动产生的关注。此定义在新浪官方的解释上 进一步完善。其关键认为僵尸粉的界定性质在于是花钱买到的粉丝,这个定义是从需求方面 对僵尸粉进行的一个大概定义。 70 但是,随着关注型僵尸的发展,这两个定义都已经不能够概括了。为了将此类僵尸同休 眠账户和正常账户分开,需要进一步的细分。微博天下的网站对此进行了一个比较详细的定 义。根据其定义是指:僵尸粉是专门注册用来当粉丝的粉丝帐户,永远不会有什么真实活跃, 没任何营销价值的粉丝。不管是手工注册加粉丝还是机器注册加粉丝都属于僵尸粉丝,两者 无任何区别。这个定义的特点在于它首先将目前界限很模糊的手工注册加粉丝和机器注册加 75 粉丝这二者明确划入僵尸粉;其次在于它首次提出了以营销价值为判别标准的定义。这其中 一个原因是由于微博天下本身就是一个以微博为营销平台机构的网络。 我们对于关注型僵尸账户(即僵尸粉)定义为:一种以为利益关注别人为主要目的账户, 其账户是通过受算法操纵的批量机器账户,可具备低级智能,但并不具有感情。其存在会对 用户的实际影响力和正常使用造成污染和混淆。 80 需要说明的一点是,僵尸粉并不会如同新浪解释的那样,是由系统自动产生的关注。这 只是新浪对此的一个解释而已,目前并无任何证据证实系统会自动产生僵尸粉。因此,本文 认为,僵尸粉的来源是通过人为编写算法而产生的一种批量账户。无论这背后的人为者是第 三家的商业机构,或者是新浪本身出于对新浪利益的考虑而做的。 1.2 散布型僵尸 85 散布型僵尸账户区别于关注型僵尸账户的关键点在于:散布型僵尸的目的在于吸引关 注,散布消息。关注型僵尸的首要目的是关注别人,增加粉丝量里的数字,而散布型僵尸则 具备更多功能,有评论、转发和发表微博的功效,形态上与真人账户非常相似。 散布型僵尸区别于真实用户关键特征是:此类账户是由算法操纵的,不带有任何感情。 通过机器抓取语句,或者散布广告和垃圾信息等,其微博内容无逻辑性,无真实性可言。 90 因此本文将散布型僵尸定义为:由算法操纵的具备低级能力的账户,有评论转发和发表 微博的能力,以扩大账户的影响力和散布特定消息为主要目的机器账户,不具备感情,其存 在会对用户造成骚扰和数据的污染。 2 僵尸粉的行为特征 2.1 关注型僵尸的行为特征 95 随着网络技术的发展,僵尸粉账户不断更新换代,它们分别具有以下特征。 一代僵尸粉:此类僵尸粉为最早出现的僵尸粉,其行为特征还处于一个很原始的状态。 这一代的僵尸粉,以无头像、无微博以及无粉丝,关注对象主要集中在名人和同类账户中; 一代僵尸粉只有一个目的,就是关注别人,提高关注对象的粉丝数。此类僵尸很容易识别, 因此在后来的新浪清理粉丝过程中,已基本消失或者升级。 100 二代僵尸粉:此类僵尸粉在一代基础上,多了头像和粉丝数和微博数。但其账户特征仍 然处于低级状态,头像多为“刷粉字样”,名称为数字汉字和字母的组合,粉丝数很少且基 本为其同类,微博数也通常小于5。此类账户关注对象也扩大了范围,既包括名人和真实普 通用户,还有大量随之产生的智能僵尸账户及其同类账户。 三代僵尸粉:在二代僵尸粉的基础上,三代僵尸粉的头像基本已经同正常用户无异,其 105 中多为美女头像或者非主流头像。其粉丝数量一般都超过了20 个以上,微博数也有10 篇左 右;关注数不等,有高达1900 多的(因为新浪限制最高关注数为2000),也有200 多的。 这部分僵尸账户的微博和粉丝数量主要是用来产生迷惑作用的,并不产生真实影响力。这类 僵尸粉是目前微博上粉丝群中数量最大的僵尸账户,从外表不易判断其真实身份,但是它的 主要目的仍然是关注他人,增加关注对象的粉丝数量。 110 这部分僵尸粉带给用户最大的困扰主要是不真实的关注,粉丝数和虚假人气带给用户的情感 上的伤害。同时,僵尸粉的存在让微博数据受到了很大的污染。 2.2 散布型僵尸的行为特征 此类僵尸又分为转发中奖型和广告营销型。这两者的行为特征也有很大的不同,但其本 质都是散布消息,因此,属于传播消息为主的僵尸账户。中奖转发型微博账户行为特征: 115 (1)账户名中通常带有数字、字母和汉字组成,汉字中一般有“奖”字,多为:您中 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |