奖***或奖品***、获奖***等; (2)账户头像清一色为新浪的独眼龙标志; (3)这种僵尸用户的粉丝关注通常为0,只有微博数; (4)被新浪很快直接查杀账户和删除评论,但部分有残留痕迹,能看到一些基本数据; 120 (5)僵尸账户痕迹与用户ip 所在地相同,初步判定与ip 有关。应当是根据用户ip 进 行骚扰追踪的。 此类散布型僵尸应该算是较为低级。它与关注型僵尸最为不同的一点是,它不关注任何 人,也没有粉丝,它会突然转发用户的一条微博,多为用户原创性微博,然后附有一个地址。 但它跟该用户表面上没有任何联系。目前没有发现这种账户的活动路径和算法特征。 125 而广告营销僵尸则主要以从事类似微博天下这样的营销任务的样本为典型。通过微博天 下的部分抽样调查,初步发现了一些规律,此类僵尸粉完全是高级僵尸粉,具体如何实现的 目前还不清楚,但是发现其活动具有规律,没有逻辑性。 广告营销僵尸的特点: (1)粉丝数、关注数、微博数都是四位数以上的。其中原因之一,营销网站也要求粉 130 丝数高,不是僵尸粉等等。其真实要求应当是具备一定影响力,可以有渠道的散布消息。 (2)这些僵尸粉纷纷互粉,可以推想背后是一个已成网络的僵尸平台。专门通过接这 种任务,来达到赚钱的目的。 (3)头像基本以美女照片为主,很多具有非主流的特色。账户信息完全,甚至比真实 账户的信息更加全面。例如微博勋章,往往非常多。 135 (4)目前发现的这批僵尸账户的一个重要特点就是,连续三条左右的微博的第一个字 是相同的,并且这些语句是在同一时间内发表的。这是一种典型的机器语言的特征,是通过 同一个算法来操纵的批量散布型僵尸账户。发展到现在,这个特征已经消失或者说被修改的 更加难以识别了。因此早期发现的这一批僵尸账户,已经做到了由假到真的一个过程。 此类散布型僵尸账户主要以从事营销为目的。其中粉丝数有真有假。开始操纵模式应当 140 是通过大批假粉丝来吸引真粉丝,然后达到一个以假换真的“换血”过程。但是就目前来说, 这一批账户的粉丝应该是以假粉丝为主。 之所以将此类高度类似真实账户归入僵尸账户的关键之一在于:其微博内容无逻辑性, 是机器截取,毫无感情。这样的账户在传播消息过程中会造出非常大的混淆,例如微博上几 个出名的案例,就是通过这样的运作达到大量转发数,从而达到消息散布的目的。 145 但是随着算法的越来越完善,其中有些账户的内容已经开始具备逻辑性、主题性,虽然 其仍为机器截取语句,但是已经非常难以识别。 3 识别方法 3.1 对关注型僵尸的判别方法 一代僵尸粉极易判别,既无头像无微博无粉丝数。目前新浪自身的查杀过程已基本可以 150 清除此类关注型僵尸。 二代关注型僵尸账户的判别:首先看头像。往往此类僵尸粉的头像带有刷粉的字样,且 这批僵尸粉在昵称上都有数字字母汉字的混合,类似于编号一样。如果微博数为5 以下,直 接判别为僵尸粉。即使是真实账户,如果微博数低于五,即可判断为无影响力用户,对于影 响力研究也无任何价值。加v 用户和名人账户的行为特征与此不同,不能算在其中。 155 三代关注型僵尸:有头像,有关注数,有粉丝数,有微博数的。判别方法有以下4 种: 1)非常明显的数据特征是关注数除以微博数,这其中会有一两个相近。 2)看微博数除以粉丝数。做部分抽样对比后,会有一个界限区分。 如果这些判别后,被划分为不明显区域中,再执行以下判别步骤: 3)看转发数。如果前面均不能判断为明显僵尸,即分到不明显僵尸区域中,就看转发 160 数。如纯粹转发广告,不带任何字数和推荐的条数转发数超过总条数的三分之二,即为僵尸 粉。通常僵尸粉转发是不会有任何文字的,但是有高级僵尸粉突破了此规则,不在参考范围 内。 4)看评论数。一般僵尸粉是不会有人对此评论的。如果评论数低于10 条,那么可以判 别为僵尸粉。 图1 僵尸粉分布图 图2 真实粉丝分布图 165 图1 和图2 是截取一个真实活跃账户的粉丝做的对比,僵尸粉和真实好友做的一个散点 图,纵轴代表关注数,横轴代表微博数,可以看出差别非常的大。 可以看出,僵尸粉的微博数没有超过200,而真实活跃粉丝的微博数达到了25000 多。 僵尸粉的关注数最高达到了1800,而真实粉丝的关注数最多不过500,并且大部分集中在 0-150 之间。这其中没有任何vip 用户,全是普通用户。 170 3.2 散布型僵尸的判别方法 首先,如果关注数、微博数、和粉丝数均达到1000 以上,即可列为重点嫌疑对象。 其次,进行下一步判定,查看微博数的发出时间段,如果发现几条微博在同一时刻发出, 即可判定为机器语言的僵尸账户。因为手工账户无法在同一时刻发出几条微博。 第三,如果人力能所及,则会明显发现语句之间首词的高度相似性,是根据拼音来选择 175 的。如果前后文之间完全无逻辑性可言,可以判定为僵尸账户。 第四,如果或博文中全部都是广告的字样,并且不是企业账户的广告,而是杂乱的各种 广告,此类用户也属于散布型僵尸账户。 4 结论 本文比较全面两种类型分析了僵尸账户,对其行为特征也进行了归纳整理,提取出一些 180 非常基础的识别规则,提出了一些识别方法。但是,随着僵尸粉不断升级和发展,其行为特 征和真实账户越来越相似,文中的识别规则仍然存在有漏洞,识别高中级僵尸粉账户有效, 作为识别高级的僵尸粉就显得很无力了,需要不断根据将是粉丝账户的发展来填补识别特征 和算法。自然规律告诉我们,虚假的东西永远是虚假的,无论如何伪装都会露出蛛丝马迹。 不断发展网络虚拟社会对真实社会的影响越来越深远,虚拟社交网络的数据挖掘工作也 185 越来越显示出重要性,进一步的研究工作应该分析真实微博账户的各种类型和行为特征,与 僵尸粉的行为特征对比分析,提取僵尸账户的行为特征;对微博社交网络数据的过滤和约减, 挖掘深层次的判别规则,建立僵尸粉自动的行为模式识别方法,准确识别僵尸账户,对用户 或者消息的影响力做出正确评价,只有这样才能起到一个有效的影响力真实评价的效果。 190 [参考文献] (References) [1] 微博, 百度百科,http://baike.baidu.com/view/1567099.htm,2012 年8 月10 日 [2] 微博"刷粉"公司一夜造20 万"僵尸粉",新京报 2011 年9 月2 [3] 微博粉丝,百度百科,http://baike.baidu.com/view/3663580.htm,2012 年8 月10 日 [4] 何菲. 僵尸粉进化[J]. IT 经理世界,2011,17:35 195 [5] 于斌. 微博僵尸粉为何能够"大肆横行"[J]. 互联网天地,2011,07:52-53. [6] 原福永,冯静,符茜茜,曹旭峰. 一种降低微博僵尸粉影响的方法[J]. 现代图书情报技术,2012,05:70-75. 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |