学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 工科论文

基于用户访问行为与内容的用户聚类算法的研究与实现(2)


它们的系数相同。由于在本文中,只需要知道用户对页面兴趣的相对大小,为了方便计算,
把它们的系数都定为1,且把这3 个自变量进行归一化。
最后,获得基于内容和行为的特征向量。为了避免不同文章中出现相同的词,而无法确
135 定乘以那个文章的用户兴趣度的情况,在处理词的权值之前,把这个行为参数融合到词的频
率中,那么获取特征向量的步骤将变成如下形式:
① 根据向量空间模型的权值公式i i' log
i
w tf D
df
⎛ ⎞
= × ⎜ ⎟
⎝ ⎠
,首先,统计出D,也就是用户
数。
② 求出i tf ,它只是局部信息,也就是item 在该用户所有文章中出现的概率。
140 ③ 把用户兴趣度融合在步骤②的频率中。可以看出,用户对文章的兴趣度与特征词的
权值成正比,本文中使用简单的乘法关系'
i i kj tf = tf × p 。其中,特征词i 出现在文
章j 中, kj p 表示用户k 对文章j 的兴趣度。
④ 求出i df ,它是全局信息,指的是出现某个特征词item 的文章的数目。
⑤ 根据步骤①中的公式,求出i w 。
145 ⑥ 获得基于内容和行为的特征向量。
3 实验
本文中,采用高斯核函数[7]对用户的特征向量求出用户相似性矩阵,再使用unnormalized
谱聚类算法[7]进行聚类,得到实验结果。实验用到的数据来自于某资讯站点的用户行为数据,
包括用户的浏览行为和浏览内容两部分。为了证明实验数据的覆盖面,采用了不同日期的用
150 户行为数据。这里,分别选取了不同月份、不同日期的行为数据。因此,选择了2 月份和5
 月份的部分数据,并对这些数据进行了过滤及详细统计,具体信息如下表。
表2 实验数据的基本信息
Tab. 2 The basic information of the data
时间 总记录数 总用户数 选择用户数 选择文章数 特征词数
2012-02-26 1628694 11723 695 695 19194
2012-05-09 1535637 10573 1135 758 21289
2012-05-24 1906573 11628 789 1078 19676
2012-05-25 1862064 11324 724 1011 18438
2012-05-26 1727465 10431 488 721 15008
2012-05-27 1778060 10418 521 682 16636
155
其中,总记录数表示在当天的用户访问记录的总数,总用户数表示当天访问的用户总数。
选择用户数表示过滤后得到的用户数,由于需要对用户聚类找到其在内容和行为上的共同兴
趣,并且数据量太大,因此选择了至少有两条访问记录的用户。选择文章数表示过滤后的用
户访问的网页的数目,特征词数表示选择文章中的所有名词性的特征词数目。本实验中,考
160 虑到数据量的情况,只选择了最具代表性的名词性的特征词。在实际数据中,根据业务需要,
对用户行为进行了详细地命名,如download 代表下载操作,focus 代表关注操作等。但是在
实验中,都把其看作相同的操作进行统计。
对于聚类结果的评价,采用Davies-Bouldin 指标、Dunn’s 指标和RMSSTD 指标[8,9]这3
个指标来评价聚类结果的有效性。下面是实验结果及分析:
165
图1 Davies-Bouldin 指标的评价结果
Fig. 1 The value of Davies-Bouldin
对于Davies-Bouldin 指标来说,结果度量的是类中数据的紧密程度和类之间数据的分散
170 程度,其值越小越好。从上图可以看出,内容和行为的DBI 值比单独的行为和内容都小,
说明其结果是三个之中最好的。而且,行为比内容的结果好。
 图2 Dunn’s 指标的评价结果
Fig. 2 The value of Dunn’s
175
对于Dunn’s 指标,其原理与Davies-Bouldin 指标基本相同,结果度量的是类与类之间
距离的最小值,因此其值越大表示聚类结果越好。从上图可以看出,内容和行为的聚类结果
明显好于单独对内容和行为进行聚类。对于行为和内容来说,行为聚类结果的Dunn 的平均
值比内容的值大,因此聚类结果较好。
180
图3 RMSSTD 指标的评价结果
Fig. 3 The value of RMSSTD
对于RMSSTD 指标,实际上是一个均方根标准差公式,把空间上所有的点都涵盖了,
185 最重要是的是它把维度也作为一个参数。其结果度量的是聚类结果的偏差,值越小越好,代
表偏差越小,聚类结果越好。那么,从上图可以看出,内容和行为的聚类偏差比较小,聚类
较好。
因此,从上面3 个指标的评价结果趋势,可以发现,把内容和行为结合起来进行聚类,
聚类结果更好,更有助于把聚类结果用于推荐。
 190 4 结论
本文是在推荐应用等大背景下对用户进行聚类研究,采用了谱聚类中的非正则谱聚类算
法对用户的相似性矩阵进行聚类。本文主要涉及到web 用户的浏览行为和浏览内容两个方
面。首先,采用与GA 原理相同的JavaScript 片段来采集行为数据和抓取网页内容。把web
用户的访问记录写入web 日志中,并把对应的网页内容写入数据库。然后,就是对访问内
195 容的表示,就是文本表示。为了方便表示,借用了向量空间模型的思想,把某个用户访问的
网页内容看成一个文本。采用中文分词系统将每个用户的访问内容分割成特征词,求得每个
特征词的权值就获得文本的向量表示。再经过过滤处理就得到了每个用户访问行为和访问内
容的向量表示。最后,使用聚类算法进行聚类并采用聚类评价指标来获得结论。
200 [参考文献] (References)
[1] Ding Xiaoming, Ma Xiaoyan. A Web Users Clustering Model Based on Users' Browsing Path.
IEEE:Computational Intelligence and Software Engineering, 2009.
[2] Lyes Limam, David Coquil, Harald Kosch, Lionel Brunie. Extracting user interests from search query logs: A
clustering approach. IEEE:DEXA '10 Proceedings of the 2010 Workshops on Database and Expert Systems
205 Applications, 2010. pp. 5-9.
[3] Syeda Farha Shazmeen, Jayadev Gyani. A Novel Approach for Clustering E-mail Users Using Pattern
Matching. IEEE:Electronics Computer Technology (ICECT), 2011. pp. 205-209.
[4] Wei Zheng, Minxia Zhang. The Investigation for Web User Clustering Based on Interest. IEEE:Electronics,
Communications and Control (ICECC), 2011. pp. 553-556.
210 [5] Gerard Salton, Christopher Buckley. Term-Weighting Approaches in Automatic Text Retrieval. Information
Processing & Management. 1988. pp. 513-523.
[6] G.Salton, A.Wong, C.S.Yang. A Vector Space Model for Automatic Indexing. Communication of the ACM,
1975. pp. 613-620.
[7] Ulrike von Luxburg. A Tutorial on Spectral Clustering. Statistics and Computing. 2007. pp.1-32.
215 [8] Shangchao Zhang, Jian Yu, Yu Xiao. A New Connectivity-based Cluster Validity Index. International Journal
of Wavelets, Multiresolution and Information Processing. 2010. pp. 1-17.
[9] 李立敏. 适于K-均值算法的聚类评价指标有效性研究. 2009
学术论文网Tag:代写硕士论文 代写论文 代写MBA论文 代写博士论文
本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容