它们的系数相同。由于在本文中,只需要知道用户对页面兴趣的相对大小,为了方便计算, 把它们的系数都定为1,且把这3 个自变量进行归一化。 最后,获得基于内容和行为的特征向量。为了避免不同文章中出现相同的词,而无法确 135 定乘以那个文章的用户兴趣度的情况,在处理词的权值之前,把这个行为参数融合到词的频 率中,那么获取特征向量的步骤将变成如下形式: ① 根据向量空间模型的权值公式i i' log i w tf D df ⎛ ⎞ = × ⎜ ⎟ ⎝ ⎠ ,首先,统计出D,也就是用户 数。 ② 求出i tf ,它只是局部信息,也就是item 在该用户所有文章中出现的概率。 140 ③ 把用户兴趣度融合在步骤②的频率中。可以看出,用户对文章的兴趣度与特征词的 权值成正比,本文中使用简单的乘法关系' i i kj tf = tf × p 。其中,特征词i 出现在文 章j 中, kj p 表示用户k 对文章j 的兴趣度。 ④ 求出i df ,它是全局信息,指的是出现某个特征词item 的文章的数目。 ⑤ 根据步骤①中的公式,求出i w 。 145 ⑥ 获得基于内容和行为的特征向量。 3 实验 本文中,采用高斯核函数[7]对用户的特征向量求出用户相似性矩阵,再使用unnormalized 谱聚类算法[7]进行聚类,得到实验结果。实验用到的数据来自于某资讯站点的用户行为数据, 包括用户的浏览行为和浏览内容两部分。为了证明实验数据的覆盖面,采用了不同日期的用 150 户行为数据。这里,分别选取了不同月份、不同日期的行为数据。因此,选择了2 月份和5 月份的部分数据,并对这些数据进行了过滤及详细统计,具体信息如下表。 表2 实验数据的基本信息 Tab. 2 The basic information of the data 时间 总记录数 总用户数 选择用户数 选择文章数 特征词数 2012-02-26 1628694 11723 695 695 19194 2012-05-09 1535637 10573 1135 758 21289 2012-05-24 1906573 11628 789 1078 19676 2012-05-25 1862064 11324 724 1011 18438 2012-05-26 1727465 10431 488 721 15008 2012-05-27 1778060 10418 521 682 16636 155 其中,总记录数表示在当天的用户访问记录的总数,总用户数表示当天访问的用户总数。 选择用户数表示过滤后得到的用户数,由于需要对用户聚类找到其在内容和行为上的共同兴 趣,并且数据量太大,因此选择了至少有两条访问记录的用户。选择文章数表示过滤后的用 户访问的网页的数目,特征词数表示选择文章中的所有名词性的特征词数目。本实验中,考 160 虑到数据量的情况,只选择了最具代表性的名词性的特征词。在实际数据中,根据业务需要, 对用户行为进行了详细地命名,如download 代表下载操作,focus 代表关注操作等。但是在 实验中,都把其看作相同的操作进行统计。 对于聚类结果的评价,采用Davies-Bouldin 指标、Dunn’s 指标和RMSSTD 指标[8,9]这3 个指标来评价聚类结果的有效性。下面是实验结果及分析: 165 图1 Davies-Bouldin 指标的评价结果 Fig. 1 The value of Davies-Bouldin 对于Davies-Bouldin 指标来说,结果度量的是类中数据的紧密程度和类之间数据的分散 170 程度,其值越小越好。从上图可以看出,内容和行为的DBI 值比单独的行为和内容都小, 说明其结果是三个之中最好的。而且,行为比内容的结果好。 图2 Dunn’s 指标的评价结果 Fig. 2 The value of Dunn’s 175 对于Dunn’s 指标,其原理与Davies-Bouldin 指标基本相同,结果度量的是类与类之间 距离的最小值,因此其值越大表示聚类结果越好。从上图可以看出,内容和行为的聚类结果 明显好于单独对内容和行为进行聚类。对于行为和内容来说,行为聚类结果的Dunn 的平均 值比内容的值大,因此聚类结果较好。 180 图3 RMSSTD 指标的评价结果 Fig. 3 The value of RMSSTD 对于RMSSTD 指标,实际上是一个均方根标准差公式,把空间上所有的点都涵盖了, 185 最重要是的是它把维度也作为一个参数。其结果度量的是聚类结果的偏差,值越小越好,代 表偏差越小,聚类结果越好。那么,从上图可以看出,内容和行为的聚类偏差比较小,聚类 较好。 因此,从上面3 个指标的评价结果趋势,可以发现,把内容和行为结合起来进行聚类, 聚类结果更好,更有助于把聚类结果用于推荐。 190 4 结论 本文是在推荐应用等大背景下对用户进行聚类研究,采用了谱聚类中的非正则谱聚类算 法对用户的相似性矩阵进行聚类。本文主要涉及到web 用户的浏览行为和浏览内容两个方 面。首先,采用与GA 原理相同的JavaScript 片段来采集行为数据和抓取网页内容。把web 用户的访问记录写入web 日志中,并把对应的网页内容写入数据库。然后,就是对访问内 195 容的表示,就是文本表示。为了方便表示,借用了向量空间模型的思想,把某个用户访问的 网页内容看成一个文本。采用中文分词系统将每个用户的访问内容分割成特征词,求得每个 特征词的权值就获得文本的向量表示。再经过过滤处理就得到了每个用户访问行为和访问内 容的向量表示。最后,使用聚类算法进行聚类并采用聚类评价指标来获得结论。 200 [参考文献] (References) [1] Ding Xiaoming, Ma Xiaoyan. A Web Users Clustering Model Based on Users' Browsing Path. IEEE:Computational Intelligence and Software Engineering, 2009. [2] Lyes Limam, David Coquil, Harald Kosch, Lionel Brunie. Extracting user interests from search query logs: A clustering approach. IEEE:DEXA '10 Proceedings of the 2010 Workshops on Database and Expert Systems 205 Applications, 2010. pp. 5-9. [3] Syeda Farha Shazmeen, Jayadev Gyani. A Novel Approach for Clustering E-mail Users Using Pattern Matching. IEEE:Electronics Computer Technology (ICECT), 2011. pp. 205-209. [4] Wei Zheng, Minxia Zhang. The Investigation for Web User Clustering Based on Interest. IEEE:Electronics, Communications and Control (ICECC), 2011. pp. 553-556. 210 [5] Gerard Salton, Christopher Buckley. Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management. 1988. pp. 513-523. [6] G.Salton, A.Wong, C.S.Yang. A Vector Space Model for Automatic Indexing. Communication of the ACM, 1975. pp. 613-620. [7] Ulrike von Luxburg. A Tutorial on Spectral Clustering. Statistics and Computing. 2007. pp.1-32. 215 [8] Shangchao Zhang, Jian Yu, Yu Xiao. A New Connectivity-based Cluster Validity Index. International Journal of Wavelets, Multiresolution and Information Processing. 2010. pp. 1-17. [9] 李立敏. 适于K-均值算法的聚类评价指标有效性研究. 2009 学术论文网Tag:代写硕士论文 代写论文 代写MBA论文 代写博士论文 |