学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 工科论文

面向BBS的主题爬虫系统的分析与设计

面向BBS 的主题爬虫系统的分析与设计
赵晓阳,辛阳**
作者简介:赵晓阳,(1985-),女,硕士研究生,信息安全。
通信联系人:辛阳,(1977-),男,副教授,移动通信网络安全、计算机网络安全. E-mail: yangxin@bupt.edu.cn
(北京邮电大学信息安全中心,北京 100876)
5 摘要:BBS 是当前网络用户发表评论、自由交流的重要平台,也成为了用户需求和商业价值
等重要信息的聚集地。主题爬虫是一种面向主题的信息搜集系统,可以根据用户需要从互联
网上自动搜集与主题相关信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应
用。本文首先阐述了主题爬虫的工作原理、模块组成及其实现所需的关键技术,然后通过分
析动态网页的目录型结构和BBS 的文本结构,设计了一种具有较强通用性的BBS 爬虫抓取方
10 案,并详细描述了主题爬虫的设计方案。并与通用网络爬虫方案进行了对比。
关键词:BBS;主题爬虫;搜索算法;舆情监控
 30 0 引言
伴随着因特网技术的不断发展,网上信息呈几何级数的增长趋势。微博、博客、贴吧、
BBS 日益成为人们获取信息和表达见解的重要途径,其中,BBS(Bulletin Board System,
电子公告板系统),一直拥有持久旺盛的生命力。与传统的报纸、广播、电视等媒体相比,
BBS 具有跨地域、速度快、成本低和开放性等特点,越来越受到广大网络用户的喜爱,成
35 为当前最重要的信息发布平台之一。然而随着信息的不断增长,舆情信息成为网络关注的重
点,舆情是指由特定社会事件的发展引发的民众对社会管理者产生的社会政治态度。新闻网
站、论坛、博客成为网络舆情信息发展的主要平台;网络舆情系统通过收集与分析最新的网
络信息来解决网络舆情监督问题。BBS 作为当前信息量相对较大交流平台,成为舆情监控
系统的主要信息提取渠道之一。
40 BBS 站点数量和内容的大量增加给网络用户带来便利的同时,也提高了提取有效信息
的难度,如何在海量的BBS 信息中查找出特定的帖子呢?根据搜索范围的不同,搜索引擎
分为通用搜索引擎和垂直搜索引擎;通用搜索引擎的目标是以尽可能大的网络覆盖率,而这
一过程并不太在意页面采集的顺序和被采集页面的相关性。针对通用搜索引擎的信息量大、
 查询不准确、深度不够等提出了垂直搜索引擎,通过针对某一特定领域、某一特定人群或某
45 一特定需要提供的有一定价值的信息和相关服务[1]。
BBS 的数据结构和其他普通网站的格式不同,对信息提取而言,BBS 的结构性比较强,
有类似目录式结构的清晰脉络,可以指导爬虫进行爬取。但是,各个BBS 的层次划分样式
繁多,没有统一的规范,这对于设计出通用模板的信息抽取系统和信息提取算法的效率提出
了挑战。如果采用常规的基于结构的挖掘算法,那么算法的适用范围必然受限,甚至只能用
50 于少数BBS;如果采用基于超链接的普通挖掘算法,则没有充分利用BBS 的结构特征,造
成挖掘的效率低下。所以,设计出具有普遍适应性的BBS 网页抓取算法,是一个非常值得
研究的问题。
本文首先阐述了主题网络爬虫的工作原理、模块组成及其实现所需的关键技术,然后分
析已存的主题爬虫算法及BBS 的网页结构,最后详细描述面向BBS 的主题爬虫的设计。
55 1 主题爬虫
网络爬虫是是搜索引擎的重要组成,它为搜索引擎从万维网上自动获取并下载网页。通
用爬虫的目标是尽量多的搜集下载网页,以使搜索引擎能满足更多用户的查询,但需要消耗
大量的系统资源并且效率低[1];所以随之产生了主题爬虫;而主题爬虫在选择下一个待抓取
网页的时候具有更强的目的性,提高了资源的利用率和爬虫的效率[2]。下面详细描述主题爬
60 虫的原理及相关技术。
1.1 主题爬虫的工作原理及系统组成
主题爬虫按照事先给出的主题,分析超链接和已经下载的Web 网页内容,来预测下一
个要爬行的URL,保证尽可能多的下载与主题相关的网页。主题爬虫能够有效的完成网页
抓取任务,主要归功于以下两个方面:首先,使用网页分析算法过滤掉与主题无关的链接,
65 保留有用链接,并将其放入待抓取URL 队列;然后,根据一定的搜索策略从待抓取URL 队
列中选择下一步要抓取的网页。过滤算法主要有两类:一类是根据文档间链接关系来计算链
接的重要性,以便筛选价值高的链接,这一类包括PageRank 算法、HITS 算法;另一类方法
则根据主题与网页内容、链接信息的相关性来评估链接的价值,如Best-First 算法。[2]
根据主题爬虫的原理可以将其实现过程分成几个模块,其主要组成部分如图1 所示,包
70 括以下三个组成模块:
1) 页面采集模块:该模块是任何一个网络爬虫都必不可少的基本模块。本模块的主要
任务是通过HTTP 协议请求并下载Web 页面[4]。
2) 页面分析模块:解析下载到的页面并提取存在的URL。
3) 连接过滤模块:该模块是主题爬虫的关键模块,它的主要任务是对由网页分析模块
75 提取出来的连接URL,根据某种策略进行分析过滤;连接过滤是为了满足浏览者
的搜索需要而设计的。
 图1 主题爬虫系统的组成
80 不同主题爬虫的搜索策略不同,其具体模块实现方法也不同,但主题爬虫中一般都具有
这三个模块的功能。现有主题爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数
据模式和基于领域概念三种;基于目标网页特种的爬虫所抓取的对象一般为网站或网页,可
以预先设定初始抓取种子样本;基于目标数据模式的爬虫针对的是Web 网页上的数据,所
抓取的数据一般要符合一定的模式;基于领域概念是建立目标领域的本体或词典,用于从语
85 义角度分析不同特征在某一主题中的重要程度[2]。本文所设计的面向BBS 信息提取的网络
爬虫属于第一种情况。
1.2 主题爬虫关键技术概述
相对于通用网络爬虫,主题爬虫还需要解决的三个主要问题[2]:
(1)如何描述或定义抓取目标,用来决定网页分析算法与URL 搜索策略如何制定。
90 对于BBS 的主题爬虫对抓取目标是基于目标网页特征的,不同论坛的入口地址作为抓
取的一个目标种子文件。
(2)对网页或数据的分析与过滤,是决定搜索引擎所提供的服务形式和爬虫网页抓取
行为的关键所在;在将BBS 首页Web 网页下载完成后,需要过滤其链接,根据BBS 子版
块URL 的特征,设置一个全部匹配的正则表达式,用于对网页或数据的分析与过滤。
95 (3)对URL 的搜索策略。网页的搜索策略可以分为深度优先、广度优先和最佳优先三
种。深度优先在很多情况下会导致爬虫的陷入问题,目前常见的是广度优先和最佳优先方法
[3]。在BBS 应用中主要用到的是广度优先算法。
2 BBS 网页结构分析
随着网络的迅速增长,各大高校及公司都开设了自己的讨论空间(BBS),随着论坛的
100 不断增加,其格式也开始变的多样化,这对于网络爬虫的抓取提出了难题。下面通过分析
BBS 中子版块URL 的结构特点、BBS 的列表结构及帖子URL 的共性,为接下来爬虫抓取
的设计奠定基础,并介绍正则表达式在链接过滤中的应用。
2.1 BBS 的URL 结构分析
通过对BBS 的列表格式及URL 链接格式进行分析,将论坛分成了三类,并总结了BBS
105 网页中URL 格式,如表1 所示,此表显示了3 类BBS 的网页URL 特征,涵盖了几乎所有
常见BBS 的特征。
初始化URL

















块 URL 队列
Web
 表1 BBS 的URL 结构特征
类型 结构型BBS
高校BBS 校外BBS
混合型BBS
实例 北邮人BBS
(forum.byr.edu.cn)
新浪BBS
(people.sina.com.cn)
搜狐BBS
(bbs.163.com)
特征 目录结构清晰 目录结构清晰 目录结构不清晰
主题结构 版块列表,帖子列
表,讨论区
版块列表
帖子列表
无清晰的版块列表
帖子列表
子版块URL
实例
forum.byr.edu.cn/board
/Certification
club.ent.sina.com.cn
/forum-7-1.html
bbs.gz.house.163.com/list
/housestory.html
URL 定位信

(Board)版块标示
(Certification)版块名称
无版块标示(forum-7-1)
版块入口
(list)版块标示
(Housestory)子版入口
110 从上表可以看出BBS 的格式有很好的层次,有清晰的目录结构,这对于爬虫进入子版
块及信息的提取提供了很大的便利。对于结构型BBS,在进入主页后,会有一个列表显示
子版块的信息,爬虫只需要抓取子版块的入口地址,过滤掉广告链接及其他的公共链接;子
版块的URL 链接搜索策略可根据BBS 的这一特性进行设置。
同一BBS 的子版块URL 标示都具有通性[4],比如新浪BBS 中子版块新浪财经版块的
115 URL : http://club.ent.sina.com.cn/forum-7-1.html 和新浪杂谈子版块的URL :
http://forum.book.sina.com.cn/forum-51-1.html,只有中间数字部分不同,可以用正则表达式
将所有的子版块URLs 统一匹配出来,作为主题爬虫的子版块URL 的搜索策略。
2.2 BBS 文本数据特征
BBS 主要是用来讨论或发表信息的地方,各大论坛包含的信息形式及内容大体相同。
120 通常爬虫抓取的信息也即为帖子的信息,本文只涉及到网络爬虫的抓取策略,在此只分析帖
子的主要信息格式。BBS 站点中通常包含了这样一些元素,如图2 所示。
1) 论坛板块:通常是BBS 的入口,包含各大子版块(特定话题的讨论区域)的入口;
2) 帖子列表:通常是子板块的入口,由帖子标题、发表时间、作者、点击数及回复数
组成;
125 3) 帖子:帖子是作者关于某一主题发表的内容,分为主帖和回帖;有些论坛主帖和回
帖分别显示在不同的网页;大部分论坛的回帖直接跟在主帖之后,在抓取主题正文
时,可以同时抓取回复的信息。
4) 作者/读者:发表帖子的人;阅读帖子的人。
130 图2 BBS 的层次结构
A
B C
D E F G
H I K
BBS 入口
子版块
帖子正文
发帖人/ 回
帖人信息
 其中A 是BBS 入口,属于第0 层;B、C 是子版块,属于第1 层;D、E、F 和G 是帖
学术论文网Tag:代写硕士论文 代写MBA论文 代写EMBA论文 代写毕业论文 论文发表

本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容