重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425
基于领域本体的RSS源的OA资源集成门户设计与实现
基于领域本体的RSS源的OA资源集成门户设计与实现
毕强1,鲍玉来1,2*
基金项目:教育部高等学校博士学科点专项科研基金“基于领域本体的开放存取资源在线集成服务门户研
究”(编号:20100061110085)
作者简介:毕强,(1954-),男,教授,博士生导师,研究方向:数字图书馆、信息资源管理. E-mail:
biqiang12345@163.com
5 (1. 吉林大学管理学院,长春 130022;
2. 内蒙古大学图书馆,呼和浩特 010021)
摘要:提出了一个积木式、个性化的OA 期刊语义门户模型及实现。探索了应用形式概念分
析的理论与方法来处理和分析OA 提供源的知识内容,建立基于本体知识结构的RSS 源,实
现基于语义的OA 资源获取与推送。
10 关键词:情报学;开放获取;领域本体;RSS;门户;概念格
中图分类号:G350
0 引言
开放获取一般有2 种实现途径:金色道路(Gold Road)即开放获取期刊(OA Journals)
和绿色道路(Green Road)即作者自存档(Author self archiving)。OA 期刊和OA 仓贮为
研究人员获取学术资源提供了一条崭新的途径。目前有代表性的开放存取资源集成服
30 务平台DOAJ 和OPEN-Jgate 分别集成了8 千多种OA 期刊,并提供统一检索服务。但是,
由于许多OA 资源是分散存放在世界各地不同的服务器和网站上的,因此用户很难直
接全面地检索到这些资源。基于用户的信息需求和信息检索角度考虑,既有必要对世
界上重要的OA 期刊和OA 仓贮资源进行全面的收集和整理,也有必要支持对重要
OA 期刊和OA 仓贮资源进行统一检索,因此,建设一个整合的、揭示OA 资源和为用
35 户提供OA 资源的一站式检索服务的门户,是提高OA 资源利用率,推动OA 运动的重要
途径。本文通过引入模糊形式概念分析的理论模型来处理和分析OA 提供源的知识内容,建
立基于领域本体知识结构的RSS(Really Simple Syndication)源,实现基于语义的OA 资源
获取与推送,并结合门户PORTAL 技术(类似目前出现的新的研究热点MASHUP 技术),
探索建立一个积木式、个性化的OA 期刊语义门户[1]。
40 1 系统模型
系统主要由概念关系生成器、本体生成器、RSS 处理器和门户容器等几个主要部件构
成,如图1 所示。
图1 系统结构图
45 Fig. 1 Structure of System
1.1 领域概念集的获取
由于目前OA 资源大部分为外文资源,所以本系统采用了Stanford Parser 作为语言分析
工具。Stanford Parser 是概率自然语言分析器,利用概率上下文无关文法和词汇依存分析方
50 法。词汇概率分析器使用从手工分析的句子中获取的语言知识来产生可能的分析结果。词典
依存语法分析给出了句子内各成分之间的相互依赖性,在单纯短语结构树的基础上加入了中
心词分析,通过它们可以获取句子中各成分的句法功能和句子的句法结构。这样就解决了自
然语言查询中的分词、词性标注、词法分析和短语识别等问题[2]。
本文选取了DOAJ 中关于digital resources 的文章各20 篇作为样本空间,应用Stanford
55 Parser 对其进行统计分析,分别得出了两个系统的关于digital resources 的概念集。
1.2 基于概念格的领域本体构建
利用Stanford Parser 针对digital library 文献中关于digital resources 概念和属性的提取
和形式化处理。我们得到了 OA 期刊数据库、出版社期刊数据库、索引文摘型数据库、机
构库等几个对象。获取了 be free、be open access、autohrize、by web、periodicity、Fulltext、
60 E-only 等形式背景,如图2 所示。
图2 概念格
Fig. 2 Concept Lattice
65 在概念格的基础上建立领域本体。这项工作由本体生成器来完成。本体生成器通过基于
OWL 的语义表述,自动生成一个领域本体[3]。具体的生成原理如下:
(1)类映射
为概念格中的每个对象映射一个本体中的对象。通过概念的内涵和外延模糊背景分析,
来构建适当的本体类。在这个过程中,需要人工对自动映射生成的本体类标签进行修正。在
70 本文中最高层次的概念应该标识为“database resources”,而自动映射则会标识为
“Concept_1”。
(2)层次映射
层次映射就是通过分析,用相应的谓词来描述概念间的关系。在本文中所有的对象与上
位概念“database resources”都是子类的关系,这种关系的表述谓词是“rdfs:subClassOf”,
75 在OWL 类的定义中,“e-journal”是“database resource”的具体化(specialization)。
(3)关系映射
将概念的内涵(就是在形式背景中的一系列属性)到本体属性的映射。在本文中,就是
将“be free、be open access、autohrize、by web、periodicity Fulltext、E-only 等形式背景”映
射为本体的属性。
80 (4)生成本体
作为本体构建的最后一步,此步骤将根据上述三个层次的映射,生成既包含概念格中全
部概念、又包含有概念关系谓词描述和属性的领域本体实例。
(5)构建本体映射知识表
在基于大量文本的语言分析统计基础上,建立概念集对应的叙词字典。就是将获取的概
85 念集于文本中实际出现的用词根据词频等指标建立映射字典,在这里我们称之为本体映射知
识表。主要功能是将本体查询转化为针对某个数据源应用的关系型数据库的检索。在本文中
概念“OA journal”在知识表中对应“OA journal”、 “Open access journal”、“free journal”
等检索词。
1.3 RSS 种子的生成及RSS 解析
90 (1)基于SparQL(Simple Protocol and RDF Query Language)的本体查询
在领域本体生成后,我们将应用SparQL(Simple Protocol and RDF Query Language)来进
行本体查询。
SPARQL 是为RDF 开发的一种查询语言和数据获取协议,它是为W3C 所开发的RDF
数据模型所定义,但是可以用于查询任何可以用RDF 来表示的信息资源。SPARQL 提供了
95 强大的基于图形匹配的查询功能:提炼查询结果( ORDER BY,PROJECTION,DISTINCT,
REDUC-D,OFFSET,LIM IT)、可选匹配( optiona l)、值约束条件( filter )、替换匹配、以及
直接回答YES /NO 等其他形式的查询。最简单的图形模式是三元组模式,一个三元组模式
与RDF 的三元组类似,不同的是三元组模式允许查询变量出现在主体、谓词或者客体的位
置上,三元组模式合并形成一个基本的图形模式[4]。
100 (2)RSS 种子生成
RSS 也叫聚合RSS,是在线共享内容的一种简易方式,是网络中最流行的内容分发格式
之一,它基于XML 语言,继承了简单,可扩展性和灵活性;通过种子(RSS feeds)实时地
跟踪多种变化的内容(如网站,维基更新,在版本控制工具的源代码的变化),RSS 去除广
告等网页噪音,只关注网站的主要内容,大大减少访问网站最新的网站更新和某一主题最新
105 的数字出版所需要的时间[4]。作为web2.0 的主要技术之一,RSS 已经成为构建个性化门户
和信息推送服务的主要途径。
通过本体映射知识表将本体查询转化为针对某一数据源的本体查询,并将结果通过RSS
种子生成工具进行处理,使得检索结果符合RSS 的格式标准。通过构建RSS 种子,我们就
可以将用户通过领域本体的定制的概念,转化为一个或者多个实际的RSS 种子,在门户中
110 实时地将结果推送给用户,实现语义推送的功能。
(3)RSS 解析
网络用户可以在客户端借助于支持RSS 的聚合工具软件( 例如
SharpReader,NewCrawler、FeedDemon),在不打开网站内容页面的情况下阅读支持RSS 输
出的网站内容。而本文要实现RSS 的在线阅读,并将RSS 阅读集成到门户系统中,使得每
115 个RSS 种子都对应一个门户组件(widget)。
1.4 门户系统构建
1.4.1 门户平台选择
本文选择了posh 作为门户平台。Posh 是一个开源个性化门户平台。其用户体验类似
Netvibes、iGoogle 等平台。采用PHP/MySQL/Ajax 开发。提供窗口小部件管理,用户管理,
120 Tab 管理,皮肤管理,插件扩展,社交网络(Social network),书签,全文检索等。最为重
要的是posh 内置了RSS 的支持,不但支持RSS 的在线解析和阅读,还将RSS 组件化,可
以便捷地实现基于RSS 的信息推送。
1.4.2 门户系统语义功能集成
POSH 功能强大,但其不具备语义功能,本文要实现的语义定制与推送需要对平台进行
125 二次开发。按两个路径进行开发:路径一,将本体知识映射表,集成到系统的数据库结构中,
在用户定制时实现概念到检索词的转化;路径二,用户信息中加入其学科背景属性,这样使
得用户注册后第一次登录时,系统就可以根据其身份选择模块库中的相关学科的组件,为其
组织一个缺省的个性门户页面。
2 系统实现
130 为了和Posh 平台更好地结合,系统采用PHP 作为开发语言,MYSQL 作为数据库系统,
采用APACHE 作为发布平台。在SPRAQL 查询中使用了开源ARC2 作为中间件。选择Lattice
Miner 作为概念格建格工具,用Protege 构建本体。
2.1 RSS 种子生成器
每一种OA 期刊都提供了对其资源的检索功能,例如,Urban Library Journal ,
135 http://cunylibraries.org/ojs/index.php/ulj/gateway/plugin/WebFeedGatewayPlugin/rss2)是其网站
提供的最新目次的RSS 种子,但是这个种子只能提供最新目次的浏览。本文中我们关注的
是,用户通过领域本体定制概念,通过本体知识映射表转换后的关键词在这个OA 期刊网站
的检索结果。通过分析协议软件(http sniffer)分析,我们得到该刊的检索URL 构造形式为,
http://cunylibraries.org/ojs/index.php/ulj/search/results ? query=open
140 +access&searchField=2,其中SearchFeild 为检索点定义,取值情况为Authors=1、
Title=2、Abstract=4、Index terms=120、Full Text =128,query 为输入的检
索词。
在获得了检索式构造方式后,需要将检索结果页面进行处理,生成RSS 种子。这里我
们确定种子所需要的信息格式为,
145
种子生成器就是要将检索结果页处理成以上格式并输出。以下代码从结果html 页面抽
取所需要的信息,
$html = file_get_html('http://cunylibraries.org/ojs/index.php/ulj/search/results?query=open
+access&searchField=2');
foreach($html->find('150 div.article') as $article) {
$item['title'] = $article->find('div.title', 0)->plaintext;
$item['author'] = $article->find('div.intro', 0)->plaintext;
学术论文网Tag:代写论文 论文发表 计算机论文 代写毕业设计 代发论文 信息系统论文
|
本站郑重声明:
1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------