基于领域本体的开放获取资源语义检索引
擎设计与实现#
毕强1,鲍玉来1,2,滕广青1*
基金项目:教育部高等学校博士学科点专项科研基金“基于领域本体的开放存取资源在线集成服务门户研
究”(编号:20100061110085)
作者简介:毕强,(1954-),男,教授,博士生导师,研究方向:数字图书馆、信息资源管理. E-mail:
biqiang12345@163.com
5 (1. 吉林大学管理学院,长春130022;
2. 内蒙古大学图书馆,呼和浩特010021)
摘要:提出一个以领域本体为基础的,开放获取资源的语义检索引擎的设计方案。引入了中
介映射和本地映射的方法来处理顶级领域本体与OA 资源的应用领域本体之间的通讯。探索
了通过SPARQL 查询分解与重构来处理异构OA 资源语义检索新途径。
10 关键词:情报学;语义检索;开放获取;领域本体
中图分类号:G350
0 引言
开放存取(Open Access,简称OA)资源是公开科学研究成果,共享学术信息的一种重要的
在线学术资源。网络技术的发展,OA 期刊和OA 仓储资源得到了空前的发展,加速了开
放存取从理念到实践应用的进程。目前重要的开放存取资源集成服务平台DOAJ(Directory
30 of Open Access Journals)、DOAR(Directory of Open Access Repositories)、SOCOLAR 等
系统就是OA 资源信息组织的成功范例,这些系统所建立的基于OAI-PMH(Open Archives
Initiative Protocol for Metadata Harvesting Project)的元数据获取机制、基于DOI 的文献标识
机制、基于OAIS 的永久保存机制为OA 资源的深度利用起了重要的推动作用。但是,由
于许多OA 资源是分散存放在世界各地不同的服务器和网站上的[1],分布的泛在性与组
35 织的异构性决定了对其进行深度知识组织的复杂性,因此用户很难直接全面地检索到这
些资源。
近年来,学术界对于OA 资源的整合检索的研究主要集中在三个方面:① 元数据整合
方式,通过OAI-PMH、或者其他方式获取OA 资源的元数据,集中存储提供检索;② 基于
网络爬虫技术的整合方式,通过网络爬虫技术抓取、解析和索引OA 资源[2],集中存储提供
检索;③ 基于EAI(Enterpr iseApplication 40 Integration)的跨库实时检索机制[3]。尽管上述研
究取得了一些研究成果,但是其提供的检索仍然都是以关键词匹配为基础,结合布尔运算构
造查询表达式的传统方式。没有将OA 资源的检索提升到知识检索的高度。鉴于此,利用领
域本体来解决OA 资源整合中的语义异构问题,将使OA 资源的检索提升到“语义“的水平。
本文给出了基于领域本体的OA 资源语义检索引擎的系统模型及实现。
45 1 OA 资源语义检索引擎系统逻辑结构
本体具有在“语义”水平的描述和组织能力;本体的形式化允许某些种类的推理,这些
推理会在一定的时间复杂度的环境中自动产生。由于本体数据的独立性和自动推理本体已被
广泛应用于特定领域的知识组织和知识服务。本体非常适合整合异构数据库,使不同的系统
在独立和互操作基础上提供以知识为基础的服务成为可能。
50 1.1 逻辑架构
在本文中,提出一个三层体系架构的本体模型。Domian Ontology(DO)采用RDF/ OWL
语言定义,用于表述某一学科领域概念及概念间的语义关系,其概念集合是该领域的一个受
控词表或者术语词典。Applaction Ootology(AO)用于每个OA 数据源概念及其关系的语义
描述,其概念集合是领域本体或全局本体的子集,也用RDF/ OWL 来描述。本地数据结构LDS
55 (Local data Structure)是OA 资源检索结果的一个抽象描述,是存在与关系型数据库、
XML 或者文件系统中的某一OA 资源的数据结构说明。
DO、AO 和LDS 之间通过中介(mediated mapping role)和局部(local mapping role)
两个层次的逻辑映射来通讯。中介映射定义DO 和AO 的映射规则,局部映射定义AO 和
LDS 之间的概念映射关系,如图1 所示。
60
图1 OA 资源语义检索引擎逻辑架构
Fig. 1 Logical Frame of Semantic Searching Engine in OA Resource
65 1.2 OWL
系统采用OWL(Web Ontology Language)来描述DO 和AO。采用SPARQL 来执行领
域本体上的查询。
OWL 是经过万维网联盟认可,在语义网络中用于描述编纂本体的一 系列语言家族。其
功能在于为网络文档和应用中固有的类以及其间的逻辑关系提供描述,使得基于此技术的网
70 络应用更加人性化和智能化,节省用户自身资源搜索时间并将这些处理交给计算机系统内部
处理。基于不同的语义特性,此家族语言大致分为两个系统: 基于描述逻辑进而丰富表达
和精准计算属性的OWL DL 和OWL Lite,以及以资源描述架构(resource description
framwork:RDF) 提供兼容叙述的OWL Full。 网络本体语言已经被认为是语义网技术的基
础语言[4]。
75 1.3 SparQL
SparQL(Simple Protocol and RDF Query Language),是为RDF开发的一种查询语言和数据
获取协议,它是为W3C 所开发的RDF 数据模型所定义,但是可以用于查询任何可以用RDF
来表示的信息资源[5]。
SPARQL 提供了强大的基于图形匹配的查询功能: 提炼查询结果( ORDER BY,
80 PROJECTION,DISTINCT, REDUC-D,OFFSET,LIM IT )、可选匹配( optiona l)、值约束
条件( filter )、替换匹配、以及直接回答YES /NO 等其他形式的查询。最简单的图形模式是
三元组模式, 一个三元组模式与RDF 的三元组类似, 不同的是三元组模式允许查询变量出
现在主体、谓词或者客体的位置上,三元组模式合并形成一个基本的图形模式。下面是一个
三元组模型例子:
85
SPARQL 查询Q = (V,P,DS,SM)可以分成四部分,V 是结果形式,具体有:
SELECT,CONSTRUCT,DESRIBE,ASK;P 是图形模式;DS 是数据源,它可以由多
个不同的本体组成,在SPARQL 中DS 通常是可以省略的;SM 是结果修改。SRARQL 的
语法形式与关系数据库中的结构化查询语言SQL 比较相似,都包括SELECT,WHERE 部
90 分。但仅仅是语法上的相似,两者有本质区别:SQL 基于关系代数模型来构造查询,而
SRARQL 基于图的模型来构造查询。
在本文中,系统的逻辑结构由DO、AO、LO、MM、LM 五个部分构成,可以表达为:
SYSTEM = (DO,AOk, LOk, LMk, MM ), k=1,...,n
其中:DO 为Domain Ontology;即某一学科的领域本体。
95 AO 为Application Ontology;表述某一OA 资源提供平台的应用本体。
LO 为Local Ontology;某一OA 资源提供平台数据结构的抽象表达。
MM 为mediated mapping;领域本体到应用本体的映射。
LM 为local mapping;本地数据结构到应用本体的映射。
对于应用本体AO 的每个概念,会在MM 中产生一个SPARQL 代数表达式,在LM 中也
100 会关联一个对应的SPARQL 代数表达式。这样领域本体上的查询就会由AO 分析组合后传
递到LO 产生检索结果。
1.4 Stanford Parser 语言分析
由于OA 资源大部分为外文资源,所以本系统采用了Stanford Parser 作为语言分析工具
统据。Stanford Parser[ 8] 是概率自然语言分析器, 利用概率上下文无关文法和词汇依存分析
105 方法。词汇概率分析器使用从手工分析的句子中获取的语言知识来产生可能的分析结果。词
典依存语法分析给出了句子内各成分之间的相互依赖性, 在单纯短语结构树的基础上加入
了中心词分析, 通过它们可以获取句子中各成分的句法功能和句子的句法结构。这样就解决
了自然语言查询中的分词、词性标注、词法分析和短语识别等问题[6]。
1.5 本体构建
110 (1)DO(Domain Ontology)构建
我们用Stanford Parser 对ODLIS(2004)文档的词条及其注解进行了分析统计,得出了
图书情报领域的概念集,以此为基础构建了一个简单的数字图书馆的领域本体。使用命名空
间前缀“DL”来指这一领域本体词汇。如图2、图3 所示。
图2 数字图书馆领域本体片段
115
Fig. 2 Segment of Domain Ontology on Digital Library
图3 数字图书馆领域本体UML 图
Fig. 3 UML of Domain Ontology 120 on Digital Library
例如,DL:Technologies,被定义成为DL:DatabaseSearch 的一个dataType 属性:取值范
围为string:DL:acrosssearch 被声明为DL:DatabaseSearch 的一个子类,并为其定义了
DL:hasTechnologies 的对象属性(object property),取值范围为DL:Technologies。
125 (2)AO(Application Ontology)构建
本文选取了DOAJ 和open J-gate 两个OA 期刊提供源关于digital library 的文章各20 篇
作为样本空间,应用Stanford Parser 对其进行统计分析,分别得出了两个系统的关于digital
library 的概念集,并从中选取数字图书馆的一些技术(Technology)性概念建立了一个子集,
并在此基础上构建了DOAJ 、Open J-gate 和DL Technologies 三个本体,使用 “DOAJ”
130 作为DOAJ 的命名空间前缀,JGATE 作为Open J-gate 的命名空间前缀。DLT 作为DL
Technologies 的命名空间前缀。如图4 所示。
图4 应用本体UML 图
Fig. 4 UML of Application Ontology
135
在DL 命名空间定义A1(DL:title rdf:type owl:InverseFunctionalProperty)和A2(DL:name
rdf:type owl:InverseFunctionalProperty)分别为DL:DatabaseSearch 和DL:Technologies 两个反
函数公理(inverse functional axioms)。
通过反函数公理存在于不同AO 中的实体就会自动链接。例如,公理A2 定义了如果两
140 个DOAJ:Technologes 实例X、Y 具有相同的DOAJ:name 那么他们就是映射的统一个本体实
例。以此类推, JGATE: Technologies (X), JGATE:name(X, n), DLT: Technologies
(Y),DLT:name(Y, n)-> same-as (X, Y)。反函数公理在中介映射的构建中扮演非常重要的角色
[7]。
(3)中介映射(mediated mapping)
145 中介映射实际上是定义DO 概念和与之相关联AO 概念之间的认同关系。如果qD 作用
在DO 上查询,qA 用在AO 上的查询,则qD<-qA 表示了一种 AO到DO 的认同关系。实
际上本体之间同构认同和异构认同两种认同关系。同构认同,当qA 作用于单个的AO 上这
种认同基于AO 的概念集合自动产生。异构认同,当qA 作用于两个的AO 上这种认同基于
同构认同和反函数公理自动产生。
150 对于DO 上的对于一个概念C 的查询qD,我们为其关联一个AO 上的SPARQL 的代数
表达式ρ(C), 则ρ(C)可以定义成为AO 上C 认同查询qA 的一个组合。例如DO 上一个关于
数字图书馆技术(DL:Technologies)的查询可以表示为:
ρ( DL:Technologies) = (?DLT DLT:Technologies ? Technologies) UNION (?DLT
DOAJ:Technologes? Technologes) UNION ((?DLT JGATE:name ?name) AND (?Technologies1
学术论文网Tag:代写论文 论文发表 计算机论文 代写毕业设计 代发论文 信息系统论文
|