重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425
一种基于规则学习的本体映射方法
一种基于规则学习的本体映射方法
陈建锋1,胡伟2
1 东南大学计算机科学与工程学院,南京 210096
2 南京大学计算机软件新技术国家重点实验室,南京 210093
摘要:本体映射是一种实现使用异构本体的应用程序之间互操作性的关键技术。提出了一种发
现本体之间复杂语义映射的新方法。将语义映射发现问题转化成规则学习,基于归纳逻辑编程
生成Horn 规则形式的语义映射。特别地,利用本体间的实例映射来构造用于发现和验证语义
映射的变量绑定,并且对于本体中的类和属性分别提出不同的处理策略以提高学习效果。实验
结果验证了方法的有效性。
关键词:语义Web;本体映射;归纳逻辑编程;实例映射
中图分类号: TP312
Discovering Complex Semantic Mappings as
Learning Rules Across Ontologies
Chen Jian-Feng1, Hu Wei2
1 School of Computer Science and Engineering, Southeast University, Nanjing 210096
2 State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093
Abstract: Ontology mapping is an important way of establishing interoperability between
(Semantic) Web applications that use different but relevant ontologies. In this paper, we
propose a new approach for finding complex semantic mappings across ontologies by
transforming the problem to a rule learning task. Our approach, derived from the classical
Inductive Logic Programming (ILP), generates mappings in the form of Horn rules.
Specifically, it utilizes existing instance mappings as anchors between ontologies to construct
variable bindings for finding and validating semantic mappings. Different processing
strategies are applied to classes and properties for improving the learning effectiveness. Our
experimental results demonstrate the feasibility of our approach.
Key words: Semantic Web; Ontology Mapping; Inductive Logic Programming; Instance
Mapping
基金项目: 高等学校博士学科点专项科研基金(课程编号: 20100091120041)
作者简介: 陈建锋(1986-),男,硕士研究生,主要研究方向:语义Web。E-mail:jferic@seu.edu.cn
通讯联系人: 胡伟(1982-),男,博士,讲师,主要研究方向:语义Web,本体工程,数据融合。E-mail: whu@nju.edu.cn
0 引言
随着语义Web 的发展,本体,作为一种知识表示形式,在数据管理和知识工程中得到广
泛应用。根据语义Web 搜索引擎Falcons[1] 的最新统计,语义Web 上可以获取到的本体数量
已经超过1.2 万,可以获取的实例数量大约1.7 亿。
由于语义Web 继承了Web 分散性(decentralization)的特征,在交叉甚至是同一个领域
中常常存在多个本体。为了实现(语义)Web 中使用不同本体的应用程序之间的互操作性,本
体映射被认为是一种解决它们之间语义异构性的关键技术。
大量现有的本体映射研究主要关注于发现本体中类和属性间的1:1 映射[2]。然而在真实
世界中,复杂的m : n 映射普遍存在,而且许多应用需要用到复杂映射[3],包括分布式推理,
实例迁移,查询重写等等。
本文提出一种新方法,将语义映射发现问题转化成跨本体的规则学习。本文方法基于归纳
逻辑编程中的FOIL 算法[4],假设给定目标本体和源本体,首先从目标本体中抽取出所有目
标谓词(对应于目标本体中的类和属性),然后在源本体中找到与之对应的一组规则,其中每
个规则由源本体中的谓词合取构成。特别地,本文方法对FOIL 做了如下改进以适合于本体间
发现语义映射:方法使用语义等价推理得到实例映射,并基于这些实例构造用于发现和验证映
射的变量绑定;为了减少搜索和存储空间,方法根据实例的类型进行数据裁剪,仅仅抽取相关
数据用于构造变量绑定;此外,方法还对类和属性分别使用不同的数据裁剪策略。实验结果表
明这些改进很好地提高了算法的性能并且保证发现映射的精度。
本文结构组织如下:第1 节陈述基本概念和问题定义;第2 节给出本文提出的本体间语
义映射学习方法;第3 节给出真实数据集上的评估结果;最后是全文总结和未来工作展望。
1 问题定义
本体(Ontology)是共享概念的显式规范说明[5]。W3C 组织发布了Web 本体语言(Web
Ontology Language,简称OWL)。OWL DL 是OWL 的一个子语言,以隶属于一阶逻辑
(First-Order Logic)的描述逻辑(Description Logic)为基础。本文仅考虑那些使用OWL DL
语言描述的本体。
一个OWL DL 本体形式化定义了领域术语(包括类和属性)及它们间的公理,同时描
述了领域中的实例以及它们间的关系。本体中的类(class)对应一阶逻辑中拥有一个变量
的一元谓词(unary predicate);属性(property)对应二元谓词(binary predicate);而实例
(instance)对应到常量(constant)。本体中实例的描述及其它们间的关系表述称为事实集合
(facts),基于这个集合可以发现本体术语层间的语义映射关系。
对于Horn 规则而言,一个子句(clause)是一组文字(literal)的析取,其中文字是应用
到常量或者变量(variable)上的谓词。能够被满足的(与事实相符的)文字被称为正文字,
否则是负文字。一个子句被称为Horn 子句当且仅当其最多只有一个正文字。Horn 规则是一
类Horn 子句,仅包含一个正文字和至少一个负文字,可以表示成:H L1 ^ L2 ^ ^ Ln,
特别地,将规则体中包含多于一个文字的规则定义成语义映射(n 2),这也是本文方法
主要学习的目标。
2 基于ILP 的本体间语义映射学习方法
本文提出了一种源于ILP 中FOIL 算法[4] 的本体间语义映射学习方法,其伪码在
Algorithm 1 中给出。算法的输入是两个本体,一个作为源本体,另一个作为目标本体。算法
的目标是发现从源本体到目标本体的语义映射,并将发现的映射表述成Horn 规则的形式。第
3 行基于OWL 语义在两个本体间构建实例映射集合。接下来第4–6 行,算法采用基于类型的
策略裁剪目标本体,确保在拥有很多实例映射的情况下最多选择N 个实例。在第7 行,利用
这些实例映射作为本体间的“桥梁”,算法从源本体中抽取出相关数据(包括谓词集合和事实
集合)。最后,算法对与当前关注类相关的每个目标谓词尝试学习出语义映射。
总体上,算法包括了两个阶段:
• 数据预处理阶段执行一个基于类型的策略从源本体和目标本体中抽取相关的数据,然后
把数据从本体表示转换成规则学习算法需要的数据结构(谓词和事实)。
• 规则学习阶段实施一个特殊到一般的搜索去构建Horn 规则形式的语义映射。
本节剩下的部分将对这两个阶段作详细阐述。
2.1 数据预处理
2.1.1 构造实例映射
基于OWL 的原语,可以获取实例映射集合。这里采用的原语包括owl:sameAs,
owl:InverseFunctionalProperty,owl:FunctionalProperty,owl:cardinality和owl:
maxCardinality。这五个OWL 中的内置词汇经常用于发现实例等价关系[6]。算法使用这些
成对实例作为两个本体间的桥梁,从它们出发寻找本体模式层间存在的语义映射关系。另外,
为了避免发生组合爆炸,对于同一个类型算法只从目标本体中随机选择最多N 个实例以及关
联的谓词。
Algorithm 1: ComplexMatch(Os;Ot; Is; It)
Input: 源本体Os 以及其包含的实例Is, 目标本体Ot 以及其包含的实例It.
Output: 语义映射集合M.
1 begin
2 // 数据预处理阶段
3 AI = ProduceInstanceMappings(Os;Ot; Is; It);
4 Ct = GetTargetClasses(AI );
5 foreach c 2 Ct do /* 抽取相关数据*/
6 (Ic
t ;Pt) = SelectInstancesAndPredicates(c;N); // 最多选取N 个实例
7 (Ps;Fs) = SelectPredicatesAndFactsFromSourceOntology(Ic
t ;AI ;Os);
8 // 规则学习阶段
9 foreach d 2 Pt do /* 为每个谓词学习映射规则*/
10 m = FindAMapping(d;AI ;Ps;Fs);
11 M = M [ fmg;
12 end
13 end
14 return M;
15 end
2.1.2 相关数据裁剪
从选定的目标本体中的实例出发,通过实例等价映射关系,可以从源本体中获取对应的实
例。算法为源本体中的每个实例,进一步抽取出候选的谓词及相关的事实。考虑到本体中类和
属性在概念特征上的差异,算法在数据抽取的时候区别对待源于这两种概念的谓词。下面给出
具体的策略:
• 类(class)在本体中体现概念上的分类。对源于类的一元谓词,算法倾向于学习出能
够相互区分类别的语义映射,也就是说规则将具有分类能力。算法利用rdf:type和
rdfs:subClassOf这两个类型声明的语义信息来引导抽取过程。具体来说,算法从源本
体中的某个实例出发后,优先选择拥有相同类型的实例的事实。
• 属性(property)在本体中表述实例间的关系。对源于属性的二元谓词,算法倾向于学习
出一个属性集合,属性之间满足定义域(domain)和值域(range)可以兼容。因此,算
法从源本体中抽取那些构成属性链的实例,然后收集与它们相关的事实。
算法也为搜索过程设定了一个边界,当在一个方向上的搜索深度达到5,将终止搜索过
程。通过以上阐述的数据裁剪方法,算法最终减小了候选谓词的搜索空间,同时节约了变量绑
定的存储空间,最终实现算法性能优化。
2.2 规则学习
在数据预处理后,算法为源于类和属性的谓词学习形如Horn 规则的语义映射。下面介绍
产生一个语义映射的学习算法,正例、反例变量绑定的构造过程,以及新增文字效能的评估方
法。
2.2.1 映射算法
算法FindAMapping 在Algorithm 2中给出,实施一个由一般到特殊的搜索去发现一个语
义映射:从一个仅有规则头的映射出发,算法不断地向规则体中增加新的文字,直到满足终止
条件。
Algorithm 2: FindAMapping(d;AI ;Ps;Fs)
Input: 目标谓词d, 实例映射集合AI , 源本体中谓词集合Ps, 源本体中事实集合Fs.
Output: 一个语义映射m.
1 begin
2 Init: m = d ;
3 Pos = jConstructPositiveVariableBindings(m;AI ;Ps;Fs)j;
4 Neg = jConstructNegativeVariableBindings(m;AI ;Ps;Fs)j;
5 while Neg > 0 && LengthOfBody(m) < do
6 L = GenerateAllCandidateLiterals(Ps);
7 Lmax = arg max
L2L
Gain(L;m);
8 Append Lmax to the body of m;
9 Update Pos and Neg w.r.t. the new m;
10 end
11 return m;
12 end
算法在第6–9 行执行贪婪式搜索选择最优的文字。首先,在第6 行基于输入的目标谓词
集合Ps,方法GenerateAllCandidateLiterals生成所有的候选文字。然后,在第7 行计算每个候
学术论文网Tag:代写硕士论文 计算机论文 代发论文 职称论文发表
|
本站郑重声明:
1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------