学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 图书情报

基于粒度概念分析的开放存取资源关键词分析:以Ontology领域关

基于粒度概念分析的开放存取资源关键词
分析:以Ontology 领域关键词为例#
滕广青,毕强,鲍玉来**
基金项目:教育部高等学校博士学科点专项科研基金“基于领域本体的开放存取资源在线集成服务门户研
究”(项目编号:20100061110085)
作者简介:滕广青,(1970-),男,副教授,主要研究方向:网络信息资源管理
通信联系人:毕强,(1954-),男,教授,主要研究方向:网络信息资源管理、数字图书馆. E-mail:
biqiang12345@163.com
5 (吉林大学管理学院,长春 130022)
摘要:针对开放存取知识服务中面临的问题,以概念格理论为基础,在形式概念分析的基础
上,提出了粒度概念分析的方法。并以粒度概念分析法,针对开放存取资源的文献关键词,
构建了不同粒度概念格。通过基于粗细不同粒度概念格的挖掘,对具体领域的开放存取资源
进行了领域高频关键词和相关低频关键词的分析,从而呈现和揭示了领域知识的结构和内在
10 关联,以期探索开放存取资源知识服务的新途径。
关键词:图书馆;概念格;开放存取;粒度概念分析;关键词分析
 0 引言
30 从2002 年《布达佩斯开放存取先导计划(Budapest Open Access Initiative,BOAI)》[1]
的发布,到2004 年中科院院长路甬祥院士和国家自然科学基金委员会主任陈宜瑜院士分别
代表中科院和国家自然科学基金会签署了《关于自然科学与人文科学资源的开放存取的柏林
宣言(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities)》[2],
开放存取(Open Access,OA)[3]已经成为互联网时代知识获取与共享的重要途径。在此期
35 间,开放存取凭借其投稿方便、费用低廉、出版快捷、便于传送、刊载量大、检索方便等优
势,已经成为网络环境下学术信息交流的理想模式。特别是近年来,在学术团体和一些出版
机构的推动下,开放存取的相关研究在理论探索和实践应用方面都得到了长足的发展。
在理论研究方面,研究人员在开放存取资源的制度选择[4]、出版物质量[5]、商业模式[6]、
引文优势[7]等多个方面进行了比较深入的研究,并积累了较为丰富的成果。在实践应用方面,
40 一批专门致力于开放存取的服务平台相继涌现,如 PloS(Public Library of Science)[8]、
 DOAJ(Directory of Open Access Journals)[9]、PNAS(Proceedings of the National Academy
of Sciences of USA)[10]等。但是随着开放存取在世界范围内的应用不断深入,开放存取
中存在的一些问题也相继暴露出来。如,一些开放存取资源往往缺少职业权威的评价机制
[11],文献的权威性和科学性受到质疑。在全球的开放存取资源当中,不乏类似PLoS 这样采
45 用严格的审稿与评价机制的资源平台,但在大多数开放存取资源中,评价机制参差不齐。此
外,开放存取的最终目标必然是服务于用户,但是开放存取平台一般很少有传统图书馆中叙
词/主题词表等固化严谨的索引系统,而由作者提供的文献关键词则相对自由[12]。不同作者、
不同用户对于关键词的选择和使用标准不尽相同,甚至对同一关键词的语义理解也存在各自
的偏重,限制了作者与用户、用户与用户间的知识交流,从而限制了开放存取知识服务的初
50 衷,制约了开放存取事业的发展。
本文以概念格理论为基础,在形式概念分析(FCA)[13]的基础上,提出以粒度概念分析
(GCA)的方法,针对从DOAJ 开放存取资源平台抽取的文献数据,构建了不同粒度概念
格。通过基于粗细不同粒度概念格的挖掘,对开放存取资源进行了相关文献的关键词分析,
从而呈现和揭示了领域知识的结构和内在关联,以期探索开放存取资源知识服务的新途径。
55 一方面,借助概念格中概念的内涵和外延及其泛化和例化之间的关系揭示隐含在文献关键词
中的知识结构与潜在的规则,丰富开放存取资源知识服务的方法和手段。另一方面,通过不
同粒度的概念格对潜在知识的多粒度呈现,探索概念格理论在海量的开放存取数据资源处理
方面的应用途径。
1 粒度概念分析(GCA)法
60 针对开放存取资源区别于传统馆藏资源的特点,本研究在形式概念分析(FCA)的基础
上提出了“粒度概念分析(Granularity Concept Analysis,GCA)”的方法。如果说关联概念
分析(RCA)[14]是在形式概念分析的基础上着重于在概念横向关联方面的延伸,那么粒度
概念分析(GCA)则强调在概念纵向细节方面的拓展。
Ganter 和Wille 认为,如果形式背景(Formal Context)中涉及的元素超过50 个,其所
65 获得的概念格Hasse 图的可读性就会受到影响。为此,他们提出了以“嵌套Hasse 图”[15]
的方法解决这一问题。而事实上,当人们针对某一领域的文献进行关键词分析时,如果不加
筛选,所涉及的关键词会远远超过这一数值。即使采用“嵌套Hasse 图”方法在一定程度上
缓解了概念格Hasse 图的可读性问题,但是其建格的运算量非但没有减少反而随着嵌套的增
加而增加。这也是本研究在数据准备和预处理过程中建立高频关键词类的一个原因。
70 本文提出的粒度概念分析(GCA)法的基本指导思想是根据概念粒度由粗到细进行概
念格迭代。粒度概念分析的第一步,就是要构建粗粒度形式背景和粗粒度概念格。由于形式
背景中的要素粒度线条粗阔,在一定程度上减轻了对领域专家的依赖。就像区分有毒蘑菇和
无毒蘑菇(细粒度)往往需要一定的专业知识,而区分蘑菇和竹笋(粗粒度)则相对容易得
多。由粗粒度形式背景诱导的粗粒度概念格除了降低了概念格的复杂性、减少了建格运算量、
75 增强了概念格Hasse 图的可读性,还能够很好地把握全局范围内的类间关系,在领域全局视
角下提供粗粒度概念的相关信息,并有助于用户选择相应的高频关键词类做进一步深入分
析。粗粒度概念格中,相应节点所对应的关键词从属于不同的文献,这些文献中同时还包含
那些没有被收录到高频关键词类中的关键词。因此,粒度概念分析(GCA)法的第二阶段
就是针对某类高频关键词构建细粒度形式背景和细粒度概念格。细粒度形式背景中的形式对
80 象(Formal Object)仅限于某一类高频关键词所对应的文献,但是其形式属性(Formal
 Attribute)却包含了那些此前没有被收录在高频关键词类中的低频关键词。所以,由细粒度
形式背景诱导的细粒度概念格在运算量和复杂程度得以改善的同时,能够通过概念间的偏序
关系呈现更多的数据细节,为用户提供了更为翔实、细致的文献信息。其整体框架如图1
所示。
85
图1 粒度概念分析(GCA)
Fig.1 Granularity Concept Analysis
图1 中,由粗粒度概念格到细粒度概念格,形式对象数量减少的同时形式属性相应地增
90 加。即,涉及的文献数量减少,而单篇文献中所考察的关键词数量则相应地增加。以此实现
对形式背景中元素总量控制的同时,保证了细节信息的呈现。因此,粒度概念分析法中的细
粒度概念格是粗粒度概念格的子外延概念格,同时也是其局部父内涵概念格。
2 数据准备与预处理
本研究选择世界著名的DOAJ(Directory of Open Access Journals)开放存取资源平台作
95 为研究对象。DOAJ 是瑞典Lund 大学图书馆于2003 年创建的开放存取资源检索平台,截至
2011 年5 月28 日已收录6568 种学术期刊,其中2917 种期刊可以获取文章内容,收录论文
总量达574023 篇。
研究中以“Title=ontology”为检索式,初步获得“本体”领域相关文献339 篇。在初步
筛选中,首先剔除部分未提供关键词的文献,再剔除纯哲学、人文等领域的文献,将剩余文
100 献作为下一步研究的原始资料集。然而,此时的原始资料集中涉及各类关键词近千个,因此
有必要对这些原始关键词作进一步的整理和清洗。
开放存取资源中,并没有传统图书馆中规范的、既定的叙词/主题词表,文献中关键词
的设立也往往由文章作者自由选择。如果直接使用词频统计的方法筛选高频关键词,则会导
致个别词频较低的关键词被舍弃,从而丢掉许多有用的信息。因为其中一些词频较低的关键
105 词很有可能是由于单复数(如ontology;ontologies)、同义词(如searching;retrieval;query)、
近义词(如matching;alignment)以及密切相关词(如OWL;RDF)等形式使其在外在表
现上呈现为相对独立的关键词,而事实上则属于同类关键词,且由这些低词频关键词组成的
关键词类则有可能属于高频关键词类。即,ontology matching 和ontology alignment 可能都
不属于高频关键词,但由其共同组成的关键词类则有可能属于高频的关键词类。基于开放存
110 取资源中文献关键词选择相对自由的特点,研究中对原始关键词进行了分类。
首先根据单复数、同义词、近义词、密切相关词等原则对关键词进行分类,在设置类频
阈值等于10(阈值可根据研究需要进行调整,此处将类频低于10 的关键词类不视为高频关
键词类)的条件下,获得6 类高频关键词类。其次,在6 类关键词所涉及的全部文献中,如
果某文献中只拥有1 个属于高频关键词类的关键词,则说明该文献未必属于高频关键词类所
 115 代表的研究领域的文献,至少不是核心文献,故将其舍弃。由此,最后获得6 类高频关键词
共159 个,涉及文献58 篇。参见表1。
表1 高频关键词类别
Tab.1 High-Frequency Keywords Categories
类号 高频关键词类别 类别中所含关键词
C1 一般本体概念关键词类
Ontology
Ontologies
Domain Ontology

C2 本体工程关键词类
Ontology Engineering
Ontology Alignment
Ontology Matching
Ontology Mapping
Ontology Integration
Ontology Design
Ontology Building
Ontology Definition
Ontology Development

C3 语义分析关键词类
Semantics
Semantic Technology
Semiotic Metrics
Semantic Interoperability
Semantic Knowledge
Semantic Similarity
Semantic Web
Semantic Extraction
Semantic Relationship Set

C4 本体工具、语言关键词类
Protégé
OWL
RDF
FOAM
SPARQL
XML

C5 信息检索关键词类
Information Retrieval
Query
Keyword Searching
学术论文网Tag:代写论文 论文发表 代发论文 代写图书论文 职称论文发表

本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容