记Above 和Below 所表示的语义是price 对应概念的属性,(b)中文本标记after 和before 所 表示的语义是Publishing data 对应概念的属性。 285 Type2 实例关系(instance-of):一个文本标记表示的语义是另一个文本标记的实例,在 领域本体中的表现形式就是一个概念和另一个概念的关系是instance-of。如图6(c)中文本标 记e.g1999 和publication data 的语义关系就是实例关系。 Type3 部分整体关系(part-of):一个文本标记表示的语义是另一个文本标记的一部分, 在领域本体中的表现形式就是一个概念和另一个概念的关系是part-of。如图6(d)中文本标记 290 Last 和First 所表示的语义是name 的一部分。 (a) 295 (c) (d) 图6 含有语义关系的查询接口属性标签片段 300 Fig. 6 Attribute fragment including semantic relationships 本文基于领域本体中的3 种语义层次关系指导表单属性的进一步结合,从而在语义层次 完成查询接口模式的抽取工作,使得查询接口在语义性上更加完善,为查询接口的集成提供 有效,友好的数据。 305 查询接口模式抽取算法如下: 算法3 查询接口模式抽取 输入:存储表单属性的链表attrList,领域本体ontology 输出:查询接口模式interfaceSchema 310 算法开始 1 ontology.loadFile();/加载领域本体文件/ 2 Do/循环处理attrList 中的数据/ 3 formAttr=getAttr(attrList);/依次取表单属性/ 4 formAttrSet.add(formAttr); /添加到表单属性集合中/ 315 5 conceptSet.add(map(ontology, formAttr)); /通过领域本体把表单属性中文本映射到 概念,并且添加掉概念集合中/ 6 relStyle=hasRelation(ontology, conceptSet);/判断概念之间的关系类型/ 7 If(relStyle!=0) /判断是否有关系/ 8 Then formFinalAttr=handle(conceptSet, relStyle, formAttrSet); 320 9 interfaceSchema.add(formFinalAttr); /将表单最终属性添加到查询接口模式/ 10 formAttrSet.clear(); 11 conceptSet.clear(); 12 Endif 13 While(attrList) /表单属性链表取空结束/ 325 14 interfaceSchema.addFormInfor();/ 把表单信息加入到查询接口模式中, 包括 url,action,name,method 属性值/ 算法结束 由于查询接口编码者往往将含有语义关系的文本标记放在一行或放在相邻的行中,而不 是将这样的文本标记分离放置。因此,在对查询接口模式抽取时,只对含有相同的blockId 330 和rowId 或blockId 相同rowId 相邻的表单属性进行语义层次关系的结合。 3 实验 Deep Web 查询接口模式抽取界面如图7 所示,界面左侧表示含有查询接口的网页文件, 双击文件名,则右侧会显示对应的抽取页面和查询接口的抽取结果。批处理网页文件,则点 击左侧全部抽取按钮,则在界面的下方的表格中显示抽取的结果。 图7 Deep Web 查询接口模式抽取图形化界面 Fig.7 The graphical interface of schema extraction in Deep Web 本文的查询接口模式抽取数据来自UIUC 数据集[9],该数据集包含不同领域下查询接口 340 表单,是Deep Web 查询接口模式抽取研究工作常用的数据集。本文选取UIUC 数据集中5 个领域164 个查询接口表单,其中Books(33), Music(55), Jobs(25), Automobiles(21)以及 Movies(30)。查询接口模式抽取精度从信息提取领域中3 个方面进行评价,包括查全率 (Recall)、查准率(Precision)和F-measure 值。查全率表示正确识别的逻辑属性占所有逻辑属 性的比例。查准率表示在算法识别的逻辑属性中,正确识别的逻辑属性的百分比。F-measure 345 值是一个把查全率和查准率结合起来的指标,F-measure 值越大,系统性能越好。实验结果 如图8 所示: 图8 不同领域Deep Web 查询接口模式抽取结果 Fig.8 The results of schema extraction in different domains 350 从实验结果可以看出,平均的查全率、查准率和F-measure 值较高。也就是说能够准确 地抽取Deep Web 查询接口表单信息,并且将表单中同一语义的信息结合为一个表示查询语 义的属性。 4 结论 355 通过对网页中查询接口视觉单元和内部编码的深入研究,设计了能够更加精确抽取 Deep Web 查询接口模式的框架,主要包括4 个部分:Deep Web 查询接口定位,Deep Web 查询接口解析、Deep Web 查询接口表单属性的抽取以及Deep Web 查询接口模式的获得。 实验结果表明,本文提出的查询接口自动模式抽取方法是高效、可行的。 360 [参考文献] (References) [1] Hai He, Weiyi Meng. Clement Yu. Zonghuan. Wu. Automatic Extraction of Web Search Interfaces for Interface Schema Integration[A]. In Proceedings of the 13th International Conference on World Wide Web(WWW)[C], 2004. 414-415. [2] Liu Wei, Meng Xiaofeng. ViDE: A Vision-based Approach for Deep Web Data Extraction[J]. IEEE 365 Transactions on Knowledge and Data Engineering (TKDE), 2009. [3] Zhao Pengpeng, Cui Zhiming, Gao Ling, Zhong Hua. Vision-based Deep Web Query Interfaces Automatic Extraction[J]. Journal of Computational Information Systems, 2007, 3(4): 1441-1448. [4] J.Cope, N. Craswell, and D. Hawking. Automated Discovery of Search Interfaces on the Web[A]. In Proceedings of ADC[C], 2003. 181-189. 370 [5] Chang K C, He B, Li C. Structured databases on the Web: Observations and Implications[J].SIGMOD Record, 2004,33(3): 61-70. [6] 张伟. 基于视觉特征的Web 信息抽取技术的研究与实现[D]. 上海:华东师范大学硕士论文, 2008. [7] Jiying Wang, Fred H.Lochovsky. Data Extraction and Label Assignment for Web Databases[A]. In Proceedings of International World Wide Web Conference[C]. 2003.187-196. 375 [8] J Wang, J-R Wen, F H. Lochovsky, W-Y Ma. Instance-based Schema Matching for Web Databases by Domain-specific Query Probing[A]. In Proceedings of VLDB[C], 2004. 408-419. [9] The UIUC Web integration repository. Computer Science Department,University of Illinois at Urbana-Champaign.http://metaquerier.cs.uiuc.edu/repository/ 学术论文网Tag:代写论文 代写经济论文 代写代发论文 职称论文发表 |