基于Lucene的垂直搜索引擎的研究与应用
一、选题依据(包括研究目的、意义,国内外研究现状和发展趋势并附参考文献):
研究目的:深入研究开源的Lucene等工具包和搜索引擎相关知识,对Lucene中的分词作一定的优化,对Lucene包的排序算法进行一些改进。在此基础上,实现一个基于Lucene的小型垂直搜索引擎系统,并完成对该系统的测试和评估。
研究意义:搜索引擎为用户在具有海量信息的互联网上查找信息资源提供了极大方便。但是,随着信息多元化的发展和用户对搜索引擎提出的个性化需求,面向所有用户的通用搜索引擎己经不能满足特定用户的更深入、快速、准确的查询需求。而且,通用搜索引擎对于硬件的需求也使得要及时、全面更新互联网上的信息变得非常困难。
针对这种情况,需要一个专注于特定领域的、对硬件要求较低、数据全面深入、更新及时的垂直搜索引擎。针对某一领域、某一特定人群或某一特定需求所建立的搜索引擎就称为垂直搜索引擎。因其针对性强、目标明确和查准率高而成为获取专业信息的重要工具。它的突出特点就是“专、精、深”,且具有行业和专业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。目前常见的垂直搜索研究包括面向科学研究专业领域的、面向图片搜索和音乐下载的等等。
近年来,垂直搜索引擎已经成为搜索引擎研究和应用领域的一个热点。因此本研究具有一定的学术价值和实践价值。
国内外研究现状:国内外,有关新一代搜索引擎的研究正在成为一个热点,下面介绍一些具有代表性的系统:
国外典型的垂直搜索引擎有:
1 Scirus[1][2]是面向科技文献的一个垂直搜索引擎,它的信息源主要包括网页和期刊两部分。它首先对网络中所搜索到的结果进行过滤,然后只列出包含有科学信息的成分,方便了科研人员的使用。
2 Berkeley[1]的 Focused Project系统通过两个程序来指导爬行器,一个是分类器,用来计算下载文档与预定主题的相关度,另一个程序是净化器,用来确定那些指向很多相关资源的页面。
3基于概念搜索的 Ask Jeeves[3]搜索引擎,它将用户提问转化为系统己知的问题,在对提问进行结构和内容分析之后,或直接给出问题的答案,或引导用户从几个可选择的问题中进行再选择。用户只需输入简单的疑问句,如“What is the meaning or…?”、“How can I do…?”、“Where can I find…?”等句式就能直接获得结果。
4 NEC研究院的CiteSeer[4], 是一个非常有名的计算机科学领域论文的检索系统。CiteSeer的核心是ACI(Automatically Citation Index),它可以自动地对网上的电子文件(Postscript和PDF等格式)进行索引并分类。
国内典型的垂直搜索引擎有[5]:
1以奇虎www.qihoo.com为代表的论坛搜索;
2以酷讯www.kooxoo.com为代表的生活搜索;
3以音速www.258.com为代表的商业搜索;
4以去哪儿www.qunar.com为代表的旅游搜索;
5以搜职www.globehr.com为代表的招聘搜索;
6以顶九www.ding9.com为代表的比价搜索;
7以视频搜索www.openv.tv为代表的娱乐搜索。
可以看出,搜索已经不再只是单纯地搜索网站页面,而是越来越细化,越来越有针对性。专业搜索服务越来越受到用户的欢迎,也成为了学术研究的热门方向之一。
发展趋势:
1.着重提高信息查询结果的精度,提高检索的有效性
用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求相吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。因此,
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如与用户兴趣相关的信息资源)、用户模型(如用户背景)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模到达一定程度(如网页数量达到亿级)时,必然要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:比如检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
4.重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。
参考文献:
1 徐宝文,张卫丰.搜索引擎与信息获取技术.清华大学出版社,2003,P59-P70.
2 SCIRUS科学搜索引擎.http://www.lababc.com/search/ArticleShow.asp?ArticleID=169
3 Ask Jeevs.http://www.se-express.com/about/ask-jeeves.htm
4 王晓伟.垂直搜索引擎若干关键技术的研究[D].浙江大学硕士学位论文,2007,P21-P26.
5 郑凯明, 李义杰. 垂直搜索引擎及其应用价值.信息技术,2008(4),45-47.
6 第二十一次中国互联网络发展状况统计报告.中国互联网络信息中心. http://tech.163.com/special/00092HJD/cnnic21.html
7 Park, S., Analysis of characteristics and trends of Web queries submitted to NAVER, a major Korean search engine, Library & Information Science Research (2009), doi:10.1016/j.lisr.2009.01.003.
8 ZHANG, J., LONG, X., AND SUEL, T. 2008. Performance of compressed inverted list caching in search engines. In Proceedings of the 17th International World Wide Web Conference (WWW’08). ACM, New York, NY, 387–396.
9 TSEGAY, Y., TURPIN, A., AND ZOBEL, J. 2007. Dynamic index pruning for effective caching. In Proceedings of the 16th ACM conference on Conference on Information and Knowledge Management (CIKM’07). ACM, New York, NY, 987–990.
10 BAEZA-YATES, R., GIONIS, A., JUNQUEIRA, F.,MURDOCK, V., PLACHOURAS, V., AND SILVESTRI, F. 2007. The impact of caching on search engines. In Proceedings of the 30th International ACM Conference on Research and Development in Information Retrieval (SIGIR’07). ACM, New York, NY, 183–190.
11 NTOULAS, A. AND CHO, J. 2007. Pruning policies for two-tiered inverted index with correctness guarantee. In Proceedings of the 30th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’07). ACM, New York, NY, 191–198.
12 Nanopoulos, A., et al. Music search engines: Specifications and challenges. Information Processing and Management (2009), doi:10.1016/j.ipm.2009.02.002.
13 Ruxanda, M. M., Nanopoulos, A., Jensen, C. S., & Manolopoulos, Y. (2008). Ranking music data by relevance and importance. In Proceedings of the IEEE international conference on multimedia and expo (ICME’08) (pp. 549–552).
14 P. Gremett, Utilizing a user’s context to improve search results, Journal of the American Society for Information Science and Technology 57 (6) (2008) 808–812.
15 B.J.A. Jansen, A. Spink, C. Blakely, S. Koshman, Defining a session on Web search engines, Journal of the American Society for Information Science and Technology 58 (6) (2007) 862–871.
二、研究内容(说明课题的具体研究内容,重点解决的问题,预期的研究成果):
具体研究内容:
1.深入研究搜索引擎及垂直搜索引擎的相关原理,系统地剖析其关键的技术;
2. 针对Web上多种文件格式如HTML、PDF、WORD、EXCEL、PPT并存的问题,设计并实现页面的解析模块;
3.针对搜索引擎中对分词的要求,对Lucene中的分词作一定的优化,一定程度上提高分词的效率和准确性;对Lucene中的排序算法作一些改进;
4.在理论研究的基础上,实现一个小型的垂直搜索引擎系统并进行测试、评估。
重点解决:针对多格式文档的页面解析;对Lucene中的分词作一定的优化;对Lucene中的排序算法作一些改进。
预期研究成果:在分词方面,对Lucene中的分词作了一定的优化;实现多种格式文件的页面解析模块;实现(借鉴)一个小型的垂直搜索引擎系统以验证文中的理论。
三、独创及新颖之处
1.针对垂直搜索引擎对分词的要求,对Lucene中的分词作出优化,设计并实现分词模块;
2.研究检索结果排序技术,对Lucene中的排序算法进行改进并提出新的方案。
四、研究方案设计(包括研究方法,技术路线,理论分析、计算、实验方法和步骤及其可行性,可能出现的技术问题及解决办法):
在阅读大量最新的相关论文和其他文献的基础上,运用分析对比法、归纳法、质疑法等由浅入深地进行研究。首先,对Lucene中的分词模块进行深入研究,针对其对中文支持不友好的缺点,寻找优化的方案。其次,考虑引入某些参数,对搜索结果排序算法进行改进。最后,编程进行实验,结合实验结果对新方案进行分析、评价。
技术路线:考虑采用基于词典分词的方式来改进Lucene的分词。因为词典比较容易扩充,其有方便快捷且易于扩展的优势。由于词典中的词都是经过验证,并确定为语言中的一个基本语义单位的,所以词典分词相对于单字分词和二分法来说其准确性较高,同时词典分词也一定程度上避免了单字分词和二分法的分词不够准确的弊端。词典分词中比较常用的是正向最大匹配算法和逆向最大匹配算法。考虑采用正向最大匹配算法来设计。
改进的检索结果排序方案除了Lucene已经考虑到的词频因素外,还需要考虑:网页文档的链接情况、网页的响应时间、正文大小以及用户查询关键词在文档中特殊位置的情况等因素。
实验方法:本系统是一个基于Web的小型搜索系统,所使用的编程语言是跨平台的Java。具体过程:(1)通过编写测试程序,对一个包含各种文件类型的文档资料库建立索引,以观测本文的系统模型在不作中间格式转换的情况下是否运行良好。(2)中文分词模块测试评测依据和实验方法以比较实验的方式进行,对standardAnalyze:(Lucene内核包中的标准分析器,对中文文本采用单汉字切分方法进行切分)、cJKAnalyzer(Lucene扩展包中的针对中日韩等亚洲国家语种的分析器,对中文文本采用二元切分方法进行切分)和本文设计的分词模块分别编写一段测试程序对同一中文字串进行分词实验,预期收集的统计指标包括“切分出的单词(字)总数”、等实验数据,进而对这三种分词方法各自的切分效果进行比较。
可行性分析:第一,借鉴较成熟的正向最大匹配算法,结合词典分词方式,可以有效改进Lucene中的分词模块。第二,针对Lucene中的搜索结果排序算法存在的一些问题,我们通过引入一些相关参数,可有效提高文档的相关性,从而可以把用户需要的关键搜索结果排在前面。
学术论文网Tag:代写论文 代写开题报告 开题报告
|