一、选题依据(包括研究目的、意义,国内外研究现状和发展趋势并附参考文献):
研究目的:深入研究开源的Lucene等工具包和搜索引擎相关知识,对Lucene中的分词作一定的优化,对Lucene包的排序算法进行一些改进。在此基础上,实现一个基于Lucene的小型垂直搜索引擎系统,并完成对该系统的测试和评估。
研究意义:搜索引擎为用户在具有海量信息的互联网上查找信息资源提供了极大方便。但是,随着信息多元化的发展和用户对搜索引擎提出的个性化需求,面向所有用户的通用搜索引擎己经不能满足特定用户的更深入、快速、准确的查询需求。而且,通用搜索引擎对于硬件的需求也使得要及时、全面更新互联网上的信息变得非常困难。
针对这种情况,需要一个专注于特定领域的、对硬件要求较低、数据全面深入、更新及时的垂直搜索引擎。针对某一领域、某一特定人群或某一特定需求所建立的搜索引擎就称为垂直搜索引擎。因其针对性强、目标明确和查准率高而成为获取专业信息的重要工具。它的突出特点就是“专、精、深”,且具有行业和专业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。目前常见的垂直搜索研究包括面向科学研究专业领域的、面向图片搜索和音乐下载的等等。
近年来,垂直搜索引擎已经成为搜索引擎研究和应用领域的一个热点。因此本研究具有一定的学术价值和实践价值。
国内外研究现状:国内外,有关新一代搜索引擎的研究正在成为一个热点,下面介绍一些具有代表性的系统:
国外典型的垂直搜索引擎有:
1 Scirus[1][2]是面向科技文献的一个垂直搜索引擎,它的信息源主要包括网页和期刊两部分。它首先对网络中所搜索到的结果进行过滤,然后只列出包含有科学信息的成分,方便了科研人员的使用。
2 Berkeley[1]的Focused Project系统通过两个程序来指导爬行器,一个是分类器,用来计算下载文档与预定主题的相关度,另一个程序是净化器,用来确定那些指向很多相关资源的页面。
3基于概念搜索的Ask Jeeves[3]搜索引擎,它将用户提问转化为系统己知的问题,在对提问进行结构和内容分析之后,或直接给出问题的答案,或引导用户从几个可选择的问题中进行再选择。用户只需输入简单的疑问句,如“What is the meaning or…?”、“How can I do…?”、“Where can I find…?”等句式就能直接获得结果。
4 NEC研究院的CiteSeer[4], 是一个非常有名的计算机科学领域论文的检索系统。CiteSeer的核心是ACI(Automatically Citation Index),它可以自动地对网上的电子文件(Postscript和PDF等格式)进行索引并分类。
国内典型的垂直搜索引擎有[5]:
1以奇虎www.qihoo.com为代表的论坛搜索;
2以酷讯www.kooxoo.com为代表的生活搜索;
3以音速www.258.com为代表的商业搜索;
4以去哪儿www.qunar.com为代表的旅游搜索;
5以搜职www.globehr.com为代表的招聘搜索;
6以顶九www.ding9.com为代表的比价搜索;
7以视频搜索www.openv.tv为代表的娱乐搜索。
可以看出,搜索已经不再只是单纯地搜索网站页面,而是越来越细化,越来越有针对性。专业搜索服务越来越受到用户的欢迎,也成为了学术研究的热门方向之一。
发展趋势:
1.着重提高信息查询结果的精度,提高检索的有效性
用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求相吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。因此,
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如与用户兴趣相关的信息资源)、用户模型(如用户背景)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模到达一定程度(如网页数量达到亿级)时,必然要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:比如检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
4.重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。
参考文献:
1 徐宝文,张卫丰.搜索引擎与信息获取技术.清华大学出版社,2003,P59-P70.
2 SCIRUS科学搜索引擎.http://www.lababc.com/search/ArticleShow.asp?ArticleID=169
3 Ask Jeevs.http://www.se-express.com/about/ask-jeeves.htm
4 王晓伟.垂直搜索引擎若干关键技术的研究[D].浙江大学硕士学位论文,2007,P21-P26.
5 郑凯明, 李义杰.垂直搜索引擎及其应用价值.信息技术,2008(4),45-47.
6第二十一次中国互联网络发展状况统计报告.中国互联网络信息中心.http://tech.163.com/special/00092HJD/cnnic21.html
7 Park, S., Analysis of characteristics and trends of Web queries submitted to NAVER, a major Korean search engine, Library & Information Science Research (2009), doi:10.1016/j.lisr.2009.01.003.
8 ZHANG, J., LONG, X., AND SUEL, T. 2008. Performance of compressed inverted list caching in search engines. In Proceedings of the 17th International World Wide Web Conference (WWW’08). ACM, New York, NY, 387–396.
9 TSEGAY, Y., TURPIN, A., AND ZOBEL, J. 2007. Dynamic index pruning for effective caching. In Proceedings of the 16th ACM conference on Conference on Information and Knowledge Management (CIKM’07). ACM, New York, NY, 987–990.
10 BAEZA-YATES, R., GIONIS, A., JUNQUEIRA, F.,MURDOCK, V., PLACHOURAS, V., AND SILVESTRI, F. 2007. The impact of caching on search engines. In Proceedings of the 30th International ACM Conference on Research and Development in Information Retrieval (SIGIR’07). ACM, New York, NY, 183–190.
11 NTOULAS, A. AND CHO, J. 2007. Pruning policies for two-tiered inverted index with correctness guarantee. In Proceedings of the 30th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’07). ACM, New York, NY, 191–198.
12 Nanopoulos, A., et al. Music search engines: Specifications and challenges. Information Processing and Management (2009), doi:10.1016/j.ipm.2009.02.002.
13 Ruxanda, M. M., Nanopoulos, A., Jensen, C. S., & Manolopoulos, Y. (2008). Ranking music data by relevance and importance. In Proceedings of the IEEE international conference on multimedia and expo (ICME’08) (pp. 549–552).
14 P. Gremett, Utilizing a user’s context to improve search results, Journal of the American Society for Information Science and Technology 57 (6) (2008) 808–812.
15 B.J.A. Jansen, A. Spink, C. Blakely, S. Koshman, Defining a session on Web search engines, Journal of the American Society for Information Science and Technology 58 (6) (2007) 862–871.
|