【摘要】 网络搜索引擎(如google、百度等)作为一种特殊的信息检索系统,其特殊之处就在于它的检索范围是针对整个Web网页资源的。互联网上的信息资源数量巨大、并且处于不断地变化更新当中,最为重要的是Web网页文档本身是半结构化或无结构的,其中经常包含导航、广告信息、无用链接等与网页主题无关的内容,其复杂程度远高于普通的文本文档。而一般的信息检索系统(如文献检索系统)大部分都是基于空间向量模型而设计的,无法适应Web资源的以上特性,这就使得网络搜索引擎与基于空间向量模型的信息检索系统在工作原理上会出现很大的不同。本文着重从索引建立、查询扩展、相关网页排序三个方面来阐述它们的不同之处。本文的主要内容是:详细介绍了网络搜索引擎索引组织结构,并针对Web网页中包含有大量无关信息如广告、导航等影响索引的效率的问题,给出了网页预处理及文本提取的实现算法,去除了Web网页文档中的重复网页、噪音内容以及噪音链接,提高了搜索引擎的索引效率。本文提出了结合用户兴趣和服务器端日志发掘的相关搜索的实现算法。针对传统PageRank算法会出现“主题漂移”现象,带来许多与用户所需信息无关的噪声信息的缺点,本文提出了基于页面主题相关性的PageRank算法,从网页的超链接、网页内容以及用户点击行为三个方面判断网页文档与查询主题相关性,进而避免出现过多的与检索主题不相关的网页信息。最后本文提出了一种自动摘要的实现算法,通过计算网页文档中每个句子的权重值,得到最能表达该网页主题内容的句子作为摘要反馈给用户,方便用户直观、快速地获取网页文档的主题内容,从而不断改进搜索关键词,检索出所需要的网页信息。 摘要 5-6 ABSTRACT 6-7 1 引言 10-13 1.1 课题背景 10-11 1.2 研究内容 11 1.3 组织结构 11-13 2 搜索引擎相关简介 13-23 2.1 信息检索的定义 13 2.2 信息检索性能评价 13-16 2.3 搜索引擎的定义及分类 16-18 2.4 网络搜索引擎的结构及工作原理 18-21 2.5 网络搜索引擎的发展趋势 21-23 3 网络搜索引擎的索引分析 23-41 3.1 信息检索模型 23-27 3.2 索引的组织结构 27-30 3.3 中文分词 30-31 3.4 网络搜索引擎的索引过程 31-33 3.5 网页预处理及文本提取的实现 33-41 4 网络搜索引擎的查询扩展 41-54 4.1 查询扩展相关技术简介 41-45 4.2 网络搜索引擎的查询扩展 45-47 4.3 网络搜索引擎相关搜索的实现 47-54 5 网络搜索引擎的排序算法 54-65 5.1 基于Web页面链接的排序算法 54-58 5.2 PageRank算法不足 58-59 5.3 基于页面主题相关性的PageRank的算法设计 59-62 5.4 自动摘要算法设计 62-65 6 总结和展望 65-66 致谢 66-67 攻读硕士学位期间发表的学术论文 67-68 参考文献 学术论文网Tag:代写硕士论文 代写论文 代写图书论文 |