网站建设——网站推广(四)

日期:2017-07-12 点击:



搜索引擎“索引”

今天我们来介绍一下搜索引擎的索引,很多人会问,“索引”是什么东东,简单的解释一下,索引就如一根绳索一样,绳索一端系到另一端,当我们们沿着绳子的一端就可以找到另一端,粗略的解释,谈不上精致,但大概就是这个意思了。真正的搜索引擎索引内容是很复杂的,索引的目的在于,收录和搜索展示,当用户搜索某个关键词时,搜索出来的内容就靠索引程序来展示的。
 
正向索引
内容经过搜索引擎的提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反应页面主题内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面的第一段文字)。每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。
 
文件ID 内容
文件1 关键词1,关键词2,关键词7,关键词10,……,关键词L
文件2 关键词1,关键词7,关键词30,……,关键词M
文件3 关键词2,关键词70,关键词305,……,关键词N
……  
文件6 关键词2,关键词7,关键词10,……,关键词X
......  
文件x 关键词7,关键词50,关键词90,……, 关键词Y
表2-1  简化的索引词表结构
 
倒排索引
前面讲的光正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算无法满足实时返回排名结果的要求。
 
所以搜索引擎会索引数据库重新构建为倒排名索引,把文件对应到关键词的映射转换为关键词到文件的映射。
 
在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含关键词的文件。
文件ID 内容
文件1 文件1,文件2,文件15,文件58,……,文件j
文件2 文件1,文件3,文件6,……,文件m
文件3 文件5,文件700,文件805,……,文件n
……  
文件6 文件1,文件2,文件6,……,文件x
......  
文件x 文件80,文件90,文件100,……, 文件x
表2-2  倒排索引结构
 
任何一个网站索引量都是非常重要的,内容被索引才说明内容有用,这样网站才能获得权重,要知道,只有用户觉得有用的东西搜索引擎才会觉得有用。如果您觉得本文有用,那就请继续关注我们哦!深圳网站建设公司专注:深圳网站建设、深圳网站设计、营销型网站建设,如有需要,您也可以在线联系我们哦!

推荐动态

最新动态

LATEST NEWS

填写您的项目需求给我们。

*请认真填写需求信息,我们会在24小时内与您取得联系。

启邦互动.CHINA

CENTER

中国·深圳·龙岗区

大芬美术馆对面

电话:0755-6193 1702

邮箱:service@sz-qibang.com

© 2016深圳市启邦互动科技有限公司 版权所有 粤ICP备13054229号-1 网站地图     付款方式