网站建设——网站推广(二)

日期:2017-07-08 点击:

 搜索引擎工作原理简介
 
在前面一章我们已经对搜素引擎做了一番了解,相信认真看来的朋友,已经对搜索引擎有了进一步的了解。那么接下来,深圳网站建设公司启帮互动将继续对搜  索引擎的工作原理进行介绍,想了解更多搜索引擎知识的朋友,就请继续阅读本章,本章以后我们还会继续推送更多的内容。
 
· 搜索引擎的工作过程
第一步:爬行和抓取
搜索引擎蜘蛛会通过链接访问网页,从而获得页面HTML代码存入数据库中。
第二步:预处理
索引程序会对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
第三部:搜索排名处理
在用户搜索信息时,根据用户输入的关键词,搜索引擎会调用数据库进行匹配,上一章我们讲的相关性也会进行计算,使用户获得更多的内容,最后是按照一定格式生成搜索结果页面。

下面对以上知识点进行细分

· 蜘蛛爬行和抓取
搜索引擎日常获取数据的程序,被称为蜘蛛,也是机器人。当搜索引擎要访问网站时,也会发出请求信号,这时服务器会返回html代码信息,蜘蛛接收到返回信息就会把存入原始数据库。一般搜素引擎为了提高工作效率,会使用多个蜘蛛进行爬行和抓取。
搜索引擎访问任何网站也都是有自己的原则的,他会先访问带有robots.txt这种文件,在互联网上我们会有一些不希望被别知道的信息,如客户的资料信息,个人私密信息等,这些信息我们不希望被广为流传,这时候我们就可以设置robots.txt来告诉蜘蛛,这些内容不要被抓取。
蜘蛛来个访问我们的网站时,也会留下标记表明自己的身份,我们可以在蜘蛛日志里面看到,有哪些搜索引擎来访问过我们的网站。如何查看蜘蛛日志,可以通过ftp在网站根目录下面找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,一般哪个蜘蛛来爬过我们的网站,我们可以看标记,如、;百度蜘蛛会带有‘baidu’字样,大家仔细看一下就可以分辨了。

· 跟踪链接爬行

深度爬行
大家知道我们的网站结构是分为很多层级的,首先是首页,然后是栏目也页,栏目页以后是内页,懂一点的人都因该知道,网站层级最好不要超过五级,不然会对蜘蛛的抓取有阻碍,蜘蛛的抓取由首页开始,一级一级往下,这就是深度抓取。

广度抓取
广度抓取是在深度抓取之上建立的,当蜘蛛沿着一级一级去抓取时,如果到某一级,这一级还有另外的链接,蜘蛛就会先沿着这个链接先去抓取,之后才会沿着之前的轨迹继续下去。

· 怎样引蜘蛛
说道这里或许有人会有疑问,为什么要引蜘蛛。这里我们先讲一下,为什么要引蜘蛛,现在是信息时代,每日互联网上新的数据实在太过庞大,蜘蛛也不可能全部的爬完,这个时候蜘蛛有一种机制,“内容优先”,就是好的内容会优先爬行,这就会造成一些负面的影响,到最一部分的信息不能被及时的收录,特别是一些权重比较低的站点,蜘蛛来爬行的机率相对那些大站来说,真的要小很多,这就会导致互联网市场上竞争的不均衡。
所以,如果我们的网站权重过低,蜘蛛来爬行的机率过低的话,就需要我们去吸引蜘蛛来。最常用的方法是:每日定时定量的跟新内容,所发内容质量要高,可以到一些好的站点发高质量的外链,前面我们已经讲过蜘蛛的爬行方式,这里就不重复了。

· 什么是地址库
所谓地址库,我们要从“地址”上去理解,是搜索引擎对爬行抓取数据进行归档,对每一条数据都会归档,这样搜索引擎抓取数据时,就不会重复的抓取。我们也可以主动提交链接,链接会提交到待访问地址库,搜素引擎会线过滤,觉的内容有用,就会收录内容,放入已访问地址库。在哪里提交链接,我们可以到百度站长提交链接,特别是原创文章,为保障原创人的权益,可以选择先去提交链接。

如果您觉得本文有用,那就请继续关注我们,接下来我们将有更多好东西向您推送。启邦互动专业打造营销型网站建设、深圳网站设计、深圳网站建设、深圳网站制作、手机网站建设、APP制作如果您有这方面的需求,可以在线咨询我们启邦互动,我们随时欢迎您。


下一篇:《网站建设以后——网站推广(一)》

推荐动态

最新动态

LATEST NEWS

填写您的项目需求给我们。

*请认真填写需求信息,我们会在24小时内与您取得联系。

启邦互动

品牌官网设计|网站建设|网站设计

深圳市罗湖区

梨园路艺展中心二期5楼5020

电话:0755-2868 4353

邮箱:service@sz-qibang.com

© 2017深圳市启邦互动科技有限公司 版权所有 粤ICP备13054229号-1 网站地图     付款方式