蜘蛛抓取网站的过程及步骤

作者: 呼兰河 分类: SEO网站推广120种方法 发布时间: 2020-04-25 11:23 ė162 views 6没有评论

蜘蛛抓取网站   蜘蛛抓取网站的过程及步骤是一些站长们会关心的问题。作为站免不了想了解一下蜘蛛抓取网站的过程及步骤有哪些?下面赣州SEO的小编来为大家分析一下:

     一、蜘蛛抓取网站的方法

在了解蜘蛛抓取网站的步骤过程中先要了解一下蜘蛛抓取网站的方法有哪些之后才知道蛛蛛抓取网站的方法及步骤了。当蜘蛛从它的索引库中出来后,就会顺着它爬行的链接去发现寻找出新的链接。这时他的抓取方法就出来了。它的抓取方法有二种,一种是横向抓取;一种是纵向抓取。二种抓取的方法不一样,得到的结果却是一样的。就是都放进它的数据库中了。 但是这二种抓取的方法的选择是针对不同的权重的链接来选择的。一般高权重的网站的抓取方法是用纵向抓取 的方法。横向链接是针对低权重的链接网站所采取的一各抓取方法。这里就涉及到一个对链接权重的判断的问题了。什么样的链接的权重才高呢?衡量链接的权重高底的因素有二个:

     1、一个是看网站链接的层次

网站链接是有层次之分的。层次越多的链接的权重就越低。反之就越高。比如说:http://www.360seo.cc这个网站链接的权重就高些。而这个链接http://360seo.cc/category/jishu/jichu的层次就低些,它的权重就相对于上一个层次的链接就低了不少了。

2、再一个是看网站链接的外链有多少?

一般一个链接的外链越多的话,就说明外部网站对这个链接的投票就越多。它能从这些外链网站上获得的权重就越高。外链数量也是衡量一个链接权重高底的因素之一。

二、链接追踪策略

当蜘蛛接触到一条新链接之后就要开始它的抓取工作了。这时他在判断完这条链接的权重之后就会选择对应的抓取方法来对这条链接进行抓取工作。它会顺着这条新链接的深度一探它的层次。当它发现它的层次不深的时候就会采取横向抓取 的方法或者是纵向抓取 的方法进行抓取 了。

三、初步筛选清理重复内容链接

当蜘蛛第一次接触到一条新链接之后,在经过初步的判断该 条链接权重的高底之后就会采取效率最快的抓取方式对它进行抓取。并在此期间将接触到的重复页面转载页面拼接页面内容链接进行衩步的屏蔽筛选掉。留下高质量的链接页面放入临时的数据库中等待进一步的审核再筛选。

四、重访抓取

蜘蛛在第一次接触并判断出了一条新链接的权重之后,就能初步判断出了该条链接的重要性。同时也顺藤摸瓜的对整个网站上的链接进行一个扫锚。这个找锚是循环式的扫瞄之后将能抓取的链接全部放到临时数据库中等待下一步的数据计算及分类排序。这时蜘蛛根据判断出来的该链接网站的初步影响之后就会决定重访的频率及次数。 就象是我们对于新认识的一个朋友一样,初步的了解决定今后的是否值得交往的依据。

五、勾引蜘蛛

当我们了解了蜘蛛是如何对链接进行抓取之后,就要做一些能让蜘蛛不断的频繁访问网站的工作。为了能让蜘蛛能频繁的抓取网站的链接,能让它喜欢上你的网站或者是能让他不断的遇上你的网站上的链接就要进行如下几步的操作才能达到这个目地:

1、外链的数量

外链做得越多,对于蜘蛛能够遇上你的网站的机会就越多。不过这样的外链质量要好,太差的质量外链对于网站来说虽然能引来蜘蛛。但是也能让蜘蛛判断出你的差的质量外链会对你网站有影响。而太多的质量差的外链会连累到你的网站。因为蜘蛛会判断你的投票作用不好。

2、定时定量更新文章

培养蜘蛛对于网站固定的的抓取爬取时间。这样能引起蜘蛛的条件反射。能在固定的时间让蜘蛛来抓取网站页面链接。这样的好处是能建立与蜘蛛与你的信任。这样的话时间一久,当这种关系稳定 下来后你发布的文章能被蜘蛛秒收。

3、网站的权重

网站的权重也能吸引蜘蛛的抓取爬行。因为蜘蛛爬行网站的时候,在第一时间会判断它的权重高底。权重高的网站链接给蜘蛛的印象分就多,抓取的机会也就更多也更快。同时重访的次数也更多。蜘蛛也就更加的频繁的来抓取爬行了。

4、离首页的距离近

蜘蛛来到一个新的链接所在的网站上的时候,会顺着链接爬行整个网站。并且是循环不断的爬行抓取它能抓取到的链接。并将这些链接放入他的临时数据库中进行处理。一般网站首页都会有几个资讯栏目 ,这些栏目 都是更新文章的栏目。当蜘蛛来到你的网站又顺首链接爬行到你的首页时,就会第一时间抓取到首页的链接。如果这个时候你的首页有更新文章的链接的话就能第一时间让蜘蛛接触到它。从而提前抓取到你的新链接。时间一久的话,蜘蛛就会频繁的访问这些不断更新的栏目的文章链接。这样就增加了蜘蛛对于网站首页更新文章的粘性了。下次蜘蛛就能直接来到会更新文章的栏目。

六、临时数据库

临时数据库是蜘蛛在爬行链接网站的时候,会在第一时间将爬行抓取到的链接放入一个临时数据库中等待下一步的数据分析及处理。

七、提取关键词

上面我们讲了蜘蛛搜索引擎程序将网站页面链接放到它的临时数据库里面后,接下来就要对它进行一系统的操作。这些操作的第一步就是提取关键词。当我们看到的网站页面时,就是浏览器渲染过的网页。这些网页的后面隐藏着一些代码。而这些代码在蜘蛛搜索引擎对网页进行分析时要隔离开来,好单独对网页里面的中文关键词进行分词处理。这些操作也分为以下几步:

1、提取关键词

蜘蛛将抓取到临时数据库里面的网页要进行提取关键词了。就是说将忽略掉网页中的代码。将中文关键词全部提取出来。而这些提取出来的中文关键词中还夹杂着一些共同版块里面的中文关键词。这些关键词就是导航栏目中的中文关键词及底部版块中的中文关键词。留下正文中的中文文章中的关键词。提取关键词 这是蜘蛛看到的网页页面

2、清理关键词中的无意义词

这一步就是将整篇文章中的关键词进行再次的整理。文章中的一些起连接作用的关键词要去除掉。留下一下有实际意义的关键词。比如说将:“的,地 ,与”这一类的关键词去掉。剩下的就是关键词词根了。这也叫做分词处理了。 例如: 网站 定位 重要 决定 网站 运营 方向 朝 哪个 方面 发展 同时 决定 你 可能 吸引 客户 客户 粘性 一个 网站 杂货铺 话 网站 上东西 定位 这时 客户 如果 客户 就会 客户 知道 自已 定位 下次 客户 需求 时候 因为 杂货铺 网站 专业性 非常 专业性 研究就。专业 需求 用户 认定 你 真正 解决 用户 问题 一个 没有 粘性 网站 留住 用户 这是一句话中去掉了一些连词的关键词词根。

    3、 筛选下来的词根进行重要性分析

整个网页里面的关键词都经过二次筛选后留下来的是有意义的关键词词根。这些关键词词根都能全部参与排名吗?显然是不能的。我们要做的就是去找出重要的能参与关键词的关键词词根。而这些重要的关键词词根又怎么分析呢?哪些词根是重要的?哪些词根又不是重要的呢? 这一步我们又要用到刚才回避掉的代码了。一个网页里面的代码标签有多种。其中只要五种代码标签里面的关键词才能参与排名的关键词。这些标签分别是:

   a、h1标签

这个标签是重要的标签。里面的关键词标题直接参与排名。一般这个是网页的文章标题就是在h1标签里面。如图: h1标签b、strong标签 strong是加粗标题。它是告诉蜘蛛这个标签内的关键词是重要的关键词。可以参与排名。这个标签的重要性仅次于h1标签。

c、meta标签

这个meta标签里面的是关键词标签及描述。这个描述里面的关键词也能参与排名。meta里面有关键词标签keywords,及描述标签dispription。这二个标签组成了meta标签的内容。这个keywords标签里面没有关键词,其实是写了的可能没有生成导致没有显示出来。这个位置的关键词一般可以写四到五个左右。如果不写的话就浪费了这个位置了。disprictiong描述标签里面可以写八十个字符。描述里面要对这些关键词进行描述。中间就要涉及到前面keywords里面的关键词了。 meta标签 title是标题标签,它的重要性是超过了h1标签里面的关键词。

  d、关键词密度

关键词密度指的是参与排名的关键词重复的次数再除了整篇文章中的关键词的百分比。一般正常的关键词密度是百分之二到百分之八之间最合适。超过了这个密度就是违规。关键词之所以重复在蜘蛛 看来会认为这个关键词的重要性。从而将它纳入排名的范围里面。 检测 关键词密度可以在站长工具里面。关键词密度

e、title标题标签

title标签中的关键词也是非常重要的能参与排名的关键词。它的作用应该是超过了h1标签。只不过它是放在网页标题上的标签。

f、锚文本的关键词

锚文本中的关键词应该是整个页面的核心主题内容的浓缩。它的重要性也是不容忽视。除了锚文本关键词,还有它周围的关键词也被纳入相关性之内了。

八、正向索引

正向索引就是将分析好的有得分数值的关键词词根进行筛选,去掉一些数据小的关键词。留下数据更大的关键词词。这个过程就是正向索引。 例如: 这个页面通过提取关键词,去掉代码,去掉导航栏目上的中文关键词,去掉底部版块中文关键词剩下来的就是文章中的关键词文本。剩下来的文本其实就是 这个页面中的文章内。之后将这篇文章中的关键词进行分词处理。 比如说某条链接下筛选出来的文本:

http:abc.com

网站   建设  优化   方法   步骤   SEO  先  优化   标题   标题  字数数  不  超过   30 个  字符  三  个  关键词   网站  的   标题  不  能  堆砌   关键词  关键词  之间  要  用  横杆   线  隔开

假如这是一篇文章的关键词,我们将他做分词处理就是将一些没有实际意义的关键词去掉。这组关键词中没有实际意义的关键词是:的、不、能、线  。去掉后留下来的关键词就是关键词根。如图:

http:abc.com

网站   建设  优化   方法   步骤   SEO  优化   标题   标题  字数数    超过   30   字符      关键词   网站     标题    能  堆砌   关键词  关键词  之间      横杆   线  隔开

而这些关键词词有些是重复了的,于是我们就给这些重复出现的关键词根进行标记一下重复出来的数字。就在这个关键词词后面标记。

网站(2)   建设(1)  优化(2)   方法 (1)  步骤(1)   SEO (1)    标题(3)     字数(1)    超过(1)   30(1)   字符(1)      关键词(3)        能(1)  堆砌(1)     之间(1)      横杆(1)   线(1)  隔开(1)

从这些关键词根中我们还要找出哪些关键词根是参与排名的,哪些是不需要参与排名的要分析出来。面分析的标准就是看标签里面的关键词。重要标签里面的关键词根决定这些关键词根的重要性。一篇文章或者是一个网页中的标签的重要性是:

h1标签是第一重要的。

strong标签是第二重要的

meta标签是第三重要的

关键词密度是第三重要的

锚文本是第四重要的.

在这些标签中的关键词都能参与排名。那么我们来分析一下这些关键词在哪些标签里面?

<h1>网站(2) 建设(1)  优化(2)  方法 (1)(1)  步骤</h1>

<strong> SEO (1)   关键词(3)  堆砌(1) </strong>

<meta><keywordpress>网站(2)   建设(1)  优化(2)   方法 (1)  步骤(1)   SEO (1)    标题(3)     字数(1)    超过(1)   30(1)   字符(1)      关键词(3)        能(1)  堆砌(1)     之间(1)      横杆(1)   线(1)  隔开(1)</keywordpress></meta>

网站(2)   建设(1)  优化(2)   方法 (1)  步骤(1)   SEO (1)    标题(3)     字数(1)    超过(1)   30(1)   字符(1)      关键词(3)        能(1)  堆砌(1)     之间(1)      横杆(1)   线(1)  隔开(1)

还有关键词密度:关键词密度就是一个参与排名的关键词占整个文档中的关键词的百分比是多少?比如一篇文档的字数是100他字,那么参与排名的关键词“网站”的出现的次数是5次,那么它的关键词密度就是百分之五了。

这个关键词密度也参与它的排名的计算。

同时参与排名计算的还有锚文本关键词。不过这些锚文本的关键词参与排名的权重非常小。只有在站长没有做前面几步的优化操作的前提下才能参与排名。

以上关键词根参与排名的数值是基于它的位置给予的排名数值。那么这些词根还能从整个页面中获得它的权重数值。

页面链接的外链数量及所在的层次都决定了他的权重值。比如说一个页面链接是二级栏目的页面,那么它能获得的权重就是二级类目的权重及外链的权重加身。这个页面的这二种权重的和又分平均分配给这些标签中的关键词词根。从而决定一个关键词根权重数值的因素就是它本身所在标签的位置及获得本页面权重的分配才是一个关键词根最终的权重值。

我们从上面的这些标签里面参与排名的关键词根当中要挑选出一些权重高的关键词根进行参与排名。对于那些数据小,出现密度一次二次的词根就要淘汰掉。留下那些数据高的词根来角逐排名的机会。

最终的结果:

www.abc.cn

网站   4   建设  3 优化 5

www.abc.cn/tui/1.html

标题  3       关键词 4     网站2   建设  4

整个网站每个链接下能参与排名的关键词根就是上面这种状态。

九、倒排索引

倒排索引是在前面一步的基础上进行。这一步我们是要将关键词根进行排序。也就是说同一个关键词根在不同的页面都有机会参与排名。那么这些同一个关键词根的权重就不一样,我们就是要将他们权重的大小排列出来以便供搜索引擎呈现给搜索用户。

于是就得到了这个排名结果:

关键词:网站

排名              关键词数值                         链接

1                          4                         www.abc.cn

2                          2                       www.abc.cn/tui/1.html

 

关键词:建设

排名            关键词数值                             链接

1                      4                    www.abc.cn/tui/1.html

2                    3                                 www.abc.cn

上面这上步操作就是倒排索引的方法将所有的参与排名关键词根全部进行了权重大小的数值排序。

 十、用户搜索词分析

我们利用百度搜索引擎或者是其它的搜索引擎时会结果是如何出来的呢?与上面九步的操作有啥子关系呢?我们分三步来演示一下:

1、我们还是举例来说明。当用户搜索:“网站建设优化的方法”时,搜索引擎会及时进行的第一步操作就是分词。将这组关键词进行分词处理成如下:

网站    建设   优化  的  方法

就分成了三个词根。

2、第二步就是要去掉一些没有实际意思的连词,在这组关键词中的连词是:“的”

网站    建设     优化   方法

3、用搜索引擎的逻辑进行关联起来

网站建设优化方法

十一、关键词词根集

搜索引擎经过了上面三步后就要在搜索页面中进行每一个关键词根的匹配了。搜索引擎会将含有一个关键词根的链接全部收集起来放在一个库里面进行审核。那么这样的话就有四个关键词根的集子文件夹。

网站

http://www.avc.com

http://www.cnv.con

http;//www/dfg.cong/1.html

 

—————————

 

建设

http://www.dfi.com

http://www’dfu.cn

http://www.dfi.com/2.html

———————–

 

优化

http://www.oiu.com

http://www.ert.com

http://www.oiu.cn

 

———————

 

方法

http://www.wer.com

http://www.dfo.com

http://www.ijh.com/3.html

—————————–

关键词根集整理好之后就要对它些词根集进行完全的匹配。由于客户搜索的是网站建设优化的方法。而非单个的关键词词根。于我们就要到这些关键词根集中找出完全包涵网站建设优化方法的关键词来。

我们知道这些词集中有网站词集、有建设词集、有优化词集,有方法的词集。我们要分别从这些词集中挑选出完全匹配的关键词出来。比如说:网站词集中含 有的网站建设优化方法的是:

网站的建设最新优化的方法     http://www.dfg.cn

网站最新建设的优化的方法    http://www.dfi,com

——————————————————-

建设集中包括:“网站建设优化方法”的关键词集有如下:

网站建设的最新优化方法    http://www.gon.com

网站的建设优化方法     http://www.fgh.com

—————————————

优化

网站建设优化方法      http://www/dfg.cn

网站建设的最好的优化方法   http://www/dgki.cn

———————————————

我们挑选出来包涵整个网站建设优化方法的关键词链接集之后还要对这几组权重数据进行统计。将权重高的留下,权重低的淘汰。最后只剩下权重最高的那到组子集了。

比如:

 

网站建设优化方法      http://www/dfg.cn

网站建设的最好的优化方法   http://www/dgki.cn

———————————————

最后我们还要从相关性几个方面来考核 这些关键词集中最高权重数值的那条链接。这个相关性就是标签里面肯定要包涵这个:“网站建设优化方法”关键词。其次还要有外链及外链的数量,链接里面的锚文本及关键词密度进行考核才能脱颖而出最后权重最高的一条链接。

所以,蜘蛛抓取网站的步骤有爬行及抓取。而爬行又分为链接跟踪,链接跟踪又可以分为横向抓取与纵向抓取、淘汰重复内容、重访抓取、勾引蜘蛛、临时数据库、提取关键词、筛选关键词、拆分关键词、重要性分析、标签内关键词分析、锚文本关键词分析、关键词密度分析、倒排索引、正向索引、搜索关键词分析、拆分搜索关键词、去掉无实际意义关键词、关键词关联匹配、关键词词根子集、淘汰权重低的关键词词根集、匹配相关度高的关键词词根集、最后挑选出权重最高相关性最强的关键词链接。

 

 

 

 

 

 

 

本文出自 萧红SEO提供免费SEO网站诊断服务,转载时请注明出处及相应链接。

本文永久链接: http://360seo.cc/tuiguan/5768.html

0

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Ɣ回顶部