咨询电话:024-31891684

z6尊龙平台-凯时app官方首页|注册|登录 |

网页抓取的先后策略-z6尊龙平台

 

沈阳seoseo经典摘录当前位置:z6尊龙平台-凯时app官方首页>主要服务>网络营销>沈阳seo心得>seo经典摘录

网页抓取的先后策略

引擎对网页抓取优先策略,也叫“页面选择问题”或page selection,通常首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾重要性高的网页。哪些网页才是重要性高的呢?如何量化重要性呢?
    重要性度量有链接欢迎度和链接重要度还有平均链接深度这个方面决定,也就是说为什么禄精深的网页不容易被抓取。
    定义链接欢迎度为ib(p),主要由反向链接(backinks)的数目和质量决定。直观地讲,一个网页有越多的链接指向它,那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。
    定义链接重要度为il(p),它是一个关于url字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.com”或者“home”的url重要度高,以及具有较少斜杠(slash)的url重要度高等。
    定义平均链接深度为id(p)。id(p)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。
最后,定义网页重要性的度量为i(p),它由以上两个量化值线性决定,即:i(p)=a*ib(p) β*il(p)
    平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。
    尽管这样看来已经足够完美,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

本文由沈阳seo提供:http://www.787866.com/web-promotion

上一条资讯|返回栏目页|下一条资讯

分享到:
0

自主研发,核心技术,一次购买,终生免费升级。采用正版《易势网站管理系统》建设自己的企业网站。沈阳技术实力雄厚的网站建设服务公司

top

网络策划公司|新浪官方微博|

网站软件咨询

客户服务咨询

网站地图