互联网一站式seo推广服务
深圳seo|seo优化|seo推广|seo技术|网站建设

免费咨询热线:4008-078-778

蜘蛛爬行抓取的地址库和文件存储

日期:2019-06-04 SEO优化
地址库

为了防止重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面地址库中的 URL 有几个来源:
 
seoimg.zcit/20190517/e7d94deadfef1264402a838936ebd075.png" style="width: 640px; height: 323px;" />

(1) 人工录入的种子网站。

(2) 蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL 与地址库中的数据停止比照,如果是地址库中没有的网址,就存入待访问地址库。
 
(3) 站长通过搜索引擎网页提交表格提交进来的网址。

蜘蛛按重要性从待访问地址库中提取 URL,访问并抓取页面,然后把这个 URL,从待访问地址库中删除,放进已访问地址库中。

大局部主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大局部页面是蜘蛛自己跟踪链接得到的。可以说提交页面根本上是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。
 
文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户阅读器得到的HTML 是完全一样的,每个URL都有一个共同的文件编号 。


转载请注明本文地址:互赢网络建站优化专注于深圳网站建设与网络推广自然排名网站seo优化技术 https://seo.zhangyongmi.cn/19552.html