首页 > seo杂谈 > 搜索引擎的工作原理
201111月18

搜索引擎的工作原理

搜索引擎要知道网上的新生事物,就得派人出去收集。在互联网上每天都有新的网站产生,每天都有无数的网站向济南seo一样在更新内容,而且这些产生的网站数量、随时更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,人们研究了搜索引擎的工作原理,搜索引擎的程序设计就开发了计算机程序,派它们来执行这个任务。

作为搜索引擎的探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是人们为了更好的描绘搜索引擎派出的蜘蛛机器人爬行,方便在互联网上探测新的信息。通常人们把Google的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo 称为Slurp。其实对于探测器大家并不用认为很神秘的,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回每个网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。

 网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。所以说如果大家把整个互联网想象成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

 当网络蜘蛛抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

 因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。在搜索引擎建立网页索引数据库后,当用户输入关键词搜索时,搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。这样用户就可以看到我们平时在搜索引擎首页搜索内容时的页面了。

分享按钮

文章作者:济南seo
本文地址:http://www.yyseor.com/20111152.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

One Response to “搜索引擎的工作原理”

  1. #1 爆笑段子 回复 | 引用 Post:2014-09-14 20:53

    非常感谢博主的无私奉献!!

发表评论