搜索引擎工作原理之排名篇
文章贡献方:暖子孕育网 http://www.nuanzi.com
一、从搜索引擎原理看如何让其频繁“光顾”
搜索引擎实际上就属于一种自动运行的机器人程序,它的任务就是和网站服务器建立连接之后,抓取网站的内容页面,事实上是下载网站的内容数据到百度的服务器之中。通俗些说,百度spider就是为百度广泛搜罗各种互联网中存在的信息,存储起来经过筛选向用户提供相关的搜索结果。明白了它的工作职责,要想让其更加频繁,保持至少一天一次的频率来光顾网站,需要的就是不断丰富和填充网站的内容,用不断更新的新鲜内容来吸引它,使网站成为为百度提供信息来源的一个“供应商”。
二、从搜索引擎原理抓取页面的优先度看如何获得更佳收录
搜索引擎在抓取互联网中数量“多如牛毛”的网站内容时,会遵循“深度优先”和“广度优先”的原则,它会首先从一些“起始站点”,往往就是那些质量高、权重高的大型门户资讯网站开始抓取,把抓取来的内容存储到百度服务器之中,再进行进一步的筛选,最终决定最后放出来的收录页面。因此,你的网站注定要被拿来与一些“大站”的内容进行对比,同样的内容如果出现在大型站点和个人站点上,自然会优先放出大站点的收录。这就告诉我们要想使内容更好地被收录并放出来,创造低重复率、高质量的原创内容是关键!
三、从搜索引擎原理抓取内容的筛选机制看如何提高权重和排名
在搜索引擎抓取完网站内容之后,这些被抓取的内容会被存储到百度不同的服务器之中,分为“检索区”和“补充数据区”。“检索区”是指已经根据百度那套复杂的算法进行过计算之后,筛选出来的内容,就是用来响应用户的搜索,匹配之后提供给用户的。而“补充数据区”就用来存放新抓取的内容,等待经过算法计算和检验筛选的内容。因而,对于一般的中小网站来说,被抓取的内容往往是被放入到“补充数据区”,要想从中快速提升权重,在更短的时间内顺利进入到“检索区”,需要按照百度的算法规则,利用更多数量、更高质量的反向链接来提升网站的权重和排名,这也是我们常说的单向、高质量外链的作用!一旦提升了权重,那么就意味着被收录的内容会更快地进入“检索区”,提供给搜索用户了。
四、从百度spider对网页重要性的评估方法看如何引导其抓取和收录
在搜索引擎的抓取过程之中,它会对网站的各个不同页面的重要性进行评估,具体的方法就是衡量不同的页面所获得的指向数量。例如,有越多的页面指向某个页面,包括网站首页的指向,父页面的指向等等都能提高该页的权重,从而使spider了解到不同页面所具有的不同重要性,进而有区别地进行对待,优先抓取重要性高的页面。因此,要做好网站内部的链接优化,对于一些质量高、内容丰富的页面要给予更多的指向链接,使spider能够快速找到这些高重要性的页面并及时抓取。同时,善于利用网站地图这一工具,它能为百度spider提供索引和指向,使其更快、更顺利地了解网站的各个页面结构及其重要性,从而大大提升网站对于搜索引擎的友好度,有利于网站获得更好的抓取与收录等。
不少SEO-er都应该了解搜索引擎工作原理繁多复杂,大致一般分为三大步奏:爬行和抓取,建立索引和排名。当然SEO-er优化网站,目的在于提高关键词排名,增加产品曝光率。为此SEO-er们更加看重排名这一环节,笔者在此对搜索引擎工作原理之排名做个小小的经验之谈。
搜索引擎面对的用户大部分是通过键入关键词返回一个列表页面,这个结构页面是大量的搜索索引库而建立起来的。当然这里这个页面是指自然搜索结果。那么搜索引擎是如何完成排名这以环节的呢?我们无妨看看整体思维图。
一、对提交的搜索请求分析
搜索用户在搜索引擎上键入关键词,提交搜索请求,一步一步找到匹配的网页显示出来。当我们键入关键词提交(按下回车)给搜索引擎时,搜索引擎便会对这次搜索请求进行详细分析。
1、中文分词
中文分词是各大搜索引擎中重要的环节,中文分词能够更加明确掌握搜索请求的重点所在,时期更好地页面展示给搜索用户。
百度中文分词常见的以下三种:
a、基于字符串匹配
在基于字符串匹配中正向最大匹配法、逆向最大匹配法、最少切分这三种又比较常见。
正向最大匹配法:利用关键词查询的时候,在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网页。
逆向最大匹配法:刚刚是正向最大匹配法相反的规则,即从右往左反向进行拆分和组合。
最少切分:最小切分就是将一个个词组切分为最细化,甚者会一个字出现。
b、理解分词方法
理解分词方法:搜索引擎模拟人的思维,对其语句的理解进行分词技术。通过对存储的词语和语句的整合,进行分词理解。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
c、统计分词方法
相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。我们常常不是使用粗体,黑体这些吗?原因还在于这对于搜索引擎理解同样有利。
2、去掉停止词
搜索用户在键入关键词时,或多或少会出现不少停止词,像“的”“吗”,这样才能最大限度的显示最相关,最能够满足用户体验的结果页面。
3、处理符号
搜索引擎还是很看重标点符号的,因此我们SEO-er在编辑文章的时候,应当注意标点符号的合理使用,尤其是在文章标题上。
二、匹配搜索请求
当搜索引擎接收到搜索请求详细分析之后,便会匹配URL(当然重点是标题和摘要片段),匹配的URL成千上万个,怎样才能有序显示出来了,这就需要搜索引擎按URL的匹配程度排序。
三、对匹配网页排名
为匹配的网页排序,其实就是搜索引擎对匹配的网页进行筛选,挑选的过程,然后按照一定的顺序整理出结构的行为。当然搜索引擎都会给每个网页一个值,即权重(SEO-er们自我定义),通过判断该网页对搜索引擎和用户体验的价值进行排序排名。提高排名的因素多种多样,目前基本上是参考HITS算法,TrustRank信任指数算法、PR值等等。
笔者比较浅显的谈谈个人的看法,不知道SEO-er有什么想法,不妨补充交流。对于网络优化人员来说,必须充分了解和掌握搜索引擎工作原理,但是不少SEO-er了解的太少,望大家同进步,同向前看。文章贡献方:暖子孕育网 http://www.nuanzi.com
第二篇:搜索引擎的工作原理
搜索引擎的工作原理
一:建立信息索引
搜索引擎自然是依靠自己的程序扫描整个互联网上的网页的,这个扫描程序往往被我们形象的称为蜘蛛或者探寻机器人,它们的主要工作就是去收集各种网页,努力的带回大量的信息,把这个信息放到蜘蛛的仓库后,基本上是无序的,只有在用户提出搜索请求的时候才会对这些信息进行加工,然后把加工好的网页提供给客户,如果信息不进行加工,而只是简单的呈献给客户,那么客户要想找到自己想要的东西就会很困难,自然就没有办法获得用户的青睐了,而这个加工过程就是给网页建立索引过程,通过搜索引擎对网页质量的评判有资格的才能够进入索引,没资格的就踢出去,建立索引的就是被搜索引擎收录了!
举个例子来说明一下,比如搜索引擎建立了一个索引叫做“搜索引擎优化”,然后程序就会在蜘蛛的仓库中找和搜索引擎优化有关的网页,然后把他们放在搜索引擎优化这个标签的下面,等待有用户进行搜索搜索引擎优化这个关键词的时候,程序就会在这个索引里面找出有用的信息提供给用户了!
那么建立好的索引又是如何把好的内容提供给用户的呢?一般通过三种方法,一种是内容索引,这里的内容就是我们常说的关键词,标题和描述语句以及链接源头文字等,第二种就是结构索引,这里主要是有价值的信息,比如收集回来的网页连接等等,第三种就是索引时的特别索引,这要是集中图片,PDF文件等提供搜索问询的!
二:搜索引擎的信息反馈工作
比如广大的用户在百度的搜索框里面输入仔猪价格这个关键词后,搜索引擎就要开始以光子的速度开始工作了,正确在几百万分之一秒的时间里面给大家提供有关仔猪价格的信息结果出来,而百度执行的时间一般控制在半秒之内,当然从搜索到提供给客户看了这段时间,可见效率是惊人的!
那么百度是如何做到这一点的呢?如果是把自己收集到的网页通过临时的计算然后再反馈给用户时间远远不止这么多,因为我们往往搜索一个关键词的时候会出现很多的页面,因此搜索引擎在内容索引和结构索引的过程中都会有个预备计算,如果在搜索引擎执行了计算之后在过去如果出现和仔猪价格这个关键词排名条件的网页太多的时候往往就会出现网页排版错误或者其他的提示来,如今这个问题已经解决了,就是把相关的网页信息提供到现在专有的排名程序,然后请排名程序将相关的信息按照和关键词最相关的和不相关的顺序进行排列,排名程序于是就能够从预备计算过的索引里面进行排列,大大缩短了计算的时间,从而能够迅速的提供一份综合的排名给用户!
上面仅是笔者对搜索引擎的工作原理进行了简单的介绍,当然其中的程序算法和具体的工作原理如果不用几本书是没有办法讲清楚的,不过最起码能够给广大的站长朋友们带来基本的了解,这对于我们网站的优化的帮助是很大!
? 搜索引擎的分类 1、全文索引
全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内知名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos( )搜索引擎。
2、目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。
3、元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace ()、Dogpile( )、Vivisimo (http: Vivisimo.com )等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、垂直搜索引擎
垂直搜索引擎为20xx年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
5、其他非主流搜索引擎形式:
集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在20xx年底推出的搜索引擎。
门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。