在线咨询

 当前位置:首页 → 最新信息 → 相关文摘

Google--PageRank(网页级别)技术解密

发布时间:2007/1/5 11:43:00 查看9099

1. 什么是PageRank
2. PageRank的决定因素
3. 如何查知PageRank
4. PageRank的重要性
5. Google的前1,000项搜索结果
6. PageRank与其它影响网站排名因素间的区别

一:什么是PageRank(网页级别)
        PageRank(网页级别)是Google用于评测一个网页“重要性”的一种方法。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。
www.htidc.com
  简单说来,Google通过下述几个步骤来实现网页在其搜索结果页(SERPS)中的排名:
  1) 找到所有与搜索关键词匹配的网页
  2) 根据页面因素如标题\关键词密度等排列等级
  3) 计算导入链接的锚文本中的关键词
  4) 通过PageRank得分调整网站排名结果
  事实上,真正的网站排名过程并不是这么简单,我们会在后面进行详细深入的阐述。

二:PageRank的决定因素
Google的PageRank是基于这样一个理论:若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接。

导入链接(也叫逆向链接)指链至你网站的站点,也就是我们一般所说的“外部链接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”,即你向其它网站提供的本站链接。

PageRank反映了一个网页的导入链接的级别(重要性)。所以一般说来,PageRank是由一个网站的导入链接的数量和这些链接的级别(重要性)所决定的。

三:如何知道一个网页的PageRank得分
可从http://toolbar.google.com上下载并安装Google的工具栏,这样就能显示所浏览网页的PageRank得分了。PageRank得分从0到10,若不能显示PageRank得分,可检查所安装版本号,需将老版本完全卸载,重启机器后安装最新版本即可。

四:PageRank的重要性
搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量。但如果排名因子具有易操纵性,则往往会被一些网站管理员利用来实现不良竞争。例如初引入的排名因子之一--关键词元标识(Meta Keywords),是由于理论上它可以很好地概括反映一个页面的内容,但后来却由于一些网站管理员的恶意操纵而不得不黯然退出。所以“加权值”--即我们对该因子提供信息的信任程度是由排名因子的易操纵程度和操纵程度共同决定的。

PageRank无疑是颇难被操纵的一个排名因子了。但在它最初推出时针对的只是链接的数量,所以被一些网站管理员钻了空子,利用链接工厂和访客簿等大量低劣外部链接轻而易举地达到了自己的目的。Google意识到这个问题后,便在系统中整合了对链接的质量分析,并对发现的作弊网站进行封杀,从而不但有效地打击了这种做法,而且保证了结果的相关性和精准度。

五:Google的前1,000项搜索结果
一般说来,网站排名因素包括网页标题(META TITLE),网页正文中的关键词密度,锚文本(也叫链接文本,指链接或超链的文本内容)和PageRank所决定的。

请记住:单靠PageRank是无法使你获得比较理想的网站排名的。PageRank只是网站排名算法中的一个乘积因子,若你网站的其它排名因子的得分是零,就算你的PageRank是两百亿,最后的得分还是零。但这并不是说PageRank就毫无价值,而是在什么情况下PageRank才能完全发挥其功力。

如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果。例如对“car rental”,显示搜索结果为5,110,000,但实际显示结果只有826个。而且用时只有0.81秒。试想一下,0.84秒的时间就可以计算这五百万搜索结果的每个排名因子得分,然后给出最终我们所看到的网站排名结果吗?

答案就在于:搜索引擎选取与查询条件最相关的那些网页形成一个子集来加速搜索的速度。例如:假设子集中包含2,000个元素,搜索引擎所做的就是使用排名因子中的两到三个因素对整个数据库进行查询,找到针对这两三个排名因子得分较高的前2,000个网页。(请记住,虽然可能有五百多万搜索结果,但最终实际显示的1,000项搜索结果却是从这个2,000页的子集中提炼出来的。) 然后搜索引擎再把所有排名因子整合进这2,000项搜索结果组成的子集中并进行相应的网站排名。由于按相性进行排序,子集中越靠后的搜索结果(不是指网页)相关性(质量)也就越低,所以搜索引擎只向用户显示与查询条件最相关的前1,000项搜索结果。

请注意,在搜索引擎生成这2,000项网页的子集中我们强调了“相关性”这个词。即搜索引擎找寻的是与查询条件有共同主题的网页。如果这时候我们把PageRank考虑进去,就很可能得到一些PageRank很高但主题只是略微相关的一些搜索结果。显然这有违搜索引擎为用户提供最为相关和精准的搜索结果的原则。

一旦理解了为什么会如此,就说明了为什么你应当首先努力在“页面”因子和锚文本上下足工夫,最后才是PageRank。所以关键在于:

你必须首先在页面因素和/或锚文本上下足工夫,使这些排名因子能够获得足够的得分,从而使你的网站能够按目标关键词跻身于这2,000项搜索结果的子集中,否则PageRank再高也与事无补。

六:PageRank和其它排名因子之间的不同

网页Title标识 仅能被列出一次。
正文中的关键词 连续的重复只会降低关键词的重要性,重要的是接近度。
锚文本 加权值极高,但存在上限,超过上限的锚文本信息将被忽略或降低权值。
PageRank 潜质无穷,没有上限的限制,但需要大量工作。
备注 其它排名因子都存在一个上限(阙值),超过上限部分其权值将降低或不再计分。PageRank则不存在此问题。

Google--PageRank(网页级别)技术解密(二)

7. 非PageRank因素阙值
8. 使用阙值推知两种排名策略的价值
9. PageRank的计算

七:非PageRank因子的上限阙值(Non-PageRank Factor Threshold)
除了PageRank外,其它排名因子都存在一个阙值,也叫临界值或差值。即当增长到一定值时,因子的重要性反而开始慢慢降低,则该值就是非PageRank因子的阙值。

设阙值为1,000,如果网页A和B是我们对某一查询条件的其中两个查询结果,且A的总分数(包括页面因子得分和PageRank得分)是900,B是500,则显然A会排在B的前面。但由于A和B的分数均低于我们上面假设的非PageRank因子阙值,因而在不改变PageRank的情况下,我们可以通过对B页进行精心的页面优化使页面因子分数得到提高来使其排名超过A。但如果A的总得分升至1,100分,则B若还只是一味优化页面因子是远远不够的。在这种情况下,提升PageRank就成为首要任务了。

一般说来,Google的查询结果页中既可能包含一些分数超过阙值的网页,也可能包含一些分数低于阙值的网页。所以:

为了提高竞争能力,必须在阙值范围内尽可能提高页面的搜索引擎排名得分,否则会降低页面的竞争力。“页面因子”是接近和达到阙值最迅捷的方式,它与PageRank的结合使用才是提升网站排名得分的最佳优化策略。

八:使用阙值推知两种排名策略的价值
阙值解释了搜索引擎商所遵循的原则和不同的实施途径,同时亦阐述了为什么会产生关于PageRank的一些误解。我们可以把这两种策略当成两个人A和B。

A认为“PageRank”并不重要。他们已有数年网页优化经验并知道如何完美地利用“页面因素”来达到优化的目的。他们亦理解基本的锚文本,但对PageRank得分毫不在意。结果如何呢?由于最大化地使用了“页面因子”,从而使A迅速达到“非PageRank因子的阙值”。所以通过精心选择关键词可使他们获得较好的网站排名。而且只要网站内容比较好,随着时间推移总会有排名高的站点链接,涓涓细流汇成河。A最后亦得到了PageRank得分,并籍此巩固了排名。

B认为“PageRank”十分重要。他掌握了很多关于提升PageRank得分的信息,并为提高该得分下足了工夫。结果又如何呢?B的做法和A相反,但A在非PageRank因子上下工夫,结果却得到了PageRank得分。而B在PageRank因子上下工夫,结果却得到非PageRank因子得分。究其原因,就是由于提高PageRank得分需要外部链接,链接又具有锚文本,从而通过精心挑选外部链接的锚文本,B自发提高了其非PageRank因子的得分,从而赢得了较高的PageRank得分。

虽然这只是两个极端,但我们可以利用它们来推知这两种途径各自的优缺点:

对象
优点
缺点
A:忽略PageRank
  • 网站排名在短期内就可得到提升
  • 自我生成链接节省了工作量
  • 需投入大量工作维持网站排名
  • 对新竞争者的应变速度较慢
  • B:忽略页面排名因子
  • 可获得可靠网站排名,并可在需要时轻松修改页面因素使排名迅速提升
  • 极可能从非搜索类引擎来源上获得更高访问量
  • 网站排名提升较慢
  • 操作难度较大
  • 容易为SPAM过滤程序所制


  • 对象 优点 缺点
    A:忽略PageRank 网站排名在短期内就可得到提升

    自我生成链接节省了工作量
    需投入大量工作维持网站排名

    对新竞争者的应变速度较慢

    B:忽略页面排名因子 可获得可靠网站排名,并可在需要时轻松修改页面因素使排名迅速提升

    极可能从非搜索类引擎来源上获得更高访问量
    网站排名提升较慢

    操作难度较大

    容易为SPAM过滤程序所制

    事实上,我们前面说过,最终排名得分=所有非PageRank因子实际得分x实际PageRank得分。亦即二者相辅相成,再加上随着网上营销方式的发展壮大,关键词的竞争也变的愈来愈激烈,这种情况下只靠非PageRank因子得到好排名显然是不可能的。而且非PageRank因子存在着阙值的局限性。同时,对于竞争性极高的关键词,还存在着PageRank下限的问题。也就是说,除非网站的PageRank得分超过这个下限标准,否则网站排名很难上去。PageRank的下限由关键词的竞争度所决定。竞争性一般的关键词PageRank下限也不高,而对竞争较为激烈的关键词来说,它所要求的PageRank下限相应就要高。而PageRank得分的提升又非常有难,这时候非PageRank因子就变的非常重要了。
    综上所述:我们需要充分发挥各排名因子的优势来赢取理想的综合排名得分。同时关键词(竞争度适宜)的精心选择亦变的非常重要,它可以节省大量的支出。九:PageRank的计算方法
      PageRank (A) = (1-d) + d(PageRank (T1)/C(T1) + ... + PageRank (Tn)/C(Tn))
      其中PageRank (A)表示给定页面A的PageRank得分;
      D为阻尼因子,一般设为0.85;
      PageRank (T1)表示一个指向A页的网站其本身的PageRank得分;
      C(T1)表示该页面所拥有的导出链接数量;
      PageRank (Tn)/C(Tn)表示为每一个指向A页的页面重复相同的操作步骤。

    事实上,计算某个页面的PageRank得分需要大量繁复计算。例如若计算A页的PageRank得分则首先要知道所有链至A页的网页(导入链接)的PageRank得分。要想知道这些外部链接页的PageRank得分,又需要先知道这些页面的外部链接的PageRank得分,等等。我们只需要知道:

    A页的外部链接B能够带给A的PageRank得分与B的导出链接数量成反比,即随着B上导出链接数的增加,带给A的PageRank得分亦随之降低。这同样表明了一个网页的PageRank得分是该网页对其它页面投票的一个基本的度量形式。一个网页可以投票给一个或多个导出链接,但其总投票权一定,并被平均分配给所有的导出链接。假设B的PageRank得分是5,且B上只有一条指向A的链接,那么A将获得B全部的PageRank得分(B没有损失任何东西,而A赢得了B的PageRank得分)。但如果B上有N个链接,则A只能得到B的PageRank得分的N分之一。

    我们可以用图表来阐述其工作原理。假设有四个网页A,B,C和D,它们相互链接,如表-1所示:

    表-1:链接前的PageRank得分


    表-2:链接后的PageRank得分

     

    假设这四个网页初始PageRank得分均为0。则根据上面的公式它们的PageRank得分都是0.15。我们计算一下链接后各自的PageRank得分情况。
    1.A链向B、C和D。A的初始PageRank得分是0.15,所以A的导出链接获得PageRank得分总数为 0.85 * 0.15 = 0.1275。B,C和D三个网页各得0.0425分。
    2.B链向C、B的初始PageRank得分也是0.15,所以其唯一链接页面C所能够获得的PageRank得分是0.85 * 0.15 = 0.1275分。
      C链向A,其0.1275的PageRank得分传递给唯一链接对象A。
      D链向C,其0.1275的PageRank得分传递给了C。
      现在各网页的PageRank得分结果如下:
      A:0.15 + 0.1275 (得自C) = 0.2775
      B:0.15 + 0.0425 (得自A) = 0.1925
      C:0.15 + 0.0425 (得自A) + 0.1275 (得自B) + 0.1275 (得自D) = 0.4475
      D:0.15 + 0.0425 (得自A) = 0.1925(如表-2所示)
    继续这样的计算,直到每个页面的数值逼近一个定值(PageRank属收敛函数)。最后可以发现,C的PageRank最高。而且外部链接的数量显著地改变了PageRank得的分布。

    表-3:最后的PageRank得分结果

    表-4:外部链接与PageRank得分对照表:

     
    导入链接
    数量
    导出链接
    数量
    最终PageRank得分
    C
    A/B/D
    3
    A
    1
    1.4860614724
    A
    C
    1
    B/C/D
    3
    1.4131522515
    B
    A
    1
    C
    1 0.5503931379
    D
    A
    1
    C
    1 0.5503931379


    十四:网站的内部结构和联接

    一:网站的内部页面
    说完了“外部链接”,现在让我们来看看“内部链接”。如果PageRank确由页面投票的质量和数量所决定,那么我们立即就可以得出网站内链与PageRank的关系的一个重要结论:

    网站上每个已被Google收录的内部网页(内链)都是对该网站的一记投票,不过投票份量很小。因而,一个网站若能拥有更多已被Google收录的内部网页,就有可能获得更多的总投票。

    这样一来,我们可以通过创建大量内部网页来提高网站整体的PageRank。但这还远远不够。因为我们此处所指的内部网页是指已被Google收录,即拥有自己的PageRank的那些内链页面。这些网页之所以被Google检索是由于它们具备丰富充实的内容。所以应尽力充实和丰富你的网站,一旦网站内容得到充实和丰富,会有更多的内页得到检索,从而带来更多的PageRank。同时“升值”的网站也会获得更多站点的青睐,从而会有更多的站点主动链接你。

    简言之,就提升PageRank而言,对“内”最需要做的就是为网站填充更加丰富和有价值的内容。应确保网页内容不会过长或过短,如有必要可将网页内容分割成若干网页。

    二:网站的内部结构&联接
    网站有三种内部联方式,宜结合使用这三种联接方式进行网站的建设。假设一个网站由“主页”,“关于我们”页,“产品介绍”页和“更多信息”页这四个页面组成,通过下表我们可以看出每种结构对网站PageRank的影响度。

    表-11:层级结构(Hierarchical)

    表-12:环路网站结构(Looping)

    表-13:内页广泛互联的网站结构(Extensive Interlinking)

    表14-16是内部页面在不同结构网站上的PageRank分布情况。了解了这一点我们就可以从“内部链接”着手来获得最大的PageRank反馈。



    域名查询

    www.
    • .com
    • .net
    • .org
    • .cc
    • .info
    • .biz
    www.
    • .cn
    • .com.cn
    • .net.cn
    • .org.cn
    www.
    通用网址