搜索引擎關(guān)鍵詞排名的鏈接原理(lǐ),湖州網站(zhàn)建設,湖州網絡公司

搜索引擎關(guān)鍵詞排名的鏈接原理(lǐ)

2013.09.14
0
分(fēn)享

類型 : 網站(zhàn)知識

在Google誕生(shēng)之前，傳統搜索引擎主要依靠頁面内容中的關(guān)鍵詞匹配搜索詞進行排名。這(zhè)中排名方式的短處現(xiàn)在看來(lái)是顯而易見，那就(jiù)是很容易被刻意操縱。黑帽SEO在頁面上(shàng)堆積關(guān)鍵詞。或加入與主題無關(guān)的熱門關(guān)鍵詞，都能(néng)提高排名，使搜索引擎排名結果質量大為(wèi)下(xià)降。現(xiàn)在的搜索引擎都使用鏈接分(fēn)析技術減少垃圾，提高用戶體(tǐ)驗。本節就(jiù)簡要探討(tǎo)鏈接在搜索引擎排名中的應用原理(lǐ)。

在排名中計入鏈接因素，不僅有助于減少垃圾，提高結果相關(guān)性，也(yě)使傳統關(guān)鍵詞匹配無法排名的文件能(néng)夠被處理(lǐ)。比如(rú)圖片、視(shì)頻文件無法進行關(guān)鍵詞匹配，但(dàn)是卻可能(néng)有外部鏈接，通過鏈接信息，搜索引擎就(jiù)可以了(le)解圖片和食品的内容從而排名。

鏈接因素現(xiàn)在已經超過頁面内容的重要性。不過理(lǐ)解鏈接關(guān)系比較抽象。頁面上(shàng)的因素對排名的影響能(néng)看得到：關(guān)鍵詞在标題标簽中出現(xiàn)有什(shén)麽影響，出現(xiàn)在最前面又有什(shén)麽影響，有技術資源的還可以大規模地統計，技術出關(guān)鍵詞出現(xiàn)在标題标簽中不同位置與排名之間(jiān)的關(guān)系。雖然這(zhè)種關(guān)系不一(yī)定是因果關(guān)系，但(dàn)至少是統計上(shàng)的聯系，使SEO人(rén)員(yuán)大緻了(le)解如(rú)何優化(huà)。

李彥宏超鏈分(fēn)析

百度創始人(rén)李彥宏在回國之前就(jiù)是美國頂級的搜索引擎工程師之一(yī)。據說(shuō)李彥宏在尋找風(fēng)險投資時(shí)，投資人(rén)詢問其他三個(gè)搜索引擎業界的技術高人(rén)一(yī)個(gè)問題：要了(le)解搜索引擎技術應該問誰。這(zhè)三個(gè)被問到的高人(rén)中有兩個(gè)人(rén)回答(dá)：搜索引擎的事(shì)就(jiù)問李彥宏。由此投資人(rén)斷定李彥宏是最了(le)解搜索引擎的人(rén)之一(yī)。

這(zhè)事(shì)實就(jiù)是在現(xiàn)實生(shēng)活中類似于鏈接關(guān)系的應用。要判斷哪個(gè)頁面最具權威性，不能(néng)光看頁面自己怎麽說(shuō)，還要看其他頁面怎麽評價。

李彥宏1997年就(jiù)提交了(le)一(yī)份名為(wèi)“鏈接文件檢索系統和方法”的專利，這(zhè)比Google傳說(shuō)人(rén)發明PR要早得多，不得不說(shuō)這(zhè)是非常具有前瞻性的研究工作(zuò)。在這(zhè)份專利中，李彥宏提出了(le)與傳統信息檢索系統不同的基于鏈接的排名方法。

這(zhè)個(gè)系統除了(le)索引頁面之外，還建立一(yī)個(gè)鏈接詞庫，記錄鏈接錨文字的一(yī)些(xiē)相關(guān)信息，如(rú)錨文字中包含哪些(xiē)關(guān)鍵詞，發出鏈接的頁面索引，包含特定錨文字的鏈接總數，包含特定關(guān)鍵詞的鏈接都指向哪些(xiē)頁面。詞庫不僅包含關(guān)鍵詞原型，也(yě)包含同一(yī)個(gè)詞幹的其他衍生(shēng)關(guān)鍵詞。

根據這(zhè)些(xiē)鏈接數據，尤其是錨文字，計算(suàn)出基于鏈接的文件相關(guān)性。在用戶搜索時(shí)，将得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統相關(guān)性綜合使用，得到更準确的排名。

在今天看到，這(zhè)種基于鏈接的相關(guān)性計算(suàn)是搜索引擎的常态，每個(gè)SEO人(rén)員(yuán)都知道。但(dàn)是在十幾年前，這(zhè)無疑是非常創新(xīn)的概念，當然現(xiàn)在的搜索引擎算(suàn)法對鏈接的考慮，已經不僅僅是錨文字，實際上(shàng)要複雜的多。

HITS算(suàn)法

HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為(wèi)“超鏈誘導主題搜索” 。

按照HITS算(suàn)法，用戶輸入關(guān)鍵詞後，計算(suàn)對返回的匹配頁面技術兩種值，一(yī)種是樞紐值，另一(yī)種是權威值，這(zhè)兩個(gè)值是相互依存、相互影響的。所謂樞紐值，指的是頁面上(shàng)所有導出鏈接指向頁面的權威值之和。權威值指的是所有導入鏈接所在頁面的樞紐值之和。

上(shàng)面的定義比較拗口，我們可以簡單的說(shuō)，HITS算(suàn)法會提煉出兩種比較重要的頁面。也(yě)就(jiù)是樞紐頁面和權威頁面。樞紐頁面本身(shēn)可能(néng)沒有多少導入鏈接，但(dàn)是有很多導出鏈接指向權威頁面。權威頁面本身(shēn)可能(néng)導出鏈接不多，但(dàn)是有很多來(lái)自樞紐頁面的導入鏈接。

典型的樞紐頁面就(jiù)是如(rú)雅虎目錄，開放(fàng)目錄或好(hǎo)(hǎo)123這(zhè)樣的網站(zhàn)目錄。這(zhè)種高質量的網站(zhàn)目錄作(zuò)用就(jiù)在于指向其他權威網站(zhàn)，所有稱為(wèi)樞紐，而權威頁面有很多導入鏈接。其中包含很多來(lái)自樞紐頁面的鏈接。權威頁面通常是提供真正相關(guān)内容的頁面。

HITS算(suàn)法是針對特定查詢詞的，所以稱為(wèi)主題搜索。

HITS算(suàn)法的最大缺點是，它在查詢階段進行計算(suàn)，而不是在抓取或預處理(lǐ)階段。所以HITS算(suàn)法是以犧牲查詢排名相應為(wèi)代價的。也(yě)正因為(wèi)如(rú)此。原始HITS算(suàn)法在搜索引擎中并不常用。不過HITS算(suàn)法的思想很可能(néng)融入到搜索引擎的索引階段，也(yě)就(jiù)是根據鏈接關(guān)系找出具有樞紐特征或權威特征的頁面。

稱為(wèi)權威頁面的第一(yī)優先，不過難度比較大，唯一(yī)的辦法就(jiù)是獲得高質量的鏈接，當你的網站(zhàn)不能(néng)成為(wèi)權威頁面時(shí)，就(jiù)讓它成為(wèi)樞紐頁面。所以導出鏈接也(yě)是當前搜索引擎排名的因素之一(yī)。絕不鏈接到其他網站(zhàn)的做法，并不是好(hǎo)(hǎo)的SEO辦法。

TrustRank算(suàn)法

TrustRank是近年來(lái)比較受關(guān)注的基于鏈接關(guān)系的排名算(suàn)法。TrustRank可以翻譯為(wèi)“信任指數”。

TrustRank算(suàn)法最初來(lái)自于2004年斯坦福大學和雅虎的一(yī)項聯合研究，用來(lái)檢測垃圾網站(zhàn)，并且于2006年申請專利。TrustRank算(suàn)法發明人(rén)還發表了(le)一(yī)份專門的PDF文件，說(shuō)明TrustRank算(suàn)法的應用。

TrustRank算(suàn)法并不是有Google提出的，不過哦由于Google所占市(shì)場(chǎng)份額最大，而且TrustRank在Google排名中也(yě)是一(yī)個(gè)非常重要的因素，所以有些(xiē)人(rén)誤認為(wèi)TrustRank是Google提出的。更讓人(rén)糊塗的是，Google曾經把TrustRank申請為(wèi)商(shāng)标，但(dàn)是TrustRank商(shāng)标中的TrustRank指的是Google檢測含有惡意代碼網站(zhàn)的方法，而不是指排名算(suàn)法中的信任指數。

TrustRank算(suàn)法基于一(yī)個(gè)基本假設：好(hǎo)(hǎo)的網站(zhàn)很少會鏈接到壞的網站(zhàn)，反之則不成立，也(yě)就(jiù)是說(shuō)，壞的網站(zhàn)很少鏈接到好(hǎo)(hǎo)的網站(zhàn)這(zhè)句話(huà)不成立。正相反，很多垃圾網站(zhàn)會鏈接到高權威、高信任指數的網站(zhàn)，試圖提高自己的信任指數。

基于這(zhè)個(gè)假設，如(rú)果能(néng)挑選出可以百分(fēn)之百信任的網站(zhàn)，這(zhè)些(xiē)網站(zhàn)的Trustrank評為(wèi)最高，這(zhè)些(xiē)TrustRank最高的網站(zhàn)所鏈接的網站(zhàn)信任網站(zhàn)稍微降低(dī)，但(dàn)也(yě)會提高。與此類似，第二層被信任的網站(zhàn)鏈接出去的第三層網站(zhàn)，信任度繼續下(xià)降。由于種種原因，好(hǎo)(hǎo)的網站(zhàn)也(yě)不可避免的會鏈接到一(yī)些(xiē)垃圾網站(zhàn)，不過離第一(yī)層網站(zhàn)點擊距離越近，所傳遞的信任指數越高，離第一(yī)級網站(zhàn)點擊距離越遠(yuǎn)，信任指數将以此下(xià)降，這(zhè)樣，通過TrustRank算(suàn)法，就(jiù)能(néng)給所有網站(zhàn)計算(suàn)出相應的信任指數，離第一(yī)層網站(zhàn)越遠(yuǎn)，成為(wèi)垃圾網站(zhàn)的可能(néng)性越大。

計算(suàn)TrustRank值首先要選擇一(yī)批種子(zǐ)網站(zhàn)，然後人(rén)工查看網站(zhàn)，設定一(yī)個(gè)初始TrustRank值，挑選種子(zǐ)網站(zhàn)的兩種方式，一(yī)種是選擇導出鏈接最多的網站(zhàn)，因為(wèi)TrustRank算(suàn)法就(jiù)是計算(suàn)指數随着導出鏈接的衰減。導出鏈接多的網站(zhàn)，在某種意義上(shàng)可以理(lǐ)解為(wèi)“逆向PR值”比較高。

另一(yī)種挑選種子(zǐ)網站(zhàn)的方法是選PR值高的網站(zhàn)，因為(wèi)PR值越高，在搜索結果頁面出現(xiàn)的概率越大。這(zhè)些(xiē)網站(zhàn)才正是TrustRank算(suàn)法最關(guān)注的、需要調整排名的網站(zhàn)，那些(xiē)PR值很低(dī)的頁面，在沒有TrustRank算(suàn)法時(shí)排名也(yě)很靠後，計算(suàn)TrustRank意義就(jiù)不大了(le)。

根據測算(suàn)，挑選出兩百個(gè)左右網站(zhàn)作(zuò)為(wèi)種子(zǐ)，就(jiù)可以比較準确地計算(suàn)出所有網站(zhàn)的TrustRank值。

計算(suàn)TrustRank随鏈接關(guān)系減少的公式有兩種形式。一(yī)種是随着鏈接次數衰減，也(yě)就(jiù)是說(shuō)如(rú)果第一(yī)層頁面TrustRank指數為(wèi)100，第二層頁面衰減為(wèi)90，第三層衰減為(wèi)80.第二種計算(suàn)辦法是按導出鏈接數目分(fēn)配TrustRank值，也(yě)就(jiù)是說(shuō)，如(rú)果一(yī)個(gè)頁面的TrustRank值為(wèi)100，頁面上(shàng)有5個(gè)導出鏈接，那個(gè)鏈接将傳遞20%的TrustRank值，衰減和分(fēn)配這(zhè)兩種計算(suàn)方法通常綜合使用，整體(tǐ)效果都是随着鏈接層次的增加，TrustRank值逐步降低(dī)。

得出網站(zhàn)和頁面的TrustRank值後，可以通過兩種方式影響排名。一(yī)種是把傳統排名算(suàn)法挑選出的多個(gè)頁面，根據TrustRank值比較，重新(xīn)做排名調整。另一(yī)種是設定一(yī)個(gè)最低(dī)的TrustRank值門檻，隻有超過這(zhè)個(gè)門檻的頁面，才被認為(wèi)有足夠的質量進入排名，低(dī)于這(zhè)個(gè)門檻的頁面将被認為(wèi)是垃圾頁面，從搜索結果中過濾出去。

雖然TrustRank算(suàn)法最初是作(zuò)為(wèi)檢測垃圾的辦法，但(dàn)在現(xiàn)在的搜索引擎排名算(suàn)法中，TrustRank概念使用更為(wèi)廣泛，常常影響大部分(fēn)網站(zhàn)的整體(tǐ)排名，TrustRank算(suàn)法最初針對的是頁面級别，現(xiàn)在在搜索引擎算(suàn)法中，TrustRank值也(yě)通常表現(xiàn)在域名級别，整個(gè)域名的信任指數越高，整體(tǐ)排名能(néng)力就(jiù)越強。

Google PR

PR是PageRank的縮寫。Google PR理(lǐ)論是所有基于鏈接的搜索引擎理(lǐ)論中最有名的。PR是Google創始人(rén)之一(yī)拉裏佩奇發明的，用于表示頁面重要性的概念。用最簡單的話(huà)說(shuō)就(jiù)是，反向鏈接越多的頁面就(jiù)是越重要的頁面，因此PR值也(yě)就(jiù)越高。Google PR有點類似于科技文獻中互相應用的概念，被其他文獻引用較多的文獻，很可能(néng)是比較重要的文獻。

PR的概念和計算(suàn)

我們可以把互聯網曆程成由結點和鏈接組成的有向圖，頁面就(jiù)是一(yī)個(gè)個(gè)結點，頁面之間(jiān)的有向鏈接傳遞着頁面的重要性。一(yī)個(gè)鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值，發出鏈接的頁面本身(shēn)PR值越高，所能(néng)傳遞出去的PR值也(yě)越高。傳遞的PR數值也(yě)取決于頁面上(shàng)的導出鏈接數目。對于給定PR值的頁面來(lái)說(shuō)，假設能(néng)傳遞到下(xià)級頁面100份的PR，頁面上(shàng)有10個(gè)導出鏈接，每個(gè)鏈接能(néng)傳遞10份PR，頁面上(shàng)有20個(gè)導出鏈接的話(huà)，每個(gè)鏈接隻能(néng)傳遞5份PR。所以一(yī)個(gè)頁面的PR值取決于導入鏈接總數，發出鏈接頁面的PR值，以及發出鏈接頁面上(shàng)的導出鏈接數目。

PR的兩個(gè)比喻模型

關(guān)于PR有兩個(gè)著名的比喻。一(yī)個(gè)比喻是投票(piào)。鏈接就(jiù)像民(mín)主投票(piào)一(yī)樣，A頁面鏈接到B頁面，就(jiù)意味着A頁面對B頁面投了(le)一(yī)票(piào)，使得B頁面的重要性提高。同時(shí)A頁面本身(shēn)的PR值決定了(le)A所能(néng)投出去的投票(piào)力，PR值越高的頁面，投出的票(piào)也(yě)更重要。在這(zhè)個(gè)意義上(shàng)，傳統基于關(guān)鍵詞匹配的算(suàn)法是看頁面直接說(shuō)頁面内容是什(shén)麽，基于鏈接的PR則是看别人(rén)怎麽評價這(zhè)個(gè)頁面。

第二個(gè)比喻是随機沖浪比喻。假設一(yī)個(gè)訪問者從一(yī)個(gè)頁面開始，不停地随機點擊鏈接，訪問下(xià)一(yī)個(gè)頁面，有時(shí)候這(zhè)個(gè)用戶感到無聊了(le)，就(jiù)再點擊鏈接，就(jiù)随機跳(tiào)到另一(yī)個(gè)網址，再次開始不停地向下(xià)點擊。所謂PR值，也(yě)就(jiù)是一(yī)個(gè)頁面在這(zhè)種随機沖浪訪問中被訪問到的概率。一(yī)個(gè)頁面導入鏈接越多，被訪問的概率也(yě)越高，因此PR值也(yě)越高。

上(shàng)一(yī)篇：湖州網站(zhàn)優化(huà)：網站(zhàn)關(guān)鍵詞選擇策略
上(shàng)一(yī)篇：建網站(zhàn)企業應該怎麽準備資料

新(xīn)聞中心

搜索引擎關(guān)鍵詞排名的鏈接原理(lǐ)