新(xīn)聞中心

搜索引擎關(guān)鍵詞排名的鏈接原理(lǐ)

類型 : 網站(zhàn)知識

 

    在Google誕生(shēng)之前,傳統搜索引擎主要依靠頁面内容中的關(guān)鍵詞匹配搜索詞進行排名。這(zhè)中排名方式的短處現(xiàn)在看來(lái)是顯而易見,那就(jiù)是很容易被刻意操縱。黑帽SEO在頁面上(shàng)堆積關(guān)鍵詞。或加入與主題無關(guān)的熱門關(guān)鍵詞,都能(néng)提高排名,使搜索引擎排名結果質量大為(wèi)下(xià)降。現(xiàn)在的搜索引擎都使用鏈接分(fēn)析技術減少垃圾,提高用戶體(tǐ)驗。本節就(jiù)簡要探討(tǎo)鏈接在搜索引擎排名中的應用原理(lǐ)。
 
        在排名中計入鏈接因素,不僅有助于減少垃圾,提高結果相關(guān)性,也(yě)使傳統關(guān)鍵詞匹配無法排名的文件能(néng)夠被處理(lǐ)。比如(rú)圖片、視(shì)頻文件無法進行關(guān)鍵詞匹配,但(dàn)是卻可能(néng)有外部鏈接,通過鏈接信息,搜索引擎就(jiù)可以了(le)解圖片和食品的内容從而排名。
 
         鏈接因素現(xiàn)在已經超過頁面内容的重要性。不過理(lǐ)解鏈接關(guān)系比較抽象。頁面上(shàng)的因素對排名的影響能(néng)看得到:關(guān)鍵詞在标題标簽中出現(xiàn)有什(shén)麽影響,出現(xiàn)在最前面又有什(shén)麽影響,有技術資源的還可以大規模地統計,技術出關(guān)鍵詞出現(xiàn)在标題标簽中不同位置與排名之間(jiān)的關(guān)系。雖然這(zhè)種關(guān)系不一(yī)定是因果關(guān)系,但(dàn)至少是統計上(shàng)的聯系,使SEO人(rén)員(yuán)大緻了(le)解如(rú)何優化(huà)。
 
李彥宏超鏈分(fēn)析
 
        百度創始人(rén)李彥宏在回國之前就(jiù)是美國頂級的搜索引擎工程師之一(yī)。據說(shuō)李彥宏在尋找風(fēng)險投資時(shí),投資人(rén)詢問其他三個(gè)搜索引擎業界的技術高人(rén)一(yī)個(gè)問題:要了(le)解搜索引擎技術應該問誰。這(zhè)三個(gè)被問到的高人(rén)中有兩個(gè)人(rén)回答(dá):搜索引擎的事(shì)就(jiù)問李彥宏。由此投資人(rén)斷定李彥宏是最了(le)解搜索引擎的人(rén)之一(yī)。
 
        這(zhè)事(shì)實就(jiù)是在現(xiàn)實生(shēng)活中類似于鏈接關(guān)系的應用。要判斷哪個(gè)頁面最具權威性,不能(néng)光看頁面自己怎麽說(shuō),還要看其他頁面怎麽評價。
 
        李彥宏1997年就(jiù)提交了(le)一(yī)份名為(wèi)“鏈接文件檢索系統和方法”的專利,這(zhè)比Google傳說(shuō)人(rén)發明PR要早得多,不得不說(shuō)這(zhè)是非常具有前瞻性的研究工作(zuò)。在這(zhè)份專利中,李彥宏提出了(le)與傳統信息檢索系統不同的基于鏈接的排名方法。
 
        這(zhè)個(gè)系統除了(le)索引頁面之外,還建立一(yī)個(gè)鏈接詞庫,記錄鏈接錨文字的一(yī)些(xiē)相關(guān)信息,如(rú)錨文字中包含哪些(xiē)關(guān)鍵詞,發出鏈接的頁面索引,包含特定錨文字的鏈接總數,包含特定關(guān)鍵詞的鏈接都指向哪些(xiē)頁面。詞庫不僅包含關(guān)鍵詞原型,也(yě)包含同一(yī)個(gè)詞幹的其他衍生(shēng)關(guān)鍵詞。
 
        根據這(zhè)些(xiē)鏈接數據,尤其是錨文字,計算(suàn)出基于鏈接的文件相關(guān)性。在用戶搜索時(shí),将得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統相關(guān)性綜合使用,得到更準确的排名。
 
        在今天看到,這(zhè)種基于鏈接的相關(guān)性計算(suàn)是搜索引擎的常态,每個(gè)SEO人(rén)員(yuán)都知道。但(dàn)是在十幾年前,這(zhè)無疑是非常創新(xīn)的概念,當然現(xiàn)在的搜索引擎算(suàn)法對鏈接的考慮,已經不僅僅是錨文字,實際上(shàng)要複雜的多。
 
HITS算(suàn)法
 
        HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為(wèi)“超鏈誘導主題搜索” 。
 
        按照HITS算(suàn)法,用戶輸入關(guān)鍵詞後,計算(suàn)對返回的匹配頁面技術兩種值,一(yī)種是樞紐值,另一(yī)種是權威值,這(zhè)兩個(gè)值是相互依存、相互影響的。所謂樞紐值,指的是頁面上(shàng)所有導出鏈接指向頁面的權威值之和。權威值指的是所有導入鏈接所在頁面的樞紐值之和。
 
        上(shàng)面的定義比較拗口,我們可以簡單的說(shuō),HITS算(suàn)法會提煉出兩種比較重要的頁面。也(yě)就(jiù)是樞紐頁面和權威頁面。樞紐頁面本身(shēn)可能(néng)沒有多少導入鏈接,但(dàn)是有很多導出鏈接指向權威頁面。權威頁面本身(shēn)可能(néng)導出鏈接不多,但(dàn)是有很多來(lái)自樞紐頁面的導入鏈接。
 
        典型的樞紐頁面就(jiù)是如(rú)雅虎目錄,開放(fàng)目錄或好(hǎo)(hǎo)123這(zhè)樣的網站(zhàn)目錄。這(zhè)種高質量的網站(zhàn)目錄作(zuò)用就(jiù)在于指向其他權威網站(zhàn),所有稱為(wèi)樞紐,而權威頁面有很多導入鏈接。其中包含很多來(lái)自樞紐頁面的鏈接。權威頁面通常是提供真正相關(guān)内容的頁面。
 
        HITS算(suàn)法是針對特定查詢詞的,所以稱為(wèi)主題搜索。
 
 
        HITS算(suàn)法的最大缺點是,它在查詢階段進行計算(suàn),而不是在抓取或預處理(lǐ)階段。所以HITS算(suàn)法是以犧牲查詢排名相應為(wèi)代價的。也(yě)正因為(wèi)如(rú)此。原始HITS算(suàn)法在搜索引擎中并不常用。不過HITS算(suàn)法的思想很可能(néng)融入到搜索引擎的索引階段,也(yě)就(jiù)是根據鏈接關(guān)系找出具有樞紐特征或權威特征的頁面。
 
        稱為(wèi)權威頁面的第一(yī)優先,不過難度比較大,唯一(yī)的辦法就(jiù)是獲得高質量的鏈接,當你的網站(zhàn)不能(néng)成為(wèi)權威頁面時(shí),就(jiù)讓它成為(wèi)樞紐頁面。所以導出鏈接也(yě)是當前搜索引擎排名的因素之一(yī)。絕不鏈接到其他網站(zhàn)的做法,并不是好(hǎo)(hǎo)的SEO辦法。
 
 
TrustRank算(suàn)法
 
        TrustRank是近年來(lái)比較受關(guān)注的基于鏈接關(guān)系的排名算(suàn)法。TrustRank可以翻譯為(wèi)“信任指數”。
 
        TrustRank算(suàn)法最初來(lái)自于2004年斯坦福大學和雅虎的一(yī)項聯合研究,用來(lái)檢測垃圾網站(zhàn),并且于2006年申請專利。TrustRank算(suàn)法發明人(rén)還發表了(le)一(yī)份專門的PDF文件,說(shuō)明TrustRank算(suàn)法的應用。
 
TrustRank算(suàn)法并不是有Google提出的,不過哦由于Google所占市(shì)場(chǎng)份額最大,而且TrustRank在Google排名中也(yě)是一(yī)個(gè)非常重要的因素,所以有些(xiē)人(rén)誤認為(wèi)TrustRank是Google提出的。更讓人(rén)糊塗的是,Google曾經把TrustRank申請為(wèi)商(shāng)标,但(dàn)是TrustRank商(shāng)标中的TrustRank指的是Google檢測含有惡意代碼網站(zhàn)的方法,而不是指排名算(suàn)法中的信任指數。
 
        TrustRank算(suàn)法基于一(yī)個(gè)基本假設:好(hǎo)(hǎo)的網站(zhàn)很少會鏈接到壞的網站(zhàn),反之則不成立,也(yě)就(jiù)是說(shuō),壞的網站(zhàn)很少鏈接到好(hǎo)(hǎo)的網站(zhàn)這(zhè)句話(huà)不成立。正相反,很多垃圾網站(zhàn)會鏈接到高權威、高信任指數的網站(zhàn),試圖提高自己的信任指數。
 
        基于這(zhè)個(gè)假設,如(rú)果能(néng)挑選出可以百分(fēn)之百信任的網站(zhàn),這(zhè)些(xiē)網站(zhàn)的Trustrank評為(wèi)最高,這(zhè)些(xiē)TrustRank最高的網站(zhàn)所鏈接的網站(zhàn)信任網站(zhàn)稍微降低(dī),但(dàn)也(yě)會提高。與此類似,第二層被信任的網站(zhàn)鏈接出去的第三層網站(zhàn),信任度繼續下(xià)降。由于種種原因,好(hǎo)(hǎo)的網站(zhàn)也(yě)不可避免的會鏈接到一(yī)些(xiē)垃圾網站(zhàn),不過離第一(yī)層網站(zhàn)點擊距離越近,所傳遞的信任指數越高,離第一(yī)級網站(zhàn)點擊距離越遠(yuǎn),信任指數将以此下(xià)降,這(zhè)樣,通過TrustRank算(suàn)法,就(jiù)能(néng)給所有網站(zhàn)計算(suàn)出相應的信任指數,離第一(yī)層網站(zhàn)越遠(yuǎn),成為(wèi)垃圾網站(zhàn)的可能(néng)性越大。
 
        計算(suàn)TrustRank值首先要選擇一(yī)批種子(zǐ)網站(zhàn),然後人(rén)工查看網站(zhàn),設定一(yī)個(gè)初始TrustRank值,挑選種子(zǐ)網站(zhàn)的兩種方式,一(yī)種是選擇導出鏈接最多的網站(zhàn),因為(wèi)TrustRank算(suàn)法就(jiù)是計算(suàn)指數随着導出鏈接的衰減。導出鏈接多的網站(zhàn),在某種意義上(shàng)可以理(lǐ)解為(wèi)“逆向PR值”比較高。
 
        另一(yī)種挑選種子(zǐ)網站(zhàn)的方法是選PR值高的網站(zhàn),因為(wèi)PR值越高,在搜索結果頁面出現(xiàn)的概率越大。這(zhè)些(xiē)網站(zhàn)才正是TrustRank算(suàn)法最關(guān)注的、需要調整排名的網站(zhàn),那些(xiē)PR值很低(dī)的頁面,在沒有TrustRank算(suàn)法時(shí)排名也(yě)很靠後,計算(suàn)TrustRank意義就(jiù)不大了(le)。
 
        根據測算(suàn),挑選出兩百個(gè)左右網站(zhàn)作(zuò)為(wèi)種子(zǐ),就(jiù)可以比較準确地計算(suàn)出所有網站(zhàn)的TrustRank值。
 
        計算(suàn)TrustRank随鏈接關(guān)系減少的公式有兩種形式。一(yī)種是随着鏈接次數衰減,也(yě)就(jiù)是說(shuō)如(rú)果第一(yī)層頁面TrustRank指數為(wèi)100,第二層頁面衰減為(wèi)90,第三層衰減為(wèi)80.第二種計算(suàn)辦法是按導出鏈接數目分(fēn)配TrustRank值,也(yě)就(jiù)是說(shuō),如(rú)果一(yī)個(gè)頁面的TrustRank值為(wèi)100,頁面上(shàng)有5個(gè)導出鏈接,那個(gè)鏈接将傳遞20%的TrustRank值,衰減和分(fēn)配這(zhè)兩種計算(suàn)方法通常綜合使用,整體(tǐ)效果都是随着鏈接層次的增加,TrustRank值逐步降低(dī)。
 
        得出網站(zhàn)和頁面的TrustRank值後,可以通過兩種方式影響排名。一(yī)種是把傳統排名算(suàn)法挑選出的多個(gè)頁面,根據TrustRank值比較,重新(xīn)做排名調整。另一(yī)種是設定一(yī)個(gè)最低(dī)的TrustRank值門檻,隻有超過這(zhè)個(gè)門檻的頁面,才被認為(wèi)有足夠的質量進入排名,低(dī)于這(zhè)個(gè)門檻的頁面将被認為(wèi)是垃圾頁面,從搜索結果中過濾出去。
 
        雖然TrustRank算(suàn)法最初是作(zuò)為(wèi)檢測垃圾的辦法,但(dàn)在現(xiàn)在的搜索引擎排名算(suàn)法中,TrustRank概念使用更為(wèi)廣泛,常常影響大部分(fēn)網站(zhàn)的整體(tǐ)排名,TrustRank算(suàn)法最初針對的是頁面級别,現(xiàn)在在搜索引擎算(suàn)法中,TrustRank值也(yě)通常表現(xiàn)在域名級别,整個(gè)域名的信任指數越高,整體(tǐ)排名能(néng)力就(jiù)越強。
 
Google PR
 
         PR是PageRank的縮寫。Google PR理(lǐ)論是所有基于鏈接的搜索引擎理(lǐ)論中最有名的。PR是Google創始人(rén)之一(yī)拉裏佩奇發明的,用于表示頁面重要性的概念。用最簡單的話(huà)說(shuō)就(jiù)是,反向鏈接越多的頁面就(jiù)是越重要的頁面,因此PR值也(yě)就(jiù)越高。Google PR有點類似于科技文獻中互相應用的概念,被其他文獻引用較多的文獻,很可能(néng)是比較重要的文獻。
PR的概念和計算(suàn)
         我們可以把互聯網曆程成由結點和鏈接組成的有向圖,頁面就(jiù)是一(yī)個(gè)個(gè)結點,頁面之間(jiān)的有向鏈接傳遞着頁面的重要性。一(yī)個(gè)鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值,發出鏈接的頁面本身(shēn)PR值越高,所能(néng)傳遞出去的PR值也(yě)越高。傳遞的PR數值也(yě)取決于頁面上(shàng)的導出鏈接數目。對于給定PR值的頁面來(lái)說(shuō),假設能(néng)傳遞到下(xià)級頁面100份的PR,頁面上(shàng)有10個(gè)導出鏈接,每個(gè)鏈接能(néng)傳遞10份PR,頁面上(shàng)有20個(gè)導出鏈接的話(huà),每個(gè)鏈接隻能(néng)傳遞5份PR。所以一(yī)個(gè)頁面的PR值取決于導入鏈接總數,發出鏈接頁面的PR值,以及發出鏈接頁面上(shàng)的導出鏈接數目。
 
PR的兩個(gè)比喻模型
         關(guān)于PR有兩個(gè)著名的比喻。一(yī)個(gè)比喻是投票(piào)。鏈接就(jiù)像民(mín)主投票(piào)一(yī)樣,A頁面鏈接到B頁面,就(jiù)意味着A頁面對B頁面投了(le)一(yī)票(piào),使得B頁面的重要性提高。同時(shí)A頁面本身(shēn)的PR值決定了(le)A所能(néng)投出去的投票(piào)力,PR值越高的頁面,投出的票(piào)也(yě)更重要。在這(zhè)個(gè)意義上(shàng),傳統基于關(guān)鍵詞匹配的算(suàn)法是看頁面直接說(shuō)頁面内容是什(shén)麽,基于鏈接的PR則是看别人(rén)怎麽評價這(zhè)個(gè)頁面。
         第二個(gè)比喻是随機沖浪比喻。假設一(yī)個(gè)訪問者從一(yī)個(gè)頁面開始,不停地随機點擊鏈接,訪問下(xià)一(yī)個(gè)頁面,有時(shí)候這(zhè)個(gè)用戶感到無聊了(le),就(jiù)再點擊鏈接,就(jiù)随機跳(tiào)到另一(yī)個(gè)網址,再次開始不停地向下(xià)點擊。所謂PR值,也(yě)就(jiù)是一(yī)個(gè)頁面在這(zhè)種随機沖浪訪問中被訪問到的概率。一(yī)個(gè)頁面導入鏈接越多,被訪問的概率也(yě)越高,因此PR值也(yě)越高。
地址 : 浙江省湖州市(shì)吳興區加利廣場(chǎng)
QQ : 2279641406 547859428
電話(huà):13735195038 傳真:0572-2198989
電子(zǐ)郵件:[email protected] 網址:www.hzhope.com
後普網絡 版權所有 Copyright © 2018 網站(zhàn)地圖 | 免責申明 | 聯系我們