Googleがリンクが張られたページの関連性を特定する方法

SEO by the SeaからSEOマニアには気になる記事を。Googleが最近取得した、「リンクが張られたページの関連性を特定する」手法に関する特許を解説。リンクは単純な数より関連性が大事とはよく聞かれますがさてその内容やいかに。 — SEO Japan

グーグルは、ページがお互いにどれだけ関連しているか、もしくは提携しているのかに関する認識を基にページへのリンクをそれぞれ格付けしている可能性はあるのだろうか?例えば、同じ人物が管理する、4つめのページにリンクを張る3つのページがあり、別の人物が投稿するその他の2つの異なるページもまた4つめのページにリンクを張っている場合、同じ作者からの3本のリンクは、別の人が個別に作成したページからのリンクよりも、3倍ほど重要度が高いと見なされるべきなのだろうか?

今日グーグルに付与された特許は、検索エンジンがページやサイトがお互いにどれほど「関連」しているのか、そして、関連の度合いがそれぞれのリンクによってもたらされる重要度にどれだけ影響するのかを分析する方法を説明している。

例えば、別のページへ向かう2本のリンクを持つページは、このページからの単一のリンクよりも、リンクの重要度が2倍高いとは限らない。そして、別のページへの20本のリンクを持つサイトは、ある1つのページからの1本のリンクよりもリンクの重要度が20倍高いとは必ずしも言えない。

グーグルがページのお互いの関連度を特定する方法は複数あり、この特許はページやサイトがお互いに関連していると考えられる仕組みの例を多数紹介している。

ページおよびサイトの間の相互リンク: 例えば、グーグルはウェブ上のページの間のリンクを全てチェックし、より緊密にリンクが張られているページやサイトは関連していると考える可能性がある。

トラフィックのパターン: 同じ検索もしくは閲覧セッションで多くのユーザーが訪れるページやサイトもまた関連していると見られるだろう。

ホストの名前の類似性 ドメイン名が同じページ、そして、同じドメインのサブドメインが同じページは関連していると考えられる。

IPアドレスの類似性 2つのウェブサーバーのインターネットプロトコル、もしくはIPアドレスが比較され、IDアドレスの主要な幾つかの要素(オクテット)が同じなら、関連性を暗示している。

グーグルがこのメソッドを利用しているかどうかは不明だが、使っている可能性はある。この特許は2004年に申請され、その考案者の中にはKrishna Bharat氏の名前が含まれている。同氏は、グーグルニュースの考案者であり、Amit Singhal氏は現在グーグルの検索品質部門をけん引している。そして、Paul Haahr氏の名前は多数のグーグルの特許で共同考案者として登場する。過去のデータを基にした情報の検索、キーワード内の意味のあるストップワードの特定、複数の段階のクエリの処理がグーグルで行われる仕組み、そして、クエリの絞り込みが特定される仕組みはその一例だ。

特許:

リンクが張らた文書の質を特定
考案 : Krishna Bharat、Amit Singhal、Paul Haahr
付与先 : Google
米国特許出願番号 7,783,639
公開日 : 2010年8月24日
出願日 : 2004年6月30日

要約

ウェブページやウェブサイト等の文書を格付けするためのランキング要素。文書の質を判断するランキングスコアを得る。文書のランキングスコアは、その文書にリンクを張る文書のランキングスコア、そして、文書間の関連性に基づいて決定される。

この特許のコンセプトを簡潔にまとめよう。ページに対して計算されるランキングスコアは、(1)関連するページからのリンクを介してもたらされる価値を最大値に制限し、(2)関連性のないページからの独立した価値を加える特徴によって決まる。

例えば、ページへのサイトワイドのリンクは、同じサイトからの単一のリンクよりも多くの価値をもたらす可能性もあるが、リンクの量の重要度は、すべてのリンクが同じドメインを利用し、関連しているため、一部のリンクが最多の量を制限している可能性があるため、ある程度抑えられることも考えられる。

興味深いことに、この特許はページランクには触れていない。ページランクは、オリジナルのランキングアルゴリズムであり、ページの間のリンクに着目して、クエリの独立したランクを決める。これはスタンフォードでグーグルのファウンダー、ラリー・ページ氏とセルゲイ・ブリン氏によって開発されたアルゴリズムで、特許「リンクが張られたデータベース内のノードのランキングを決めるメソッド」の中で説明されている。

しかし、この特許で描かれているプロセスは、ページランクの多数の特許で描かれているプロセスと一致している。データベース内の文書を分析し(グーグルのウェブページのインデックス等)、文書を関連する一連の文書にグループ分けする「セットロケーションコンポーネント」も含まれている。この特許には、ウェブの制限されたリンクグラフのスクリーンショットが掲載されており、一部のページは関連するセットとして記されている:

このグーグルの特許は、寄与される価値のうち、関連していないページからリンクを張られているページのランキングにもたらされる価値、そして、関連するページによってもたらされる最大の価値を特定するためのその他の方法も記載している。

結論

この関連するページのリンクに関する特許は、リンクが張られたページのランキングスコアに対するページ上のリンクの重要度または寄与の程度は、リンクの特徴、リンクが表示されるページ、そして、リンクが張られるページを含むスコアを基準としており、リンクによって異なる可能性があることを示唆した、「リーズナブルサーファーに関する特許」が申請された月と同じ月に申請されていた。

いずれの特許もお互いの関連性については触れていないが、この2つの特許がグーグルによって使われている、または使われてきた可能性は否定できない。

グーグルは多数のランキングシグナルを利用している。その中にはクエリに依存するシグナルもあり、クエリの用語自体がページに表示されるかどうか等、検索結果でページを格付けするために用いられる特定のクエリに左右されることもある。

そして、ページランク等、ページの質や重要度を計測するクエリに依存しないシグナルがある。この類のシグナルは、ページに向かうリンクの質と量に注目し、ページの“重要性”を特定する。

関連するページのリンクのアプローチは、ページの重要度のスコアの計算をリンクのソースが単独かどうかを判断基準としてページに向かうリンクを基に制限する。この特許は、例えば、同じ作者が加えたリンクが文書のランキングを大幅に上げるべきではないことを暗示している。

私は、同じドメインからのサイトワイドのリンクの場合、異なるドメインからの個別のリンクほどリンクの価値が高くない点を指摘する人を何人も見てきた。この指摘はこの関連するページのアプローチに基づいている可能性がある。これはリンクの重要度の価値に差が生じる理由なのだろうか?

サイトを運営している人に考えてもらいたい。そのサイトはどのサイトと関連しているとグーグルに見なされるのだろうか?


この記事は、SEO by the Seaに掲載された「Google’s Affiliated Page Link Patent」を翻訳した内容です。

なんとなく想像の範囲で導入されていると予想できそうな内容が中心ですが、こうやって特許としてその仕組みを見るとまた興味深いですね。サイトワイドリンクにSEO効果が余りない理由もこの辺の技術に基づいているのでしょうか。あくまで特許ですからどこまでこの技術が実装されているか分かりませんし、他にもまだ色々な技術が実装されている可能性はありますが、検索エンジンのアルゴリズムは奥が深いですね。 — SEO Japan
Page Top

投稿ナビゲーション