Googleが重複コンテンツを見破るアルゴリズムとは?

1つのコンテンツが様々な形でネット上に流通する現在、検索エンジンが重複コンテンツをどう処理しているかという問題はSEOのプロでなくとも気になる話題です。今回はGoogleが取得した特許を元にGoogleの重複コンテンツの判別アルゴリズムをSEO by the Seaが探ります! — SEO Japan

検索エンジンの特許のなかには、検索エンジンがコアの機能を実行する仕組みを詳細に取り上げているものもある。「コアの機能」とは、ページのクロール、ページのインデックス、そして、検索者への結果の表示を意味する。

例えば、昨年の12月、私は「アンカーテキストと異なるクローリングの早さに関するGoogleの特許」と言うタイトルのエントリを投稿した。これは、2003年に申請された特許をクローズアップしており、検索エンジンがウェブページをクロールし、見つけたページのウェブアドレスやURLを集める仕組みを説明した。

このエントリが取り上げた特許は、「ウェブクローラーシステムでのアンカータグのインデックス」であり、グーグルがどのぐらいの頻度で特定のページを訪問または再訪問しているのかをひも解いていた。毎日複数のページをクロールすることもあれば、リアルタイムまたはリアルタイムに近いペースでクロールするページもあり、- 場合によっては数分おきにクロールされるページもある。ウェブページのリアルタイムのインデックスに関して、ここ数ヶ月で多くの議論が重ねられてきたので、今回は、2003年に申請されたこの特許に注目してみようと思う。

この過去の特許は、検索エンジンのクローラーが、一時的なリダイレクト(302)と永続的なリダイレクト(301)を、その違いに注目し、そして、ある時は一時的なリダイレクトを追跡し(検索結果に表示するページを判断するため)、そして、永続的なリダイレクトに関連するURLを集めて、後ほど – 一週間後やそれ以降 – 対応するクエリに放り込むことで、異なる扱いをする仕組みにも触れている。

この特許は、ページのクロール中に見つけたリンクの前後のテキスト、そして、アンカーテキストが、これらのリンクに対する注釈として用いられる仕組みを取り上げ、そして、検索エンジンがテキストを近くのリンクと関連付けるかどうかを特定する際に注目する特徴の幾つかを紹介している。

また、「ウェブページをクロールしている際に見つけた重複するコンテンツを特定する方法、そして、コンテンツに対する最も適切なアドレス、またはカノニカルなURLを特定する仕組み」と言う非常に興味深いトピックも取り上げている。これは検索エンジンにとっては非常に重要である – 同じコンテンツが複数のページで見つかった場合、検索エンジンは同じコンテンツに対して複数のソースをインデックし、表示することに時間もリソースも費やしたくないからだ。

今週、関連するグーグルの特許が認められた。この特許は検索エンジンが重複するコンテンツを扱う仕組みについてさらに詳しく説明している。この特許を申請した考案者達は、同じ日に申請されたアンカーテキストに関する特許にも関わっていた。グーグルがウェブページのクロール中に重複するコンテンツを探す理由について、この新たに申請された特許は、前半部分で次のように説明している:

また、別のウェブサーバーに保存されていても、同じコンテンツを共有する文書の重複したコピーが増え続ける傾向があります。

一方では、これらの文書の重複したコピーは歓迎される。なぜなら、一つのウェブサーバーが閉鎖されることで、ウェブサーバー上の文書を読み込むことが出来なくなるリスクを軽減するからだ。しかし、もう一方では、適切に対応されない場合、フロントエンドおよびバックエンドでの検索エンジンの仕事量を大幅に増やし、効率を下げるデメリットがある。

例えば、検索エンジンのバックエンドでは、同じ文書の重複したコピーは、コンテンツにおいては関連性のない異なる文書として扱われ、そのため検索エンジンは、重複した文書を処理し、管理するため、ディスクのスペース、メモリ、ネットワークの帯域幅を浪費する。

フロントエンドでは、重複する文書を保持すると、検索エンジンは大きなインデックスを検索し、クエリを処理するために処理能力を余分に使わなければならなくなる。また、検索結果に掲載される必要のある様々なコンテンツが重複する文書によって締めだされてしまうと、ユーザーエクスペリエンスにも悪影響を及ぼす可能性がある。

このような理由で、検索エンジンがクロールする際に重複する文書を処理するために余分な労力を注ぐ前に、これらの文書を検知するシステムおよびメソッドを開発しておきたい。

また、これらの重複した文書を効率よく管理し、検索エンジンが重複する文書を含む結果のクエリに対応する際に、効率的に最も適切で信頼できるコンテンツを供与することが出来るようにしたい。

特許:

ウェブクローラーシステムの重複する文書の検知
考案: Daniel Dulitz、Alexandre A. Verstak、Sanjay Ghemawat、Jeffrey A. Dean
付与先: Google
米国特許申請番号: 7,627,613
付与日: 2009年12月1日
申請日: 2003年7月3日

概要

ウェブクローラーシステムで重複した文書が検知される。新たにクロールされた一連の文書を受け取ると、新たにクロールされた文書と同じコンテンツがある場合、検知される。新たにクロールされた文書と選ばれた一連の文書を特定する情報は、新しい一連の文書を特定する情報と組み合わされる。

重複した文書は、それぞれの文書に対するクエリの独立したメトリクスに基づいて、含まれるか、除外される。新しい一連の文書を代表する単一の文書は、既定の一連の条件に基づいて特定される。

この特許は、グーグルがクロールおよびアンカーテキストに対処する仕組みを取り上げた、先に認められた特許と重なる部分が多い。例えば、ウェブページの一部のURLは従来のように数日ごとに定期的にクロールされ、別のURLは毎日クロールされ、また別のURLは1日に数回クロールされる点を説明している。

重複する文書の検知に関する特許は、アンカーテキストには触れる程度だが、検索エンジンのコンテンツフィルターが重複するコンテンツのサーバー(特許の申請書ではDupserverと呼ばれている)に対応する仕組みの詳細を提供している。検索エンジンは、新たにクロールされたページを受け取ると、まずDupserverを調べて別の文書の重複するコピーかどうかを確かめ、重複する場合は、どちらがオリジナルのバージョンなのかを特定する。

この特許は、グーグルが見つける重複するコンテンツの種類をすべて網羅しているわけではないだろう – 重複するコンテンツを含む多くのページは、URLによって異なるヘッダーやフッター、サイドバー等の常用のコンテンツで埋められた全く異なるテンプレートが含まれる場合など、種類は多種にわたる。または、一部のコンテンツは重複し、一部のコンテンツはオリジナルのページ、または、複数のソースでコンテンツが重複するページも考えられる。この特許は、網羅する重複するコンテンツの種類を定義しており、リダイレクト、そして、このようなページに関連する重複するコンテンツを処理する方法について説明している:

重複する文書は、実質的に同等の内容を持つ文書であり、完全に内容が一致し、文書のアドレスが異なる形態を取る場合がある。

従って、重複する文書にウェブクローラーが遭遇するシナリオが少なくとも3つは存在することになる:

通常のウェブページと一時的なリダイレクトのページの組み合わせの2つのページにおいて、ページのコンテンツが同じであり、URLが異なる場合は重複する文書と言える

2つの一時的なリダイレクトのページは、ターゲットのURLが同じで、異なるソースのURLを持つ場合は、重複する文書と言える

通常のウェブページと一時的なリダイレクトのページは、通常のウェブページのURLが一時的なリダイレクトのターゲットのURLの場合、または、通常のウェブページのコンテンツが、一時的なリダイレクトのページのコンテンツと同じ場合、重複する文書と言える

永久的なリダイレクトのページは、重複する文書には直接関係していない。なぜなら、クローラーは、ターゲットのページのコンテンツをダウンロードしないように設定されているためだ。しかし、通常のウェブページや一時的なリダイレクトのページはURLをコンテンツに含んでいる可能性があり、それが永続的なリダイレクトページのソースのURLかもしれない。そのため、重複する文書を検知する以外にも、Dupserverには、通常のウェブページまたは一時的なリダイレクトページのコンテンツに埋め込まれたソースのURLを、Dupserverが把握している(要するに保存している)一致する永続的なリダイレクトのターゲットのURLに置き換える仕事もある。

この特許は、ページで見つけたコンテンツの情報を記録し、ページ同士でコンテンツをマッチさせる手法、この情報がコンテンツのフィンガープリントテーブルで保存される仕組み、そして、コンテンツに対するカノニカルなURLの選択を含め、異なる重複するコンテンツを検知するメソッドの一部の詳細を説明している。

特許にざっと目を通すと、最高のページランクを持つURLは、そのコンテンツに対するカノニカルなURLとして選ばれたものだと思ってしまうが、“同じ値のカノニカルなページは必ずしも最高のスコアを持つ文書とは限らない(ページランクやその他のクエリとは無関係のメトリクスのスコア)”点も特許には記載されている。

この例が挙げられている – グーグルは重複するコンテンツを持つすべてのページを記録し、そして、新しい重複に遭遇すると、ページランク(あるいはその他のクエリとは無関係のランキング)を確認し、新しいURLのページランクが過去のURLのページランクよりも遥かに高い場合、新しいURLをカノニカルなURLに指定する。その他の要素も判断材料として用いられる可能性はあるが、この特許では特に明かされていない。

結論

重複するコンテンツに関するこの特許、そして、アンカーテキストに関する特許の申請が行われたのは6年以上前のことだが、グーグルがウェブページをクロールし、そして、これらのページから情報を集め、その情報を処理する方法が詳細にわたって綴られているため、注目する価値はある。検索エンジンの仕組みに興味があるなら、この2つの特許を読めば、以下のようなウェブページのクロール中の問題に対する興味深い見識を得ることが出来るだろう:

  • グーグルが一時的なリダイレクトと永続的なリダイレクトを処理する仕組み
  • グーグルがページに対して異なるクロールの頻度を決める仕組み
  • グーグルが重複するコンテンツを持つURLのうち、どのURLがカノニカルなURLと考えられるのかを判断する仕組み
  • リンクの前後のテキストが、そのリンクに対する注釈として機能を果たすために選ばれる仕組み
  • 重複する文書に向かうアンカーテキストが文書のカノニカルなバージョンと関連付けられる仕組み

それでは以下に私が投稿した重複するコンテンツに関するエントリを挙げていく(註:全て英語です):


この記事は、SEO by the Seaに掲載された「Google Patent Granted on Duplicate Content Detection in a Web Crawler System」を翻訳した内容です。

正直、上の文章を読んで「じゃあ、こうすればいい」的な知見が得られた気もしないのですが 汗 Googleが重複コンテンツを判別するアルゴリズムは相当レベルが高いのは間違いなさそうです。オリジナルコンテンツを認識するアルゴリズムは流石という感じです。実際、APIやRSSを使ったSEO用の重複コンテンツサイトなどはGoogleからインデックス削除されるケースも増えているようですし。SEOが簡単にできた時代が懐かしい。。。のは私だけでしょうか。 — SEO Japan
Page Top

投稿ナビゲーション