パンダアップデートに関係するGoogleの特許とは?

英語版Googleではパンダアップデートも3.3、そして3.4とバージョンが上がり続けていますが、今だに正式導入がされていない日本語Google、ウェブマスターのもどかしい日々は続くばかりです。さて今回は、そんなパンダアップデートをGoogleが取得した特許から分析してみようという意欲的な記事をSEO by the Seaからお届けします。パンダアップデートの傾向を既に勉強している人は多いと思いますが、その技術的な仕組みについて学んでみることで新たな気づきがあるかも。 — SEO Japan

グーグルは、ページの広告のクリックに関連する異常なパターンを検知した場合、そのページの検索結果でのランキングを下げるのだろうか?また、グーグルは、このような異常なクリックパターンに対して、テストを行い、検索結果内のランキングを下げるランキングアルゴリズムを用いているのだろうか?本日付与されたグーグルの特許は、私の記憶が正しければ、広告のクリックにより、ウェブ検索ランキングを下げる、もしくは検索結果から削除する点を示唆する初めての特許である:

文書エンジン146が、記事が操作されている可能性を特定すると、メソッド 400は終わる。記事が操作されている可能性は、様々な方法で用いられる。例えば、記事が操作されている可能性が高いと言う情報は、この記事に関連するランキングを下げるために用いられることもある。すると、当該の記事は検索結果のリスティングで低い位置に表示される、もしくは全く表示されなくなる*。

代わりに、記事が操作されていることを示す可能性は、ランキングアルゴリズムをテストするために用いられる可能性もある。*

例えば、記事に関連するクリックスルーのデータとは無関係に機能するものの、それでも操作された記事を検索結果のリスティング内部で下げるランキングアルゴリズムを利用することが理想的である。クリックスルーのデータを基に記事が操作されている可能性を示す、メソッド 400で入手した情報は、クリックスルーのデータとは無関係に機能するランキングアルゴリズムの効果を試すために用いられることもあり得る。

例えば、メソッド 400が、記事A、記事B、記事Cが高いクリックスルー率と関連しており、操作されている可能性があると特定すると、この情報は、記事A、記事B、記事Cに関連するクリックスルーのデータとは無関係のアルゴリズムが決めたランキングと比較される可能性がある。記事A、記事B、記事Cが、クリックスルー率とは無関係のアルゴリズムによって同様に低く格付けされている場合、無関係のアルゴリズムは効果的に操作されている記事を特定していることを示唆すると考えられる。

* は私が強調するために用いた

特許の請求範囲には、操作された記事に関する特殊な用語は含まれていないものの、サイトのオーナーが、検索結果で広告とともに上位に格付けされる可能性がある、質の高いコンテンツに導くように見える質の低いコンテンツを配信している状況、もしくは、サイトのオーナーが、コストの低い広告に対する料金を支払い、質の低いコンテンツを持つページにユーザーを送りこみ、大勢のビジターがページ上の高額の見返りをもたらす広告をクリックすることで発生する検索アービトラージ(鞘取り)を行っている状況を特定するために用いられることもあり得る。この特許は、操作されているページを特定するために用いられると思われるメソッドを詳しく説明している。

例えば、グーグルは、検索結果で広告をクリックして、その直後に一つ目の広告が導くランディングページ上のより高額の広告をクリックする等、クリックする広告に到達する上でユーザーが辿った道に注目する可能性がある。この特許は、検索結果で人為的に高く格付けさせる目的の記事(特に人気の高いクエリで)を含む記事を操作されている記事と定義している。また、このような操作された記事のパブリッシャーは、自動的にその他の記事から当該の記事へのリンクを張り、より上位にランクインするよう仕組む、またはビジターとは別のコンテンツをウェブクローラーに表示することもあると見られる。

このような操作された記事は、ページがウェブ検索で上位に格付けされる上で、そして、実質的な情報を与えることなく、キーワードに関連するコンテンツの広告を生成する上で貢献するコンテンツを持つと考えられる。質の高いコンテンツがページ上に存在しないため、ビジターは、より役に立つページを探すため、ページ上の広告を頻繁に選択するのだ。

それでは、この特許のデータを紹介する:

パスのナビゲーションの情報を利用して、キーワードを確立するメソッドおよびシステム
発明: Pavan Desikan
付与先: Google Inc.
米国特許番号: 8,005,716
付与日: 2011年8月23日
申請日: 2004年6月30日

概要

パスナビゲーションの情報を特定および利用するシステムとメソッド。ある側面では、このメソッドは、少なくとも1つのアイテムを含む記事の特定、この記事に関連するパスの特定、そして、少なくとも1つのパスに存在する少なくとも1つのアイテムに関連する少なくとも1つの関連する用語の特定を含む。

この特許は、予想よりも高いクリックスルー率、もしくは、質の低いコンテンツを持つページに導く低いコストの広告のクリックから始まり、高い報酬の広告へと送るナビゲーショナルなパスを通して、コンテンツファーム等の質の低いコンテンツページを特定する方法を説明する一方で、グーグルのパンダに関連する、学んだ“品質スコア”の類には言及していない。上の特許の引用した部分には、クリックスルーのデータが操作されている記事を特定するアルゴリズムをテストするために用いられる可能性があると記されている。

上の特許の発明者 – Paven Dsikan氏が約1年後に申請したグーグルの別の特許には、広告が配信されているページに品質スコアが割り当てられるコンセプトが綴られている。この特許のデータを紹介する:

広告ネットワークに参加するウェブサイトの妥当性を見直す
発明者: Pavan Kumar Desikan、Lawrence Ip、Timothy James、Sanjeev Kulkarni、Prasenjit Phukan、Dmitriy Portnov、Gokul Rajaram
付与先: Google, Inc.
米国特許番号: 7,788,132
付与日: 2010年8月31日
申請日: 2005年6月29日

概要

ウェブサイトが広告ネットワークへの利用に対してレビューされる方法は、次の取り組みを行うことで改善される可能性がある

(a) 1つまたは複数の文書を含む集まりを受け入れる
(b) 集まりが広告ネットワークのポリシーに従っているかどうかを特定する
(c) ポリシーに従っている場合は集まりを認める。

集まりは、(コンテンツをターゲットにした)広告が集まりに含まれる文書の表示に関連して提供されることが認められる場合、広告ネットワークに加えられることもあり得る。集まりは1つまたは複数のウェブページを含むウェブサイトと推測される。このポリシーは次の点を考慮すると思われる

(A) 1つまたは文書の集まりの内容
(B) ウェブサイトのユーザビリティ – 1つまたは複数の文書の集まりは1つまたは複数のウェブページで構成されるウェブサイトの場合
(C) 広告ネットワークでの潜在的な詐欺行為または偽り、もしくは集まりによる広告ネットワークの参加。

ポリシーを違反すると、または品質スコアが低いと、人間によるレビューを行うためのフラグが立てられる、もしくは広告ネットワークからの削除の対象になり得る。

この特許は次の違反を含む様々なポリシー違反の基準を挙げている:

  • ウェブサイトのコンテンツ(が:特定のターゲティングを提供するにはあまりにも一般的過ぎる、コンテンツが少ない、コンテンツが劣悪または物議を醸しだす等)
  • ウェブサイトのパブリッシャーまたはソース
  • ウェブサイトのユーザビリティ(が:現在作成中、リンク切れがある、ページのローディングが遅い、フレームを不適切に利用している等)
  • 詐欺(広告主、そして、広告ネットワークを騙そうと試みている等)

この特許は、広告ネットワークのポリシーでは受けいれられないコンテンツの種類の例が数多く挙げられており、その多くは、グーグルアドセンスプログラムのポリシーページの「コンテンツガイドライン」のセクションに掲載されている例とほとんど同じである。

さらに興味深いのは、ポリシー違反に当たる既定のタイプやクラスのウェブサイトのマニュアルのリストが、エキスパートシステム(ニューラルネットワーク、ベイジアンネットワーク、サポートベクターマシン等)を訓練し、その他のウェブサイトをポリシーを違反したかどうかを分類するために用いられる可能性がある点だ。この分類システムは、ポリシー違反を示唆する特定のワード、フレーズ、そして、イメージを探すと推測される。

ページ上で検知される可能性のあるユーザビリティやその他のウェブサイトの違反を挙げていく:

  • ドメインネームサーバー(DNS)のエラーが見受けられるウェブサイト(URLが存在しない、URLがダウンしている等)
  • リンク切れのあるウェブサイト
  • 「オフライン」のウェブサイト
  • 「準備中」のウェブサイト
  • ポップアップ/ポップアンダーが過剰なウェブサイト(ウェブページがローディングする際にN(例:1)以上)以上のポップアップまたはポップアンダー広告が表示される)
  • チャット用ウェブサイト
  • HTMLではないウェブサイト(ディレクトリのインデックス、フラッシュ、WAP等)
  • スパイウェアのウェブサイト
  • ホームページにテイクオーバー広告を掲載するウェブサイト
  • 悪意のあるソフトウェアをユーザーのコンピュータにインストールしようと試みるウェブサイト
  • 戻るボタンを無効にすることでユーザビリティに影響を与えるウェブサイト

[クリックすると支払いが行われる]ウェブサイト(ペイパークリック広告を選ばせることが目的のサイト等)もまた、広告ポリシーのガイドラインでは取り締まりの対象になり、また、有名な「クリックすると支払いが発生する」ウェブサイトで訓練を受けたマシン学習システムのプロセスによって特定されると記されている。例えば、クリックスパムを行うウェブサイトは、通常、テンプレートを利用するコンテンツを持っており、また、広告:テキストの割合が高いと指摘されている。

また、この特許は、サイトを見る際に質の基準として利用する可能性のある、次のポイントを挙げている:

  • 広告ネットワークやその他ソースによるインプレッション、選択、ユーザーのジオロケーション、そして、コンバージョン等の利用に関するデータ
  • サイトが広告ネットワークに所属しているかどうか
  • 人気度 グーグルのツールバー等で計測される
  • スパム(“リンクファーム”、隠されたテキスト等)

結論

グーグルのパンダアップデートの狙いが、質の低いコンテンツおよび収益の高い広告を提示するために上位にランクインさせるために作られたページの検索ランキングを下げることだったなら、品質スコアを使って操作された記事を特定する取り組みは、これらの特許で描かれたプロセスにぴったりと当てはまる。

グーグルフェローのアミット・シンガル氏がグーグルの公式ブログに投稿した記事「質の高いサイトを構築する上でのさらなるアドバイス」で投げかけた質問は、パンダの下で、ページにマイナスの影響を与えかねない類の行為を特定する上で、そして、このようなページのランキングを改善する方法を特定する上で、最も参考にするべきポイントなのではないだろうか。この質問の狙いは、質の高いコンテンツをページで提供するようパブリッシャーを説得することである。

グーグルが操作されているページを特定するためにクリックスルーのデータを直接利用しているとは私には思えないが、パスナビゲーションの情報に関する特許がその可能性を示唆しているように、マシン学習ベースのパンダアルゴリズムをテストするため、グーグルがこの情報を利用している可能性はある。


この記事は、SEO by the Seaに掲載された「Early Google Panda Patents」を翻訳した内容です。

なるほど、検索結果のみならず広告配信の観点からもパンダアップデートのアルゴリズムに通じるGoogleの技術があるのですね。確かにGoogleの収益の大半は広告収入によるものですし、その収益性を高める過程で産み出した技術をパンダアップデートに応用しても何ら不思議はありません。サイト運営者であれば、良いコンテンツを配信する努力とは別に掲載広告のクリック率をいかに最大限高めるか日々工夫している方も多いと思いますが、SEOと同じでやりすぎは注意ともいえそうです。この記事がパンダアップデート回避の参考にどこまでなるかは分かりませんが、いずれにしても検索エンジンの裏をかく手法はグレーゾーンに踏み込む少し前辺りでとどめておくのが確実ではありそうです。 — SEO Japan
Page Top

投稿ナビゲーション