検索エンジンがクラウドソースの力でスパムを特定する仕組み

SEO by the Seaから検索エンジンがクラウドソースを活用してスパムを特定する技術についてマイクロソフトが取得した特許を元に解説した記事を紹介。クラウドソースと言っても技術的にもかなり進化していそうです。 — SEO Japan

クラウドソースと言う用語は、2006年、ワイアードの記者、ジェフ・ホー氏がクラウドソーシングの台頭と言うエントリの中で使った造語である。このエントリで、ホー氏は人々の集団(クラウド)が暇な時間を使って、問題解決やコンテンツ作成に手を貸したり、個人もしくは一企業ではなかなか解決することが出来ないその他の課題に取り組む仕組みを描いていた。それでは、検索エンジンは、ウェブスパムを検索結果から一掃する取り組みに、検索者に効果的に貢献してもらえることは出来るのだろうか?

検索エンジンが“フィードバック”ボタンを全ての検索結果ページに加えて、検索する人がページをウェブスパムとして報告することが出来るようにしたらどうなるだろうか?あるいは、スパムボタンをツールバーに加え、検索者が検索を介してスパムと特定したページをクリックするシステムは役に立つだろうか?

このようなシステムは、検索エンジンがより良い検索結果を提供する上で良い効果をもたらすだろうか?人々はこの類のシステムを悪用し、本当はスパムではないページをウェブスパムと特定するのだろうか?検索エンジンは検索者から集めたスパムレポートに他の情報を加えて、ウェブスパムを特定することは可能なのだろうか?

マイクロソフトが申請した特許は、ページに関する検索者からの情報とウェブスパムを特定するための自動システムが集めた情報を組み合わせることで、ウェブスパムを識別する方法を紹介している。この組み合わされた情報は、検索結果でスパムと特定されたページにペナルティーを課すために利用される可能性もある。

検索エンジンのスパムレポート

マイクロソフトの特許出願書類に記載されているアプローチを詳しく見ていく前に、現在、それぞれの検索エンジンが、ウェブスパムと考えられるページを検索者にどのように特定させているのかについて、探ってみたいと思う。

グーグルは、「ご意見をお寄せください」リンクを検索結果ページの一番下に用意している。このページは、クリックした人に以下のような様々なトピックにおけるフィードバックを求めている:

  • 望んだページを見つけることが出来なかった。
  • 望んだ情報を見つけることが出来なかった。
  • 結果にスパムが含まれていた(ヘルプセンターでスパムについて説明しています)。
  • 関連性のないページもしくはトピックとは関係のないページが結果に含まれていた。

ページにはテキストボックスがあり、閲覧した検索結果に満足することが出来なかった理由を説明することが出来る。また、特定のページに対するURLを識別することが可能な別のテキストボックも用意されている。加えて、ウェブスパムのレポートについて議論する短いページへのリンクもある。このページのリンクをクリックすると、グーグルアカウントへのログインページに飛び、ログインした後、以下のような問題を特定することが可能な本格的なスパムレポートを利用することが出来るようになる:

  • テキストやリンクが隠されている
  • 言葉が誤解を招く、もしくは重複する
  • グーグルのディスクリプションとページがマッチしない
  • ページがクロークされている
  • 虚偽的なリダイレクト
  • ドアウェイページ
  • 重複するサイトやページ
  • その他(具体的に)

ウェブスパムをレポートするためのヤフー!のページは、ヤフー!のヘルプページで真剣に探さなければ見つからない。また、ヤフー!の検索結果ページにはリンクが用意されていない。

ビングは検索結果ページの右下に「help」リンクを用意しており、このリンクをクリックして「探していた情報は見つかりましたか?(要)」と言う質問に答えることが出来る。ウェブスパムについては明記されていない。また、グーグルのページにあるような詳細なスパムレポートも存在しない。

検索者の多くは、いずれかの検索エンジンでウェブスパムを報告する手順をすべて踏み、実際にスパムを報告しているのだろうか?いたとしても、このような人達は少数派に属するはずだ。

検索結果にリストアップされた各ページの隣に“フィードバック”ページが用意されていたらどうなるだろうか?

これは検索エンジンの役に立つだろうか?それとも悪用されるだろうか?グーグルは、検索者によるウェブスパムの報告に対して、用心するようになりつつある。グーグルのマット・カッツ氏は、過去数年間で、グーグルのアカウントにログインしている際にスパムを報告してもらえると助かると何度も述べている。2010年3月、リンク・スパム・レポートを求めるブログのエントリで、カッツ氏は「私たち[グーグル]は、匿名のスパムレポートフォームから手を引きつつある」と明記している。

一方、マイクロソフトの特許申請書には、スパムレポートが検索者にとってより利用しやすくなれば、役に立つと記載されている:

通常、結果がスパムなのか否かに関する情報源としては、検索者のユーザーベースの右に出るものはない。しかし、より多くのフィードバックのデータの提供をエンドユーザーに要請する試みは、大きな成功を収めているとは言えない。これは、フィードバックを提供する行為が面倒であることが多く、時間がかかってしまうためだ。さらに、事前に設定したフィードバックのフォーマットが不適切な場合も多い。

また、ユーザーのフィードバックに関して言えば、競合者のウェブサイトのランキングを人為的に低くしようとするフィードバックを阻止するために、スパマーからのフィードバックを識別するシステムが必要である。

ユーザーの満足度は、検索エンジンが成功する上で絶対に欠かせない。スパムばかりの検索結果は、ユーザーエクスペリエンスを大幅に低下させてしまう。その結果、スパムの結果を特定し、フィルタリングする解決策が必要とされているのだ。

クラウドソースと自動スパム検知を併用

この特許の申請書は、検索結果ページに検索する人が特定のクエリに対してウェブスパムを報告することが出来る、ツールバーのボタン、もしくはユーザーインターフェースのメカニズムを用意する可能性について触れている。スパムページを特定するため、この情報は集められ、自動スパム分析システムのデータと組み合わされる。そして、今後のランキングで特定されたページにペナルティーを与えるためにも用いられる可能性もあるようだ。

この特許の申請書は、情報がどのように検索者から集められ、ウェブスパムを特定するために、どのように自動システムと併用されるにか関して細かく説明している。さらに、自動システムが、ウェブページがウェブスパムか否かを考慮する際の情報の種類についても、少しではあるが明らかにしている。さて、この自動システムには興味深い点がある。それは、特定のクエリに対して格付けされているページをウェブスパムかどうかを決定する上で、どのようにこのシステムが、マイクロソフトの広告システムから情報を引き出すのか、と言うことだ。

特許申請:

スパム識別のシステムおよびメソッド
発明者 : ブレット・D. ブリューワ、およびエリック・B. ワトソン
譲渡先 : マイクロソフト
US 特許出願番号 20100100564
公表日 : 2010年4月22日
申請日 : 2009年12月24日

抜粋

クエリに対して生成された一連の結果におけるスパムの結果を特定することで、ユーザーの検索経験を改善するために提供されるシステムおよびメソッド。このシステムには、与えられた結果をユーザーがスパムと指摘することが可能なユーザーインターフェースのスパムフィードバックメカニズムが含まれる。また、このシステムは、結果がスパムかどうかを判断するための自動的な技術を実装する、自動スパム識別メカニズムを追加的に採用する場合もある。さらに、結果がスパムである可能性の指標を得るため、ユーザーインターフェースのスパムフィードバックメカニズムと自動スパム識別メカニズムの判断を融合するための統合的な手法を用いることもある。

自動スパム分析

マイクロソフトは、各種のシグナルを用意し、自動的に検索結果に表示された特定のページをスパムかどうかを識別するために利用するのだろう。このシステムは、以下のような異なる要素を考慮する、特定のモジュールを採用するのではないだろうか:

特徴アナライザー – 特徴アナライザーはページの特徴を確認し、ウェブサイトの広告の数、サイトのページがキーワードを濫用しているかどうか、そして、検索結果に現れるページが、スパマーのページの可能性が高いIPアドレスと同じグループに属しているかどうか等をチェックする。

クエリ独立ランク分析メカニズム – クエリ独立ランク分析メカニズムは、ページへのリンクの数やページの質を示唆するその他の要素等、クエリの独立したランクを見ていく。恐らく、ランクが高ければ高いほど、ページがスパムである可能性は低くなる。

収益分析メカニズム – 一連の検索結果でページを見つけるために利用されたクエリの用語を広告システム、そして、入札価格に対するスポンサーサイトのクリックスルー率を通して収益データをもとに精査する。「カーネギーメロン大学」等、クエリが非商業的な場合は、自動スパム分析モジュールがページをスパムと識別する可能性は低い。「ホテル」のようにクエリの用語の商業的な度合いが高い場合、用語への入札コストは遥かに高くなるため、検索エンジンがスパムを取り除く試みは増えるだろう。

人気分析メカニズム – ツールバーの情報、もしくはページへのトラフィックを計測するその他の手段を用いて、ページの人気度を調べるメカニズム。複数のツールバーから集められたデータにより、特定のページを多くの人々が訪問していることが明らかになったら、自動システムはそのページがスパムである可能性を低く見積もる。

ユーザーのフィードバックを分析

ウェブサイトに関して、検索者がフィードバックを提供する点における問題がある。それは、競合者のページをスパムと報告し、これらのページにペナルティーが与えられ、検索エンジンで上回ろうとする人が現れる可能性があることだ。

検索エンジンは、フィードバックが寄せられたIPアドレスを調査し、その情報を記録する。一人もしくは単一のアドレスから大量のフィードバックが行われている場合、“検索結果にマイナス投票”しようと試みるスパマーのシグナルと考えることが出来る。

また、ページが複数のクエリの用語に対して、スパムとしてマークされているかどうかを確認するため、ユーザーのフィードバックが用いられる可能性がある。ページが複数の検索用語もしくはフレーズでウェブスパムとしてマークされているなら、ページを見つけるためにどのクエリの用語が用いられたかに関係なく、ページがスパムである可能性が高いことを示唆している。

結論

検索する側がページを簡単にウェブスパムとマークすることが出来るものの、悪用される可能性が高いシステムを検索エンジンが採用するのだろうか?この動向は注目に値する。

検索者は、企業の活動やその他の問題に対する消費者の反応として、実際にはウェブスパムではない場合でもページをスパムとマークするのではないだろうか?

特許の申請書によると、このシステムでは、マイクロソフトは、検索者からの報告を採用することなく、自動システムの情報のみを利用し、ウェブスパムを識別する可能性があるようだ。反対に、恐らく、自動システムからの情報を照らし合わすことなく、検索者からのウェブスパムの報告のみに頼って、ウェブスパムとマークすることもなければ、検索エンジンがペナルティーを与えることもないだろう。

この特許の申請書には、フィードバックシステム等が検索する側にとって、どれだけ詳細なシステムになるのか、そして、グーグルがスパムの報告ページでリストアップしているような細かい質問を含むかどうかは明記されていない。

マイクロソフトは、この類のスパムレポートシステムをビングに加えるのだろうか?ユーザー達はビングを改善するために一肌脱ぐのだろうか?


この記事は、SEO by the Seaに掲載された「How a Search Engine Might Crowdsource Web Spam Identification」を翻訳した内容です。

クラウドソースと言うからにはユーザー側にスパム報告など何らかのアクションを求めるのかと思いきや、自動的にスパムを検出するレベルまで考えられた技術なんですね。今回はマイクロソフトの特許のみ紹介しましたが、こうやってみると検索エンジンのスパム認定技術もかなり進化していますね。SEOで意図的に順位を上げると言う行為が年々難しくなっているのも当然ですよね 汗 とは言え、永遠のイタチごっこは続きそうなのですが。 — SEO Japan
Page Top

投稿ナビゲーション