Googleの品質スコアを取り上げた特許はパンダの生みの親?

公開日:2011/09/09

最終更新日:2024/02/17

ブログ

今年前半、グーグルのパンダアップデートがSEO業界を席巻しましたが、今回はSEO by the Seaが発見したグーグルの特許にパンダアップデートの秘密が隠されているかもしれない?!という注目の話題を。考えながら読み進めないと途中で何の話かわからなくなる可能性大のマニアックな記事ですので覚悟して読むべし。 — SEO Japan

2005年、グーグルのジョン・ランピング氏は、カリフォルニア大学バークレー校で「インターネットでは、誰もあなたが犬であることを知らない」(PDF)と言うタイトルの情報の品質に関する講演を行った。この講演の中で、ランピング氏は以下のような問題を提起した:

  • なぜ英語のサイトがドイツ語のページに広告を出しているのか?
  • 検索エンジンをスパムすることで、スパム産業はいくら儲かるのか?

One of John Lamping's slides from his Quality of Information presentation showing two different paragraphs where madlib style keyword insertion has been performed on the content.

講演の中で、同氏は、スライドでも紹介されているように、穴埋めゲームのようにページのテンプレートにキーワードを挿入する手法、クローキング、そして、ページを最適化するその他のスパムのアプローチ、有料リンク、コメントスパム等、検索結果を操作する方法を指摘していた。また、検索の質についてアカデミックなオーディエンスに説明する取り組みに加え、ランピング氏は検索結果の品質を高める取り組みも行っている。

私はジョン・ランピング氏が考案者に名を連ねる特許を「検索者のクエリがグーグルのカスタマイズ検索の結果に影響を与える仕組み」と言うタイトルのエントリで取り上げたことがある。私はこの投稿で、関連するクエリの結果に注目することで検索ランキングを改善する方法を説明する2003年の特許を解剖していた。2005年、ランピング氏は、マーク・ピアソン氏と本日グーグルに付与された特許を共同で考案している。この特許は、検索クエリの結果を基に文書とサイトに対して品質のシグナルを作成し、利用する方法を描写している。

「最高」の検索結果を返す

大半の特許は、解決したい問題点を説明するセクションを用意している。付与されたばかりのこの特許では、少なくとも一部のクエリに対して品質のスコアを追加することで、文書の品質の評価に応じて、検索に対して最高の結果を返すことを目的としていると明言している。

この特許が作成された2005年では、クエリに対して返されるページの品質は、文書がクエリにどれだけ関連しているかに基いて計算されるインフォメーッションリトリーバル(IR)スコア、そして、ページに向かうリンクの数をベースとしたスコアを使って計測されていた。

このIRスコアは、クエリとウェブページ上の言葉の間のマッチに注目して作成されると考えられている。クエリ内およびページのタイトル内でマッチする言葉は、クエリとページのフッターでマッチする言葉よりもスコアが高い。マッチするテキストが大きなテキスト、太字のテキスト、または、イタリック体で見つかったら、そのテキストは通常のフォントのテキストよりも重要視されるだろう。

クエリ内の全ての用語を含むページは、1つまたは少しか用語を持たないページよりも、高いIRスコアが与えられると考えられる。

このようなシグナルやその他の同様のタイプのシグナルは、組み合わされ、検索結果のページの品質を決定するIRスコアがページに対して作成されるだろう。

IRスコアをページに採用する試みに加え、検索エンジンはページとページの間のリンクの構造に注目し、ページを格付けしている可能性があるが、リンクの構造が“存在しない、信頼性が低い、または範囲が限られている”こともあると特許は示唆している。その場合、効用と価値は制限される。

IRおよびリンクアナリシスに基づくスコアの欠点を克服するため、検索エンジンが検索結果で見つけたその他のクエリとページの「関連性」を分析する手がある。品質スコアは以下のポイントを考慮して作成される可能性がある:

  • ページに妥当な異なるクエリ
  • 当該のページに向けられているアンカーテキストは何か
  • クエリ内のテキストが当該のページでどれだけ目立っているか
  • クエリに対して検索者がそのページを選ぶ頻度はどれぐらいか

検索エンジンにクエリを入力する際、明確にそのクエリを求めているのだろうか、それとも、既に頭の中に浮かんでいるページをリクエストしているのだろうか?それは、最近、ナビゲーショナルクエリと呼ばれるクエリだろうか?その場合、それは当該のページの質のシグナルかもしれない。例えば、[ESPN]を検索する際、ESPNのホームページを探している可能性が高い。[ESPN]に対する検索およびESPNのホームページの選択を、グーグルは品質のシグナルと考えるだろう。

このようなクエリの用語、そして、検索結果からページに向かうリンク内のアンカーテキストを比べた際、リンク内のテキストはクエリの用語と似ている、または同じことが多いか?そのページは、同じ検索結果の別のページよりも、当該の用語を使ってページに向かうリンクを多く持つ傾向があるか?繰り返すが、これは当該のページの品質のスコアとして見られる可能性がある。 [ESPN]をグーグルで検索するなら、検索結果内の他のページよりもESPNを含むリンクを多く持つページが1つまたは2つ存在する。繰り返すが、これはこれらのページに対する「品質」の明るい材料となる。

数名の検索者が同じクエリまたは同様のクエリを使い、特定のページを選ぶ傾向がある場合、その点もそのページの品質のスコアを高めるであろうシグナルである。[ESPN]を検索している人達の大半がESPNのホームページを選んでいるなら、グーグルは品質のシグナルとして記録するだろう。

本日、グーグルに付与された特許を紹介する:

検索クエリのストリームから文書とサイトの品質のシグナルを引き出し、利用する
考案: ジョン・ランピング マーク・ピアソン

付与先: グーグル

米国特許番号: 7,962,462

付与日: 2011年6月14日

申請日: 2005年5月31

概要

検索ストリームを分析して、文書と検索ストリーム内のクエリの間の関連性を検知するシステム。さらにこのシステムは、検知された関連性を基に文書に対する値を引き出し、引き出した値を使って、後続のクエリに関して文書の質を評価する。

品質のスコアとパンダアップデート

今年の2月24日、グーグルのマット・カッツ氏とアミット・シンガル氏が共同で、より高い品質のサイトを検索で探すと言うタイトルのエントリをグーグルの公式ブログに投稿していた。このエントリは、検索結果でページを格付けする方法の大きな変更を説明している。検索クエリの12%がこの変更の影響を受けるようだ。両氏は、新しいアプローチにより、質の低いページを上位に格付けする頻度が少なくなり、品質の高いページを上位に押し上げるようになると語っていた。

このエントリは、グーグルが考える品質の高いページおよび低いページの要素に関するヒントを挙げ、その後、カッツ氏とシンガル氏はこの点を様々な機会で認めていた。2011年3月3日に行われたジョイントインタビュー「TED 2011: ファームを嫌うパンダ: グーグルの検索エンジニアのトップ2人を招いて質疑応答」もその一つであり、このインタビューでは、パンダと呼ばれるグーグルのエンジニアにちなんでこのアップデートがパンダと呼ばれたと言う件を含む、パンダに関する詳細が披露されていた。

私はインタビューを読み、そして、詳細な情報を提供する上で役に立つであろう当該のエンジニアが書いた記事か何かが見つかることを願い、このエンジニアに関する詳しい情報を手に入れる試みを行った。そして、同日の午後、大きなパンダの検索と決定木の捜索」を投稿した。

私はビスワナス・パンダと言う名前を偶然見つけたが、この人物こそが探していたパンダであったようだ。同氏は、グーグルのウェブインデックスのように非常に大きなデータセットで、効率的且つ効果的に機械学習アプローチを利用する方法を調査し、ページの質を特定するために、ページに関する特定の特徴に応じて、既知の一連のページと比較し、分類するリサーチに関わっていた。

上の段落でリンクを張ったTED 2011のインタビューで、カッツ氏は次のように述べている:

私達は、そうですね、例えばIRSやウィキペディアやニューヨークタイムズをこっち側、質の低いサイトがあっち側に分ける分類子を考案しました。ちゃんとした理由を理解してもらえるはずです…

また、品質のシグナルとして考えられる特徴は、クレジットカードの情報をサイトに提供してもいいほど信頼しているかどうか等、ページに関する一連の質問を基に決められる点も明らかにされている。 アミット・シンガル氏は、5月6日、アップデートのきっかけとなった複数の質問を含むアップデートに関する別のエントリを投稿した。

以下に23問のうちの5問目までを紹介する:

  • この記事で提供されている情報を信頼しますか?
  • この記事はトピックを熟知する専門家または愛好家によって綴られていますか、またはもっと浅はかですか?
  • サイトには、同じ、または同様のトピックでキーワードが少し異なる、複製の、重なる、もしくは不必要なコンテンツがありますか?
  • 安心してクレジットカードの情報をこのサイトに提供することが出来ますか?
  • この記事にはスペル、スタイル、もしくは事実の誤りがありますか?

この一連の質問は、信頼性から信ぴょう性、コンテンツの深さ、サイトの構造および文法やスペルに関する問題に至るまで、幅広いトピックを網羅している。ページやサイトの品質を特定するために用いられる特徴の詳細が明らかにされているわけではない。

ビスワナス・パンダ氏の論文で描かれているアプローチは、広告、クエリ、そして、ランディングページで見つかった特徴が、広告によって導かれるランディングページからの直帰率を予測することが出来るかどうかを確かめるため、グーグルのスポンサード検索でテストされていた。このテストは、論文「スポンサード検索広告における直帰率を予測」の中で触れられている。

このアプローチが、ページおよびサイトの特徴を分類し、検索結果でランキングを押し上げる、または押し下げる品質スコアを与えるために用いられる可能性は十分に考えられる。

品質スコアをページとサイトに割り当てるプロセスは、グーグルがパンダアップデートの前から長期に渡って検討してきたことであり、実際に先日付与された検索クエリのストリーム経由の文書およびサイトの品質のシグナルに関するグーグルの特許の中でも言及されている。

パンダは、異なる種類のクエリに対して、品質スコアを決定するため、別の特徴に注目しているのかもしれないが、ページの格付けにおいて、「品質」をスコアで特定してIRスコアとリンク分析スコアに加えると言うアイデアは、この特許から始まった可能性はある。

品質スコアの特許でさらにシグナルについて掘り下げてみると、焦点を絞っていると思われる一つの主な疑問が存在することに気づく。

クエリは特定のページを求めているのか?

この特許は、特定の検索クエリが特定のページを「求めている」と見なされる場合、ページにポイントを与えると説明している。これは、グーグルがナビゲーショナルなクエリだと考えたクエリに対応する仕組み、そして、特定のサイトがクエリに対するオーソリティページである場合に対応する仕組みに若干似ている。

グーグルがクエリに対して“オーソリティな”ページまたはサイトとして特定する他の方法を描くグーグルの別の特許を紹介しおう。それが「ウェブサイトのウェブページ等、関連するウェブページの間で有益な情報を伝達」であり、私は2007年に「グーグル、検索のオーソリティページを特定し、オーソリティを関連するページに伝達」と言うタイトルのエントリで取り上げていた。

このオーソリティページに関する特許は、特定のページまたはサイトが特定のクエリ対してオーソリティなのかどうかを特定するために、オンページおよびオフページの多くの特徴に注目しており、その中にはオフラインのものもある。興味深いことに、ジョン・ランピング氏の名前がこの特許の考案者として挙げられていた。

検索クエリは次に該当する場合、特定のページを求めていると考えられる:

  • クエリ内のテキストと同様のテキストがページのタイトル、ページの目立つ場所、またはページのURLに含まれているページ。
  • 同様のテキストを持つウェブのその他のページで見つかったリンクの多く、場合によっては過半数が当該のページに向けられている。
  • 同じクエリまたは関連性が高いクエリを用いている人達が、そのページを検索結果から選んでいる傾向が見られる。

検索クエリがページを“求めている”と検索エンジンによって判断されると、当該のページにポイントが割り当てられるだろう。

例えば、[London Hotels]と[Ritz Carlton]と言う2つの若干人気の高いクエリについて考えてもらいたい。テキスト「Ritz Carlton」を使う大半のリンクは、公式のリッツカールトンホテルのページに向けられている可能性が高く、検索エンジンのユーザーがこのページを求めて検索する際、当該のクエリにポイントが与えられる。「London Hotels」に対する検索では、このテキストを使うリンクは広範な様々なサイトに向けられている傾向がある。そのため、「London Hotels」の検索でポイントを獲得しているページはないと見られる。

特許は、この状況では、特定のページに向かうリンクの過半数に注目する、または、ページに向けられている20本のリンク等、品質スコアにおけるポイントを得る上で十分な量として、特定の閾値を考慮している可能性もある。

特定のクエリが特定のページを“求めている”目安として品質スコアを累算する別の方法は、クエリを使って同じページを選択している別の人達に左右される。同じページを選択する過去の検索者の人数に関して、最低限の人数、特定の割合、または、圧倒的多数の優勢が定められているようだ。

このポイントは、検索エンジンでその後行われる検索において、それが同じクエリの用語を含んでいても、また含んでいなくても、それぞれのページに対する品質のシグナルとして用いられる可能性がある。また、特許で描かれているように、この品質のスコア経由のポイントが、ページのページランクに影響を与えるなど、別の用途で用いられることもあるようだ:

割り当てられたポイントは、例えば、その後に実行される文書のスコアリング/ランキングアルゴリズムに用いられると見られている。ある導入の例では、割り当てられたポイントが、その後のページランクの計算において用いられている。

その他の導入では、ページランクの計算の考案および結果の特徴に一致するポイントが組み合わされて用いられており、品質のシグナルを導き出している。この組み合わせは、数学的に決められているケース(例:平均)とそうではないケースがある(例:場所や時間に応じてランキング/スコアリングアルゴリズムで異なるシグナルを利用する)。

考案の特徴に一致する割り当てられたポイントは、通常、文書の品質のシグナルとして用いられるが、スコアリング/ランキングのアルゴリズムにおけるその他の多くの方法で、もしくはランキング/スコアリングアルゴリズムで用いられるその他の品質のシグナルを引き出すために用いられることもある。

品質のポイントを失う、または限定する

この特許で紹介されているアプローチでは、検索エンジンがクエリが先程申し上げたように特定のページを“求めている”と考える際にページは品質スコアに関するポイントを得ることになる。

ポイントを得るこのメソッドには、制限する要因、さらにはマイナス要因も含まれている。

クエリによっては、特定の予め指定された検索クエリが検索結果で見つかったページにポイントを与えない可能性もある。残念ながら、どのようなクエリが該当するのかに関して、例や説明は用意されていなかった。

検索者が特定のクエリを“特定の文書に対するポイントを蓄積するためだけ”に検索している場合、検索エンジンはページに割り当てられたポイントを差し引くこともあるようだ。また、これが何を意味するのかに関しても説明はない。しかし、大勢の人を雇って特定のクエリを検索させ、特定の結果を選ぶ行為は歓迎されていないことだけは確かのようだ。

笑えるが、今年の2月のグーグルのビングに対する批判を思い出した。

誰が検索をしているのかに関わらず、特定のクエリに対して特定のポイントまでしか集められない可能性がある。ある文書に対する一人のユーザーからのポイントの数は、または異なる文書に対するクエリの範囲もまた制限されるだろう。さらに、同じIPアドレスからのポイントも1日または1週間で特定の数に限定されると見られる。

サイト全体の影響

この特許は、クエリが当該のページを“求めている”かどうかを基にページに品質スコアが振り分けられる仕組みを説明しているが、特許の結論には、この品質のポイントが文書を持つサイトに“付加的に”もしくは“代わりに”与えられる可能性があると綴られている。

この特許では、サイトはページ等“共同制御”下にある文書として幅広く定義されている:

  • 組織に関連している
  • 特定のドメインの名称
  • 特定のホスティングの名称
  • 同じ人物または集団によって作成されている

さらに大ざっぱにサイトは次のアイテムを含むと考えられているようだ:

  • あるトピックに関する文書の集まり
  • 特定の言語で綴られた文書の集まり
  • 特定の国でホスティングされている文書の集まり
  • 特定の執筆スタイルで綴られている文書の集まり

特定のページに与えられたポイントは、そのページに関連するサイトへの“票”と見なされるかもしれない。ポイントは異なるレベル、つまり文書レベルや異なるサイトのレベルの双方で振り分けられ、また、ページのスコアリングおよびランキングの際など、何らかの方法で組み合わされることもあるようだ。

結論

新たにグーグルに付与された特許で描写されているプロセスは、ナビゲーショナルな検索結果 – 検索者が既に把握しており、クエリを入力した際に求めていると思われるページを特定する際に最も適しているようだ。

パンダアップデートに関して不可解とされていた点の一つに、当初の告知で、アップデートが“明らかにクエリの11.8%に影響与える”と言われていたことだ。2006年、私はサーチエンジンランドで「なぜ、グーグルをググルする人が多いのか?ユーザーデータを理解して、検索者の意図を評価する」を投稿した。このエントリでは、グーグルが受け取るクエリの異なるタイプを、ナビゲーショナルなクエリか、インフォメーショナルなクエリか、またはトランザクショナルなクエリかで分類すると説明したグーグルの研究部門の科学者、ダン・ラッセル氏のプレゼンを取り上げていた。

ナビゲーショナルなクエリが検索の15%に達していた際、トランザクショナルなクエリは約22%、そして、インフォメーショナルなクエリは63%を占めていた。それ以来新しい情報は得ていない。また、その他にもクエリを分類する方法はあるが、ユーザー達がナビゲーショナルなクエリよりもその他のタイプのクエリを多用している可能性はある。「ナビゲーショナル」なクエリは、「明らかにインパクトを受ける」タイプのクエリなのだろうか?

この特許で描かれていたプロセスに関して本当に興味深い点は、品質のポイントを特定のページとサイトに与えるフレームワークを作り出し、このフレームワークが当該のページに対する品質スコアを特定するために利用され、そして、この品質のスコアがナビゲーショナルではない関連性のないクエリに対する検索結果に影響を与える可能性があると言う点だ。

しかし、グーグルがページの品質を向上する方法に関して、ウェブマスターに提示した質問を基にしたパンダアップグレードで評価されている可能性のある様々な特徴が、全て網羅されているわけではない。この特許が申請された時期に行われたジョン・ランピング氏によるバークレーでの講演は、これらの品質の特徴の大半に対して当時のグーグルの検索エンジニア達が関心を寄せていた点を物語っている。

この特許で描かれている「品質スコア」は、パンダアップデートを導いたのだろうか?その可能性はある。


この記事は、SEO by the Seaに掲載された「Google’s Quality Score Patent: The Birth of Panda?」を翻訳した内容です。

パンダの謎が分かる?!と思って読み進めるとほとんど検索クエリと品質スコアの話題だったので諦めてしまった方もいるかもしれません。。。とはいえ、最後のパンダがらみで出ていた「品質ポイントが特定のページとサイトのフレームワークを作り出し、このフレームワークがページに対する品質スコアを特定するために利用される」という点が事実であるならば、サイトの検索クエリと品質スコアの関連性を理解しない限り真のパンダ対策はできないのかもしれません?!そこまでやる必要があるかどうかはともかく。。。 — SEO Japan

記事キーワード

  • Facebook
  • X
  • はてなブックマーク
  • pocket
  • LINE
  • URLをコピー
    URLをコピーしました!

編集者情報

  • X
  • Facebook

アイオイクス SEO Japan編集部

2002年設立から、20年以上に渡りSEOサービスを展開。支援会社は延べ2,000社を超える。SEO/CRO(コンバージョン最適化)を強みとするWebコンサルティング会社。日本初のSEO情報サイトであるSEO Japanを通じて、日本におけるSEOの普及に大きく貢献。

メディアTOPに戻る

RECRUIT

一緒に働く人が大事な今の時代だからこそ、実力のある会社で力をつけてほしい。
自分を成長させたい人、新しいチャレンジが好きな人は、いつでも歓迎します。