TOP
メディア
Googleがコンテンツのトピックを提案する仕組み

Googleがコンテンツのトピックを提案する仕組み

公開日：2010/08/09

最終更新日：2024/03/18

ブログ

無料で資料をダウンロード

SEOコンサルティングサービスのご案内
専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。

無料ダウンロードする　＞＞

SEO by the SeaがGoogleの特許を元に、Googleが検索中のユーザーに対して関連トピックを提案する仕組みを分析。 — SEO Japan

検索エンジンが、あるトピックの検索結果が乏しいからと言って、そのトピックの記事を作成するよう提案してきたら、皆さんはその誘いに乗るだろうか？検索エンジンはこのような措置を取るようになるのだろうか？

今週公開されたグーグルの特許はこの話題を取り上げ、また、検索結果の質を計測するために利用する可能性があるアプローチを幾つか記述している。

この特許は、今年2月に認証された特許、「不十分な検索コンテンツの特定」の続きであり、グーグルのチーフエコノミスト（ハル・バリアン氏）およびウェブスマプチームのリーダー（マット・カッツ氏）が発明者としてリストアップされている点を含め、幾つかの理由で興味をそそられる。

新たな特許は、一つ目の特許が承認される直前に申請され、使われている言葉は若干異なるものの、内容はほとんど同じである。

どちらの特許も検索エンジンがクエリに関連するスタッツを利用する仕組み、そして、クエリに対する検索結果の関連性および重要性のレベルを評価して、表示する検索結果の質と量を特定する仕組みを説明している。新しい特許には、複数の言語におけるクエリの結果に対する処理が盛り込まれている。それでは以下に特許の基本的なデータを掲載する:

不十分な検索コンテンツの特定
考案 : ジェフリー・デビッド・オールダム、ハル R. バリアン、マシュー D. カッツ、マット・ローゼンクランツ
付与先: Google
米国特許出願番号: 20100138421
公開日 : 2010年6月3日
出願日 : 2010年2月3日

要約

不十分な検索コンテンツが提供されている点を特定するためのシステムおよびメソッド。例えば、不十分なコンテンツは、コンテンツに関係する検索クエリに関連するスタッツを基に特定される。

クエリのスタッツおよび文書のスタッツ
不十分なコンテンツを発見
不十分なコンンテンツに関する情報をコンテンツのクリエイターと共有
ロングテールおよびeコマース
不十分なコンテンツおよびクエリの拡大
結論

クエリのスタッツおよび文書のスタッツ

グーグルは検索エンジンで人々が実行する検索に関する情報を大量に集めている。6月1日に承認された特許から1つ例を挙げよう。短時間の大規模な最適化は、検索エンジンが集めている可能性のデータの種類のリストを提供する。この情報は、ユーザー、クエリ、そして、ドキュメントと3つの要素をベースに「トリプル・オブ・データ」として保存される。この特許によると、グーグルは、以下のように、ユーザー、クエリ、ドキュメントに関連する、500万以上の異なる特徴を集めているようだ:

ユーザー u が存在する国
ユーザー u がクエリ q を提供した時間
ユーザー u が存在する国の言語
ユーザー u が提供した過去の3つのクエリのそれぞれのクエリ
クエリ q の言語
クエリ q の正確な文字列
クエリ q の単語
クエリ q の単語の数
文書 d 内のそれぞれの単語
文書 d のユニフォーム・リソース・ロケータ（URL）内のそれぞれの単語
文書 d のURL内のトップレベルのドメイン
文書 d のURL内のそれぞれのプレフィックス
文書 d のタイトル内のそれぞれの単語
文書 d に向かうリンク内のそれぞれの単語
クエリ q に対する文書 d の上下に表示される文書のタイトル内のそれぞれの単語
クエリ q 内の単語が文書 d 内の単語にマッチする回数
ユーザー u が文書 d にこれまでアクセスした回数
その他の情報

この情報は「トリプル・オブ・データ」、別名「インスタンス」として集められる。トリプル・オブ・データは、ユーザー、クエリ、そして、文書に関する情報を取り扱う。例えば、このようなインスタンスにより以下のようなことが分かる :

検索者が存在する国
クエリが記された言語
文書内のタイトルの単語

不十分なコンテンツの特許は、スタッツプロセスに関しては詳しく説明していないものの、大規模な最適化の特許に記載されていたプロセスとほぼ同様のプロセスを採用している可能性がある。このプロセスは、種類を限定し、以下のようなユーザー行動に関する情報を伝える:

ユーザーが結果をクリックするかどうか
ユーザーがクリックした結果を考察する時間
ユーサーが当該のサイトをタグ付けもしくは推薦するかどうか
検索クエリ
検索結果
検索クエリに関連する時間およびデータの情報
検索セッション中の検索クエリの絞り込み
等々

さて、グーグルが検索結果でページを格付けするために、大量の情報を用いていることは周知の事実だ。その中には、ページのタイトル内で使われた単語など、検索者が実行したクエリに対するページの関連度をベースにしたスコアを作成するために用いられるものもあれば、ページランクのスコアを含むページの質や重要性をベースにしたスコアを計算するために用いられるものもある。関連性および質のスコアの組み合わせは、ページが特定のクエリに対してどれだけ高いランクを得ることが出来るのかを特定する。

また、グーグルは、検索を行う人々の望ましい国や言語、結果が重複もしくは同様のコンテンツを含んでいるかどうか等の多数の特徴を基にランクをつけ直す可能性もある。

不十分なコンテンツを発見

グーグルは、特定のクエリに関するスタッツ、そのクエリに応じて表示されるページの関連性および質を見て、関連するクエリを基にクエリに対するトピックを指定し、そのトピックに関するスタッツを集める試みを行う可能性がある。

トピックが対応されていないクエリや十分に対応されていないクエリを含む場合、これは、このクエリに対する関連するコンテンツが見つからないことを意味しており、また、コンテンツに対する需要が結果の質と量を上回る証拠である。そして、当該のクエリがスタッツを基にある程度人気があることが判明している場合、検索エンジンはコンテンツのクリエイターに、クエリもしくはトピックに対する結果が不十分である点を伝える可能性がある。

クエリに関連するスタツは、言語、地域、年齢層、そして、時間に関する情報を含んでいる可能性がある。そのため、特定の休日、曜日、時間に関して人気は高いものの、検索者の需要を満たしていない不十分なクエリが特定されるのだろう。

不十分なコンンテンツに関する情報をコンテンツのクリエイターと共有

この特許は、上述した情報がコンテンツプロバイダーと共有される可能性のある幾つかの方法を説明し、共有される可能性があるコンテンツプロバイダーの複数のタイプを特定している。

不十分なトピックの情報は、無料でコンテンツを提供しているパブリッシャー、購読ベースで情報を提供しているパブリッシャー、ウェブサイトで特定のトピックに関する広告を行っているパブリッシャーに提案される可能性があるようだ。

検索者には、検索したトピックに対する結果が十分ではない点、そして、誰かに当該のトピックに関するコンテンツを作ってもらえる点が伝えられる。この特許は、トピックの検索エンジンを作成する可能性にまで触れている。パブリッシャーが検索エンジンが十分に提供しているとは言えないクエリおよびトピックに対する検索を行えるようになる。

また、検索エンジンは、不十分なクエリおよびトピックに関連する情報を集める自動コンテンツ生成システムを提供し、コンテンツがライセンスを取得することで提供される特定のサイトのように思われるサイトを制限する可能性があることを示唆する。

さらに、この情報はウィキペディア等のユーザー寄稿サイトにも共有され、これらのサイトのユーザーが発展させることが出来るようなスタブ記事を作成するために用いられる可能性がある。

これに加えて、この特許は、不十分なトピックに関する情報をウェブパブリッシャーに販売する可能性にも触れている。

他の言語では十分に提供されているものの、ある言語では十分とは言えないトピックまたはクエリもしくは双方の特定に関する記述が、新しい特許に加えられていた。この情報は、別の言語で同じトピックに関するコンテンツを新たに作ろうとしている人々の役に立つだろう。

オフラインのパブリッシャーなら、不十分なトピックを含む情報を使って、印刷媒体の書物を作ることが出来る。特許の中でも説明されているように:

例えば、“ミラード・フィルモア大統領の経歴”を検索し、不十分な結果が返ってきたなら、この類のパブリッシャーは、ミラード・フィルモア大統領の人生に関する本の作成を依頼することを検討するようになるだろう。

ロングテールおよびeコマース

この情報はeコマースの関係者にも有効である。例えば、このシステムが、「紫色のワニ革のベルト」等、製品に対する、人気は高いものの、十分ではない検索を特定することが出来るなら、ウェブサイト（もしくは通常の店舗）で革製品を販売している人が紫色のワニ革のベルトを提供する決断を下すかもしれないのだ。

不十分なコンテンツおよびクエリの拡大

あまり詳しくは記載されていないものの、検索エンジンが多くの結果を提供していないトピック、もしくは需要を満たしている十分に関連性のある結果を提供しているトピックに対応する仕組みもこの特許の重要な要素の一つである。

クエリが提供するコンテンツが不十分な場合、検索エンジンはこの情報を用いて、検索する側が関連性があり、質の高いコンテンツを見つけることが出来るように、クエリを拡大するべきエリアを特定する。

例えば、別の言語で結果を提供する取り組みがそれに当たる（恐らく「この結果を翻訳する」リンクつきで）。

結論

検索エンジンで検索を実行したものの、返ってきたページに満足出来ないことがある。その際、ウェブパブリッシャーに対して、クエリの用語を含むページ、もしくは関連するトピックを含むページを作っていない点を非難するのではなく、結果が不十分な点について検索エンジンの責任を問うべきかもしれない。

エンジンがインデックス出来ないような、検索エンジンフレンドリーではないフォーマットによるクエリまたはトピックに関する情報が存在する可能性がある。また、当該のトピックに関する結果を提供する上で単に質の高いページが足りていない可能性もある。

今後、グーグルが特定のクエリやトピックに対する不十分な結果に関する情報を提供するかどうかは分からないが、もし、これが実現するなら、人気は高いものの、未対応のクエリや対応が不十分なクエリに対するコンテンツを提供するチャンスを企業や組織はより容易に特定することが出来るようになるだろう。

グーグルはこのような情報をパブリッシャーに提供するべきなのだろうか？

この記事は、SEO by the Seaに掲載された「How Google Might Suggest Topics for You to Write About」を翻訳した内容です。

単なるトピックの特定だけでなく、検索ニーズに対してコンテンツが十分にない場合に、それをパブリッシャー側に提案するところまで踏み込んでいるのが興味深いです。使い方によっては最近流行りのコンテンツミルサイトに乱用されそうな気もしますが汗しかしこの種の特許を見るたびに普段何気なく使っている検索エンジンですけど、常に新規の研究開発を行っているんだなぁと痛感させられます。SEOも年々難しくなるわけですね。 — SEO Japan