知識は全てGoogleのモノ

Googleが最近本格導入を進めているナレッジグラフ、SEO Japanでも過去に詳しく紹介しましたが、今回はSEO by the Seaによる観点を少し変えたナレッジグラフに関する興味深い記事を。 — SEO Japan

グーグルインサイドサーチのブログの投稿「ナレッジグラフを導入: モジレツではなく、モノゴトを」の中で、グーグルは、ユーザーが検索している対象に関する詳しい情報を検索結果内で表示する新たな試みを紹介している。これは検索エンジンの取り組みに関する考えを一変させる可能性がある。この投稿でグーグルは次のように説明している:

ナレッジグラフでは、グーグルが把握している – 史跡、有名人、街、スポーツチーム、建物、地理的な特徴、映画、天体、芸術作品等 – 物事、人物、または場所に関する検索を行い、直後にクエリに関連する情報を得ることが出来ます。次世代の検索を構築する上でナレッジグラフは重要な1歩であり、ウェブの総合的な情報を活用して、人々が理解するように世界を理解します。

グーグルが検索エンジン、そして、検索エンジンの取り組みを作り変えようとしてきたことは想定の範囲内である。グーグルは、ソーシャルおよびリアルタイムの検索結果を強調するようになり、ウェブページのリンクを集め、場面ごとのニーズや情報を求めるニーズを満たすだけでなく、リアルタイムに近い状態でモニタリングを行い、世界で起きているアクティビティやイベントを監視する手段に変わろうとしてきたのだ。

特定の人物、場所、物事に関する情報を検索結果内で直接表示する方針は、ウィキペディア、フリーベース(メタウェブを買収した際に手に入れた)、そして、その他のウェブ上のプロパティ等のリソース、さらに、ユーザーが検索している対象、そして、検索クエリを絞り込むためにユーザーが実施している作業から得た知識を活用している。

グーグルの3名のエンジニアリングチームのメンバーが最近公表した論文「ウェブおよびクエリログデータを使ってマイクロポストから明白なキーワードを抽出」(pdf)には、ツイート、ステータスアップデート、そして、その他のソーシャルメディア内で表現されているアイデアやコンセプトを、ウェブで見つかった文書、そして、クエリログで集めた情報で統計分析を行うことで、より良く理解する試みの詳細が綴られている。そのため、ソーシャルメディアも、ナレッジベース内に含まれる情報ソースになる可能性がある。

グーグルが2010年8月に公表した申請中の特許「クエリの領域を特定」は、この類のナレッジベースの検索、そして、検索結果を変形するためにこの検索が利用される仕組みを示唆している。 私は、公表された際、この特許を「グーグルとメタウェブ: 固有表現とマッシュアップした検索結果?」で取り上げていた。

この特許の発明者にリストアップされている人物は、ウィキペディアやフリーベース等のナレッジベースから「固有表現」、または特定の人物、場所、そして、物事に関して得た情報と検索クエリログから得た情報を組み合わせることで、これらの固有表現の異なる領域を特定して、検索エンジンが表示する情報を決める上で参考にする仕組みを描いたホワイトペーパーの執筆にも携わっていた。当該の論文「ウェブ検索クエリに対して領域を特定」はもともと2011年の3月にジャーナル・オブ・アーティフィシャル・インテリジェンス・リサーチで発表されていた。

この論文を読むと、グーグルが検索のナレッジベースモデル化を目指した理由が分かるような気がする。以下に冒頭部分を掲載する:

多くのウェブ検索クエリは、特定のウェブページを探すためではなく、未知の情報のスペースを調べる第一の手段としての役割を果たしている。このようなクエリに効果的に答えるため、検索エンジンは、調査を容易にすることを考慮して、関連する情報のスペースを整理する試みを行うべきである。

それでは、このナレッジベースの結果は、“調査を容易にする”上でどのように役に立つのだろうか?グーグルは特定の人物、場所、もしくは物事に関して、何を表示するべきかどのように判断しているのだろうか?この論文は、少なくとも2、3のリソースを調べ、特定の固有表現の異なる“領域”を理解していると指摘している:

アスペクターは2つの情報ソースを組み合わせて領域を計算する。グーグルは、クエリのログを分析することで候補の領域を発見し、一つにまとめて重複を削除している。次にマスコラボレーション型のナレッジベース(ウィキペディア等)を使って、クエリの用いられる頻度が少ない領域の候補を割り出し、また、“意味的”に関連している可能性が高い領域をまとめる。

グーグルがこの方針を進めるのは当然と言えば当然である。これはグーグルにとって有利に働き、セルゲイ・ブリン氏が論文「ワールドワイドウェブからパターンとリレーションを抽出」(pdf)を発表した90年代に遡り、ブリン氏とローレンス・ペイジ氏が検索エンジンのバックラブをグーグルに作り変える取り組みを行っていた時代にも考慮されていた可能性がある。

ウェブテーブル: ウェブ上のテーブルの力を調べる」(pd)で描かれているプロジェクトのようなグーグルの取り組みからは、グーグルが、ウェブの構造化されていなページ内の構造化されているテーブルから情報を抽出し、人物、場所、そして、物事に関するデータの意味的な関連性を理解する試みを行ってきたことが窺える。 グーグルスクエアードは、このような分析、そして、この類のプロジェクトから得た理解を基に動いていた。

グーグルが数年間でグーグルマップに対する検索結果を集め、格付けしてきた仕組みを考慮すると、このナレッジベースのアプローチは、グーグルにとっては斬新とは言えない。特定の場所の目立つ企業や団体に関する情報を得るために通信会社のディレクトリを調べるだけでなく、グーグルはウェブをクロールし、これらの企業に言及するテキスト(地理的な情報を含む)を探し出している。

また、グーグルは、特定のサイトやページが企業や団体に対して信頼に値するページかどうかを特定するものの、グーグルマップに含まれている一方でウェブページを持たない企業や場所や史跡も存在する。

グーグルのナレッジベースの結果は、クエリ内に表示される可能性のあるエンティティに関する情報を提供し、さらに後続のクエリを予期し、クエリに答えるポテンシャルを持っているかもしれないが、これらの概要には価値をユーザーに提供するだけでなく、検索に関連する領域のトピックやアイデアをさらに調べさせる効果が見込める。サイトを運営しているなら、このようなトピックに関して信頼に値すると見られること自体は特に問題はないと思われる。

この記事は、SEO by the Seaに掲載された「All Your Knowledge Bases Belong to Google」を翻訳した内容です。

「ユーザーが検索しているのはウェブページではなく情報(のスペース)である」という考え方は、基本に立ち戻れば納得の内容ではありますし、ページベースのウェブ検索エンジンがユーザーニーズにさらに応えられるべく次の次元に進化しようとしているのは十分に理解できます。

構造化されていないウェブをGoogle自身の技術とアルゴリズムで独自に構造化し、プレゼンテーションする試みがナレッジグラフと考えることもできるのでしょうか。SEOに直接的には関係ない話かもしれませんが、サイトや提供内容の構造化はユーザー視点、検索エンジン視点に対して共にできる限り行った方が良いのでしょうし、長期的にはSEOとは検索結果の順位を争う行為から、Googleのナレッジグラフに選ばれるポジション争いの作業になっていくのかもしれません。 — SEO Japan [G+]

Page Top

投稿ナビゲーション