GoogleはIBMのワトソンのようにクイズ番組で人間に勝てるか?

公開日:2011/07/12

最終更新日:2024/02/17

ブログ

少し前の話題ですが、アメリカのクイズ番組でIBMが作ったコンピュータが人間のチャンピオンと対戦し、コンピュータが勝った、というニュースがあったことをご記憶の方も多いと思います。今回は、もしもGoogleがそこに参戦したら?という知的好奇心をくすぐるストーリーをサーチエンジンランドから。 — SEO Japan

大勢の人々と同じように、今週、私もIBMのスーパーコンピュータ ワトソンジェパディで人間の元チャンピオンと対戦している姿に驚かされた。グーグルも同じことが出来たのだろうか?この2つの検索マスターの仕組みの裏側に注目し、出来ること、そして、出来ないことを理解していこうと思う。

参考にするべき手掛かり

ワトソンはジェパディに参加するためにプログラムされてきた。だからと言って、大量の答えを詰め込まれただけだとは言い切れない。ワトソンはゲームの戦略を教え込まれてきたのだ。

ワトソンは、デイリーダブルの場所を探し求めるようプログラミングされている。トピック内の最も低い価値の手掛かりを選び、そのカテゴリーでの今後の質問に対する自信を培う。またワトソンはどれだけリスクを背負うかに基づいた入札戦略を用いる。

一方、グーグルはこのような知識を持っていない。グーグルは多くの質問に対する答えを知っているものの、ゲームの方法が分からないため、ジェパディに参戦することは出来ない。しかし、グーグルの研究者達なら、IBMが現在享受しているPR効果を羨み、自らゲームをするソフトウェアを作成することは不可能ではない。

手掛かりを“聞く”方法

グーグルもワトソンも質問に答えるためには、何らかの方法で質問を“聞く”必要がある。グーグルを使ったことがある人なら、グーグルが質問の大半を聞く方法を知っているはずだ。ユーザーが検索ボックスに入力するのだ。

ワトソンでも同じことが行われている。舞台裏でアレックス・トレベック氏が尋ねた質問はワトソンにテキスト形式で送信される。恐らくトレベック氏の質問は事前に書き出されており、正しい質問がすぐに送ることが出来る状態が整っていたのだろう。そうしなければ、人間がまとめて質問を入力する必要があるため、遅れを取ってしまう。

ワトソンおよびワトソンが質問を受ける方法の詳細は以下のIBMのエントリで確認してもらいたい:

さて、グーグルが大量の質問を声で受信していることをご存知だろうか。例えば、多くのユーザーが質問をアンドロイド携帯iPhoneのアプリケーションに投げかけている。グーグルはこの類の質問を聞いて、ソフトウェアを用いて声をテキストに変換する。これは数秒で行われ、答えが返ってくる。

この方法においては、グーグルは実はワトソンよりも進んでいる。電話に問いかけられた自然な言語で適切な答えを提供することが可能であり、実際に答えを提供している。

質問の意味は?

質問を聞くのは答えを考えるプロセスのはじめの一歩に過ぎない。次に質問の意味を理解する必要がある。例えば、昨日のファイナル・ジェパディの質問は次のようなものであった:

その最大の空港は第二次世界大戦の英雄の名前が用いられている。2番目に大きいものは第二次世界大戦の戦いに関連している。

正解はシカゴであり、ワトソンが出したトロントと言う答えは正解ではない

人間ならこの質問が街を問うていることは理解可能である。なぜなら質問の前後関係全体を把握することが出来るからだ – 街には空港がある。また、人間は「2番目に大きい」が1つ目の質問に言及しており、たとえ明確に示されていなくとも、別の空港が話題にされている点に気付くはずである。

この2つの問題は、言葉の文字を超えた意味を人間が探し出すことが可能な点を示している。これは人間にとっては簡単なことだが、コンピュータには難しいのだ。

グーグルが理解するメカニズム

人間とは異なり、グーグルは質問で用いられている実際の単語を基本的には受け流すことは出来ない。

この点を説明するため、私はグーグルに以下の異なる空港の質問を投げかけた(昨日の質問を利用する意味はない。なぜならグーグルの結果には全て昨日の番組に関する情報で埋め尽くされているためだ)。私はグーグルに次の問題を投げた:

この空港はカリフォルニアにあり西部劇のスターの名前が付けられた。

私が考えていた答えは自宅があるカリフォルニア州オレンジカウンティの空港 – ジョン・ウェイン空港である。さて、グーグルの答えはと言うと?

基本的にグーグルは単語の意味を理解しようとはしていない。その代わりに、グーグルはウェブから集めてきた大量のページに目を通している。その後、矢印が示すように、検索した単語を全て網羅するページを取り出している。

私はグーグルの検索プロセスを大幅に簡素化した。実際にグーグルはある程度それぞれの単語の意味を理解している。例えば、「run」で検索をかけると、「running」と言う単語を含むページを探し出す。グーグルは賢く、「apple」がコンピュータの企業名を指していることもあれば、フルーツを指していることもある点を知っている。

しかし、基本的には入力されたアイテムが何なのかを“理解”しようとは試みない。マッチする単語を探しているだけなのだ。

ワトソンが理解するメカニズム

ワトソンは単語のマッチングだけにとどまらず、文の裏にある意味を理解しようと試みる。ワトソンの背景の動画一つを見ればこの点がよく分かるだろう。

「昨夜、パジャマの中の象を撃った」と言う文章が与えられた:

そこから「誰がパジャマの中にいたのか?」という問題が出題された:

問題に回答するためのこの文の解釈の例が幾つか存在する。パジャマの中にいたのは象だったのだろうか?

それともこの発言をした人物だったのだろうか?

答えを見つけるため、ワトソンは受け取った問題を正確に“読む”方法、さらに知っている情報を読む方法を理解しようと試みる。このプロセスに関する詳細は以下の記事で取り上げられている:

何かを「知る」仕組み

グーグルもワトソンもそれぞれ異なる方法で問題を受け、理解する。次のプロセスは、答えを知っているかどうかの確認である。しかし、ワトソンもグーグルも学校に通った経験はない。それでは、どのように物事を知るのだろうか?

グーグルの答えは、インターネット上の大量のウェブページやその他のマテリアルを集めることで得られる。このコレクションは、検索エンジンの世界では、“インデックス”と呼ばれる。

ワトソンは文書のコレクションをくまなく検索する。あらゆる話題を網羅する数十億ものページを持つ代わりに、ワトソンは数百万の専門の文献や信頼出来る文献をチェックしている。IBMのウェブサイトの抜粋を以下に掲載する:

辞書、百科事典、分類学の書物、宗教の文書、小説、脚本、そして、知識を増やすために用いられるその他の参照文献が大量に積み込まれている。

正しい答えを選ぶ仕組み

先程も説明した通り、大抵、グーグルは文書のインデックスをくまなく探して、質問にマッチする言葉を持つ文書を見つける。その後、各種のシグナル、つまりページの格付けのレシピとも言える検索“アルゴリズム”を使って、答えとして最適のページがどのページなのかを特定する。

グーグルは、何よりも、最も“評価が高い”と思われるページ(リンクで計測)をリストの一番上に掲載しようと試みる。しかし、最終的には、グーグルが提示した結果から人間が自分の意志で選択を行う。

ワトソンもまた検索アルゴリズムを持っている。事実、各種の要素で構成された単一のアルゴリズムではなく、ワトソンは100個以上の異なるアルゴリズムを用いている。再び、以下にIBMのサイトの一部を掲載する:

ワトソンに質問が与えられると、100個を超えるアルゴリズムが質問を異なるアングルで分析し、一度に多くの妥当な答えを導き出す。そして、別の一連のアルゴリズムが答えを格付けし、それぞれに点数を与える。それぞれの妥当な答えに対して、ワトソンは答えを立証もしくは反証する証拠を探し出す。つまり、数多くの妥当な答えの一つ一つに対する証拠を見つけ、多数のアルゴリズムを基に答えを立証する証拠のレベルを点数に換算する。最も証拠の評価が高い答えが最も信頼される。

要するに、ワトソンは一人として紹介されているが、実はその中では100人が正しい答えを導き出そうと必死で働いているようなものだ。グーグルとは異なり、人々がリンクを張る仕組みを見て、最適な答えを特定することは出来ない。その代わりに、ワトソンは自らが“読んだ”知識を理解することに専念するのだ。

ワトソンはグーグルよりも優れているのか?

誤解を避けるために言っておこう。- ワトソンは素晴らしい。非常に優れており、関係者の人達は見事な作品を作り上げた。しかし、ジェパディと併せて行われたIBMのプロモーションにはがっかりした。恐らく私はウェブ検索に精通しており、その素晴らしさをよく理解しているからだと思う。残念ながら、グーグルやマイクロソフトのビング等、その他の検索エンジンの内側で行われているテクノロジーの革新を評価している人はごく僅かである。

IBMの広報が先日述べた見解を以下に掲載する:

体系化されていないデータに注目し、理解することが出来る能力が役に立つ、現実の生活における多くの状況のことばかりが浮かんできます。現在、検索エンジンを使って私たちが実行している検索は、キーワードに依存しており、これは“知能を使って検索を行えば、新しい分野が可能性が多いに広がる”と言う見解から見れば大きく後れを取っています。

要するにグーグルやビングのような検索エンジンよりもワトソンは進んでいると言うことだ。これはワトソンが3秒以内に質問に答える点を紹介する業界用語混じりのプロモーション用サイトの中で説明されている。

3秒間は実はかなり長い。グーグルとビングは1秒の20分の1もしくは30分の1の時間で質問に答えることが出来る。検索エンジンは、数百万ではなく、数十億もの文書を見て、大抵の場合、正確な答えを出す。

また、グーグルとビングは毎秒数千もの質問に答えている。ジェパディのように1つの問題を1人が出すのとはわけが違う。そして、ワトソンとは違って、予想外の停止を何度も行うことはない。

グーグルがワトソンに勝つ

トレベック氏が、ジェパディで、人間の出場者とグーグルに一度に1000個の質問を出すラウンドを想像してもらいたい。グーグルはその大半で正しい答えを出すだろう – しかも1秒以内で。人間のチャレンジャーは大敗するはずだ。ワトソンだってついていけない。

これがウェブ検索が持つ力である。長年に渡ってこの力を使っており – 文字通りの消費者製品として急速に発達してきたが、誰もその力をリスペクトしていない。検索エンジンはもっと評価されるべきである。

自然な言語での現実性チェック

ワトソンが実証したテクノロジーは、クイズ番組では素晴らしい成果を残したものの、大半の人々はそこまでの力は求めていないのが現実である。「誰がパジャマの中にいるのか?」の例にあるような文を持ち出す“自然な言語”の検索テクロノジーを推進する人達は、その検索ツールの“賢さ”を実証しようとしている。また、実際に人々が検索エンジンで実行する大半の検索では、2つか3つの単語しか用いられていない。

私がこのエントリを作成している時点の、グーグルで「人気の高い」検索の中では、「online stopwatch」と「borders bankruptcy」が群を抜いて多い。質問を理解するためには、数多くの自然な言語を処理する必要があると言うのは誤りである。

消費者の検索の世界では、以前何度も自然な言語の革命が行われると言われていた。2008年、パワーセットは、ワトソンが現在行っているような理解の類が実現すると約束していた。最終的に、マイクロソフトはパワーセットを買収した。この自然言語の処理は、ビングにおいては脇役であり、ビングに特に価値を加えることなく、大量の処理能力を必要としたため、現在では使われていない可能性が高い。

ウォルフラム・アルファ2009年に同じような製品を提供していた。このサービスは引き続き提供されているが、オーディエンスは限られており、また、既存の検索エンジンにおいて大きな革命を起こしたわけでもない。

過去の(失敗に終わった)IBMの検索の取り組み

ワトソンが世界を変える – とIBMは豪語しているが、実はこれは初めてではない。グーグルが登場する以前に、同社はリンクを活用して検索を改善するクレバープロジェクトを立ち上げていた。IBMはこのテクノロジーへの投資に失敗した。

2003年と2004年に注目されたIBMのウェブファウンテンは、奇妙にもワトソンの現在の能力と同じような位置づけをされていた。当時のこのプロジェクトに関するNews.comの記事を振りかってみよう:

反対に、IBMのウェブファウンテンは、過剰に供給されるオンラインデータの意味を探し出そうと試みる。これは自然言語処理(NLP)と呼ばれるテキストマイニングを基に行われる。ウェブファウンテンはウェブページをインデックスする間、ページの単語をすべてタグ付けして、特有の構造を精査し、そして、お互いの関係を分析する。このプロセスは、5年生が習う略図化の巨大版と言っても過言ではない。テキストマイニングは、データの塊、名詞 動詞 名詞を抽出し、分析して大体の関係を示す。

現在ウェブファウンテンは存在しない。かつてのウェブファウンテンのサイトはこのプロジェクトの記録を抹殺している(その代わりに当時ジョン・バッテル氏が綴った記事に目を通しておこう)。2004年のIBMのマルチメディア検索エンジン – マーベルでも同じ現象が起きている。

楽しいことは間違いない

ワトソンがIBMに対して優れたPR効果をもたらしている点は間違いないが、それ以上の効果が現れるかどうかは不明である。多くの専門家は、自然言語処理が場合によっては検索に大きな利点をもたらす点に同意している。とりわけ企業の検索のニーズにとっては、IBMが描く素晴らしい未来は本当に実現する可能性がある。

また、番組を楽しむメリットもある。そして、数年後にはグーグルもグーグル版ジョパディの挑戦に乗り出すかもしれない。それでは最後に、グーグルが既に優れた成績を残している点を示す調査結果を取り上げた過去の記事を紹介しておこう:


この記事は、Search Engine Landに掲載された「Could Google Play Jeopardy Like IBM’s Watson?」を翻訳した内容です。

ニュースを聞いた当時も私も「まぁそんな時代もくるよなぁ」と思った程度でしたが、その背景にはIBMが長年取り組んできた自然言語処理技術の歴史があるのですね。自然言語処理技術を使った検索エンジンはGoogleが登場する前からたまに「革命的な検索エンジンが登場!検索が簡単になった!」と鳴り物入りで登場しては結局使われず消えていきましたね。最近ではパワーセットなんてのもありましたが、Bingが買った後、結局活用されていなみたいですし。確かに自然言語でそのまま検索するということも余り無いのですが、いつかは活用される日も来るのですかね。。。しかしIBMもかつては検索エンジンを密かに開発していたとは知りませんでしたが(しかもリンク評価ベースの)、広報の「ウェブ検索エンジンのレベルは相当低い」というまさかの発表を聞いてもワトソンの開発者の人たちはGoogleのことを相当恨んでいるのでしょうか?!Googleがクイズに勝てるかと関係ない話になってしまいましたが、検索業界に長くいる人間として色々昔のことまで思い出してしまった記事でした。 — SEO Japan

記事キーワード

  • Facebook
  • X
  • はてなブックマーク
  • pocket
  • LINE
  • URLをコピー
    URLをコピーしました!

編集者情報

  • X
  • Facebook

アイオイクス SEO Japan編集部

2002年設立から、20年以上に渡りSEOサービスを展開。支援会社は延べ2,000社を超える。SEO/CRO(コンバージョン最適化)を強みとするWebコンサルティング会社。日本初のSEO情報サイトであるSEO Japanを通じて、日本におけるSEOの普及に大きく貢献。

メディアTOPに戻る

RECRUIT

一緒に働く人が大事な今の時代だからこそ、実力のある会社で力をつけてほしい。
自分を成長させたい人、新しいチャレンジが好きな人は、いつでも歓迎します。