Googleは言葉の言い換えをどこまで理解できるのか? パート2

前回に続いてGoogleの言語理解度を考える記事をSEO by the Seaから。かなりマニアックな内容になってきますが興味があれば是非どうぞ。 — SEO Japan

言い替えは存在する。

ある出来事を説明するニュース記事が作成されると、個人のスタイル、専門知識や予備知識のレベル、または、個性を出す欲求によって、同じまたは類似する意味を伝えるものの、若干異なる言葉が用いられる。

A

ブロガー達は、あるコンセプトやストーリーを取り上げ、ヘッドラインに個性を加えたり、当該のトピックに関するエントリを投稿している。

eコマースサイトのパブリッシャー達は、製品の説明を行い、他の人達と言葉やアイデアを分かち合っている。

ウィキのような情報ソースは、なぜいつ、そして、どのようにのようなタイプの質問に答える人物、場所、そして、物事に関する事実を紹介している。このようなサイトは、例えば、誰かの生年月日、出来事に関与している人物、プロセスが行われる仕組み等、よく投げかけられる質問に対する答えを提供している。

2つの異なるウェブページが、若干異なるものの、同じ意味を持つ、またはお互いに関連するテキストの断片を多く共有している可能性がある。

検索エンジンと言い替え

検索エンジンは、言い替えが、同じようなアイデアを意味することが分かっている場合に役に立つ多数の機能を実行する。

その中には、ドキュメントの言い替えがクエリのキーワードと異なるものの、クエリに大きく関連している際に検索エンジンのユーザーのクエリに答えるケースも含まれる。

また、検索エンジンが、検索結果に表示するページに対するドキュメントの要約を作成する試み、そして、同じトピックを取り上げる言い替えを含む異なるページから要約を作成する試みも該当する。

あるいは、情報を集めて、質問への回答、またはクエリに対する検索結果の上部に表示される定義の類のレスポンスに用いられる可能性もある。

前回の投稿、パート 1は、グーグルが、クエリを拡大するため、Q & Aタイプの質問に答えるため、そして、コンテンツが複数のページで重複しているかどうかを特定するため、言い替えを用いていると言うアイデアを紹介した。

今週、グーグルには、ドキュメント内の言い替えを特定し、この言い替えの特定を有効に用いる方法に関する特許が付与されていた。

前回の投稿では、特許の1つと特許の考案者が綴ったホワイトペーパーを取り上げたが、検索エンジンが言い替えを特定する仕組みの詳細をさらに説明したくなった。

言い替えを特定するためにNgramを利用

グーグルブックスのNgramビューワーを見かけたことがあるなら、ウェブで言い替えを識別するために使えそうなテクノロジーを既に目にしていることになる。

グーグルは、スキャニングプログラムでスキャンを実行した書籍からテキストを取りだし、当該のテキストをNgramに分類する。「Ngram」は、単語の長さ「n」を持つテキストの断片である。例えば、グーグルは、チャールズ・ディケンズの二都物語の序章を取り上げ、異なる長さの一連のNgramに振り分けていく。

It was the best of times, it was the worst of times; it was the age of wisdom, it was the age of foolishness; it was the epoch of belief, it was the epoch of incredulity; it was the season of Light, it was the season of Darkness; it was the spring of hope, it was the winter of despair; we had everything before us, we had nothing before us; we were all going directly to Heaven, we were all going the other way.

このテキストの6単語のNgramを幾つか挙げていく:

  • It was the best of times
  • was the best of times, it
  • the best of times, it was
  • best of times, it was the
  • of times, it was the worst
  • times, it was the worst of
  • it was the worst of times

さらに長い、あるいは短いNgramに分類することも可能だ。

Ngramを部分に分類する

1本目の言い替えベースのインデックスに関する投稿で、私は言い替えと考えられる文の断片の例を幾つか挙げた。

  • Soviet troops pulled out of Afghanistan
  • Soviet troops withdrew from Afghanistan

この2つのフレーズはともにウェブドキュメントの本文から、当該のドキュメントからNgramを抽出するプロセスで抜き取られたものである。Ngramが特定されると、3つの部分に分類されていく。

1つ目は、Ngramの始まりの単語と同様の複数の単語を含む、始まりの一定の部分である。

2つ目は、終わりの同様の複数の単語の可能性もあれば、その他の2つの間の単語を含む中間の部分の可能性もある。

1つ目と2つ目の部分(始まりと終わり)は、Ngramに対するアンカー(中心)と考えられる。そのため、上の言い替えにおいては、「soviet troops」が始まりの一定の部分であり、「Afganistan」は終わりの一定の部分であり、2つでNgramのアンカーを構成している。ここでは長さが異なるNgramである点に注意してもらいたい。

複数のNgramに対するアンカーが同じ場合、そのNgramは潜在的な言い替えのペアと考慮されるだろう。

このプロセスでは、Ngramのペアが言い替えかどうかを判断するための複数のルールに従うことが考えられる。

例えば、特許には次のようなルールが記載されている:

「一連のドキュメントの7~10単語の考えられるすべてのNgramは、評価の対象になり得る。Ngramの始まりと終わりの一定の部分は、Ngramの始まりと終わりの一定の部分がそれぞれ3単語であり、始まりと終わりの中間の部分の長さは1~4単語になる。

文としてのNgram

Ngramは文であり、そのため、文が言い替えのペアかどうかを判断する際、以下のようなルールが存在する:

  1. 文に含まれる単語は30文字を超えてはならない
  2. 文には、動名詞および法動詞以外の動詞が少なくても1つ必要である
  3. 動詞ではなく、大文字で始まらない単語が少なくても1つ必要である
  4. 数字は、文に含まれる単語の半数以下でなくてはならない

今週グーグルに付与された別の特許を紹介しよう:

言い替えの取得
考案: Alexandru Marius Pasca、Peter Szabolcs Dienes
付与先: Google
米国特許番号: 7,937,265
付与日: 2011年5月3日
申請日: 2005年9月27日

概要

テキストから潜在的な言い替えを取得するための、システムおよびコンピュータプログラム製品を含むメソッドおよび装置。

テキストが受け取られると、1つ目の地図が作成される。地図のキーは、テキスト内で特定されたNgramであり、地図のキーに関連する値は固有の識別子である。2つ目の地図が作成される。2つ目の地図のキーは、Ngramから特定されたアンカーであり、2つ目のキーに関連する値は、アンカーに関連する中間の部分(複数の場合もあり)である。3つ目の地図が作成される。3つ目のキーは中間部分から特定された潜在的な言い替えのペアであり、3つ目のキーに関連する値は、潜在的な言い替えのペアに関連する固有のアンカーである(複数の場合もあり)。

言い替えを特定するために用いられるプロセスを私は簡単に説明したが、特許には、言い替えとして特定される可能性のある、文や文の断片を先行する日時や固有表現の利用等、言い替えが特定される仕組みの詳細が描かれている。

例えば、上述した「soviet troop withdrawl」は1989年に起きたが、ウェブページでは、以下のような文が頻繁に掲載されているはずだ:

  • 1989 – Soviet troops pulled out of Afghanistan
  • 1989 – Soviet troops withdrew from Afghanistan

このような出来事を紹介するページに掲載されている日時を利用することで、日時に続く断片が言い替えである可能性を高める効果が見込まれる。

同様に、特定の人物や場所や物を指定する固有表現および副詞の関係詞節もまた、ウェブ上の言い替えを持つ可能性のあるNgramを特定する上で役に立つと考えられる。以下に特許に記載されていた仕組みを挙げる:

例えば、「Together they form the Platte River, which eventually flows into the Gulf of Mexico at the southern most tip of Louisiana」と言う文は、「Platte River」、「Mexico」、「Louisiana」の3つの固有表現を含む。この文から抽出可能なNgramの一つは、「River which eventually flows into the Gulf」となる。

始まりの一定の部分と終わりの一定の部分の長さが共に3単語なら、固有表現を考慮しない場合、Ngramのアンカーは「River which eventually into the Gulf」であり、「River which eventually」が始まりの一定の部分となり、「into the Gulf」が終わりの一定の部分となる。

終わりの一定の部分に続く固有表現がこのNgramのアンカーに加えられるなら、このNgramのアンカーは「River which eventually into the Gulf of Mexico」となる。固有表現を修飾する副詞の関係詞節の残りもNgramのアンカーに追加される場合、アンカーは「River which eventually into the Gulf of Mexico at the southern most tip of Louisiana」になる。固有表現を修飾する副詞の関係詞節が「at the southern most tip of Louisiana」になるためだ。

また、この特許は、Ngramを使って言い替えを特定する別のメソッドも紹介しており、こちらも詳しく見ていく価値がある。

Googleの別の言い替えへのアプローチ

言い替えに関する2本目のエントリで取り上げた特許の申請が行われたのは2005年だが、グーグルはその後も引き続き言い替えが特定される仕組みに注目してきた。

2008年に発表されたグーグルのホワイトペーーパー、表面のパターンを学ぶための言い替えの大規模な取得(pdf)は、シードのパターンを使って、言い替えを特定する方法に焦点を絞っている。例えば:

「birthplace」の関係に対して、グーグルはまず次の2つのシードのパターンを用いる:

  1. 「(PERSON)was born in (LOCATION)」
  2. 「(PERSON)was born at LOCATION)」

グーグルの特許、クエリの拡大に対する機械の翻訳もまた、(Ngramの利用を基にした)統計的な言語モデルが、言い替えを特定する際に役に立つ可能性がある点を示唆している。

グーグルのパブリックポリシーブログで2008年に投稿されたエントリ、カタルーニャ、エストニア、その他の地域で検索の質を高めるは、言語モデルが、同義語を特定するため、およびクエリを拡大するために用いられる仕組みを紹介していた。機械翻訳の特許は、請求範囲の中でこの類のアプローチは言い替えにも用いられる可能性があると説明している:

5. 請求範囲1のメソッドは、さらに次のプロセスで構成されている:

  • 1つ目の自然言語での1つ目のフレーズを特定する
  • 1つ目のフレーズを2つ目の自然言語に翻訳することで、2つ目の自然言語の2つ目のフレーズを生成する
  • 2つ目のフレーズを1つ目の自然言語に翻訳し直して、1つ目のフレーズの言い替えを特定する
  • 1つ目のフレーズをソースの言語、そして、言い替えを付随するターゲットの言語として使い、統計的な機械翻訳の翻訳モデルを構築する

要するに、「Soviet troops pulled out of Afghanistan」のような文の断片が英語からフランス語に翻訳され、その後英語に再び翻訳される可能性があるのだ。

そして、「Soviet troops withdrew from Afghanistan」や「Soviet Troops withdrawn from Afghanistan」あるいは「soviet Troops leave Afghanistan」のように、英語への再翻訳のバージョンが複数存在することも考えられる。

グーグルが検索結果に同義語を含め始めたため、言い替えが同じような待遇を受ける可能性はある。

言い替えは実際に存在し、検索エンジンが時と場所を特定することが出来れば、さらに広範な関連する検索結果を、さらに広範な回答を、そして、より重複の少ない検索結果を提供することで、検索エクスペリエンスを改善することが出来るだろう。


この記事は、SEO by the Seaに掲載された「Google’s Paraphrase-Based Indexing, Part 2」を翻訳した内容です。

こうやって技術的に1つ1つ解説されるとナルホドと改めて理解できる部分も多いですね(相変わらず理解できない部分も多いですが・・・汗)。難しそうな検索エクスペリエンスの改善、言葉でいうのは簡単ですが、この記事を読むと改めて検索って様々な技術の上に成り立っているんだな、ということが身にしみてわかる記事でした。 — SEO Japan

投稿ナビゲーション