Googleの同義語マッチング – 意図の理解は諸刃の剣

知らず知らずのうちに進化を続けるGoogle、同義語マッチングは以前から行っていましたが、今や単純な言葉の言い換えの話ではなく、関連検索データを元にユーザーの意図をより深く理解し、より適切な情報を提供していこう、という相当高度なレベルまで進んでいるようです。とはいえ、まだまだ課題もあるようで。。。今回はそんなGoogleの検索アルゴリズムの最前線の一幕をご紹介。 — SEO Japan

サービス開始当初、グーグルは検索エンジンのユーザーのクエリ内のワードとウェブページ内のワードに照らし合わせ、各ページが得ている外部リンクの本数に応じて(およそ)ページの格付けを行っていた。その後、ユーザーが本当に探している情報を解明する方法を含め、グーグルのアルゴリズムは様々な面で進化していった。例えば、[U2]を検索すると、サーチエンジンランドのエグゼクティブニュースエディターのマット・マギーのサイトが検索結果の上位に掲載されるだけでなく(頑張って下さい!)、「写真」や「動画」がクエリに含まれていなくても、U2(ロックバンド)の写真や動画も掲載される。

U2 Search Results

ユーザーの意図

グーグルは様々なタイプのシグナルを使いこなして、[U2]と入力された際にビューティフルデイの動画が求められていることを特定する。その中でも、過去にユーザーが求めたアイテムは大きなシグナルの一つと言えるだろう。グーグルは、過去にユーザーがU2を検索した際の全てのデータを持っており、そのうちの何人がこの検索を「video」や「beautiful day」と組み合わせたのか(もしくは後に絞り込んだ)を把握し、また、U2を検索するユーザーが検索結果内に表示された動画をどのぐらいの頻度でクリックしているのかも心得ている。グーグルが動画を表示し始めたものの、ユーザーが動画をクリックしなかったら、動画の表示をやめる可能性がある。ウェブページよりも動画をクリックするユーザーが圧倒的に多い場合は、さらに動画を増やすと考えられる。

グーグルはこのコンセプトに関する特許を多く取得している。既知の高く格付けされたクエリを用いたクエリの補正は、「セッションベースのユーザーのデータを使って、より正確にユーザーの潜在的な情報のニーズをその他のユーザーが過去に形成した一連のクエリを基に把握するシステムおよびメソッド」を描写している。この目的を達成するため、補正されたクエリは、多くの個人のユーザーのセッションから収集されたデータを基に提供される。例えば、クリックデータ、明確なユーザーのデータ、もしくは、ホバーに関するデータ等が含まれると思われる。

要するに、グーグルは過去にユーザーが入力したクエリ、クリックしたアイテム、そして、カーソルを乗せたアイテムを調べて、特定のユーザーが何を求めているのかを特定し、こういったシグナルをページの格付けにおいて考慮することが出来るのだ。

スペルミスの訂正

グーグルのスペルミス訂正も同じアイデアが用いられている。グーグルは、辞書を読み込み単語の正しいスペルおよび一般的なスペルミスを把握し、ユーザーはどのように検索を訂正しているのか、そして、いつ異なるバリエーションをクリックしているのかに注目している。 そして、このデータを使って、異なるスペルでのクエリを提案するだけでなく、スペルミスを裏側で同義語として扱い、正しいスペルのマッチを格付けすることも出来る。

2009年、私はこのシステムが検索エンジンのユーザーにとっても、そして、サイトのオーナーにとっても一般的に役に立つものの、量の少ない稀なスペルのクエリに対しては、適切な結果が押し出されてしまうと指摘した。ちなみに私がこの投稿で重点的に取り上げたクエリ(Dr. Robon)はグーグルによって既に調整されている。これは重要なポイントの一つである。グーグルは継続的に時間の経過とともにアルゴリズムを改善している。このような同義語やスペルミスの全てがマシンによって決められているため、人間が見ると明らかなミスマッチであっても、アルゴリズムにとっては完全にマッチするように見えてしまうのだ。人間(検索エンジンのユーザー)がマッチを検討し、場違いのクエリをスキップする、もしくは絞り込むにつれ、マシンは学び、調整を行うことが出来るようになる。

同義語

グーグルは、ワードのマッチングから、意図に基づくマッチングへと移行している。クエリ内の完全な一致がページに見られなくても、上位にランクインすることが出来るようになったのだ。グーグルのマット・カッツ氏は最近のインタビューの中でこの点に触れている:

「キーフレーズは、もともとの形と必ずしも同じでなくても良い。グーグルは同義語に対する取り組みを強化しており、ユーザーが入力したワードとは異なるワードをたまたま使っている優れたページを探し出すことができる。」

実際のケースを[pet adoption]で確認することが出来る。検索結果では、petsとcatsが共にボールド体で表示されており、「Meow Cat Rescue」がマッチする結果として上位に格付けされている(興味深いことに、自然な検索結果では犬は類義語として扱われていないものの、有料の結果では広範囲で取り上げられているようだ(猫は取り上げられていない)。

Google Pets

意図と組み合わせて用いられていることもある。「Stationary」(動かない)と「stationery」(文房具)はともに有効なワードだが、意味は大きく異なる。2つ目のワードのみが、paper supplies(紙用品)を意味する。残念ながら、ほとんどのユーザーは「動かない」ではなく「紙製品」を求めているにも関わらず、1つ目のワードを選んでしまう。クエリ[stationary]だけのために、グーグルは[stationery]をる類義語として取り扱うわけではない(ただし、[ary]を使っているものの文房具を意味する複数のページが幾つかランクインしている)。しかし、クエリ[stationary supplies]に対して、グーグルは、紙用品を探している人達は少ないながらも存在しており、彼らが移動しなくても済むように[stationery]を類義語として提示している。

stationary vs. stationery

このケースでは、誰かが[stationary supplies]を検索することを想定して、類義語を使って[stationery supplies]に関するページを上位に格付けすることで、検索結果の実用性が改善される点は明白である。しかし、このケースでさえ失敗する可能性はある。[stationary supplies]に関して行われている検索に注目してもらいたい。クエリを以下に挙げていく:

  • office supplies
  • paper supplies
  • staples

事実、ほとんどの検索は、staplesとoffice suppliesの組み合わせであった([staples stationary]、[staples stationary supplies])。誰かが[stationary supplies]を検索した場合、実際には[stationery supplies]または[paper supplies]を求めているはずである。しかし、その場合、[stationary](またはstationery)suppliesの検索が行われると、[staples](ホッチキス)が求められているのだろうか?(註:staplesは全米最大の文房具販売店のブランド名でもあります。)

hhgreg

これはアンドロイドポリスを運営するアーテム・ルサコフスキ氏がこっそり教えてくれた電化製品店のh. h. gregg社が遭遇したケースと同じである。 恐らく、laptops、TVs、そして、printersと組み合わせて多くのユーザーが h. h. greggを検索していたのだろう。しかし、laptops、TV、そして、printersをBest Buyと組み合わせて検索するユーザーの方が遥かに多かったようだ。そのため、[hhgregg site]の検索が行われると、グーグルはhhgregg.comを1位に格付けしたものの、2位にはbetbuy.comをランクインさせたのだ。

Best Buy

実際に、その他の5つの結果は、bestbuy.comのページであった。

hhgregg

これはひどい。

一見したところ(人間にとっては)重大なバグのように見えるものの、[bet buy]が結果内でボールド体表記されている。これは検索をベースとした単純な同義語のマッチングであった。事実、ユーザーの多くはhhgreggとbest buyをクエリ内で用いている(しかし、その多くは2社を比較しているようだ)。

hhgregg and best buy

ちなみにグーグルは上の検索について次のように指摘している:

グーグルは自動的に同義語を特定する試みを行っており、ウェブ上で緊密に関連していると思われるものの、実際には異なる意味を持つ用語を誤って同義語として挙げてしまうこともある。これは、複数のワードで構成される用語の取り扱いに関する課題である。グーグルはこういったタイプのケースに対するアルゴリズムのソリューションに取り掛かっており、フィードバックは歓迎する。

ビングも同じような手法を用いている。下のイメージを参照すれば分かるように、[stationery]のページを[stationary]の検索でマッチさせており(注意を与えずに)、また、[britney]のページを[britny]の検索で一致させている(スペルの訂正について伝えている)。

Bing Synonym

ブランドは何をするべきか?

それでは私達はどのように対策を練ればいいのだろうか?ページのトピックのスペルミスを全て含めることに執着する必要はない。信頼性に傷がつき、スペルミスの用語に対する格付けにおいて大きく影響するとは思えないためだ。

特定のフレーズを特定の組み合わせでページに特定の回数掲載する「SEO コピーライティング」についても心配する必要はない。

SEO コピーライティングのためではなく、- オーディエンスが本当は何を求めているのか?どのようなタスクを達成しようとしているのか? – 要するにオーディエンスの意図を解明するためにキーワードリサーチを実施するべきである。最も量の多いバリエーションをタイトルタグで用いよう。そして、ページがその意図に対して最も関連性が高く、有益な結果になるように心掛ける必要がある(私はこのテーマについて何度かプレゼンオンラインセミナーを実施しており、の中でも手法を紹介している)。

これもブランドのオーソリティの重要性を示す例の一つである。オーディエンスが特定のトピックに関してブランドを連想し、当該のトピックと関連付けて検索を行うなら、ブランド名が実際にクエリに含まれていなくても、検索結果で上位にランクインする可能性がある。サイトに再びビジターをもたらすオフラインの広告、ソーシャルメディアでの交友、そして、直接的なエンゲージメントは、この取り組みにおいてすべて効果がある。

また、競合者が自分のブランドに対する検索で上位に格付けされるようになり始めたら、検索エンジンのユーザーの行動が順応するまで待つのではなく、グーグルのディスカッションフォーラムで指摘することを私は薦める。


この記事は、Search Engine Landに掲載された「Is Google’s Synonym Matching Increasing? How Searchers & Brands Can Be Both Helped & Hurt By Evolving Understanding Of Intent」を翻訳した内容です。

米国に10年近く住んでいましたが、恥ずかしながら文房具は「stationary」と思っていた私です。同義語マッチングやユーザー意図の推測による検索されたキーワードのみに限らない情報提供は流石Googleならではの便利な機能と思います。同時に、記事にもあるようにブランド名の判断(特に一般名詞と似ているブランド名の場合)と処理をどう行うかは確かにチャレンジングな部分ですね。Googleのことですから、何か技術的な解決策をいずれは用意してくるのでしょうが。。。

記事の後半にあったSEO的に何を考えるべきか、という部分ですが、「最も量の多いブランド名を含む関連フレーズをタイトルに記述」というのは、できなさそうなフレーズも多そうですけどね。タイトルはともかく、サイトコンテンツにきちんと入れ込んでいったり、とりあえずメタタグに入れる程度のことはやっておくべきなのでしょうか。

記事の例ではありませんが、特定のブランド名で検索すると、同じ種類の競合企業が関連キーワードで表示されるケースも増えているようです。ビッグブランドというよりレストラン名などスモールブランドのケースが多い気がしますが。ユーザー的には良いのかもしれませんが、ブランドからするとこれはこれで嫌だろうな、、、とか検索する度に思ってしまう私でした。 — SEO Japan [G+]

Page Top

投稿ナビゲーション