TOP
メディア
Bingの品質評価プログラムの全容

Bingの品質評価プログラムの全容

公開日：2012/10/12

最終更新日：2012/10/12

ブログ

数日前に、Googleが実施している検索結果の品質評価プログラムの記事を紹介しましたが、今回はBingの品質評価プログラムについて。米国ではそのシェアを地道に伸ばしており検索結果の品質はもはやGoogleと変わらないとまでいわれるBing、その内容はいかに。 — SEO Japan

検索エンジンの意図を確実に満たすウェブページは「Perfect」（完璧）であり、ビングの検索結果の上位に表示されるべきである。一方、有益と見なすユーザーが一人もいないようなスパムなウェブページは「Bad」（劣悪）と評価される。

これは、ウェブページを評価するビングのHuman Relevance System（HRS）プロジェクトで、評価者に対して与えられる指示の一部である。評価方法は52ページで構成される「HRS ジャッジングガイドライン」と呼ばれる文書にまとめられている。

HRSプロジェクトは、グーグルが用いる品質評価者プログラムに似ている。マイクロソフトは、MSN検索が2004年の年末に立ち上げられた頃からこのプロジェクトを実施している。グーグルと同じように、マイクロソフトは、テストサービスを使って（ライオンブリッジ等）、人間の検索評価者および管理者を採用している（マイクロソフトは、評価者を「ジャッジ」と呼ぶことが多く、この記事でも「ジャッジ」と言う用語を用いることにする）。

マイクロソフトのHRSプロジェクトは話題に上がることは稀であり、同社のコミュニケーション部門は、私達サーチエンジンランドが連絡を取った際、当然ではあるが、このプロジェクトについての情報提供を拒んだ。しかし、私達は元ジャッジからガイドラインのコピーを手に入れることに成功した。ビングはこの文書がHRSの現行バージョンであることを認めている。文書には2012年3月15日と日付が記載されていた。

このガイドラインには何が書かれているのだろうか？ビングは、ウェブページを評価する検索の品質のジャッジに対して、何を求めているのだろうか？詳細が知りたいなら、読み進めていってもらいたい。

ユーザーの意図 & ランディングページ
評価マトリックス
評価の選択肢
新鮮さ
その他の考慮する点

ユーザーの意図 & ランディングページ

この文書は、3つの主要なクエリの意図（ナビゲーショナル、インフォメーショナル、そして、トランザクショナル）の詳細を説明し、検索クエリに基づいてユーザーの意図を特定する方法を提案している。人間のジャッジは、ランディングページ（LP）を判断する際、4つの意図に関連する質問を考慮するよう指示されている:

1. 意図: LPのコンテンツはクエリに対して、考えられる意図を満たすか？
2. 範囲: LPのコンテンツの範囲および深さは、ユーザーが望む範囲および深さにマッチするか？
3. オーソリティ: LPのコンテンツの信頼度は、ユーザーの期待に適しているか？
4. 品質: LPの見た目および構成は、満足するユーザーエクスペリエンスを与えているか？

最後にジャッジに、ランディングページがユーザーの意図を満たすスケールを「strongly」（十分）から「poorly」（不十分）で選ばせ、また、不愉快 & アクセス不可能と言うカテゴリーも与えている。

ガイドラインは、「十分に満足させるページは、ユーザーの意図、そして、範囲およびオーソリティにおける条件に厳密にマッチし、一方、不十分なページはあらゆるユーザーにとって役に立たないページを意味する」と説明している。

評価マトリックス

HRS ジャッジングガイドラインは、ジャッジに対して、評価マトリクスに従って、ウェブ文書を評価するよう求めている。このマトリックスはA) 適切なユーザーの意図とB) その意図を文書がどの程度満たしているかの2点を組み合わせている。「most likely」（ほぼ確実な）の意図を「strongly」に満たす文書は、Excellent/Perfectと評価され、「most likely」な意図を「poorly」に満たす文書には、Bad評価が与えられる。

評価の選択肢

ジャッジが利用することが可能な5つの評価の選択肢は、上のマトリックスに掲載されている。ガイドラインは更に詳しくこの点について説明を行っている。ここは文書の心臓とも言えるパーツであり – ビングがウェブページ/文書を評価（そして、恐らく格付け）する上で何を求めているのかを明かすセクションである。

ビングは5つの評価について次のように描写している:

1.) Perfect

「LPは最も確実または公式のページであり、ほぼ確実な意図を満たす。」

この文書は、Perfectのランディングページは「検索エンジンの1位に表示されるべき」ページと表現している。また、Perfectに値するランディングページは1ページのみであると指摘しているが、一部の一般的なクエリ（“ローン”や“保険”）に対しては、Perfectなランディングページは存在しないと告げている。Perfect評価のページは、少なくともユーザーの50%以上の意図を満たす必要がある。

2.) Excellent

ビングは、Excellent評価について「非常に可能性が高い、もしくはほぼ確実な意図を十分に満たし」、「範囲、新鮮さ、オーソリティ、マーケット、そして、言語においてクエリの条件に厳密にマッチする」ページと表現している。Excellent評価のページは、少なくとも25%以上のユーザーの意図を満たしていなければならない。

例では、Barnes & Nobleのホームページは、「buy books」（本買う）の検索クエリに対して「Excellent」の評価が与えられていた。

3.) Good

Good評価のランディングページは、非常に可能性が高い、もしくはほぼ確実な意図をある程度満たしているページである。ビングは大半のユーザーはGood評価のページでは満足せず、検索を続けると述べている。Good評価のページは、少なくとも10%のユーザーの意図を満たしている必要がある。

4.) Fair

Fair評価のページは、一部のユーザーのみに有益なページに対して与えられる。Fair評価のページは「非常に可能性が高い、またはほぼ確実な意図を少しだけ満たす、もしくは、可能性の低い意図を十分に満たす」ページである。Fair評価のページは少なくとも1%のユーザーの意図を満たしている必要がある。

5.) Bad

誰の役にも立たない上に、ユーザーの意図を満たさないことを示すBadは、「スパムの手法」を用いている、「その他のコンテンツを誤解を招く方法で」提供している、もしくは、パークドメインやマルウェアのインストールを試みるページに該当する。Bad評価のページが満たす意図は1%未満である。

このガイドラインは、アダルト向けのコンテンツを表示する「Detrimental」（有害）、そして、様々な理由でアクセスすることが出来ない「No Judgement」（審査不可）等の評価の説明も行っている。

新鮮さ

新鮮さのセクションは実に詳細に綴られている。このセクションは、ウェブ文書をチェックする際にジャッジが新鮮さを考慮するべき理由を説明し、新鮮なコンテンツがより役に立つシチュエーション、そして、さほど重要ではないその他のシチュエーションを示唆している。また、新鮮さに関連するクエリには「事実上」3つのカテゴリがあると指摘しており – Fresh Not Important（新鮮さは重要ではない）、Very Likely Fresh（新鮮である可能性が非常に高い）、そして、Most Likely Fresh（ほぼ確実に新鮮である）- 見極めるための例の検索クエリを挙げている。

bing-freshness

その他の考慮する点

検索用語がURLのクエリである場合への対処策、スペルミスのクエリを審査する方法、そして、ローカルのクエリを審査する方法に関するセクションも用意されている。例えば、Arizona Hispanic Chamber of Commerceのホームページは、「hispanic chamber of comerce glendale az」に対してPerfectと評価されている、なぜなら、Glendaleはフェニックスの郊外にあり、現地にはHispanic Chamber of Commerceの事務所がないためだ。

先程も申し上げた通り、検索結果を評価するマイクロソフトのHRSプロジェクトに関する記事はあまり見かけない。このガイドラインを読む限りでは、グーグルのガイドラインとさほど変わらない気がする。因みにグーグルのガイドラインに関しては、2008年に初めてこのサイトで取り上げていた。

この記事は、Search Engine Landに掲載された「Yes, Bing Has Human Search Quality Raters & Here’s How They Judge Web Pages」を翻訳した内容です。

簡潔にまとめられていましたが、基本的には検索結果がユーザーに取って役立つ内容かどうかを判断するプログラムであり、Googleと差ほどの差はないですね。技術力で勝負する検索エンジン＆検索アルゴリズムではありますが、その品質を評価するのはリアルな人間の手も必要、ということでこうした影の努力を通じて検索結果は日々進化しているようです。 — SEO Japan [G+]