Googleの検索結果の品質評価をする人物への独占インタビュー

Googleの検索結果の品質評価をする際のガイドラインが先日流出して少し話題となりました。ドキュメントだけ読むと、いわゆるSEOのルール的な内容のまとめでもあり参考になるようなならないような感じではあるのですが、今回は、実際にそのガイドラインを参考に品質評価を行う謎の存在「クオリティレイター」にサーチエンジンランドが独占取材した興味深い記事を。 — SEO Japan

google-quality-rater少なくとも2005年から、グーグルは世界中で大規模なフォーカスグループを用いて、検索結果、そして、グーグルのアルゴリズムで上位に格付けされているページの質を見直す取り組みを行っている。このプログラムの参加者はクオリティレイター(品質評価者)と呼ばれる。当然ながら、クオリティレイターの仕事は、検索マーケッターにとって重要である。

グーグルは2004年の年末にはクオリティレイターの求人広告を出していたが、現在はライオンブリッジ、リープフォース、バトラーヒル等が募集を代理で行っている。ライオンブリッジのインターネット審査員プログラムの仕事のページを読む限り、世界中で4500人以上が検索結果の評価を行っているようだ。 リープフォースのウェブサイトは、プログラムに参加している人数を明記していないが、同社の求人ページには、「検索エンジンの評価者」、「ソーシャル検索エンジンの評価者」、そして、「検索の品質の審査員」等の求人がリストアップされている。

クオリティレイターの仕事は、グーグルが仕事の一環として提供するガイドライン文書がオンラインでリークされることが何度かあったため、ここ数年で知名度が上がっている(2008年の3月2011年10月の記事を参考にしてもらいたい)。 また、ウェブマスター達はクオリティレイターがサイトを訪問したことを示唆する、固有のクオリティレイターのリファラーの文字列の存在にも気づいている。

昨年の秋にジェニファー・レドベッター氏がこのプログラムに関する投稿を行ってから、現役のクオリティレイターがサーチエンジランドに接触し、このプログラムに関する内容について説明をしたいと願いでてきた。それ以来、休暇で何度か間が空いたものの私はこの人物と何度もeメールを交換した。ちなみにこの人物はライオンブリッジでクオリティレイターとして働く一方で、米国の検索マーケティング業者に務めていることが判明した。

私は一度も当該の人物と面識はなく、本当にクオリティレイターかどうかを確かめるため、評価の仕事が行われるウェブサイト内のスクリーンショットを数枚要求した。そのうちの数枚をこのインタビューの記事に挿入した。次のイメージは空のタスクのキューを示す評価作業のホームページのイメージである。

rating-tasks

このインタビューでは、採用のプロセス、ウェブサイトを精査する際に注目するポイント、様々な評価タスクの詳細等の質疑応答を行っている。

グーグルの検索クオリティレイターとのQ&Aセッション

サーチエンジンランド: クオリティレイタープログラムをどのように、いつ、そして、なぜ始めたのかを教えて下さい。

クオリティレイター: 2011年の5月にライオンブリッジを介してこの仕事を請け負いました。当時の雇用者から減給を宣言され、収入を増やす必要があり、私は仕事を探して言いました。求人広告が掲載されている一般的な場所を探しまわり、クレイグズリストでクオリティレイターの求人広告を見つけました。条件は悪くなかったので、私は履歴書を送信しました。すると次の日に返信が届きました。メールには、私の応募を同社が喜んでいる点、そして、採用の条件である幾つかのシンプルなテストを受ける必要がある点が綴られていました。ここまではとんとん拍子で進みました。

求人広告はグーグルの名前を具体的に記していましたか?

求人広告には、グーグルに関しては何も記載されていませんでしたが、初めて連絡を受けた際に、グーグルに関連する仕事である点は伝えられました。

それでは、グーグルに関連する仕事であることを知っていたわけですね。いつ、グーグルの検索結果を評価する仕事だと知りましたか?

採用される前に分かっていました。

SEOコミュニティが、このプログラムについて勘違いしていると思うことがあります。それは、このプログラムは、SEOともランキングとも全く関係がないことです。これは、グーグルのアルゴリズムを改善する取り組みを支援する仕事なのです。例えば、Side-by-Sideのタスクでは、新しいアルゴリズムの変更を介した結果と実際の検索結果を対比して表示させます。グーグルはウェブを評価するためではなく、ユーザーのクエリと最高の情報源をマッチさせる取り組みを評価するためにレイターを採用しているのす。

採用プロセスに話を戻しましょう。テストがあったようですね。難しかったですか?

2部構成のテストを6日間で終わらせる必要があり、1つ目のテストを合格しなければ、2つ目のテストには取り掛かれない仕組みでした。

このテストは24問で編成されており、送られてきたPDFベースを基にした作文形式の理論的な試験でした。このテストは、ルールを理解し、PDFで網羅されていない状況に適応する能力を試すことが目的です。曖昧にしか覚えていませんが、スパムに関して、スパムの兆候は見られないものの、スパム感が漂っているサイトへの対応に関する質問がありました。あんなに難しいテストは受けたことはありません(ちなみに私は文学を専攻し、大学院レベルのコースを受講した経験があります)。

このテストに合格して初めて、私は実践的な140問以上のテストを受ける権利が得られました。このテストには、評価しなければならない実際の検索結果が提示されていました。採用されるためには、4つのカテゴリで90%以上のスコアを上げる必要がありました(Vital(必須度)、Useful(有効度)、Relevant(関連性)、そして、Off-Topic or Useless(トピックから外れている、もしくは無益)です。レイターとして私が受ける実際のタスクを反映していたのだと思います。

どのような質問がありましたか?

質問の例を挙げましょう:

クエリ [crispy cream]、英語(米国)
URL: http://www.treblebooster.com/

レイターはまずページにアクセスするかしないかを判断します(レイターが実際にページにアクセスすることなく評価することが出来る点を指摘するブログが多いので、この点は強調させていただきます)。そして、クエリに合っているかどうかを決断し、評価するのです。答えはレイター次第ですが、この問題の正しい答えは「Useful」です。スペルが理由です。「Krispy Kreme」とユーザーが入力していたら、このページは「Off-Topic」に分類されていましたが、実際には「crispy cream」であり、このページに掲載されているギターは「Crispy Cream」と呼ばれているため、ユーザーが求めているページかもしれないのです。

このような質問が143問ありました。今となっては良い思い出です。

グーグルのスタッフと直接連絡を取りましたか、それとも連絡相手はライオンブリッジだけでしたか?

グーグルとは接触せず、ライオンブリッジとのみ連絡を取り合っていました。

採用された後、トレーニングの類は課されましたか?

採用が決まった後、トレーニングモジュールに加え、週に一度、2時間のウェブセミナーが行われました。とても張り詰めたトレーニングでした。4週間目まで私はすべての評価に対するコメントを求められました。このコメントはその後見直され、コメントが与えられ、評価に関するフィードバックが行われました。

どの時点でレイター用の手引書が与えられましたか??

採用された時点でもらいました。基本的には、レイターが実行するタスクのリストと評価方法が記載されているだけです。

ライオンブリッジ(またはグーグル)は手引書をどのように表現していましたか?

手引書ではなく、ガイドラインと呼ばれていました。

ガイドラインに関して、強く印象に残ったことが1つありました。それは複数名のレイターがサイトを見ている仕組みです。確か、6名のレイターがそれぞれのタスクを見ていました(確かではありませんが、その他のレイターからコメントが投稿されていました)。例えば、あるページを私が「Useful」と評価したものの、他のレイターが「Off-Topic」と判断していた場合、評価が投稿される前に(コメントおよび議論を通じて)意見を統一しなければいけませんでした。

給与はいくらでしたか、また、どれぐらいの頻度で支払われていましたか?

時給$14.50で月に一度給与の支払いがありました。私は週に最高で20時間、月に80時間しか働くことは出来ませんでした。

quality-rater-home

クオリティレイターに関する最近の記事で、最長でも1年間しか業務を行うことが出来ず、再び応募するまでに3ヵ月間待たなければいけないと綴られていましたが、これは本当ですか?

1年間しかレイターになれないと言う話はよく耳にしますが、私の知り合いのレイターは仕事をする時間があり、質を保つことが出来れば、いつまでも仕事をすることが出来ると言っていました。

スケジュールはレイターで決めることが出来たのですか、それとも、ライオンブリッジが時間を割り振っているのですか?

自分で決めています。10時間以上20時間未満の間でタスクを行っていれば、良好な関係を築けます。ライオンブリッジは時間にはとても厳しかったですが、失った時間を取り戻すチャンスは与えられています。つまり、1週目に4時間しか働くことが出来なくても、2週目に16時間働くことで穴を埋められるのです。一週間に20時間以上働くことは出来ないため、穴を埋められる以上の時間を休んでしまうと、損をすることになります。

また、ライオンブリッジは、生産性の目標も厳しく見ています。タスクのタイプによって毎分完了しなければいけないタスクの数が決められているのですが、目標に届かない場合、謹慎期間が設けられ、その間は仕事をすることが出来なくなります。質が標準レベルに達していない場合、解雇されます。とても管理が行き届いた環境でした。

「質が標準レベルに達していないと、解雇される」と言っていましたが、レイターはどのように自分の仕事の善し悪しを把握するのですか?これは個人的な意見ですが、多くの場合、検索結果の評価は主観が大きく作用する気がするのですが。

確かに主観は入りますが、進捗状況を示すクオリティセンターが設けられています。このシステムは、いくつ検索結果が返されているのか、問題のある評価を解決するまでにどれぐらい時間がかかっているのか等を記録しています。評価は確かにレイター次第ですが、その他のレイターと大幅にかけ離れた判断は許されません。つまり、評価タスクに対する制限時間を守れているか、そして、返されたタスクがいくつあるのかによって質が計測されているのです。

「タスクを返してくる」とはどういうことですか?

評価に対して異議が出され、戻ってその他のレイターと合意に達しなければいけないと言うことです。

それでは、検索結果の評価はグループによるプロジェクトなのですね。合意に達するのは大変ですか?

時折、特に他のレイターがガイドラインをあまり読んでいない、もしくは仕事を始めたばかりの時は、大変です。しかし、ある程度議論を重ねると、モデレーター(調停者)が現れ、どちらの評価が適しているのかを判断します。モデーレータは私達のコメントに目を通し、決定を下します。

あなたの場合だと、どのぐらいの頻度でモデレーターは登場しましたか?

ごく稀です。大抵の場合、評価した理由を説明すれば、他のレイターは納得してくれます。このようなタイプの意見の食い違いは、若干「Relevant」か「Off-Topic」かのいずれかに該当する際に起きることが多いです。時折、スパムではないページをスパムと、またはその反対と評価し、意見が分かれることがあります。私が仕事をしていた時期にモデレーターが介入したのは1度だけです。

モデレーターに関する情報はありますか?モデレーターはライオンブリッジのスタッフなのですか?

そうです。ライオンブリッジの従業員です。私の知る限り、モデレーターはレイターの経験者であり、昇進した人達のようです。

自然の結果のみ評価しているのですか、あるいは、広告/PCC ランディングページも評価しているのですか?

あらゆるタイプのページを評価しています。その多くは自然な検索結果ですが、広告関連のトピック寄りのタスクもありました。

広告関連のタスクで覚えているものはありますか?

覚えていません。ほとんどはページ上の配置、提示されている順番、自分ならどの広告をクリックするか等でしたね。

グーグルプレイスの結果やニュースや動画等、その他のユニバーサルな検索結果も評価するのですか?

その通りです。ユーザーがクエリを入力する前に見ているマップを示すタスクは多かったです。その後、レイターはユーザーが見ているマップを基にクエリの結果を評価するのです。また、どれだけ新鮮なのか、どれだけクエリに関連しているのか、そして、信頼できるソースを経由しているのか等の基準を基にニュースを評価することもありました。動画に関しては、クエリに対してマッチしているかどうかを把握するため、当該の動画を実際に視聴し、UsefulRelevantSlightly Relevant、もしくは、Off-topicのいずれかを判断します。

マップに関するタスクはとても興味深いですね。それでは、このタスクでは、レイターはあるプロセスに参加させられ – 単独の検索に関するタスクをただ単に行うだけでなく、時折、以前の行動を考慮することもあるのですか?この点は、その他の検索にも当てはまりますか?

与えられるタスクのほぼ全ては、ユーザーエクスペリエンスに関連しています。基本的な検索に対してでさえ、ページを評価する前にユーザーの言語や場所等の情報が与えられます。ページがクエリに合っているかどうかではなく、ユーザーがページを有益だと思うかどうかが重要なのです。検索の前にユーザーが見ていた内容に関する情報を与えられるタスクはマップのクエリ(ローカルクエリと呼ばれていました)だけでしたが、レイターはあらゆるタイプのタスクにおいて、ユーザーがクエリから何を期待しているのかを常に肝に銘じておく必要があります。例えば、あるユーザーがシアトルにいるときに「weather」(天気)と入力して、フロリダの天気情報が表示されたらSlightly Relevant(関連性は薄い)と考えるかもしれませんが、タンパにいる人はUseful(有益)だと感じるでしょう。

先程説明して頂いたグループによる評価以外に、他のレイターとコミュニケーションを取ることはありましたか?公式または非公式に会話を交わす場所はありましたか?

色々ありました – ライオンブリッジのサイト上のファーラム等 – 他のレイター達と会話を交わすことは可能ですが、私は全く交流しませんでした。私は仕事に追われていたため、他の人達と話している余裕はありませんでした。

最近のタスクの例を具体的に挙げてもらえませんか?

実際に評価を行ったページのURLは思いつきませんが、「Nike Women’s Running Shoes」(ナイキ レディース ランニングシューズ)と言うキーワードがあったことは記憶しています。このキーワードによって、評価する20ページのURLが与えられました(10ページずつ)[注記: 先程触れた「Side-by-Side」のタスクに言及している] 。そして、それぞれのサイトにアクセスして、Vital、Useful、Relevant、Slightly Relevant、または、Uselessかを判断しました。このような有名なブランドにおいては、品質を評価するのは容易でした。例えば、ナイキの公式サイトは選択肢の一つであり、「Vital」を獲得するべきです。また、ナイキの靴を販売しているサイトが幾つか混じっていましたが、このタイプのサイトには「Useful」を、また、ウェキペディアのナイキに関するページには、ナイキのレディースのランニングシューズを検索する人達の多くがナイキの歴史に関心を示すとは思えなかったため、「Slightly Relevant」を与えました。

タスクに対して与えられた10本のURLを全てクリックし、精査しているのですか?

ディスクリプションを読んだだけでサイトの内容を分かるほど私は優秀ではないため、すべてのリンクを常にクリックしています。そんなに優秀な人はいないはずです。だからリンクを与えられるのではないでしょうか。

グーグルの検索結果ページでリンクをクリックする際、訪問したウェブページで何を探すのですか?

サイトを見る際、私は必ず最初にスパムのシグナルを探します – つまり、キーワードスタッフィング、隠されたテキスト、卑劣なリダイレクト等です。良質なサイトであることが分かったら、グーグルに実際にクエリを入力するユーザーの気持ちでページをチェックし、ページのコンテンツによってニーズが満たされるかどうかを確認します。デザインやレイアウト等を尋ねるタスクもありますが、通常のURLの評価またはSide-by-Sideのタスクに関しては、単純にコンテンツを精査して、ユーザーが見る価値があるページかどうかを把握しています。

ソースコード等を見たことはありますか?レイターは評価対象のウェブページのソースコードを見るよう要請されるのですか、もしくはそのトレーニングを受けるのですか?

ガイドラインにはソースコードを見る方法に関して簡単に説明する項目がありますが、詳細は綴られていません。基本的にガイドラインに記載されている隠されたキーワードやスパムなメソッドを探します。

URLの評価タスクとSide-by-Sideのタスクについて触れていましたが、デザインやレイアウトに関するタスクもあるのですね。これはどのようなタスクなのですか?

デザインのタスクは、ページ上で、メインのコンテンツ、補足的なコンテンツ、そして、広告の比率が適切かどうかを問うものです。また、全体的なデザイン、読みやすいかどうか、情報が明確に伝わるかどうか等も評価の対象に挙げられています。ページが美しいかどうか、素晴らしいかどうかよりも、一般のユーザーが迷うことなく必要としている情報を見つけることが出来るかどうかが重要視されています。

単一のウェブページが与えられ、デザインを評価するよう求められるのですか、それとも、検索結果のページに目を通し、デザインを評価するのですか?

これはURLを評価するタスクとは異なる限定されたタスクです。

スペルや文法のチェックはデザインベースのタスクの一環として行われているのですか?

スペルと文法は、すべてのタスクにおいて注目するポイントですが(少なくとも私はチェックしています)、徹底的に調査するわけではありません。

デザインおよびレイアウトを評価する際、チェックするサイトのタイプに応じて基準は変わりますか?例えば、大きなブランドのサイトのウェブページは、中小企業のサイトよりも、プロフェッショナルなデザインが期待されます。

先程も申し上げた通り、実際のデザインよりもレイアウトが重要なのです。シンプルなデザインのサイトでも、情報が明確であり、理解しやすく提示されている限り、プロフェッショナルなデザインのサイトと同じ評価になります。例えば、メインのコンテンツと広告を一瞬で区別することが出来るデザインのページは高い評価を受けます。一方、広告とメインのコンテンツが混乱を招き、コンテンツと広告を見分けることが出来ないページには低い評価が下されます。

何種類のタスクがありますか?私が見たガイドラインには冒頭で「様々なタイプの評価プロジェクトに取り組んで頂きます」と記載されていました。

様々なタスクがありますが、4つの主なグループに振り分けられています: URL、Side-by-Side(サイドバイサイド)、Experimental(実験的)、そして、Result Review(結果の見直し)です。Experimentalのタスクは様々なタイプのタスクに分けられています。すべてのタスクのタイプ、そして、想定される作業時間をリストアップした表を掲載しておきます。

tasktypes

「Display Block」(ディスプレイのブロック)、「TTR」とはどんなタスクですか?

Display Blockは、私の記憶が正しければ、複数のイメージの塊を、一度に一枚ではなく、全体として評価するタスクです。TTRはTime to Rateの略であり、タスクを終えるまでにかかる時間を特定するために用いられる基準のタスクを指します。様々なタスクが含まれますが、精度を求めるのではなく、時間を重要視しているのです。

レイターが精通しているトピックやアイテムに関連するタスクが与えられるのですか、それとも、まったく知識のないトピックに関するページをチェックするのですか?

誰かが「Best Dog Food for Puppies」(子犬向けの最高のドッグフード)と入力した場合、当該のユーザーが何を求めているのかを理解するのは容易です。実際に、大半のクエリはとても明確な意図を持っています。しかし、時折、まったく分からないクエリに遭遇することがあり、その場合、私はリサーチを行い、何を望んでいるのかを解明します。例えば、「Release Liner」と誰かが入力した場合、私はリサーチを行って、これが標識等に用いられるビニールをカットするアイテムである点を突き止める必要があります。そうして初めて、私はサイトを評価することが出来るようになります。確かに完璧なシシステムではありませんが、問題が生じるのはごく稀です。

評価タスクにおいて、特に目立つ業界/分野はありましたか?

これといって目立つ業界にはまだ遭遇していません。

レイターの仕事はグーグルの検索結果にどのように影響を与えるのでしょうか – ライオンブリッジはこの点について何か言っていましたか?

ライオンブリッジは何も言っていません。しかし、実際に表示される検索結果を変えるのではなく、アルゴリズムを完璧に近づけることを目標としている点は明白です。と言うのも、新しいアルゴリズムとテストしているアルゴリズムにおける変化を比較するSide-by-Sideが最も重要なタスクだと考えられるからです。

最近は活発に評価を行っていますか?この仕事をいつまで続ける予定ですか?

週末に仕事をしています。好きな仕事なので、出来るだけ長く続けるつもりです。

ライオンブリッジ/グーグルは、あなたが検索マーケティング業界で働いていることを知っていますか?

知りません。クオリティレイターに採用された後、この業界に入りました。

検索マーケッターでクオリティレイターを務めている人を他にご存知ですか?

個人的には知り合いはいませんが、あまり多くはないと思います。

グーグルの検索結果に対する意見を聞かせてください。また、レイターになってから、その意見は変わりましたか?

私は昔から「頼りになる検索エンジン」としてグーグルを利用してきました。しかし、グーグルが裏で行おうとしている改善を目にすることが出来るため、レイターの仕事に就いて以来、さらにグーグルを利用する機会は増えましたね。

エンジンを改善することを目指して大勢の人間に作業を委ねると言うアイデアを私は気に入っています。このコンセプトに反対する人もいれば、レイターがランキングにマイナスの影響を与えると主張する人もいるでしょう。しかし、マイナスの影響を与えることはないと言うのが私の正直な感想です。クオリティレイターを活用する目的は、実際のウェブを評価することではなく、質の高い結果を提供するグーグルの取り組みを評価することなのです。

ほぼ全ての企業が何かしらの品質管理を行っているはずです。マクドナルドが製品の質を誰かにチェックさせていることに反対する人はいるでしょうか?グーグルの取り組みが、ユーザーに対して出来るだけ優れた製品を提供するために行う他の企業の取り組みと異なるとは私には思えません。

従って、答えはイエスです。私の意見は良い意味で変わりました。


この記事は、Search Engine Landに掲載された「An Interview With A Google Search Quality Rater」を翻訳した内容です。

ガイドラインと同じくSEO的に特別参考になるわけではありませんが、読み物としては面白いですね。時給$14.50で最高月80時間、、、時給1000円月8万円少しは、まぁ、仕事の内容を考えるとそんなものなのでしょうか。最長でも1年間しか働けない&再応募に3カ月とは、中々に徹底していますね。クオリティレイターが直接Googleのスタッフではなくクラウドソーシングの会社経由でのみ仕事をしていたのは、万が一の情報流出(まさに今回のような)を恐れてのことなのでしょうか。クオリティレイターの品質評価もあるところが当たり前といえば当たり前ですが、今度はそのガイドラインが流出したりして。

内容の話に戻ると、クオリティレイターが自然検索の結果だけではなく、広告やグーグルプレイス、ユニバーサル検索結果などの内容も評価していたのも当たり前といえば当たり前かもしれませんが、改めて納得といえば納得。細かく読むと色々読み解けそうですが、SEO的には「与えられるタスクのほぼ全ては、ユーザーエクスペリエンスに関連して」おり、「ユーザーがページを有益だと思うかどうかが重要」辺りで基本の再確認は改めてしておきたいですね。

SEO Japanを運営するアイオイクスでは、SEOのコンサルティングサービスを提供しています。Googleの品質評価ガイドラインの解釈をはじめ、SEOでお困りの際は、是非ご相談ください。– SEO Japan

Page Top

投稿ナビゲーション