Googleがウェブサイトの質を判断してスパム対策を行う方法

パンダアップデート、有料リンク排除など常に進化し続けるGoogleのアルゴリズムを背景に、SEOにおいて今後さらに重要になってくるといわれるのが「ウェブサイトの質」。しかしそもそも質とは一体何なのでしょう?そんな素朴な疑問にSEO by the Seaが答えます。 — SEO Japan

そのウェブサイトはどれぐらい信頼できるだろうか?そのサイトで提供されているページについて、どのぐらいの確率で、ビジターに信じてもらえるだろうか、さらに詳しい情報を知るために連絡を取ってもらえるだろうか、あるいは取引を行ってもらえるだろうか?サイトで質の高いコンテンツを提供していると自負しているだろうか?ページ上のコンテンツの価値をどのように計測しているだろうか?

検索エンジンは、グーグルが先日行ったパンダアップデート等を介して、ウェブページの質をより重要視していると見られている。公式のグーグルブログの複数のエントリでも、この点の説明が行われている:

グーグルがページ上のコンテンツの質を検索結果に表示するページを選ぶ一環として注目しているなら、ページの質をどのように計算しているのだろうか?

作成中の作品の質を計測

2005年から2009年にかけて、学者および業界の研究者達は、ウェブスパム、またはウェブ上の敵対的な情報検索に的を絞ったワークショップを毎年開催していた。このワークショップシリーズは、AIRウェブと呼ばれていた。

何らかの理由で2010年にはこのワークショップは開催されなかったが、インドのハイデラーバードで行われた20世紀国際ワールドワイドウェブ・カンファレンスでWICOW(ワークショップ・オン・インフォメーション・クレディビリティ・オン・ザ・ウェブ)とのジョイントセッションの中でAIRウェブは復活を遂げた。

2011年3月28日に行われたウェブの質に関するWICOW/AIRのジョイントウェブワークショップ(ウェブクオリティ 2011)では様々なトピックが取り上げられた。リストはワークショップのウェブサイトに掲載されている。次のテーマがメインのテーマおよびトピックに含まれていた:

コンテンツおよびウェブとソーシャルメディア上の人の信頼性を評価

  • ウェブコンテンツの質を計測
  • 偏ったコンテンツおよびバイアスのかかったコンテンツを見つける
  • 作者のアイデンティティ、信頼性、そして、評判のモデル化
  • グループおよびコミュニティの役割
  • マルチメディアコンテンツの信頼性

ウェブおよびソーシャルメディア上のスパム、荒らし、そして、盗用との戦い

  • ウェブスパムを削減
  • 電子メッセージシステムの濫用を削減
  • インターネット広告における濫用を検知
  • 盗用および複数のアイデンティティの問題を探し出す
  • ソーシャルネットワークでの協力を促す
  • オンラインコミュニケーションのセキュリティの問題

ワークショップのウェブページでは、多くの論文がリストアップされ、リンクが張られているものの、ワークショップの議題に記載されたトピックを全て網羅しているわけではない。リストアップされたトピックおよびサブトピックは、考慮する価値があり、そして、ウェブサイトを運営し、ソーシャルネットワーク等のサイトに参加しているなら、問題を提起する価値があると言えるだろう。

Googleの質のガイドライン

ウェブサイトの信頼性に関して是非参考にしてもらいたいリソースの一つが、スタンフォード・パスエイシブ・テクノロジーズラボが2002年に発表したスタンフォード・クレディビリティ・ガイドラインである。このガイドラインは、コンシューマー・レポーツ・ウェブウォッチと共同で行った調査「ウェブサイトの信頼性はどのように評価されるのか?」を基に策定されている。

このガイドライン、そして、ガイドラインの骨組みとなった調査にはそれぞれ大きな価値があるものの、共に10年近く前に作られたものであり、質よりも信頼性に焦点を絞っている。信頼性はウェブサイトの質にとって重要な局面だが、一連のウェブページの信頼性をユーザーがどのように判断するのかだけでは質を評価することは出来ない。

グーグルは、オンラインで見るアイテムの質を考慮する際に注目するポイントをグーグル自身のページで紹介している。その中には広告およびランディングページで注目する点が含まれ、そして、グーグルのランディングページおよびサイトの質に関するガイドラインは、たとえグーグルで広告を掲載していなくても、時間を割いて目を通す価値はある。この2つのガイドラインには次の3つの主なポイントが見受けられる:

  • 関連するコンテンツおよびオリジナルのコンテンツ
  • 透明性
  • ナビゲーション

グーグルのウェブマスターガイドラインにも、サイトを構築する際に考慮する価値がある点が掲載されており、「ガイドラインに従うことで、グーグルがサイトを見つけ、インデックスし、格付けする際に役立つ」と言うメッセージが含まれている。ウェブサイトで私が見つける問題の多くは、グーグルがこのページでリストアップしているガイドラインに注意していれば解決することが出来るはずだ。

数年前、私は「Googleがうっとうしい広告とページを拒絶する仕組み」を投稿し、検索エンジンがプログラムに沿って広告およびランディングページの質を評価する方法を説明する特許を紹介した。このエントリの中盤で、私は特許に目を通して思ったことを太字で強調していた:

このシステムが広告だけではなく、ウェブページのコンテンツ等、ウェブのその他のページを評価するために用いられる可能性はある。

パンダアップデートを介して、グーグルは広告に対して行っているような方法でウェブページの質を自動的に評価する方法を見出したように思える。

私は「大きなパンダでGooleを検索 決定木の発見」の中でパンダアップデートに関する見解を詳しく説明している。「グーグルはどのように“質”を決めているのか?」は、私が結論の中で提起した問題の一つであった。

グーグルのウェブマスターおよびランディングページのガイドラインには多くのヒントが記されている。また、質が高いと見られているサイトに注目して、その印象をどのように作り出しているのかを確認することも出来る。

信頼性および質に関するその他のリソース

しかし、このようなガイドラインに記載されている以上の取り組みを行い、そして、質の高いサイトと見られているサイトを真似する以外にも注目する価値のある取り組みは他にもあるはずである。そこで、私はその他のリソース、そして、信頼性と質に関する情報を探してみた。それでは、次に私が興味深いと感じたページを挙げていく:

結論

ウェブスパムの問題はいまだに解決されておらず、しばらくは解決されないだろう。しかし、検索エンジン(特にグーグル)は、多くのクエリの上位の結果に表示されるコンテンツの質について、最近多くの批判を受けている。

スパム対策は今でもグーグルの取り組みにおいて重要視されているように思えるが、グーグルはページを格付けする仕組みを拡大し、質のシグナルを考慮する方針を取っているようだ。

グーグルが考慮するシグナルの多くは、このエントリの冒頭で私が提示した疑問「そのサイトで提供されているページについて、どのぐらいの確率で、ビジターに信じてもらえるだろうか、さらに詳しい情報を知るために連絡を取ってもらえるだろうか」に対する答えを出す上で役に立つ可能性がある。


この記事は、SEO by the Seaに掲載された「Just What is Web Site Quality?」を翻訳した内容です。

答えるというよりは、Googleが持っている様々なサイトの品質判断を行う際の特許技術を紹介している内容でした。興味ある方はリンク先までじっくり読み込んでもらえばテクニカルなSEO手法に役立つ部分があるかもしれません。最もスパム的な手法は今後通用しなくなっていく一方ですし、スパム的な手法で上位表示させる労力とそのリスクを考えると、まっとうに良いコンテンツとサービスを提供してソーシャルで話題にして自然リンクを増やしてファンを増やしていく、、、という地道な作業を行っていく方が結果的には一番効率的だった、みたいな日がいつかくるのかもしれませんね。 — SEO Japan

投稿ナビゲーション