検索エンジンが順位ランキングを格付けする10の方法

SEO by the SeaからSEOマニア涙ものの話題を。検索エンジンが持つ特許に基づき、検索エンジンが順位ランキングを決定する要素を厳選して10紹介。ユニバーサル検索からパーソナライゼーション、情報の重み付けまで検索アルゴリズム技術の総まとめ的な記事で、SEOはもちろん検索エンジンの仕組みを理解する上においてもかなり参考になります。 — SEO Japan

検索エンジンが検索結果を表示する際、表示されたページは、検索エンジンのランキングアルゴリズムを用いて、関連性と重要性を組み合わせた基準をベースに順序づけられている可能性が高い。

しかし、通常、検索エンジンは結果を並べる際にさらに一歩踏み込んでいる。検索エンジンは検索結果をフィルタリングし、順序を整理するため、その他の要素にも注目している可能性があるのだ。

2006年10月、私は「検索エンジンが検索結果の再格付けを行う20の方法」と言うタイトルのエントリを綴り、検索エンジンがページのランキングを再考するするために用いる可能性がある方法を挙げた。さらに、続編として2007年9月に「検索エンジンが検索結果の再格付けを行う別の20の方法」を投稿した。

それ以降、私は検索エンジンが表示する結果の順序を変える理由を説明する特許やホワイトペーパーやブログのエントリを何度も目にしてきた。そして、このシリーズの続編を再開する決断を下した。25個のアイテムがさらに脳裏に浮かんだが、そのうち10個を今回のエントリでは取り上げようと思う。

これから紹介するメソッドの大半は、検索エンジンの特許で説明されているものであり、特許の中には数年前に申請されたものもある。検索エンジンは、これらのメソッドを採用し、このような過去の特許のアイデアを現在のアルゴリズムに統合している可能性もあれば、別の新しいメソッドに切り替えている可能性もある。また、特許で説明されているプロセスを全く利用していない可能性も捨てきれない。

グーグルやヤフー!やビングが特許に記された特定のメソッドを利用しているかどうかを把握するよりも、検索エンジンがあれこれアプローチを考えてきた理由を理解する方がよっぽど重要である。

この点を理解することで、検索エンジンが検索結果のランキングを再考する際に異なるメソッドを利用する理由を把握し、特許の考案者やホワイトペーパーのライターが記した内容をリサーチする出発点をつかむことが出来る。さらに、検索エンジンが、検索、検索者、そして、ウェブを理解する上での仮説を嗅ぎわける能力を得ることが出来るだろう。

それでは、検索エンジンが検索結果のランキングをつけ直す際に利用する10通りの方法を紹介する:

1. 混合検索およびユニバーサル検索

ここ数年間、メジャーな検索エンジンの大半の検索の検索結果は、ウェブページへのリンクのリストによって制限されることが多かった。ニュースの結果やイメージを加える検索エンジンもあるが、検索結果のページの大半は、通称「10本の青いリンク」で構成されることが多かった。現在、地図、写真、つぶやき、ソーシャルネットワーク経由のブログのエントリ、そして、最新のニュースが表示されるようになり、ウェブページへの青いリンクの本数が10本を切ることもある。

グーグルがユニバーサル検索を2007年に立ち上げたのは、グーグルのその他の検索レポジトリから幅広い検索結果の選択肢を提示することが主な目的であった。地図、イメージ、ニュース、書籍、動画等、特別な検索結果を利用し、“真の総合的な検索エクスペリエンス”を提供するためだ。要するに、グーグルはオーガニックな検索結果に多くのユーザーを導いていたものの、グーグルの検索ボックスの上のタブをクリックして、より特別な種類のページを訪問する人は限られていた。

ユニバーサル検索の告知を行う前、グーグルは既にウェブの結果にウェブページではなく“文書”を結果の上部に提供する実験を行っていた。このプロセスはオーガニックな結果もしくは“ブレンディド”(混合)結果への「バーティカルクリープ」(バーティカル検索結果の浸透)と呼ばれることがあった。ユニバーサル検索のインターフェースに関するグーグルの特許は2003年に申請され、マリッサ・メイヤー氏が投稿したグーグルの公式なエントリでは、このアイデアが2001年のブレインストーミングのセッションで生まれたことが明らかにされていた。

2008年に公開された別のグーグルの特許は、このようなバーティカルな検索結果がメインのウェブ検索結果に挟み込まれる仕組みを描写していた。グーグルが、「ユニバーサル検索の舞台裏」と言う公式のブログのエントリで描かれているように、ウェブではない検索結果をページの上部以外の場所にも掲載していた可能性は高かった。

ウェブページではない検索結果を検索結果に挟み込むプロセスは、結果に表示されているウェブページの順位を変更するわけではないが、ウェブページの結果をページの下の方に押し下げるか、もしくは次のページに押し出す可能性がある。ヤフー!とマイクロソフトもまたウェブではない結果をウェブ検索に混合させている。

2. フレーズベースのインデックス

検索エンジンが皆さんのウェブページのコンテンツに注目し、そのページ内の言葉が意義深い“良い”フレーズもしくは意味のない“悪い”フレーズに合うかどうかを特定しようと試みている様子を想像してもらいたい。その後、ページに表示される良いフレーズのインデックスを作成し、誰かが検索を実施した際に、クエリに対する上位の結果の特定の数のページにどのフレーズが表示されているのか確認する。検索エンジンは次に“良い”フレーズが検索結果の中で幾つ同時に発生しているかを考慮し、このようなフレーズを多く持つページを重要視することで、検索結果のランクをつけ直す可能性がある。

これは、数多くのグーグルの特許に記されているように、検索結果の順位を変更するために利用される可能性があるフレーズベースのインデックスの1つの局面である。過去にも私はこの点や、グーグルが利用している可能性があるフレーズベースのインデックスシステムのその他の局面を説明するエントリを投稿してきた:

フレーズベースのインデックスを使ってランキングの再考にアプローチしているのはグーグルだけではない。次にこのプロセスに関してヤフー!が申請した特許に関するエントリを紹介する:

3. 時間ベースのデータおよびクエリのログ統計

検索を行う時、検索エンジンは検索に関する情報を集め、その情報を使って検索の裏にある意図を探り出そうと試みている可能性がある。先日公開されたヤフー!の特許は、検索エンジンがクエリのログを見て、検索に対する時間ベースの特徴があるかどうかを確認する仕組みを説明していた。実施した検索に対して過去に数多く関連するクエリが存在する場合、クエリに関係する時間、例えば“年”が存在するか確かめるのだ。例えば、誰かが“ワールドカップ”を検索すると、今年は「ワールドカップ 2010」に関する情報を表示する検索結果が上位に掲載されるだろう。

このプロセスは、ログファイル内に年やその他の期間を示唆するクエリが豊富にある点を見ることで、もしくは、検索者のクエリのセッションを確認し、彼らが検索中に時間ベースの用語を含め、検索を調整しているかどうかを確認することで(もしくは両方を行うことで)、クエリが時間ベースの特徴を持っているかどうかを特定する試みを行う。この分析がこのような時間ベースの要素を示唆しているとするなら、検索エンジンは検索結果の順位を入れ替え、「ワールドカップ2010」等の時間に関する用語を含む結果を「ワールドカップ」に対する結果よりも引き上げている可能性がある。

4. ナビゲーショナル・クエリ

検索の中には「ナビゲーショナル」になる傾向がある検索もある。ナビゲーショナルな検索では、クエリを入力する人物は、利用する用語に関する情報を求めているのではなく、検索エンジンをURLを知っている特定のページ、もしくは知らない特定のページに辿りつくための近道として利用している。 例えば、私はESPNのページを訪問するために、「ESPN」とツールバーの検索ボックスに入力ている(グーグルのツールバー、ヤフー!のツールバー、ビングのツールバー)。検索エンジンはこのような類のナビゲーショナルなクエリに合う数多くのページを特定しており、この類のページがこの用語に対する検索の上位にリストアップされる傾向がある。

どのページがナビゲーショナルクエリにとって最高の結果になる傾向があるのだろうか?以下にナビゲーショナルクエリに対応する「最高」のページを決める各種の方法に関する私のエントリを紹介しよう:

検索結果でリストアップされたページを評価する方法を説明するため、ヤフー!とグーグルの研究者が共同で綴ったホワイトペーパー、等級がつけられた関連性に対する予期された相互のランク(pdf)には、「完璧な等級は通常ナビゲーショナルクエリの目的地のページにのみ与えられる」と記されている。

検索結果は、特定のクエリに対して理想的な目的のページ(もしくは完璧なページ)が存在し、そのクエリがナビゲーショナルクエリと考えられる場合、ある特定のページを検索結果の上位に掲載するため、順序の入れ替えが行われる可能性がある。

5. クリックおよびクエリログのパターン

クエリログを調べている検索エンジンは、人々がクエリのセッションで、そして、このような検索を行う際にクリックするリンクを選ぶ際に利用するクエリの用語に関連するパターンを見つける可能性がある。グーグルの特許「ランキングを調整したコンテンツのアイテム」の要約は以下のように説明している:

クリックログおよびクエリログを処理し、統計的な検索パターンを特定する。検索セッションを統計的な検索パターンと比較する。検索セッションのクエリに応答するコンテンツのアイテムが特定され、コンテンツのアイテムのランキングがその比較によって調整される。

例えば、多くの人々がまず「シボレー キャブレター」、次に「シボレー キャブレター 修理キット」を検索し、さらに「クラシック シェビー キャブレター キット」を検索し、「http://www.example.com/classic-chevrolet-carborators.html」を選んだとしよう。他の誰かが全く同じ、もしくはほとんど同じクエリをクエリセッションで検索すると、「http://www.example.com/classic-chevrolet-carborators.html」のページが当該の検索者の検索結果で上位に押し上げられる可能性がある。

6. GoogleのトラストランクおよびYahoo!のデュアルトラストランク

2004年、ヤフー!のホワイトペーパーが公開された。このホワイトペーパーは、検索エンジンが異なるページがお互いにどのようにリンクを張っているかを見ることでウェブスパムを特定する試みを行う仕組みを描いていた。多くの人々が誤ってグーグルが作成したものだと勘違いしていたが、同時期にグーグルが「トラストランク」を商標化する取り組みを行っていたことが要因と言えるだろう。しかし、グーグルの意図は異なっていた。

驚くことに、グーグルは2009年にトラストランクと呼ばれる仕組みに関する特許を付与されていた。しかし、この特許のコンセプトはヤフー!のトラストランクとは異なっていた。異なるサイトがお互いにリンクを張る仕組みに着目するのではなく、グーグルのトラストランクは、“文書に対してラベルを提供した実体に関連する信頼性の評価に応じてページを格付けする”ことで機能するのだ。

グーグルは、オリジナルの検索エンジンを作成しているユーザーに、“ラベル”をページに、さらに、注釈をグーグルのサイドウィキのようにその他の場所に適応することが出来るようにしている。興味深いことに、ヤフー!もトラストランクのコンセプトにソーシャル的な局面を加え、ページに関連する注釈およびユーザーの行動のシグナルを、トラストランクのスコアと組み合わせて着目することで、デュアル・トラストランクと彼らが呼ぶ仕組みを考案している。

グーグルのトラストランクもヤフー!のデュアルトラストランクも検索結果のウェブページのランキングを再調整するために利用されるアプローチである。

グーグルのソーシャル検索にもこの類のアプローチは反映されているのだろうか?

7. 過去の関連するクエリを基にしたカスタマイゼーション

検索した用語が次回の検索をする際に関連していると見なされると影響を及ぼす可能性がある。少なくとも、グーグルの特許「関連するクエリを用いて検索のランキングを改善するためのメソッドおよびシステムにはそのように記されている。

皆さんも、検索結果の上部にグーグルが掲載する検索結果をロケーションもしくは過去のクエリに基づいてカスタマイズしたことを伝えるメッセージを見たことがあるのではないだろうか。私はこの特許のプロセスを「検索者のクエリがカスタマイズ指向のグーグルの検索結果に影響を与える仕組み」の中で説明した。この特許は、これらの過去の関連するクエリの用語を基礎としたカスタマイゼーションが、検索結果に表示される結果に影響を与えるメカニズムを考える上で役に立つ可能性がある。

この特許はグーグルがクエリを別のクエリと関連していると考慮する理由を挙げている。その理由を以下に掲載する:

  • ユーザーが過去に連続してクエリを入力している(単発もしくは複数回)
  • ユーザーが特定の期間(例えば30分)にクエリを入力している
  • スペルミスの関係
  • 数字的な関係
  • 数学的な関係
  • 翻訳的な関係
  • 同義語、反義語、頭字語、あるいはその他の人間が考案した、または、人間が指定した関係
  • コンピューターまたはアルゴリズムが定義した関係

8. ブログにリンクを張っている場合

マイクロソフトの特許、「ブログ内のハイパーリンクを使ったランキングメソッド」は、「ページランク」がブログによってリンクを張られているページにより多く流れる可能性がある仕組みを説明している。この特許は、検索エンジンがブログのサイト、そして、ブログではないサイトを区別する仕組みを入念に明らかにしている。

私はこのアプローチを「検索エンジンはブログを愛しているのか?マイクロソフトがブログがリンクを張ったページのページランクを上げるアルゴリズムを研究」の中で説明した。なぜブログなのだろうか?この特許の考案者は、ブログは:

「頻繁に更新され、個人的になることなく、より多くの情報を含む可能性があり、また、スパムに汚染されていない」

傾向があると述べている。

このアプローチは数多くのページでテストされたらしいが、「スパムブログ」がウェブ上に浸透しつつあるため、若干価値を失う可能性がある。

このメソッドは数年前よりも価値が下がってしまったと言わざるを得ない。また、アプローチの裏側にある価値が時間を経て変わる仕組みを説明する再格付けのメソッドを少なくとも1つは組み込んでもらいたかった。

9. リンクを張るドメインの年齢

ドメインの年齢または「成熟度」は、検索結果でウェブページの格付けを行う際に考慮される可能性はあるが、マイクロソフトの特許、「ドメインの成熟度を用いてドメインをランク付け」は、別のドメインにリンクを張っているドメインの年齢に着目することで、ドメインの年齢を使って、ランキングを決める異なる方法を描いている。

ウェブに登場したばかりのサイトではなく、長寿のサイトにリンクを張っているページは高いランクを得る可能性がある。この特許は、ドメインの“成熟度”が、当該のドメインが終了していたり、持ち主が変わっていたりする場合は、リセットされる可能性がある点を明記している。

10. 検索結果の多様化

2007年のニューヨークタイムズの記事、「検索エンジンを常に調整するGoogle」は、検索者が検索結果でより新鮮なページを求めているとき、そして、古いページを求めているときを理解しようと試みる、「Query Deserves Freshness」(QDF: クエリは新鮮さを優先)のコンセプトを紹介している。これは検索エンジンがランキングを格付けし直す理由の一つに含まれる重要なトピックではあるものの、「検索エンジンは、検索者にクエリが複数の意味を持つ可能性がある場合、検索者に多様な結果を提供するため、Query Deserves Diversity(話題の多様性の優先)アルゴリズムに従おうとするのか?」と言う新たな興味深い疑問をもたらす。

従う可能性は高い。誰かが「java」のような用語を検索する際、その人はJavaプログラミング言語を学ぼうとしているのかもしれないが、ジャバ島に関する情報を求めている可能性もある。「java」に対する検索で浮上する最も関連があり、最も重要なページを表示することは簡単だが、上位の結果にプログラム言語に関するページのみ、島に関するページのみ、もしくは飲料に関するページのみが表示されていれば、がっかりする人も出てくるだろう。

マイクロソフトの特許、検索結果を多様化し、検索およびパーソナライゼーションを改善は、検索エンジンがクエリの結果を多様化する際に着目する数多くの要素をリストアップしている。

この特許に関しては「検索結果をパーソナライゼーションおよび多様化をベースに再びランク付け」で説明したが、表示する検索結果を多様化させる際にグーグルとヤフー!も同様の要素を見ている可能性がある。


この記事は、SEO by the Seaに掲載された「Another 10 Ways Search Engines May Rerank Search Results」を翻訳した内容です。

情報量に圧倒されますが、1つ1つを見ると普段何気なく利用している検索エンジンの検索結果いかに複雑な技術によって表示されているのかが分かりますね。ソーシャル時代にこの種の技術がどう活用されていくかも気になります。もちろんもっと新しい技術も開発されていくのでしょうが。しかしここまで様々な研究を行っている一方、いまだに一部のスパム的手法に翻弄され続けている点は何故なのでしょうか。どの検索エンジンが特にとはいいませんが。もちろん、特許技術が全て完全に実装されているわけではないでしょうし、それはそれで相当な技術的な課題もあるのでしょうけど。いずれにしても検索エンジンやSEOの未来を知る上でも久々の濃い記事でした。 — SEO Japan
Page Top

投稿ナビゲーション