検索エンジンがウェブサイトのリンクの構造を分析する仕組み

批判的な内容の記事からのリンクがSEOに効果的か?という話題で盛り上がった先週ですが、今回は検索エンジンがサイトのリンク構造を分析する技術についてご紹介。 — SEO Japan

検索エンジンは、ウェブサイトのリンクの構造をどれだけ深く理解しているのだろうか?検索エンジンは、サイトのページに表示されている個別のリンク、そして、リンクのブロックを整理し、分類する手段を持っているのだろうか?

検索エンジンは、サイトの複数のページで見つけたリンクおよびリンクの集まりを、一つのページにしかないリンクおよびリンクの集まりとは異なる扱いをするのだろうか?もし検索エンジンが、ページの上部や下部で、同じリンクの大半を含むリンクのグループがページに複数存在することに気づくと、どのようにこれらのリンクに対処するのだろうか?

私は、これらのトピックの多くを取り上げた昨年夏のマイクロソフトの特許を発見した。あまり注目を集めなかった特許ではあるが、ここで詳細を確かめることにした。

セグメンテーションとリンクのブロック

2002年に発表された論文「SmartView: モバイル機器の強化された文書ビューワー(pdf)では、数名のマイクロソフトの研究者が、ウェブページが分析され、小さな論理的なセクションに分割され、携帯電話などの小さなデバイスで閲覧される仕組みを議論していた。これらの小さなセクションは、閲覧者によって選ばれ、ウェブページの他の部分とは独立して閲覧される可能性がある。この論文の著者の一人は、マイクロソフトの特許の発案者の名に上がっており、特許のなかでこの論文は、ウェブページがページの閲覧者にメリットを与える方法で分割される仕組みの例として取り上げられている。

この特許では、VIPS: ビジョンベースのページセグメンテーション・アルゴリズムと呼ばれる別のウェブページのセグメンテーションが言及されている。このプロセスを説明する論文は2003年に発表されたものであり、ページのHTMLを注目する手法に加え、余白のビジュアル面の調査、水平方向の罫線、そして、ページが異なる論理的なセクションに分割されている点を示唆するその他のウェブページのビジュアル面の要素が取り上げられている。

この特許では言及されていないものの、関連性がありそうなマイクロソフトの特許が存在する。この特許は、ページ上の異なるブロックのリンクがページで掲載されている場所によって異なる扱いを受ける点を説明している。それが、「ブロックレベルのリンク分析」であり、数あるアイデアの一つとして、ブロックレベルのページランクのアイデアを紹介している:

ブロックレベル・ページランク(BLPR)は基本的にはオリジナルのページランクのアルゴリズムに似ている。両者の大きな違いは、従来のページランクのアルゴリズムがページレベルでウェブの構造を分析する一方、BLPRはブロックレベルでウェブ構造を分析する点だ。

この論文、そして、その他のマイクロソフトが発表した論文では、リンクの異なるブロックがお互いにどのように関連するかに関してはあまり深く触れられていない。これらの論文は、サイト上のリンクがお互いにどのように関連しているかについて、そして、サイトのページがサイトのページの間のリンクに基づいてどのように整理されているかについても軽く触れる程度しか取り上げていない。しかし、サイトのリンクブロックに注目し、整理する取り組みは、有効な効果を生む可能性がある。

ページが、ヘッダー、フッター、サイドバー、メインのナビゲーションバー、メインのコンテンツエリア、広告ブロック等に分割されると、サイト全体のこれらのセグメントのリンク同士の関係が調査の対象になるだろう。

リンクの分類

リンクおよびリンクのブロックを分類するため、検索エンジンは、まず、個別のページのレイアウトを分析して、候補のリンクブロックを特定し、お互いにどのように関連しているかを確認する。この分析は、特許がリンクストラクチャーグラフ(LSG)と呼ぶグラフを作成するために実施される。

LSGを作成する目的は主に3つある:

ローカリティ – サイトのグローバルなリンクの構造を特定するため、そして、個別のページのローカルなリンク構造を特定するため。

完全性 – サイトの完全なリンクの構造を把握するため。サイト上のコンテンツを整理するために用いられるナビゲーションの構造および論理的な構造を含む。

ナビゲーションの構造は、一貫した、容易なリンクの配置であり、ビジターがサイトの異なる部分に向かうことが出来る点を考慮している。レベルの高いグローバルなナビゲーションの構造は、すべての(または大半の)サイトのページに表示されており、二次的な(そしてそれ以下のレベルの)ナビゲーションの構造もまた、ビジターがサイトの異なるページのセクションにナビゲートする上で役に立つ。

ナビゲーションのリンクに加え、サイトは、eコマースサイトの「ベストセラー」のリンクのリストやブログ上の「最も人気の高いエントリ」へのリンクのリスト等、構造的な要素へのリンクを持っている可能性がある。

拡張性 – このアルゴリズムは大きなウェブサイトでも小さなウェブサイトでも効率的に分析することが出来る。また、複数のページで表示されているリンクのブロックを確認し、他のページで見つけた際に新たなブロックとして扱うのではなく、お互いを関連させる。

なかには同じページの若干異なるセグメントで複数回にわたって表示されるリンクブロックもあり、これらのリンクブロックが結合している場合もある。例えば、同じ、または非常によく似たリンクのメニューがメインのナビゲーションエリア内の上部と底部、そして、フッターのナビゲーションエリアに掲載される可能性もある。

非常によく似たリンクのブロックが結合された後、“固有”と考えられる残りのリンクブロックの分類が行われる。分類はリンクブロックの機能に基づいて行われ、以下の3つのタイプの1つとして評されるだろう:

S-nodes – これらのリンクブロックは組織的およびナビゲーション的なリンクブロックであり、通常同じレイアウトでページ全体で繰り返され、サイトの編成を表示している。リンクのリストのことが多く、テキスト等その他の要素を含まない。これらのブロックは構造的なリンクブロック、またはS-nodesと呼ばれる。

C-nodes – これらのブロックはコンテンツのリンクブロックであり、同じトピックまたはサブトピックへの関連性等、コンテンツの関係の種類によってまとめられている。これらのブロックは通常情報のリソースに向けられることが多く、複数のページで繰り返されることはほとんどない。

I-nodes – これらのブロックは孤立したリンクであり、リンクグループの一部ではないページ上のリンクを指し、同じテキストのパラグラフの内部に共に現れている等の理由で、お互いに緩く関連している場合が多い。ページに表示される、S-nodesやC-nodesとして分類されないリンクはすべて、リンクの単一の集まりとしてみられ、I-nodesと分類される。ページ上のそれぞれのリンクは個別のI-nodeもしくは、ページごとにI-nodeとしてまとめられる可能性がある。

異なるウェブサイトで多数のページで確認すると、これらのページのリンクにおいて、この手の分類を行う作業があまり難しくない点に気づくだろう。

リンクを分類する理由

サイト上のリンクを分類する理由はいろいろある。ブロックレベルのリンク分析に関する論文は、異なるブロックのリンクには、ランキングにおける異なる価値が与えられると記載している。サイトのリンクの構造を理解することで、サイトの異なる部分が、小さな画面の携帯デバイスで表示される際にも役に立つ。しかし、他にもこの特許に掲載されているメリットが存在する:

1) 表示されているページに関連する可能性があるその他のページへ向かうリンクが、見つかりやすくなる。この特許はクイックリンクの使用には触れていないが、関連しているページに関する情報を提示し、サイトのこれらのページへのナビゲートが簡単になる点は認めている。これらはパーソナライゼーショのアプローチと併せて用いられ、個別のビジターの興味に合ったページを探すため、もしくは、検索結果で提供されているページに直接リンクが張られていないページに対して、ビジターがナビゲートする能力に基づいて提供される可能性がある。

2) 検索エンジンが集めた内部リンクの情報がサイトのオーナーに提供される。リンクの利用を最適化し、サイトのページ間の訪問に関するスタッツを見ることが出来るようにするためだ。

3) ウェブページの自動タグにおいてリンクの情報が役に立つ可能性がある。

例えば、「Cars」に関するページには、特定のブランドの自動車に関するカテゴリ、そして、特定のモデルに関するサブカテゴリ、さらに、車の部品に関する特定の製品ページが含まれているとする。このサイトのリンクの構造を理解すると、親ページの高位レベルのリンクのテキストが、下位レベルのページのタグ付けを支援するために用いられるようになる。そのため、カテゴリのページがアンカーテキスト「Ford」を使って向けられ、ブレーキパッドの製品ページへ向かうアンカーテキスト「mustang parts」を用いてサブカテゴリにリンクが張られている場合、ブレーキパッドのページは自動的に「Ford」と「mustang parts」でタグ付けされる。

4) 上述した自動タグと同じように、ページとページの間の内部リンクとアンカーテキストもサイトの概念階層を作るために用いることが出来る。そして、同様の概念を持つその他のサイトと比較することが可能になる。

先程の自動車の部品のサイトを例にとって考えると、自動車の部品を提供するサイトに関して、概念の階層を作成することが出来る。このサイトを同様の用語を利用する他のサイトと比較してみる。すると同様の概念の階層を持っていることが判明するだろう。その場合、これらのサイトは検索エンジンによって一つのグループとしてまとめられる可能性がある。

5) サイト上のリンク内のアンカーテキストは、サイドバー内、もしくは、サイトのリンクの構造を反映するサイトマップのようなアイテムの中で、閲覧者がサイトのページをナビゲートすることが出来るようにするため、提示される。

特許:

ウェブサイトの構造分析
考案: Natasa Milic-Frayling、Eduarda Mendes Rodrigues、Shashank Pandit
供与先: Microsoft
米国特許申請番号: 20080134015
付与日: 2008年6月5日
申請日: 2006年12月5日

概要

ウェブページのリンクのブロックを特定することで、ウェブサイトを表すグラフが作成される。それぞれのリンクのブロックは、グラフ内のノードによって表され、ノード間のつながりはページ同士のブロックの再利用に関する情報を提供する。

結論

私は、検索エンジンが、セングメンテーションプロセスを使って、サイトのリンクブロックを特定し、場合によってはブロックの一部をまとめ、そして、見つけたリンクブロックを分類する仕組みに関して、特許で描かれているプロセスを既に詳しく説明した。この特許は、これらのブロックを作成するにあたって、ブロックをまとめるにあたって、そして、分類するにあたって、検索エンジンが求める内容を細かく説明している。

また、リンクをリンクブロックに分割し、分類するメリットにも触れているが、検索エンジンが異なるリンクベースのランキングの票を異なる種類のリンクブロックで見つかったリンクに与える場合など、ここでは説明されていないメリットも存在するだろう。

この特許はさらに検索エンジンがページへの訪問者によるリンクの利用をモニタリングすることでサイト上のリンクに関して集められたデータを採用する仕組みも説明しているが、このアプローチのプロセスについては詳細を明らかにしていない。

この特許で描かれているプロセスはマイクロソフトが採用するプロセスであり、実際にマイクロソフトはこのようなプロセスをウェブページをインデックスする際に利用している可能性はある。また、その他のメジャーな検索エンジンもサイトの異なるリンクに対して同様の分析を行い、サイトのレイアウトに表示される場所、そして、提供する機能に基づいてリンクを分類していてもおかしくはない。

最後に、前回の「SEOの目録を作成」に関するエントリで、ロゴのリンクやメインのナビゲーションのリンク等、同じウェブサイトの別のページから特定のページへのリンクのタイプと位置をリストアップする「ナビゲーション・ロケーション」に関するコラムに触れた。リストアップされたページへのリンクに対して、このマイクロソフトの特許のなかで説明されているフレームワークの中で、どのような種類の分類がフィットするのかよく考えておきたいところだ。


この記事は、SEO by the Seaに掲載された「How a Search Engine Might Analyze the Linking Structure of a Web Site」を翻訳した内容です。

Bingの特許なので「日本じゃもう関係ない!」と思われるかもですが、アルゴリズム自体はなるほどと頷ける点もありますし、Googleも同種のリンク分析を行っている可能性もありますから(今無ければ今後)情報としてチェックはしておきたいですね。 — SEO Japan
Page Top

投稿ナビゲーション