SEOの最重要特許ベスト10 その2 – 履歴データとその子孫たち

  • ????????????????????
SEO by the Seaの「SEOに関する十四特許ベスト10」シリーズ記事より、第二弾を。一回目は誰でも知っているページランクについて改めて解説をした入門編記事でしたが、今回はいきなりディープな話に突入。長文かつ難解な部分もありますが、じっくり読めばあなたの検索エンジンの理解度がアップすること間違いなし。 — SEO Japan

私はSEOの取り組みに役立つ検索エンジン関係の特許やホワイトペーパー、そして、その他の主要なソースを見るのが大好きだ。このトピックを5年以上取り上げており、現在、私が学んだことの一部を皆さんと分かち合うため、重要なSEOの特許 ベスト 10シリーズの作成に取り掛かっている。SEOの特許ではないが、私はSEOについてもっと学びたい人には、グーグルやマイクロソフトやヤフー!等が申請した特許を調査し、学習することを薦める。

10名の非常に博識な検索エンジニアを集め、ホワイトボードで埋め尽くされた部屋に数日間閉じ込め、検索結果で古いコンテンツやウェブスパムが上位に格付けされるのを制限する方法を考えてもらう光景を想像してもらいたい。ウェブサイトに「時間の経過とともに現れる変化の特徴と規模」に焦点を絞った方法を考案して欲しいとさらに難問を加えておく。そして、ブレインストーミング後のホワイトボードに描かれたアイデアを集め、特許にまとめる。

その結果は、グーグルの特許「履歴のデータに基づいた情報検索」のような特許になるのではないだろうか。この特許が審査および認可を待つ承認待ちの特許として初めて公表された2005年3月31日、SEOコミュニティは大騒ぎした。フォーラムやブログのエントリとして現れた多くのリアクションの一部を以下に紹介する:

この特許は現在も影響を与え続けており、先日行われた新鮮さのアップデートに関与している可能性が高い。このアップデートは、ページのコンテンツが変わり、このページに向かうアンカーテキストがマッチしない場合、グーグルが、購入され、リンクがページに加えられ、そして、ページのトピックが変わる等の特徴が見られるドアウェイページと見なすかどうかで、サイトのランキングに影響を与えると見られている。また、この特許によってSEOの誤解が幾つか生じ、フォーラムやブログのエントリ等で取り上げられていた。サイトがウェブスパムか否かのサインとしてグーグルが登録されたドメイン名の長さに注目していると言う主張もその一つである。

私は履歴データの特許が公表されてから、以下のように、最近の投稿を含む、複数の投稿でこの特許、または、この特許の子孫の一つを取り上げてきた:

この特許には子孫がいると先程申し上げた。恐らく、この特許はあまりにも範囲が広く、様々な方向に多くの主張が散らばってしまったため、グーグルは、このオリジナルの特許で取り上げられていた内容を一部に絞った多くの後続の「部分的」な特許を申請したのだろう。この続きの特許の多くは同じ名前であり、説明のセクションも変化はないが、リストアップされている特許の請求範囲は異なる。アップデート版の特許の幾つかは、グーグルが11月の上旬に行った新鮮さを重視したアップデートにおいて重要な役割を果たしていた可能性がある。

それでは、履歴データの特許から生まれた特許を紹介していく。その多くは同じ名前で再び申請されているものの、請求範囲が大幅に変わっている点に注意してもらいたい。その他の特許は、請求範囲の大半が何らかの理由で取り消されている。概要が変わっていない場合は、一度しか掲載しない。

リンクベースの基準

リンクベースの基準に基づいた文書のスコアリング(米国特許申請番号 20110022605)

概要:

このメソッドには、文書および文書の初期のスコアを受け取り、文書へ向かうリンクのペースや質が時間の経過とともに減少しているかどうかを特定し、この特定に応じて当該の文書を新鮮ではないと識別し、文書の初期のスコアを下げ、スコアをアップデートし、そして、少なくともその他の1つの文書に関して、少なくとも部分的にこのスコアに応じて格付けを行う手法が含まれる可能性がある。

リンクベースの基準に基づいた文書のスコアリング 米国特許申請番号 (20070094255)

概要

このシステムは、文書に向かうリンクの時間的に変化する特徴を特定し、少なくとも一部において当該の文書に向かうリンクの時間的に変化する特徴に応じてスコアを生成し、そして、少なくとも一部において、当該のスコアに基づいてその他の少なくとも一部の文書に関して当該の格付けを行う可能性がある。

クエリ分析

クエリ分析に基づいた文書のスコアリング(米国特許申請番号 20070088692)

概要

文書が一連の検索結果に含まれる際に選ばれる文書の範囲を特定し、文書が一連の検索結果に含まれる際に少なくとも一部において当該の文書の範囲を基に文書にスコアを生成し、そして、少なくとも一部においてスコアを基に少なくともその他の一つの文書に関して格付けを行う可能性があるシステムである。

文書の新鮮さ

文書の新鮮さを特定するシステムおよびメソッド (米国特許申請番号 20050144193)
文書の新鮮さを特定するシステムおよびメソッド (米国特許申請番号 20100325114)

概要

1つ目の文書の新鮮さを特定するシステム。このシステムは、新鮮さの特徴が最初の文書と関連しているかどうかを判定する。このシステムは、この判定を基に、1つ目の文書に向かうリンクをそれぞれ含む2つ目以降の一連の文書を特定する。このシステムは、2つ目以降の一連の文書のそれぞれの文書に関連する新鮮さの特徴、もしくは、1つ目の文書に関連する新鮮さの特徴を基に新鮮さのスコアを1つ目の文書に割り当てる。

文書のリリースの日付

文書のリリースの日付に応じた文書のスコアリング (米国特許番号 7,840,572)
文書のリリースの日付に応じた文書のスコアリング (米国特許申請番号 20110029542)

概要:

このシステムは、文書に関連する文書のリリースの日付を特定し、少なくとも一部において文書のリリースの日付を基に文書にスコアを生成し、そして、少なくとも一部においてスコアに基づきその他の少なくとも1つの文書に関して文書の格付けを行う可能性がある。

文書のコンテンツのアップデート

文書のコンテンツのアップデートに基づいた文書のスコアリング (米国特許申請番号 20070100817)
文書のコンテンツのアップデートに基づいた文書のスコアリング (米国特許申請番号 2011025818)

文書のコンテンツのアップデートに基づいた文書のスコアリング (米国特許申請番号 20110264671)

概要

このシステムは、文書のコンテンツが時間の経過とともにどのように変わっているのかに関する評価を特定し、少なくとも一部において文書のコンテンツが時間の経過とともにどのように変化しているのかの評価に基づいて文書にスコアを生成し、そして、少なくとも一部において当該のスコアに応じて少なくともその他の1つの文書に関して文書の格付けを行う可能性がある。

オリジナルの暫定的な履歴データの特許申請

私は付与済みの履歴データの特許に続く新しい複数の特許をブログで取り上げてきた。しかし、この投稿のリサーチを実施している際、米国特許商標局(USPTO)の特許申請書情報検索データベースでこの特許のオリジナルの申請書を見つけた。私の知る限り、この特許はウェブでは公開されていないはずである。履歴データの特許はこの点について次のように説明している:

この特許申請書は、2003年9月30日に申請された米国仮出願番号 60/507,617をベースとした35 U.S.C. .sctn. 119の優先権を主張する。この特許の情報は、参照情報として本書に含まれる

この暫定的な特許申請書にも専門的な用語が数多く登場しているが、公開し、ここで共有する価値はあると思う。様々な意味で付与された特許よりも読みやすく、付与済みの特許よりも明確な見解を得ることが出来るだろう。

この特許、そして、私が取り上げているその他の付与済みの特許および審査中の特許の要素が必ずしもグーグルによって利用されているとは限らないが、2003年9月30日、特許を出願した際のエンジニア達の考えていること、そして、今でも利用されている可能性がある多数のメソッドを垣間見ることが出来るだろう。

以下を読み進めていく際は、グーグルが2003年から大きく変化を遂げている点、この特許から生まれた子孫の特許がごく最近を含み、多数の変更を加えている点、この特許申請書の一部をグーグルは一度も実用化していない可能性がある点、そして、米国特許商標局によって認可されたバージョンはこのオリジナルの暫定的な特許の申請書とは様々な部分で異なる点を心の片隅に置いておいてもらいたい。

特許申請
整理番号: 025.0377.US.PRO
クライアント整理番号: GP-153-00-US

米国特許商標局

暫定特許申請

履歴情報に基づいた情報検索

発明者: Anurag Acharya、Matt Cutts、Jeffrey Dean、Paul Haahr、Monika Henzinger、Urs Hoelzle、Steve Lawrence、Karl Pfleger、Olean Sercinoglu、Simon Tong

背景

発明の属する分野

本発明は検索エンジンの分野、より具体的に言うと、検索エンジンが一時的な情報を使って、(潜在的な)検索結果の関連性を評価するためのメソッドおよびシステムである。

発明の背景

ワールドワイドウェブ(ウェブ)等、大量の文書を情報を求めて検索するメカニズムの改善は、徐々に注目を集め、リサーチが行われる分野になりつつある。これは例えばウェブに対するコンピュータのユーザー、サービス、そして、アプリケーションの数、そして、当然ながら、ウェブやその他のデータベースに加えられる情報の量が増え続けているためである。

検索エンジンは、ウェブユーザーが情報を求めてウェブを検索するために用いるメカニズムとして浸透している。ウェブを検索するエンジンを含む現代の検索エンジンは、通常、クロールされた文書を文書のコーパスとしてインデックスし、ユーザーのクエリに応じてこの文書を検索する。

検索エンジンの基本的な機能には、ユーザーから検索クエリを受信し(求める情報を描写する1つもしくは複数の検索用語、または“キーワード”)、その後、ユーザーに対して1つまたは複数の関連する結果を生成する機能がある。典型的な検索エンジンはクエリに依存する手法を用いて、主にクエリ内の文字、単語、またはフレーズと予め格納されている文書のコーパス内の文字、単語、またはフレーズとマッチングさせることで検索結果を生成している。この類の検索の手法は、1つもしくは複数の検索用語が掲載されている頻度、場所、形式等の要素に応じて、格付けを行い、整理し、そして、ユーザーに対して、通常は関連性に応じて並べられたハイパーリンクのリストとして、検索結果を返す。

検索エンジンは、ユーザーのクエリに対して、ユーザーに最も関連する結果を出来るだけ早く返すのが理想である。しかし、クエリのみに依存する“文書内”検索の手法(クエリ内の用語と文書内の用語のマッチの度合いに完全に左右される)は、多数の欠点の影響を受け、関連性の低い文書が上位の結果に含まれてしまうことがよくある。例えば、検索用語を特に重要視される場所、そして、形式で含むことで、検索エンジンが「スパム」される可能性がある(URLやタイトル、太字/大きなフォント等)。場合によっては、このような用語は文書の実際の内容とは全く関係がないにも関わらず、検索エンジンが返す格付けされた結果で上位に掲載してもらうために文書をスパムする行為が行わると考えられる。

そのため、そして、その他の理由を鑑み、クエリに依存する情報検索(IR)以外の基準を認める検索エンジンが開発されている。「大規模なハイパーテクスチュアルな検索エンジンを分解」と題された論文(著: セルゲイ・ブリンおよびラリー・ペイジ)の中で提案されている検索エンジンは、このタイプの検索エンジンの一つの例である(また、ラリー・ペイジに2001年9月4日に付与された米国特許番号 6,285, 99も参照してもらいたい)。ブリンおよびその他の著者は、“文書外”の要素、その中でもとりわけ文書への/からのリンクを分析して、リンクの質/量の面で優れた文書はさらに重要度が高く、その重要度に基づいてスコアがつけられるべきだと言う考えを前提として、当該の文書のスコアをつけると提唱している。このタイプのランキングの構想は、与えられたクエリに依存することなく、そして、事実、クエリを受ける前に検索エンジンが実施することが可能であるため、全体的な検索の質はより単純な検索の手法よりも大幅に上回る可能性がある。

それでも、文書外のスコアリングの基準を採用する高度な検索エンジンであっても、場合によっては望ましくない結果を生成することもあり得る。例えば、ブリンおよびその他の著者が提案する検索エンジンは、検索エンジンにとって文書がより重要に見えるように工夫し、その結果文書のランキングのスコアを上げるために、大量に生成された“人為的”もしくは“スパム化された”リンクの影響を受けやすい。また、リンクの数は少ないものの、実際にはクエリにより関連している更に“新鮮”な文書が存在するにも関わらず、“古い”文書が、長期間に渡って存在するために多くのリンクを獲得しており、その結果、検索エンジンによって比較的上位に格付けされるケースもある。

そのため、検索エンジンが生成する結果の質を改善する余地は残されている。

図の簡単な説明(注記: 特許申請書のイメージはあまり役に立つとは思えなかったので、ここでは割愛させてもらった)

図 1は、本発明の一実施形態に従い、一時的な情報を利用して、検索に対して文書にスコアを与えるメソッドの図である。

図 2は、本発明で一貫するコンセプトが採用される可能性のある典型的なシステムを描いている。

発明の要約

本発明は、1つまたは複数の文書および/または検索に対するクエリの履歴(情報の特徴や時間の経過による変化の程度等)情報を利用して、1つまたは複数の文書にランクを与えるメソッドおよびシステムを描いている。この文書は、ローカル(クライアントのコンピュータシステムで)で、および/または、ネットワークを介して(インターネット、イントラネット等)、保管および/または検索される可能性がある。

詳しい説明

本発明は、ウェブ、またはその他のサイテーション、もしくは、ハイパーメディアベースのデータベース等、リンクが張られた文書を含む可能性がある文書のデータベースを検索するため、検索エンジンが生成する検索結果の質を改善するためのメソッドおよびシステムを提供する。本発明の一領域に従い、1つもしくは複数の文書の関連性を評価するために、時間で変化する文書に関連する情報の時間/頻度/形式/程度等の時間の情報が用いられる。本発明の別の領域に従い、文書の関連性を格付けするためにその他の基準が用いられる可能性もある。

発明の一領域の概要 – 時間ベースのスコアリング

図 1は、本発明の一実施形態に従い、検索に対して時間的な情報を使ってスコアリングを行うメソッドのフローチャートである。

ブロック102で検索エンジンは文書に関連する時間の情報を引き出す。ここで文書とは広範に解釈され、機械が読解可能且つ機械が格納可能な作品を全て含む。文書は、eメール、ファイル、ファイルの組み合わせ、その他のファイルへ向かうリンクが埋め込まれた1つまたは複数のファイルの可能性もある。インターネットと言う背景においては、通常、文書は、HTML、PDF、あるいはその他の典型的なウェブ文書の形式で綴られたウェブページ、もしくは関連するウェブサイトを意味する。ウェブページは1つもしくは複数のタイプのコンテンツを含み、埋め込まれた情報(メタ情報、ハイパーリンク等)および/または埋め込まれたインストラクション(Javascript等)を含む可能性がある。

ブロック 104では、情報に基づく時間に応じて、検索エンジンは文書にスコアを与える。一実施形態では、スコアは検索の作用に対して文書を格付けするために用いられる(その他の文書との関係)。

本発明が実装されいている検索エンジンは、1つの新しい時間ベースの要素またはその組み合わせを考慮し、文書に対するスコアを導き出す可能性がある。この要素には次の情報が含まれる可能性があるが、それに限るわけではない:

1. 文書のリリースの日付

本発明の一実施形態では、文書にスコアを付けるため、文書がリリースされた日付を含む、1つもしくは複数の時間の一連の基準が用いられている。本発明は、“偏った”ソースによって提供された文書のリリースの日付を考慮する可能性はあるが、例えば、常に最新の状態に保つため、リリースの日付は更新される可能性があり、以下で説明しているようにリリースの日付のその他の目安が、本発明の1つまたは複数の実施形態で用いられる可能性はある。

本発明の一実施形態では、文書のリリースの日時は、検索エンジンが当該の文書を初めて把握、もしくはインデックスした日とされる。“日付”と言う用語は、ここでは幅広い意味で用いられ、時間および日付の期間を含む可能性がある。検索エンジンは、クロール、“外部”のソースによる検索エンジンへの投稿(もしくは提示/まとめ)、クロールまたは投稿ベースのインデックスの手法の組み合わせ等を通じて文書を発見する。

別の実施形態では、リリースの日付の間接的な計測値が用いられると見られる。例えば一実施形態では、関連するドメインが登録された日付が、リリースの日付の目安として採用されることもあり得る。

別の実施形態では、文書が、新しい記事、ニュースグループ、メーリングリスト、もしくは、1つもしくは複数のこのような文書の組み合わせ等の別の文書で初めて言及された日付が、リリースの日付を推測するために用いられることも考えられる。

また別の実施形態では、検索エンジンが文書へのリンクを初めて見つけた日付が、文書のリリースの日付を特定するために用いられる可能性がある。

一実施形態では、文書のリリースの日付は、文書のリンクベースのスコアリングに用いられると考えられている。この実施形態では、本発明は、リリースの日付が極めて新しいものの、多数のリンクが存在する場合(その他の文書等から)、多くのリンクが同じく存在する遥かに古い文書よりも重要であると推測する可能性がある。例えば、10本のリンクが既に存在する昨日作成された文書は、100本のリンクを持つもののリリースの日付が10年前の文書よりも重要だと考えられる。前者のリンクの増加率は比較的高いためだ。しかし、後ほど説明する通り、本発明の一領域に従い、通常検索エンジンが文書にスコアを付けるために用いる要素において、リンクの本数等、増加率が急激に上がると、検索エンジンをスパムするシグナルと考えられる。そのため、検索エンジンは、スパムを阻止するため、このような状況においては文書のスコアを下げる可能性がある点を理解してもらいたい。

従って、本発明の一実施形態では、検索エンジンは、文書へ向かうリンクが作成される早さを特定するため、リリースの日付を用いる可能性がある(文書のリリースの日付以降にリンクが作成された本数の時間に基づく平均のリンク1本あたりの時間、または当該の期間内の時間帯)。この早さは、例えば、リンクがより頻繁に生成される文書にはより重みを加える等、文書にスコアを与えるために用いられることも考えられる。

一実施形態では、リンクベースの検索エンジンにおいて、文書のスコアリングの調整は、以下の式を解決することで達成される:

H = L/log (F+2),

Hは履歴を調整したリンクスコア、Lは文書に与えられたリンクスコア、これは文書への/からのリンクに基づき文書にスコアを与えるあらゆる既知のリンクスコアリングの手法(ブリンおよびその他の著者が先程言及した記事で説明している手法等)で導き出すことが可能であり、そして、Fは文書に関連するリリースの日付から計算された経過時間を示す。

2. コンテンツのアップデート/変更

本発明の一実施形態では、文書にスコアを付けるために用いられる一連の1つまたは複数の時間の基準は、文書のコンテンツの時間とともに発生する変化を鑑みる可能性がある。一実施形態では、コンテンツが頻繁に編集される文書は、時間が経過しても変わらない文書とは異なる仕組みでスコアが与えられる可能性がある。一実施形態では、時間の経過とともにアップデートされるコンテンツを多く抱える文書は、時間とともにアップデートされるコンテンツが少ない文書よりも高い評価が与えられることもあり得る。

一実施形態では、コンテンツのアップデートスコア、Uは、アップデートの頻度スコアのUF、そして、アップデートの量スコアのUAに応じて決定される:

U = f {UF, UA)

一実施形態では、UFは文書がアップデートされる頻度を表し、このスコアは、アップデート間の(平均)時間、もしくは既定の期間内のアップデートの回数等、様々な方法で決定されると考えられる。

さらに、ここで描かれているこれらの基準やその他の時間的な基準を用いて、現在の期間内の変化の早さは、別の期間の変化の早さ(前回等)と比較され、例えば、加速傾向もしくは減速傾向が見られるかどうかを特定する試みが行われることもあり得る。変化の早さが高まっている文書は、その早さが比較的高いレベルなら、変化の早さが変わらない文書よりも、高いスコアが付けられると考えられる。

アップデートの量スコア、UAは、時間と共に変化した文書の量(ウェブページ、ウェブサイト等)を表す。このスコアは、(1) 時間の経過ともに加えられた“新しい”もしくは固有のページの数、(2) 一定の期間内に時間の経過とともに加わった新しいページまたは固有のページの数と当該のサイトの全てのページの数の比率 (3) 文書が1つまたは複数の期間内にアップデートされる(平均の)量(ウェブページの閲覧可能なコンテンツのn%が期間tの間に変化する等)を含むが、これらに制限されるわけではない、1つもしくは複数の方法で導き出される。一実施形態では、UAは(1)、(2)、変化の1ヵ月の平均の量、そして、最近n日間の変化の量に応じて算出されている。

一実施形態では、UAは、文書のコンテンツの異なる重みが付けられた部分に応じて算出されると推測される。例えば、一実施形態では、Javascript、コメント、広告、ナビゲーションの要素、ボイラープレート、もしくは日付/時間のタグ等のコンテンツへの変更は、UAを特定する際には、あまり重要視されない、もしくは完全に無視される可能性がある。一実施形態では、日付、時間、もしくは、文書内のコンテンツと特定されたコンテンツは全て無視される。一方、アップデートされたコンテンツが重要だと見なされると(より頻繁に、より新しく、より広範囲に渡って等)、UAを特定する際に、より多くの重みが付けられる可能性がある。例えば、本発明の一実施形態では、タイトル、または文書の外部へ向かうアンカーテキスト内への変更は、その他のテキスト内に加えられる変更よりも重要視されている。

文書に対するコンテンツの変更をモニタリングする際、データを保存するリソースを効率よく管理するため、本発明の一実施形態では、検索エンジンのシステムは、文書のコンテンツへの変更点を検知するため、文書自体(全体)の代わりに文書の“特徴”を保存し、利用する。一実施形態では、ウェブページ等の文書の期間のベクトルが保存され、比較的大きな変更に対してモニタリングされている。別の実施形態では、重要視された、もしくは最も頻繁に起きていると見なされた(ストップワードは除く)文書の比較的小さな部分が保存され、モニタリングの対象になる可能性がある。しかし、別の実施形態では、文書の概要もしくはその他の描写が維持され、加えられる変更点へのモニタリングが行われると考えられる。一実施形態では、例えばほぼ重複するコンテンツを検知するsimhashが、算定され、変化に対するモニタリングに用いられると推測される。simhash内の比較的小さな変更であっても、検索エンジンは、その関連する文書において比較的大きな変更である点を示唆すると考える可能性があるためだ。当然ながら、このような手法は本発明の様々な実施形態で実装されている可能性がある。例えば、適切なデータの保存のリソースが存在する場合、ここで描かれている手法の1つもしくは複数が実施される可能性がある。

繰り返すが、上述の手法を用いて、文書のコンテンツの様々な部分に異なる重みが与えられることもあり得る。

3. クエリ分析

本発明の一実施形態では、1つまたは複数のクエリベースの要素は、クエリに関連する文書にスコアを付けるために利用されると推測される。例えば、本発明の実施形態で利用されるとみられるクエリベースの要素は、文書が一連の検索結果に掲載される際、文書が時間の経過とともに選ばれる程度である。この実施形態では、比較的ユーザーに頻繁に選ばれる文書または選ばれる回数が増えている文書は、その他の文書よりも高いスコアが与えられる可能性がある。

文書のスコアリングにおいて考慮される別のクエリベースの要素は、時間の経過とともにクエリに登場する特定の検索用語の発生である。例えば、一定の期間内に特定の一連の用語がクエリ内に現れる回数が増える場合(需要の高いニュースのイベント等、人気が高まりつつある/人気が高い“ホット”なトピックに関連する用語の可能性がある)、このようなクエリに関連する文書には、この用語を含まないその他の文書よりも高いスコアが付けられることもあり得る。

同じように、同様のクエリによって生成される検索結果の数における変化もまたこれらの結果に付随する文書のスコアを付けるために用いられる可能性がある。繰り返すが、例えば、大幅な増加は、ホットなトピックを示唆すると推測され、このようなクエリに関連する文書のランキングを検索エンジンが上げることもあり得る。

例えば、本発明の一実施形態では、比較的あまり変化のないものの(「world series champions」等)、結果が時間の経過とともに変化するクエリ(特定の年/時期に検索結果を独占する特定のチームに関連する文書)の場合、このような変化はモニタリングされ、文書のスコアを付けるために用いられる可能性がある。このクエリベースの要素は、アンカーの増加率の減少、トラフィック、コンテンツの変更、外部/被リンクの増加を含むがそれだけに限らない、文書が“古い”点を示唆するその他の要素に左右されると考えられる。また、時間の経過とともに、より具体的なクエリと比べ(「New York Yankees」)、主に話題のクエリに文書が含まれる場合は、このクエリベースの要素は単体で、またはその他の上述の要素と共に古いと思われる文書のスコアを低くするために用いられる可能性がある。

一実施形態では、検索エンジンは、文書が異なるクエリに対する結果に現れるペース等の程度に応じて、文書を測定し、評価するとみられている。要するに、1つまたは複数の文書に対するクエリのエントロピーが、スコアリングのベースとして計測され、利用される可能性があるのだ。一実施形態では、クエリが一致しない場合、文書がスパムである兆候と考えられる(必ずしもそうとは限らないが)。この場合、検索エンジンは当該の文書に比較的低いスコアを与えると推測される。

一部の状況においては、時間ベースの基準、クエリベースの基準、もしくはここで説明されているその他の基準の1つもしくは複数の組み合わせによって特定される“古い”文書と考えられる文書が、必ずしも比較的“新鮮”な文書よりも低く評価されるとは限らない(データが頻繁にアップデートされる、アップデートされるペースが上がる、広範囲にアップデートされるケースに関連して)。つまり、時間の基準が文書のスコアリングに影響を与えるかどうか、どのように与えるのか(プラスもしくはマイナス)、そして、どの程度まで与えるべきかを特定する必要があると考えられる。従って、本発明の一実施形態では、1つもしくは複数の要素が、これはクエリベースの要素である可能性もあれば、そうではない可能性もある、時間的な基準が、古いページに対して、“新鮮”な文書にスコアを与えるために用いられるかどうか、どのように用いられるのか、もしくは、どの程度まで用いられるのか特定されると推測される。例えば、あるクエリに対して、ユーザーが時間の経過とともに高く格付けされた比較的新鮮な結果ではなく、低く格付けされた比較的古い結果を選ぶ傾向が見られるなら、古い文書のスコアを高く調整する上での目安として検索エンジンに用いられる可能性がある。

本発明の別の実施形態では、文書に関連する時間的な情報の検索結果での使い方は、一連の検索結果内のその他の文書に関連する時間的な情報に応じて決定される可能性がある。例えば、一実施形態では、1つもしくは複数の情報の要素に基づいてスコアが文書に与えられる範囲において、当該の文書に関連する1つまたは複数の時間的な要素の違い基づいてスコアが調整され、そして、(平均の)文書が掲載される検索結果の範囲においては、このような時間的な要素は、リリースの日付、時間の経過とともに行われるコンテンツのアップデート等、ここで描かれている要素の1つまたは複数を含む可能性がある。

それでも、様々な実施形態での本発明は、その他の方法を用いて、新鮮な文書または古い文書を優遇するため/優遇しないためスコアを調節することもあり得る。例えば、リンクベースのスコアは(ブリンおよびその他の著者が提案するように)、時間の経過とともに多くのリンクが集まる古いサイトに比較的偏る傾向があるため、一部の要素によって調整が行われると考えられる。また、情報検索(IR)スコアは、新鮮な文書または古い文書に対する偏りを相殺するため調整されると推測される。

4. リンクベースの基準

本発明の一実施形態では、リンクの時間で変化する行動は、文書の“新鮮さ”を評価するベースとして用いられ、その後この行動に基づいてランキングの作業に取り掛かるとみられている。

一実施形態では、検索エンジンは、文書へ向かうリンク(ハイパーリンク等)が現れた、または消えた時間/日付をクロールまたはインデックスアップデートの作業において計測する可能性がある。このデータを参照情報として使い、検索エンジンは、リンクが時間の経過とともに現れるかどうか、消えるかどうか、そして、その早さ、一定の期間内に現れる、または消えるリンクの本数、文書に向かう新しいリンクが現れる傾向があるかどうか、文書に向かう既存のリンクが消える傾向があるか等、リンクの時間によって異なる特徴を計測すると推測される。

文書へ向かう(または文書から外に向かう)時間によって異なるリンクの特徴を利用し、検索エンジンはそのデータに従って文書を格付けする可能性がある。例えば、新しいリンクの本数もしくはリンクが加えられるペースの減少傾向(過去の期間と比べ、最近の期間の新しいリンクの本数およびリンクが加わるペースを基に)が見られる場合は、文書が古いことを示唆していると考えられ、その場合、検索エジンは当該の文書の(関連性)スコアを下げる可能性がある。反対に、増加傾向が見られる場合は、特定の状況および本発明の実装に応じて、より関連性が高いと考えられる“新鮮”な文書 である点を示唆する。

また、当該の文書にリンクを張る文書のリリースの日付および/または“新鮮さ”もまた文書の新鮮さを評価するために用いられる可能性があり、その後、関連性を特定するために利用される。例えば、検索エンジンは、文書に向かう(または文書内に掲載されている)リンクの年齢分布を用いて、当該の文書が新鮮か古いかを判断するとみられている。リンクが比較的最近現れている文書(リンクが比較的“若い”)、新しいリンクが構築される本数またはペースに上昇する傾向が見られる文書は、新鮮な文書と考えられる可能性がある。そして、このような文書には、状況に応じて、比較的高く、もしくは低くスコアが与えられると考えられる。

時間の経過による(ウェブページやサイト等)文書の被リンクの数またはリンクが加わる/減るペースの変化を分析することで、検索エンジンは本発明の実施形態に一貫するメソッドの中で文書の新鮮さの貴重なシグナルを導き出すと推測される。例えば、このような分析が減少傾向を反映しているなら、文書が不活発(古い)である兆候と推測され、別の文書に取って代わられ、重要度が下げられる可能性がある。

一実施形態では、分析は文書への新しいリンクの本数に依存する: まず、検索エンジンは、文書が初めて見つかった当時から文書へ寄せられているリンクの本数、そして、ここ数日間のリンクの数を計測する、または代わりに最近のリンクのn%の最も古い年齢を初めて見つかったリンクの年齢と比較するとみられる。

この点を説明するため、n = 10であり、2つの文書(この例ではウェブサイト)が100日前に発見されたと仮定する。1つ目のサイトにおいては、見つかったリンクの10%は10日未満のリンクであり、もう一方の文書では、10日未満のリンクは0%であった(全てのリンクは10日よりも前に発見されていた)。この場合、サイトAは0.1、サイトBは0と言う測定値が算定される。この測定値は、適切に拡大/縮小されることもあり得る。

このような計測値が採用される実施形態では、この計測値は、例えば、特定の分布が特定のサイトのタイプ(アップデートされていない、人気が上がっている/下がっている、取って代わられている等)を示すことを推測するモデルを構築する際など、比較的リンクの日付の分布を詳しく分析することで、改善される可能性がある。

一実施形態では、それぞれのリンクは、リンクの新鮮度に応じて増加する関数に応じて重みが付けられる。そのため、リンクが存在する文書の関連性スコアは、当該の文書に向かうリンクの重みの量に応じて上げられる、もしくは下げられることもある。一実施形態では、この手法は再帰的に採用されると推測される: 例えば、文書が2歳であると仮定し、Sへのリンクのn%が新鮮な場合、もしくは、Sへ向かうリンクを含む文書が新鮮と考えられる場合、新鮮と考慮されるとみられる。後者は、ページの作成日の組み合わせを使って確認され、この手法は再帰的に適用される。

また、ウェブサイトのオーナーまたはその仲間が検索エンジンによるランクスコアを押し上げる目的で自分のサイトへのリンクを作成する“スパム”を検知するために、リンクの日付が用いられる可能性もある。通常の“正当”なウェブサイトは被リンクを徐々に集める。被リンクの本数の急激な増加は、時事的な現象(例えばSARS等が発生した後、疾病対策センターのウェブサイトは多くのリンクを獲得する)、もしくはリンクを交換することによって、リンクを買うことによって、または何も考えずにリンクを作成しているウェブサイトからのリンクを獲得することによって、検索エンジンを“スパム”する試みを示唆していると推測される。リンクをむやみに与えるウェブサイトには、ゲストブック、リファラーログ、そして、誰でもページにリンクを加えることが可能な“参加自由”のページ等が例として挙げられる。

そのため、文書を格付けするために、検索エンジンが利用する文書に向かうリンクの本数の程度(以下“リンクランク”と呼ぶ)に関して、本発明の一実施形態では、この要素の時間によって異なる特徴は、スパム、ホットな話題等を検知するために用いられると考えられる。例えば、本発明の一実施形態では、リンクランクを特定のレベルまで高めるため、履歴が用いられるとみられている。別の実施形態では、ある文書に対するリンクランクは、既定の期間内の増加の最大の限界値が採用されると推測されている。これらの手法の1つもしくは組み合わせは、スパムを阻止する可能性を秘めている。

さらに、スパムと時事的な現象を区別するため、リンクランクが時間の経過を介した一定の増加量のみが許容される本発明の一実施形態では、リンクが増加している文書がある意味でオーソレイティブ(信頼されている)と見なされる場合、例外扱いされる可能性がある。例えば、文書へ向かうリンクの増加のペースの急激な上昇が政府のウェブサイト(.govのサイト)、ウェブディレクトリ(ヤフー!等)、そして、比較的時間の経過を通じて堅調で高いリンクランクを持っている文書で起きている場合、検索エジンはこのような文書はスパムではないと判断し、従って(時間の経過を介した)リンクランクの増加の限界値を高く設定する、もしくは全く設けない可能性もある。

一方、一実施形態では、文書への1本もしくは複数のリンクが消えた日付、一定の期間内に消えたリンクの本数、もしくはその他のリンクの本数(または当該のリンクを含む文書へのリンク/アップデート)における時間的な減少を、検索エンジンは計測して、古いと考えられる文書を特定することもあり得る。古いと特定されると、当該の文書に含まれるリンクは、検索エンジンのリンクランクのメカニズムから考慮されなくなる、または無視されると推測される。

5. アンカーテキスト

本発明の一実施形態では、文書に関連するアンカーテキスト(ハイパーリンクが埋め込まれたテキスト等、通常は下線が引かれるか、もしくは文書内で強調される)の時間により変化する特徴が、文書にスコアを与えるために用いられると考えられる。例えば、一実施形態では、文書へ向かうリンクに付随するアンカーテキストにおける時間の経過を介した変化は、文書内のアップデート、または焦点の変化の兆候ととらえられると推測される。ここでは、関連性スコアがこの変更を考慮に入れるとみられる。

さらに、一部の検索エンジンは、文書のスコアリングにおいてアンカーテキストを要素として利用しているため、本発明の一実施形態では、文書および/または文書へもたらされるアンカーテキストの時間により変化する特徴は、ドメインが変わった時に検知するために検索エンジンによって用いられる可能性があり、古いアンカーテキストに基づいて検索結果を生成することがないように支えている。アンカーテキスト内の変化は、リンクが張られた文書の焦点が変わったことを示唆すると考えられる。文書のコンテンツが関連するインバウンドのアンカーテキストと大幅に変わる場合、その時は、例えば、文書がウェブサイトの場合、サイトのドメインは以前のドメインから完全に変わっていた可能性がある。 例えば、ドメインが期限切れになっている場合、そして、異なるパーティーがドメインを購入した場合、この状況が発生すると推測される。

その後も、一部のランキングのプログラムでは、アンカーテキストはリンクが向かう文書の一部と考えられる可能性があるため、ドメインはトピックとは既にかけ離れているクエリに対する検索結果に継続して含まれる可能性がある。本発明の一実施形態では、検索エンジンは、ドメインが焦点を変えた日付(ページのテキストが大幅に変わった時および/または新しいアンカーテキスト内のテキストが大幅に変わった時を基に)を推測して、その日付以前の全てのリンク/アンカーテキストを考慮しない、もしくは無視することでこの問題を解決する。

6. トラフィック

本発明の一実施形態では、1名もしくは数名のユーザーによる文書へのトラフィックの時間により変化する特徴、もしくはその他の“利用”は、当該の文書のスコアリングにおいて考慮される可能性がある。例えば、トラフィックが大幅に減少したウェブサイトは、アップデートされていない、もしくは、別のサイトに取って代わられたと推測される。

本発明の一実施形態では、検索エンジンは、過去n日間のサイトへの平均のトラフィック(nは例えば=30の可能性がある)とサイトが最も多くのトラフィックを獲得した月、任意に季節の変化に対して調整が行われた月、もしくは過去m日間(m=365日の可能性がある)の平均のトラフィックと比較する。本発明の一実施形態では、検索エンジンは、繰り返しのトラフィックのパターン、もしくは、夏、週末、またはその他の季節等、時間の経過を介したトラフィックパターンの変化(要するにトラフィックの増減)を特定し、その期間内もしくは期間外、検索エンジンは関連性スコアを変化に応じて調整すると考えられる。

また、一実施形態では、特定の文書に対する“広告のトラフィック”に関連する時間により変化する要素は、計測され、文書のスコアリングに用いられると推測される。例えば、検索エンジンは、以下の要素の1つまたは組み合わせを計測し、文書に対するスコアリングの決定を下していると考えられる: (1) 時間の経過に応じて文書によって広告が表示される、またはアップデートされる程度およびペース (2) 広告主の質(例えば、検索エンジンが、amazon.comのように比較的トラフィックが多く、信頼されていると把握している文書に言及する/リンクを張る広告を持つ文書は、新しいポルノサイト等、トラフィックが少ない/信頼に値しない文書に言及する広告を持つ文書よりも比較的重要視される可能性がある) (3) 広告が関連する文書へのトラフィックを生成する程度(例えばクリックスルー率)等。

7. ユーザーの行動

一実施形態では、時間の経過を介した個人または団体のユーザーの行動は、1つまたは複数の文書にスコアを付けるために用いられる可能性がある。例えば、本発明の一実施形態では、文書が一連の検索結果で選択される回数および/または1名または数名のユーザーが文書で費やす時間が、文書にスコアを与えるために用いられると考えられる。例えば、特定のクエリに対してあるウェブページが返され、そして、時間の経過とともに、あるいは特定の期間内に、同じまたは同様のクエリでユーザーが平均して少ないもしくは長い時間を過ごす場合、この状況は、文書が新鮮または古いことを示す兆候として利用される可能性がある。検索エンジンは、この状況に応じて文書にスコアを与えると考えられる。

8. ドメインに関連する情報、DNS/WHOIS

一実施形態では、文書がコンピュータネットワーク(インターネット、イントラネット、もしくはその他の文書のデータベース)上でどのように提供されているのかに関する情報(時間に基づく場合も、そうではない場合もある)は、文書の関連性のスコアを付けるために用いられると推測される。

例えば、検索エンジンを欺こうと試みるユーザーは使い捨てのドメインまたは“ドアウェイ”のドメインを頻繁に使い、そして、見つかる前に出来るだけ多くのトラフィックを獲得しようと試みる。このような怪しいタイプのドメインを区別するシグナルは、スコアリングにも利用することが出来る。例えば、ドメインは最高10年間まで更新することが可能であり、貴重なドメインには事前に数年間分の料金が支払われることがあるが、一方のドアウェイのドメインは1年以上用いられることはほどんどない。ドメインの期限が切れる今後の日付は、ドメインが関連する文書の正当性における要素として用いられることがある。

一実施形態では、文書のDNS(ドメインネームシステム)の記録は、文書にスコアを付けるためにモニタリングされる可能性がある。ドメイン名の記録には、ドメインを登録した人物、管理用および技術的な住所、そして、ネームサーバー(ドメイン名をIPアドレスに分割する機械)のアドレスが含まれる。ドメインに対して時間の経過を介してこのデータを分析することで、スパムまたはその他の“見せ掛け”のドメインが特定され、この分析に応じてスコアリングが行われると推測される。例えば、検索エジンは、一定の期間において正確な住所が実在するかどうか、ドメインに対する連絡先の情報は比較的頻繁に変わっているかどうか、異なるネームーサバーおよびホスティング企業を比較的頻繁に変えているかどうかを監視するとみられている。一実施形態では、評価の低い連絡先情報、ネームサーバー、そして、IPアドレスは特定され、保存され、そして、スコアリングの要素として用いられると推測される。

一実施形態では、ネームサーバーの年齢もまたスコアリングの要素に挙げられる可能性がある。通常、(比較的高いスコアを割り当てるべき)“良質”なネームサーバーは、異なる登録サービスから異なる組み合わせのドメインを持っており、そして、これらのドメインをホスティングした過去を持つが、一方、(比較的低いスコアを受けるべき)“劣悪”なネームサーバーは、主にポルノやドアウェイや営利目的な単語を持つ(スパムの一般的な兆候)ドメインをホスティングしているか、もしくは開設されたばかりなのか、あるいは、主として単一の登録機関からの大量のドメインを持っている。繰り返すが、ネームサーバーの新しさはスコアリングにおいてマイナスの要素とは見なされないかもしれないが、ここで説明した要素等、その他の要素と組み合わされることで、マイナスと見なされる可能性がある。

9. ランキングの履歴

一実施形態では、検索エンジンへの検索クエリに応じて文書が格付けされる仕組みの時間により変化する性質は、当該の文書のスコアを調節するために用いられる可能性がある。本発明の例の実施形態で、検索エンジンがインターネットを検索するために実装されているように、検索エンジンは、多くのクエリでランキングが急激に上がっているドメインは、話題のサイト、もしくは、検索エンジンを“スパム”しようとする試みの兆候であると特定する可能性がある。

従って、サイトが一定の期間内に動く量またはペースは、スコアリングの要素として用いられると考えられる。一実施形態では、一連の検索結果に対して、上位のN検索結果内のポジションに応じて重みが付けられるとみられる。N=30に対して、例えば [ ((N+1)-SLOT)/N] 1\ 4と言う関数が挙げられる。すると、#1の結果にはスコア-1.0が与えられ、N位のポジションでは0近くまでスコアが下がる。あるクエリのセット(営利目的のクエリ等)は繰り返され、そして、ランキングでM%以上を獲得しているサイトはフラグで警告されるか、または、ランキング内の成長の確率はランキングのシグナルとして用いられると推測される。

一実施形態では、検索エンジンは、上位の結果の平均的な(中間の)情報検索(IR)スコアが比較的高く、月ごとに上位10位内の変動が大きい場合、クエリが営利目的だと特定する可能性がある。一実施形態では、同様のクエリもまた、営利目的のクエリの兆候として、検索エンジンによってモニタリングされるとみられる。

一実施形態では、特定のクエリに対する文書のポジション(またはランキング)の履歴に加えて、検索エンジンは、その他の時間ベースの要素の1つもしくは組み合わせに基づいて文書のスコアを付けている可能性がある(そして、インターネットの文書の場合、ページ、ホスト、サイト、そして、ドメインごとに行われている可能性がある)。このタイプの要素には、クエリの数、そして、時間の経過とともに検索結果として文書が作成されるペース(増加/減少)、検索結果として文書が生成される期間の季節性、勢い、そして、その他のパターン、あるいは、URLのクエリのペアに対する時間の経過を通じたIRスコアへの変化が含まれると考えられる。

代わりに、または、その上、一実施形態では、クエリベースの基準とは関係のない文書の数(URL等)は検索結果を改善するためにモニタリングされていくと推測される。例えば、一実施形態では、特定のクエリまたは一連のクエリに対する一連の上位の結果の平均のIRスコアは、特定のクエリまたは一連のクエリに対して生成される当該の一連の検索結果(および/またはその他の結果)を調整するために用いられる可能性がある。さらに、特定のクエリに対して生成される結果の数は時間をかけて計測され、そして、例えば、数が増加している場合、または、増加のペースが変化している場合、このように生成される結果には高いスコアが与えらると考えられる(例えば、このような増加は、“ホットな話題”またはその他の現象の兆候と検索エンジンはとられる可能性がある)。

10. ユーザーが維持する/生成するデータ(ブックマーク等)

本発明の一実施形態では、ユーザーによって維持される、または生成されるデータは、検索エンジンによって、時間をかけてモニタリングされ、1つまたは複数の文書にスコアを与えるために用いられる可能性がある。例えば、検索エンジンが直接または間接的にユーザーのブラウザプログラムによって管理される“ブックマーク”または“お気に入り”のリストにアクセスすることが出来る本発明の一実施形態では、検索エンジンは、文書がこのようなリストに加えられる、またはリストから削除される、もしくはリストを介してアクセスされる(またはより具体的に述べると、文書への道)傾向およびペースの増加および減少を計測するとみられている。例えば、大勢のユーザーが特定の文書をお気に入りの文書のリストに加えている場合、または、このようなリストを介して時間の経過とともに文書にアクセスしている場合、文書を比較的重要度が高い文書としてスコアを与えるシグナルになると考えられる。一方、お気に入りのリストに掲載されている文書にアクセスするユーザーが減っている場合、あるいは、リストから当該の文書への道を削除/交換するユーザーが増えている場合、文書が古い、人気がない等のシグナルとして考慮される可能性があり、その場合、検索エンジンは当該の文書のスコアを下げるとみられる。

本発明の別の実施形態では、時間の経過を介した特定の文書におけるユーザーの興味の増加または減少を示唆するその他のユーザーのデータは、別の実施形態では文書のスコアを高くする、または低くするために用いられる可能性があり、検索エンジンはこのデータを計測している可能性がある。例えば、ユーザーに関連する“一時的”なファイルまたはキャッシュファイルは、時間の経過とともに追加される文書の増加または減少を計測するため、検索エンジンによってモニタリングされると推測される。同様に、大勢のユーザーに対して、特定のウェブページ/ウェブサイトに関連するクッキーの保管および利用もモニタリングされ、このような文書に対する関心に増加または減少があるかどうかを基準にして相当する文書にスコアが与えられるとみられる。

11. アンカーテキスト内の固有の単語、バイグラム、フレーズ

一実施形態では、リンクまたはウェブグラフ、そして、時間の経過を介したその特徴は、スコアリング、スパムの検知、またはその他の目的で、検索エンジンによってモニタリングされ、利用されると考えられる。通常、自然に発達したウェブグラフは、個々の決定を伴っている。通常、検索エンジンをスパムする意図が見られる合成的に生成されたウェブグラフは、組織的な決定に基づいている。この例では、アンカーの単語/バイグラム/フレーズの増加の具合は比較的大きい可能性が高い。

多くの場所で同じアンカーが大量に加えられることはこのような急激な増加の一つの理由として挙げられる可能性がある。意図的に異なるアンカーが多くの場所で加えられた可能性もまた考えられる。本発明の一実施形態では、この点を考慮し、この情報は、関連する文書のスコアへのリンクに関連する疑わしいアンカーのインパクトを制限することで(バイナリディシジョン)、モニタリングされ、文書に対するスコアリングにおいて考慮されると推測される。

別の実施形態では、合成的な生成の可能性の対する連続的なスケールが用いられ、そして、文書に対するスコアを計測するため倍数因子が導き出される。

12. 個別のピアの関係

明らかな個別のピア(無関係のウェブサイト等)の突然の増加、個別のページに大量のリンクが寄せられる状況での被リンク/外部リンクの本数の突然の増加は、ウェブスパムの可能性を示唆し、同様に、例えば、検索エンジンをスパムする試みの可能性を示唆するとみられる。この示唆は、通常はまとまった、またはまとまりのないアンカーテキストに対応している場合、さらに強調されると推測される。この情報は、ブリンおよびその他の著者が提案する検索エンジンを含むリンクベースのランキングシステムにおけるインパクトを – バイナリディシジョンのアイテム(規定の量ごとに格下げする)もしくは倍数因子として格下げするために用いられる可能性がある。

13. 文書のトピック

本発明の一実施形態では、トピックの抽出(分類化、URL分析、コンテンツ分析、クラスタリング、要約、一連の固有の頻度の低い単語、もしくはその他のトピックの抽出の方法を介して)が実行され、そして、文書のトピックは時間をかけてモニタリングされ、スコアリングの目的で利用されることもあり得る。一実施形態では、時間の経過を介して文書に関連する一連のトピックに大幅な変化が認められる場合、検索エンジンは、リンクベースのランキングが、文書へのアンカーテキストやその他の外部のアイテムは文書に関連しているものの変化の前に提示されているものに関しては無視するべきだと言う判断の目安として考慮する可能性がある。

同様に、トピックの数の急激な増加はスパムを示唆すると推測される。例えば、特定のサイトが、“安定”したと考えられる期間内に一連の1つもしくは複数のトピックに関連している場合、このサイトに関連するトピックの数に(突然の)増加が認められるなら、サイトが“ドアウェイ”文書によって乗っ取られたことを示唆すると推測される。さらに、サイトに関連するもともののトピックが消えたことを示唆するとも考えられる。本発明の一実施形態では、このような状況の1つもしくは複数が検知されると、検索エンジンは、当該の文書および/またはリンク、アンカーテキスト、もしくは文書に関連するその他のデータの関連性スコアを下げ、文書のスコアリングに用いる可能性がある。

ハードウェア/システムの概要

図 2は、本発明と一致するコンセプトが実装される可能性のある典型的なシステムを説明する図である。このシステムはクライアントデバイス 202、サーバーデバイス 210、そして、ネットワーク 201が含まれ、例えば、このシステムはインターネットに該当すると推測される。クライアントデバイス 202はそれぞれコンピュータ — プロセッサ208に直結するランダムアクセスメモリおよび/またはリードオンリーメモリー等の読解可能メディア 209を含む。プロセッサ 508は、メモリ 209に格納されているプログラムのインストラクションを実行する。また、クライアントデバイス 202には、マウス、キーボード、マイクロフォン、その他のインプット用ユーザーインプットデバイス、ディスプレイ、スピーカー、その他のユーザーアウトプットデバイス、CD/DVD、ディスケット、もしくはリード/ライトデータ保存デバイスを含むがこれに限るものではない、多数の付加的な外部または内部のデバイスが含まれる可能性もある。

クライアントデバイス 202を通して、ユーザー 205はネットワークを介してお互いに、または、サーバーデバイス 210等、その他のネットワーク201につながったその他のシステムおよびデバイスとコミュニケーションを取ることが出来る可能性がある。クライアントデバイス 202と同様に、サーバーデバイスは、コンピュータ可読のメモリ 212に結合するプロセッサ 211を含むと推測される。サーバーデバイス 210は、データベース 230等の付加的な二次的な保存の要素を含むと考えられる。

クライアントプロセッサ 208およびサーバープロセッサ 211は、よく知られている多数のコンピュータプロセッサのいずれかに該当するとみられる。通常、クライアントデバイス 202は、ネットワークに接続するあらゆるタイプのコンピューティングプラットフォームであると考えられ、そして、デスクトップまたは持ち運び可能なパーソナルコンピュータ、デジタルアシスタント、もしくは“スマート”な携帯電話やポケットベルを含むがこれに限定されるわけではないアプリケーションプログラムと情報をやり取りする。サーバー 210は、単一のコンピュータシステムとして描かれているものの、コンピュータプロセッサのネットワークとして実装される可能性がある。メモリ 212は、検索エンジンプログラム 220を含む。検索エンジンプログラム 220はユーザー 205からの検索クエリに応じて関連する情報を探し出す。

本発明の一実施形態では、検索エンジンプログラム 220は、製品や製品カテゴリ、または音楽、あるいは動画等の特定のカテゴリの情報の検索に特化されている。別の実施形態では、検索エンジンプログラム 220は、より一般化されており、各種の関連性のないカテゴリの情報の検索に用いられる可能性がある。ユーザー 205は検索クエリをサーバーデバイス 210に送り、サバーデバイス 210は関連する情報のリスト、つまり検索結果をユーザー 205に返すことで反応する。通常、ユーザー 205はサーバーデバイス 210に特定のトピックに関連し(例えば、本発明が実装される製品検索エンジンの場合は製品関連の情報)、ネットワーク 201につながっているその他のデバイスやシステムに保存されている文書を探すよう要請する。検索エンジン 220は、文書ロケーター 221およびランキングコンポーネント 222を含む。一般に、文書ロケーター 221は、ユーザーの検索クエリにマッチするコンテンツを持つ一連の文書を探す。ランキングコンポーネント 222は、探し出した一連の文書を関連性を基に格付けし、関連性のレベルを示唆する関連性スコアをそれぞれの文書に生成すると考えられる。 検索エンジン 220は次に文書ロケーター 221によって特定された一連の文書に向かうリンクのリストを返すと推測される。 リンクのリストは、ランキングコンポーネント 222によって特定された関連性スコアを基に並べられる可能性がある。

文書ロケーター 221は、まずデータベース 230に格納されている文書のコーパスから、ユーザーの検索クエリ内の用語とコーパス内の文書を比較することで、文書を探し出すと考えられる。一般に、検索された用語が含まれる一連の文書を返すために、ウェブ文書をインデックスし、インデックスしたウェブ文書のコーパスを検索するプロセスは、当技術分野ではよく知られている。従って、文書ロケーター 221のこの機能は、ここでは説明しない。

ランキングコンポーネント 222は、検索エンジン 220を関連する文書をユーザーに返すプロセスを文書ロケーター 221によって特定された一連の文書を格付けすることで支援する。この格付けは、関連性スコアと呼ばれる数値を文書ロケーター 221によって特定されたそれぞれの文書の算出された関連性に振り分ける形式で行われる可能性がある。当技術分野では多数の適切なランキングアルゴリズムが存在し、そのうちの一つは、発明の背景のセクションで言及したブリンおよびペイジが作成した記事で説明されている。また、文書ロケーター 521がランクの数値を持つそれぞれの関連する一連の文書を生成することが出来るように、ランキングコンポーネント 522および文書ロケーター 521の機能は組み合わされる可能性もある。

本発明に従い、ランキングコンポーネント 222は、上述した時間ベースの基準の1つもしくは複数を含む、文書に関連する1つもしくは複数の基準を検知し、保存し、そして/または計測して、このような基準の特徴を時間をかけて利用し、文書またはその他の関連するデータにスコアを与える、時間ベースのランキングコンポーネントまたは履歴のランキングコンポーネント(ここでは表示されていない)を含むと考えられる。このコンポーネントは、インストラクションおよび1つまたは複数のデバイスの1つまたは複数のデータ格納エリアに格納されているデータを介して実装されると推測され、このインストラクションは、1つまたは複数のプロセッサによって実行されると、プロセッサは本発明の1つもしくは複数のメソッドを実施する。

一般

当然ながら、この文書全体に登場する本発明の“一実施形態”、“ある実施形態”、もしくは“一領域”は、当該の実施形態に関連して説明された本発明の少なくとも一つの実施形態に含まれる特定の機能、構造、または特徴を意味する。

従って、この仕様の様々場所に登場する“ある実施形態”または“一実施形態”、もしくは“代わりの実施形態”、あるいは“一領域”は、必ずしも同じ実施形態に言及しているわけではない点を強調し、注意してもらいたい。

さらに、描かれた1つまたは複数の実施形態もしくは領域の特定の機能、構造、または特徴は、本発明の1つまたは複数の実施形態において適切な場合、組み合わせて、または個別に実装される可能性がある。上述したように本発明の領域は、図で説明した実装の様々な異なる形式のソフトウェア、ファームウェア、そして、ハードウェアに実装される可能性がある点は当業者においては明らかである。

本発明と一貫する領域を実施するために用いられる実際のソフトウェアのコードまたは特別な制御ハードウェアは、本発明を制限するものではない。従って、領域の動作および行動を、特定のソフトウェアのコードに触れずに説明した – 当業者はソフトウェアおよび制御ハードウェアを設計し、この説明に基づく領域を実装することが出来ると理解している。

本発明の好まれる実施形態の前述の説明は、イラストおよび説明文を提供しているが、全てを網羅することを意図しているわけでも、本発明を公開した形式に制限することを意図しているわけでもない。上述の説明を考慮した修正やバリエーションは、本発明を実施することで行われる可能性がある。

本発明の説明で用いられている要素、行為、または、命令は、明示されている場合を除き、重要または必須と解釈されるべきではない。 また、ここで用いられる冠詞「a」は1つまたは複数のアイテムを含むことを意図している。1つのアイテムのみを意図している場合、「one」または同様の言葉を用いている。明確に記されている場合を除き、ここでは「or」は「and/or」を意味する。

また、前述の本発明の例の実施形態の説明では、本発明の様々な特徴が、情報の開示を簡素化し、1つまたは複数の様々な発明の領域を理解する上で支援を行う目的で、単一の実施形態、図、または説明で1つにまとめられていることがある。ただし、この公開のメソッドは、本発明がそれぞれの請求範囲で明示されているよりも多くの機能を必要とすると言う意図を反映していると解釈されるべきではない。

結論

ご覧のように、本発明の一領域に従い、情報検索システム(検索エンジン等)が文書に関連する時間の経過を介した要素の1つまたは組み合わせを計測し、この特徴に応じて検索に対する文書にスコアを与えるメソッドを紹介している。当然のことならが、本発明は、特定の要素、この要素の計測のメソッド、もしくは、スコアリング/ランキングの作業を実行するためのこの要素の利用に限定されるわけではない。


この記事は、SEO by the Seaに掲載された「10 Most Important SEO Patents: Part 2 – The Original Historical Data Patent Filing and its Children」を翻訳した内容です。

派生特許も興味深いですが、なんといっても後半に長文で書かれた2003年時点の特許が既に検索エンジンの完成形に近い様々な要素を取り入れた内容なのがモノスゴイです。長い&難解で読むのを諦めた人も多いと思うので、整理しておきます:

  1. 文書のリリースの日付
  2. コンテンツのアップデート/変更
  3. クエリ分析
  4. リンクベースの基準
  5. アンカーテキスト
  6. トラフィック
  7. ユーザーの行動
  8. ドメインに関連する情報、DNS/WHOI
  9. ランキングの履歴
  10. ユーザーが維持する/生成するデータ(ブックマーク等)
  11. アンカーテキスト内の固有の単語、バイグラム、フレーズ
  12. 個別のピアの関係
  13. 文書のトピック

今の検索エンジンでこれに加わるデータといえばソーシャルシグナル(それも上記に部分部分含まれていると思いますが)位じゃないでしょうか?それでも未だにスパムでランキング操作されてしまうこともあるのが検索エンジンの難しさですが、ともかく検索エンジンの仕組みがそれ程単純じゃないことだけは誰にも分かってもらえる特許だと思います。 — SEO Japan

関連記事