Googleブック検索の仕組みを徹底解剖

日本では著作権の問題やら出版社の抵抗で普及が遅れている電子書籍ですが、英語圏では既にAmazonでも通常の書籍より電子書籍の方が売れているなど電子書籍が既に相当普及しています。Googleも負けじとなかりにブック検索を皮切りに電子書籍市場に本格参戦しようとしているようですが、さてリンクのない書籍の世界でGoogleはどのようなアルゴリズムでブック検索に挑むつもりなのでしょうか?SEO by the Seaが電子書籍検索の最先端を探ります。 — SEO Japan

ウェブページとは異なり、グーグルがインデックスを行い、ページランクを計算するためのリンクは本には存在しない。リンク先のページに関するメタデータのような役割を果たすアンカーテキストもない。本は、ウェブページのように独自のタイトルの要素、メタデスクリプション、そして、見出しを持つそれぞれ独立した存在のページには分類されない。また、本には、ウェブサイトには存在する、検索エンジンが本の様々なセクションを理解し、分類するためのページやセクションに対するファイル名やフォルダ名を持つ内部リンクの構造も存在しない。

An image of a boy reading

本日グーグルに付与された特許は、ユーザーが検索する本のコンテンツをインデックスするために用いるであろう幾つかのメソッドを紹介している。単純なテキストベースのマッチングを行い、本で言及されている特定の一節を見つけるのはそれほど難しいことではないだろう。タイトルやテキスト内に用語やフレーズを含む全ての書籍、または特定の作家によって綴られた書籍を探し出すのもまたさほど難しくはない。しかし、どのように格付けするのだろうか?どのようにアイテムを掲載する準備を判断するのだろうか?

2010年7月25日に申請された本のクエリとは関係ないエンティティの重要度に関する特許がグーグルに本日付与された。この特許の考案者は、David Petrou氏、Chiu-Ki Chan氏、Daniel Loreto氏、Jeffrey C. Reynar氏、そして、Nikola Jevtic氏である。

グーグルによる本のインデックスは、エンティティ、または特定の人物、場所、日時、出来事、そして、本で言及されている事柄に関する情報を探し、収集する役目を持つ。

重要度のスコアが以下のような要素の数に応じて、それぞれのエンティティに対して生成されると考えられる:

1. 特定のエンティティに関する情報がどれほど本に含まれているのか、そして、それはどこか

この特許は、本の異なるセクションのエンティティの登場が、以下のような場所へのエンティティの掲載を含む、各エンティティが持つ重要度に影響を与えると指摘している:

  • 表紙および裏表紙
  • 仕掛け
  • 著作権ページ
  • 目次
  • 序章またはあとがき
  • 索引
  • 出典
  • 章の見出し
  • 章の特別なページ(章の1文目等)
  • 特殊なページ(ほとんどテキストがないページ等)

この特許は、どの場所がより重要度が高いか(第一章の初めの文の中で言及されると重要度が非常に高い等)、そして、どの場所がより重要度が低いか(著作権の通知文の中で言及されると重要度が低いと見なされる等)に関するヒントを幾つか提供している。

2. 特定の書籍および特定のエンティティの言及を指摘する第三者の参照情報があるかどうか

このタイプの参照情報の例を挙げていく:

  • 本のレビュー
  • 「この本について」の情報
  • 引用
  • 学術的な引用
  • WWWの参照

このタイプの参照が別の場所で頻繁に行われている場合、より重要度が高い可能性がある。特許の中では次のように説明されている:

例えば、学術記事が特定の書籍の章を引用しており、その記事が引用された章で、あるエンティティにも触れている場合、参照モジュールは当該のエンティティの重要度を上げるだろう。

実施形態の一つでは、参照モジュールによって検討された第三者の参照情報は、書籍のコンテクストモジュールによって検討された書籍内の参照情報よりも、重要度に大きな影響を与えると説明されている。第三者の参照情報はより完全性が高いと見られ、そのため、書籍内のセクションまたはエンティティの重要度のシグナルとしてより優れていると考えられる。

3. エンティティを含む本のセクションがその他の本のセクションよりも多くアクセスされているかどうか

オンラインで本の検索を行い、様々な部分にアクセスする場合、ユーザーは何を見ているのだろうか?別の部分よりもより多くの人々に訪問されるセクションはあるのだろうか?あるとしたら、それはどんなセクションだろうか?

4. 他の本で言及される頻度と比べた場合、エンティティはどの程度その本で言及されているのか

例えば、その他の本よりも多くニューヨークシティーに言及する本は、エンティティ「ニューヨークシティー」において重要度のスコアが高いと考えられる。

その他のランキングの判断材料

この特許は、地図上で場所の情報を表示する、または時系列で出来事の情報を表示する、またはテキストや表で人物の情報を表示する等、この類の情報が提示される異なる方法を幾つか描いている。

検索エンジンは、インデックスする本のメタデータにも注目する可能性がある。メタデータは、作家名、出版社、出版された年、ページ数、版、デューイ十進分類法、米国議会図書館分類、ISBN番号等で構成されることが多い。

他にも検索エンジンは、本の販売数や売り上げランキングの位置等のクエリとは関係のない情報を参考にする可能性がある。

クエリに対する本の総体的なランキングは、クエリとは関係のないスコア、そして、本の中の用語とマッチするクエリ内の用語の数、同義語のマッチング等のクエリをベースとしたスコア、そして、その他の情報検索の手法を用いていると考えられている。

結論

何かをよく理解したいなら、少し外に出て、異なる角度で見る必要があると私は確信している。優秀な作家になりたいなら、異なる言語を学び、自分の母国語の表現の規則や文法の違いを比べる手がある。OSの仕組みをよく知りたいなら、異なるOSをインストールし、学ぶことで、2つのOSの似ている点や異なる点を理解することが出来る。

このような“ランキングシグナル”について考慮しながら本を執筆する人が現れるのはまだまだ先の話だ。今回は、グーグルのこの特許が描くブック検索で本を格付けする仕組みのアプローチを幾つか紹介した。このエントリの冒頭で本とウェブページの違い、そして、この違いがもたらすランキングの違いについて指摘した。しかし、同様に似ている点もまた多く存在しており、似ている点を把握することで、違いの仕組みおよび理由を理解しやすくなるだろう。

グーグルは、情報収集のアプローチを使って、ウェブで見つけるエンティティに関する情報を集めており、本がインデックスされる仕組みを支えるアイデアが、ウェブページおよびウェブサイトがインデックスされる仕組みに活用されていてもおかしくはない。


この記事は、SEO by the Seaに掲載された「Searching in Google’s Book Search (The SEO of Books?)」を翻訳した内容です。

基本的ながら色々と興味深い話が含まれていました。引用の重視はそもそもGoogleのリンクベースのアルゴリズムの基礎でもありますし納得です。記載された場所によって内容への重要度の評価が変わるという話は、無難な方法とは思いますがそれなりに正当性はありそうですね。今でもAmazon検索対応でキーワード散りばめた名前の本が結構売られていたりしますけど、ブック検索が本格普及するとブック検索最適化(BSO?)なんてサービスが登場する日もあるのでしょうか。。。既に筆者も「まだまだ先」とはいいつつも「“ランキングシグナル”について考慮しながら本を執筆する人が現れる」ことを予言していますし。そんなことをしないと本が書けない・売れない未来なんて嫌ですけどね・・・本を書く際に多少ブック検索を考慮する程度ならまだしも、大量に内容の薄い本を電子出版して売りたい電子書籍を引用しまくる、なんてサービスまで登場しそうで怖いです。 — SEO Japan
Page Top

投稿ナビゲーション