ITエンジニアに必要な今を知れる情報メディア
SEOの基礎、グーグル検索の「ページランク技術」とは?
skill

SEOの基礎、グーグル検索の「ページランク技術」とは?

2020.10.19

 

すべてのビジネスパーソンにとって、「検索順位は高ければ高いほど好ましい」

今や、SEO対策というのはビジネスパーソンの基礎教養になりつつある。SEOというのはSearch Engine Optimization(検索エンジン最適化)のことで、要は自社のウェブページの検索順位をあげるための手法だ。ウェブメディアを運営するにしても、自社のウェブページを公開するにしろ、消費者が検索をしたときに上位に表示されなければ、この世に存在しないのと同じことになってしまう。そのために、検索順位は高ければ高いほど好ましい。

このSEO対策を行うには、SEOエンジニアが中心になるが、それ以外の人も知っておいた方がいいことは多い。

例えば、ウェブページのコンテンツを制作する担当者は、どうせ同じコンテンツを制作するのであれば、検索順位が上がる作り方をした方がいい。ウェブデザイナーは、UI/UXだけでなく、どうせなら検索順位が上がる構造を設計できた方がいい。

例えば、次のような手法が、よく語られる。

・記事の文字量は2000文字から4000文字が望ましい。

・ページのタイトルは30文字前後が望ましい。

・検索キーワードに対して、関連情報を網羅した内容にした方がいい

・記事は階層見出しで構造化した方がいい

・低品質のページからのリンクは排除し、高品質のページからのリンクを増やした方がいい

・サイト内リンクは相互リンクになるようにし、パンくずリストを設置した方がいい

などなど。

ひとつひとつは難しいことではないので、どうせ作るのであれば、このようなことを頭に入れて、コンテンツやウェブを作った方がいいに決まっている。

そもそも検索エンジンはどのような仕組みになっているのか

これらは、どのようなページの検索順位が高いかを調査して、統計的に導き出されたものが多い。問題は、検索エンジンであるグーグルの評価基準が変更された場合で、このようなテクニックは意味がなくなることがあることだ。つまり、世の中でSEO対策として推奨されているこのようなテクニックの中には、単なる都市伝説になってしまっているものも含まれていることになる。

そこで、このようなテクニックリストを頭に入れておくだけではなく、そもそも検索エンジンがどのような仕組みになっているのかも頭に入れておきたい。仕組みが理解できているかどうかで、SEO対策を行うときに、さまざまな局面で正しい判断、効果的な手法の選択ができることになる。

SEO対策と言えば、事実上はグーグル対策になる。それほどグーグルの検索精度は圧倒的で、それゆえに多くの人が当たり前のようにグーグル検索を利用する。しかし、グーグルは検索エンジンとしては後発だった。

広く使われた検索エンジンとしては、1994年のInfoseek、Lycosあたりが最初で、翌1995年に登場したAltaVistaが、圧倒的な検索精度で先行した検索エンジンを凌駕した。それ以来、検索エンジンと言えばAltaVistaという時代が続く。グーグルが登場したのはその後の1998年だ。

検索を瞬時で終わらすために、あらかじめインデクスデータを作っておく

検索エンジンがキーワード検索をするときに、ワープロのように全文検索をしているのではないということはご存知だと思う。そんなことをしていたら、1回の検索に天文学的な時間がかかってしまう。

検索を瞬時で終わらすために、あらかじめインデクスデータを作っておく。このインデクスは、専門書の最後に付けられている索引と同じ考え方のものだ。


(「図001」--検索エンジンは、あらかじめ作成しておいたインデクスを検索する。単純なインデクスは、書籍の最後に掲載されている索引と同じ仕組み)

例えば、図001のような3つのウェブページがあるとして、そこに登場する単語の索引を作っておく。こうすれば、検索エンジンの利用者が「政令指定都市」を検索したとき、ページ2とページ3にそのキーワードがあるということがすぐにわかる。検索エンジンは、ページ2とページ3を検索結果として返せばいい。

しかし、これではページ2とページ3のどちらが利用者にとって重要なのかは判別できない。検索エンジンは、利用者の意図を理解し、利用者が求めているページを上位に表示する必要がある。これが俗に検索精度と言われるものだ。

検索精度の問題を最初に突破したのがAltaVisata

この問題を最初に突破したのがAltaVisataだった。AltaVistaでは、インデクスを作るときに、ページ数だけでなく、ページ内のその単語の位置も記録するようにした。

例えば、ページ1にある「購入」という単語は、先頭から数えて2番目に登場する(助詞は無視して数えている)ので「1-2」となり、「スイカ」という単語はページ2の5番目に登場するので「2-5」となる。

ここで、利用者が「自転車 購入」と検索をしたとする。インデクスからページ1にもページ2にも両方の単語が登場することがわかる。では、どちらのページが利用者にとって重要だろうか。

それは、2つの単語の距離を調べればいい。「自転車」と「購入」の2つの単語の距離はページ1では1、ページ2では5となる。検索エンジンは2つの単語の距離が小さいほど、利用者の検索意図にそったページだと判断をして、ページ1を上位に表示する。


(2つの検索ワードで検索をした場合、ページ内での2つの単語の距離が近いほど、検索者の意図にそったページであると判定できる。AltaVistaでは、単語の位置も含めたインデクスを作り、単語の距離で重要度を判定していた)

この手法で、AltaVistaは、検索精度が高い検索エンジンとして、90年代後半の検索エンジン業界をリードしていた。これは米国特許6105019「Constrained Searching of an Index」(インデクスの限定的検索)として認められたAltaVistaの核心技術となった。


(AltaVistaが取得した単語距離によりページの重要度を判定する米国特許の図。米国特許6105019「Constrained Searching of an Index」(インデクスの限定的検索)より引用)

1998年、グーグルが新たな手法でページの格付けをするページランクテクノロジーを開発

しかし、AltaVistaの天下も長くはなかった。1998年にグーグルがまったく新たな手法で、ページの格付けをするページランクテクノロジーを開発したからだ。このページランクテクノロジーに関しては、セルゲイ・ブリンとラリー・ページによる「The Anatomy of a Large-Scale Hypertextual Web Search Engine」という論文がある。この論文から、現在のウェブテクノロジーのすべてが始まっているといっても過言ではないほど重要なものなので、時間のある時に読んでおかれることをお勧めする。

ページランク技術のポイントは、リンクを人気投票と考えたことだ。重要なページは、たくさんの他のページからリンクを貼られるはず。被リンク数が多いページほど重要という考え方だ。インデクスを検索して、検索ワードが含まれているページを抽出し、被リンク数の多いページを上位に表示すれば、利用者の検索意図にそった検索結果を表示できるはずだ。

しかし、このシンプルな考え方には穴がある。それは単純に被リンク数だけで判断すると、悪意のある人物はジャンクウェブページを大量に生成して、自分のページの被リンク数を捏造しようとするだろう。これを防がなければならない。つまり、グーグルはその発想の時点から、どのようなSEO対策が取られるかを想定し、SEOに影響されずに、利用者の意図にそった検索結果を表示するかということを考え続けてきたことになる。

人気投票に、あまり民主的ではない!?現実的なアイディアを持ち込む

ブリンとページの2人は、この人気投票に、あまり民主的ではない!?現実的なアイディアを持ち込んだ。それは、有名だったり権威があったりする人の投票と、ごく平凡な一般人の投票は同じ1票ではなく、価値が違っているという考え方だった。つまり、Yahoo!のような誰もが知っていて信頼されているサイトの投票は100票分に相当するのではないかというものだ。

では、どのウェブページが何票分に相当するのか、これをグーグルが勝手に決めるわけにはいかない。ページの価値も被リンク数で決めるべきなのだ。


(「図004」--Aには被リンクが2つあるので、価値が2だと想定すると、B、C、Dも2となり、C、DからリンクされているAの価値は4にならなければならなくなる。リンクにループ構造があると、いつまでもウェブページの価値が決められない)

図004のような構造のウェブページ群があって、初期状態ではどのウェブページの価値も1としたとき、この中で最も価値の高いウェブページはどれだろうか。すぐにわかるようにAになる。なぜなら、Cから1票、Dからも1票投票されているからだ。Aの価値は2となる。

しかし、この考え方は、どうにも解決できない矛盾を起こすことになる。価値が2であるAが投票するBの価値は当然2になる。すると、Bが投票するCも2になり、Cが投票するDも2になる。ということは、価値が2のCとDが投票するAは価値が4にならなければならない。

ということはB、C、Dは4になり、CとDが投票するAは8となりと、どこまでいっても無限ループになってしまい、計算は終わらず、ウェブページの価値は無限に大きくなっていってしまう。

これはリンク関係のループが起きていることにより起こる現象だが、現実のウェブページでこのようなループリンクになっていることは珍しくない。

ランダムサーファーという素晴らしいアイディアに到達

ここで、ブリンとページの2人は、ランダムサーファーという素晴らしいアイディアに到達した。ランダムサーファーは、まず世界中のウェブページからランダムに1つを選び、そこを出発点にする。そのページからリンクをひとつ選び、別のページに移動する。移動先のページからまたリンクをひとつ選び移動するということを繰り返していく。

このランダムサーファーが重要なのは、15%の確率で停止をするということだ。停止をすると、再びすべてのウェブページからひとつをランダムに選んで、同じ行動を繰り返していく。つまり、15%の確率(ダンピングファクターと呼ばれる)で停止をするために、先ほどのループに入り込んでしまっても、無限ループにならずに済むのだ。

ランダムサーファーは、ウェブの構造を完全に把握することはできないが、視聴率調査やアンケート調査のように、標本抽出をすることで、「じゅうぶんに確からしい」ウェブの価値を計算することができる。

グーグルのページランクテクノロジーの解説では、先ほどの「被リンクによる人気投票」の部分がよく説明されるが、これはある意味、誰でも思いつくことで、この人気投票によるページ価値を現実的に計算できるようにする仕掛けであるランダムサーファーのアイディアの方が重要だ。「被リンクによる人気投票」は、おそらくグーグル以外にも同様のアイディアを考えていた人たちはいただろうが、みな、無限ループにはまらずに計算する方法が見つからずに、グーグルになることができないでいたのだ。

このページランクテクノロジーにより、グーグルは圧倒的な検索精度ですぐに評判になり、その後、近代史でも特筆すべき速度で成長をすることになった。

原稿:牧野武文(まきの・たけふみ)

テクノロジーと生活の関係を考えるITジャーナリスト。著書に「Macの知恵の実」「ゼロからわかるインドの数学」「Googleの正体」「論語なう」「街角スローガンから見た中国人民の常識」「レトロハッカーズ」「横井軍平伝」など。

この記事はどうでしたか?

おすすめの記事

エンジニア向け求人特集

BACK TO TOP ∧

FOLLOW