Googleのページランク。ウェブサイトを運営している人なら、一度は聞いたことがあるでしょう。
検索結果の表示順位を決める要素のひとつでもあり、検索エンジン最適化(SEO)でも重要な概念です。
そこで、ページランクとはどういうものか簡単に説明してみます。
Googleページランク誕生以前
1996年に、スタンフォード大学博士課程にいた ”ラリー・ペイジ” と ”セルゲイ・ブリン” (後のGoogle創設者)が検索エンジンの研究プロジェクトを開始しました。
当時の検索エンジンは、検索キーワードを含んだページを表示するだけで、表示順序は単にキーワードが多く含まれている順番などの単純なものでした。
それに対してペイジとブリンは、有用なページを優先して表示できる検索エンジンを開発しようとしたのです。
ページランクの発表
1998年、ペイジとブリンがGoogleを設立した年に彼らの研究結果の論文が発表されました(参照論文pdf)。
その中に、ウェブページの価値を判断する基準として、ページランクの概念が示されていたのです。
その論文に書かれている検索順位の評価に使う指標は、次の3つです。
- ページランクによる評価
- アンカーテキスト(リンクに使われている文字)
- 複合キーワードの場合は、その隣接度(キーワードが近くにあるほどよい)
これによって、Googleでの検索は、他の検索エンジンを圧倒するほど使いやすいものになり、市場を独占することになりました。
これがGoogleのスタートだったのです。
ページランクとは?
ページランクは、学術論文を評価するときに引用回数を用いることに似ています。
他の論文に沢山引用されているものほど、価値が高いという考え方です。
ページランクでは、論文の引用数のかわりに、他のページからの被リンクを利用します。
ページランクという名前は、ウェブページのページとラリー・ペイジの名前(ともにスペルが”Page”)をかけて名付けられたと言われています。
ページランクの歴史
Googleは当初「Googleツールバー」などで、ページランクを公開していました。
そのページランクの更新は、2013年で終了し、2016年には「Googleツールバー」での確認もできなくなりました。
ちなみに、公開されていたページランクは0~10の11段階でしたが、実際には小数点以下の数値まで考慮に入れていたものと思われます。
ページランクは今でも使われているのか?
検索順位を決めるために、Google内部では今でもページランクを使っているのでしょうか?
個人的には、まだページランクは利用されていると思っています。
2016年にページランクの公開を停止した後も評価基準に利用していると発表していますし、グーグルの公開文書には「ページランク」という言葉が使われたままなので、現在(2019年)でも利用中でしょう。
ただ、論文で公表されているページランクと計算方法も違っているはずですし、検索順位にはページランク以外の要素の影響の方が相対的に大きくなっています。
ページランクを意識しすぎると、かえって検索順位を落としかねません。
あくまでも知識のひとつとして知っておく程度にとどめるべきでしょう。
ページランクの計算
ページランクを表す式は、このようなものです(PRという部分がページランク)。
$$\small{ PR=(1-d)+d\sum_{p_i=1}^{n}\frac{PR(T_i)}{C(T_i)} }$$
Σは合計を表す記号です。
ページランクを簡単に説明
ページランクは、他のページからのリンクによって決まり、論文の引用回数のように被リンク数だけを用いるのではなく、被リンクの質も考慮されるようになっています。
数式の最後に、こんな分数があります。
$$\small{\frac{PR(T_i)}{C(T_i)}}$$
$\small{PR(T_i)}$はリンクされているページのページランク、$\small{C(T_i)}$は、そこからのリンクの数です。
同じリンクでも、ページランクが高いページからのリンクは影響が大きいこと、沢山リンクを張っているページからのリンクよりリンクが少ないページからのリンクの影響が大きいことを示しています。
ランダムサーファーモデル
論文では、このページランクを「ランダムサーファーモデル」と表現しています。
インターネットをリンクを辿りながら閲覧することを「ネットサーフィン」と呼んでいましたが、そのサーファーをモデル化したものです。
ランダムサーファーは、次のような規則でネットを閲覧するとされます。
- ページ内のリンクをランダムにクリックして移動する
- ときどきリンクではなく無作為に選んだページへ移動する
大抵はリンクを辿るけれど、気が変わったらブックマークから新しいページを選ぶという閲覧者の挙動です。
これを無限に繰り返したとき、どのページを見ている確率が高いのか、それを表したものがページランクです。
ですから、沢山リンクされていて、そのページに戻ってくる確率が高いページほどページランクが高くなるのです。
計算可能性
ページランクは、他のページからのリンクで計算しますが、その式の中には他のページのページランクが含まれています。
計算しようとすると、他のページのページランクが必要で、それを計算するためには、また他のページのページランクが必要で……という堂々巡りです。
それを計算する方法としては、連立方程式をたてて解くという方法があります。
1億ページあったら1億個の連立方程式を解くということです。
これは、いくら計算が得意なコンピューターでも、どんなにGoogleの人たちが優秀でも、計算量が膨大すぎて実質的に計算不可能です。
では、どうやってページランクを決めるのでしょう。
近似値を求める
式を完全に解く必要はありません。
実用上充分な近似値が計算できればいいのです。
「ページの重要性をこんな式で表しては?」と考えることはいくらでもできます。
でも、実際に計算できないと全く意味がありません。
近似値を求めるアルゴリズムが存在して、その計算量が少なくて済むという条件が必要なのです。
ページランクはその条件を満たすように作られているのです。
※数学的なことを知りたい人は、マルコフ連鎖のべき乗法で調べてください。
ダンピングファクター
ページランクの計算には、ダンピングファクターと呼ばれるものが必要です。
前に示した数式では、dで示しているものがダンピングファクターです。
ランダムサーファーの行動には、
- ページ内のリンクをクリックする
- 無作為なページに飛ぶ
というふたつの選択肢がありますが、ページ内のリンクをクリックする確率がダンピングファクターになります。
ダンピングファクターが小さいと、無作為なページに移動することが多くなり、リンク構造による重要度がわかりにくくなります。
逆にダンピングファクターが大きいと、計算量が多くなってしまいます。
論文では、ダンピングファクターは、0.85と記載されています。
リンク構造をみるだけなら、無作為なページに移動などせずリンクだけを辿ればいい(ダンピングファクター=1)と思われるかもしれません。
しかしリンクがないページに行くと袋小路になりますし、リンクの状態によっては同じページをぐるぐる回って抜け出せなくなります。それを防ぐためにダンピングファクターが必要なのです。
ページランクの意義
ページランクが説明されるとき「リンクによってページの価値を決める」という発想の部分が協調されることが多いようです。
しかし、検索エンジンに、リンク構造を使うということが頭に浮かんだ人は、他にもいたのではないかと思います。
ただ、ほとんどの人がウェブページという「大規模なシステムでは現実的に不可能」という思い込みがあったのでしょう。
”ラリー・ペイジ” と ”セルゲイ・ブリン” の本当の功績は、その固定概念を覆して、現実的なシステムを作り上げたとことではないでしょうか。