« ハインリヒ・ヒラー「セブン・イヤーズ・イン・チベット」角川文庫ソフィア 福田宏年訳 | トップページ | SFマガジン2013年3月号 »

2013年1月26日 (土)

「半分以上のブログはアクセス数30以下,50以上は2割,100以上は1割」を検証

 世の中のブログは、どの程度のアクセスを貰っているのか、という話。よく、「アクセス数50以上のブログは全体の2割、100以上だと1割程度」と言われる。それがどの程度信用できるのか、このブログのアクセス履歴を元に検証してみた。

結論から言うと、こうなる。

 だいたいあってる、いい加減な検証だけど。

具体的には、こんな感じ。計算だと、中央値(平均ではない、→Wikipedia)はアクセス数25~26ぐらい(補足参照)。

2013.12.06 補足
アクセス数2~50のブログの分布を検証したが、この数値は間違っている模様。中央値は2~10の間らしい。詳細は別記事「半数以上のブログはアクセス数3以下?」を参照。

アクセス数   割合
  20以上   6~7割(補足参照)
  30以上   4割
(補足参照)
  40以上   3割
(補足参照)
  50以上   2割
 100以上   1割
 200以上   5%
1,000以上   1%未満

 つまりはアクセス数100以上のブログは1割程度で、アクセス数が倍になると該当するブログは半分になる、そういう関係です。

検証の手順

では、どうやって検証したかを述べよう。正直、我ながら突っ込みどころ満載な検証だが。 大まかな手順は、以下。G01_2

  1. このブログのアクセス数とココログ内の順位から、アクセス数と順位の関係式を導き出す。
  2. 上の式にいろんななアクセス数を当てはめて、順位を予想する。
  3. ココログの推定ユーザ数から、順位をブログ全体の割合に換算する。

 では詳細を説明しよう。まず、使ったデータ。
 ココログは、日ごとに自分のブログがアクセス数順でココログ内の何位か教えてくれる。最近2週間ほどのアクセス数と順位を記録した。また、今まで比較的アクセス数の多かった日の順位も記録があるので、それを追加した。いや順位が上がり嬉しかったんで、つい記録しちゃったのよ。ってんで、データ件数は23件。これで散布図を作る。

 右のグラフがそれで、x軸がアクセス数、Y軸が順位。予想通り、「アクセス数が増えれば順位が上がる」という結果だ。当たり前だね。

 ちなみにY軸、順位として読むと変な感じがするけど、「自分よりアクセスが多いブログが幾つあるか」と解釈して欲しい。

 決定係数R2が0.952とある。これは、「アクセス数と順位に関係がある可能性が高い」程度の意味。値の範囲は0~1で、0なら無関係、1に近いほど関係が深い。分野にもよるが、0.7以上なら「関係がある」と見なす模様。

 で、その関係を示す式が、f(x)。xがアクセス数で、結果が順位。以下の式のxにアクセス数を代入すると、ココログでの順位の予想ができる…はず。

2106231.596/(x1.151)

 上記の式の x に様々な値を代入して、得た結果が最初の表だ。実際の計算結果は10進数で精度5桁ぐらいの数値が出たんだが、計算の元データの精度が悲惨なものなので、敢えて先頭一桁だけを示した。実際、信用できる数字は先頭の1桁ぐらいだろう。なお、ココログの総ブログ数は10万として計算した。

 ついでに。アクセス数が50以上なら、上位何%ぐらいかを概算する、もっと簡単な式がある;50未満なら、冒頭の表を参照すればいい。

10÷アクセス数

 例えばアクセス数50なら 10÷50=0.2=20%、アクセス数100なら 10÷100=0.1=10%だ。

ホンマかいな?

 と言っても、突っ込み所満載の分析である。人に突っ込まれると悔しいので、自分で突っ込んでおく。まず、二つ。

  • サンプル数23個って、少なすぎじゃね?
  • サンプルのデータの幅が狭すぎじゃね?X軸のデータなんて3桁前半ばっかしじゃん。

 これについては全くその通りで、反論のしようがない。データを自給自足している限り、サンプル数は増えてもデータ範囲は広くなりそうもない。

 そして、もっとも怖い突っ込みが、これ。

  • ココログの総ブログ数10万って、どこから出てきた数字?

 ソースは2つ。

  • 昔、ブログファンというサイトがあって、そこに各ブログサービスごとの毎日/毎週/毎月の更新ブログ数の数字があった。で、自分の記憶によると、日ごとに6万ちょい、週ごとに8万~10万だった…ような、気がする。
  • ココログサポートブログ総数わかる人いますか?に「ビリの順位はだいたい11万?12万位」とある。日付は2010年5月24日。

 最初は怪しさプンプンだし、次のもいささか情報が古い。まあ、計算の元の数字も精度はアレなんで、計算しやすい10万ちょうどにした、ってのが実態。かといって、これを真面目に考えていくと、様々なケースが出てきて、かなり難しい。例えば、以下のケースは、「総数」に含めるべきだろうか?

  1. トラックバック・スパムが目的の、スパム業者のブログ
  2. 他人に見てもらおうとは思っていない、備忘録的なブログ
  3. サークルなど仲間内の掲示板代わりに使っているブログ
  4. オーナーに見捨てられた野良ブログ
    1. でも便利情報が載っているので、今でもアクセスが絶えないブログ
    2. 誰もアクセスしなくなったブログ

 …など、キリがない。ブログファンが閉鎖してしまったのが、つくづく残念だ。

|

« ハインリヒ・ヒラー「セブン・イヤーズ・イン・チベット」角川文庫ソフィア 福田宏年訳 | トップページ | SFマガジン2013年3月号 »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 「半分以上のブログはアクセス数30以下,50以上は2割,100以上は1割」を検証:

« ハインリヒ・ヒラー「セブン・イヤーズ・イン・チベット」角川文庫ソフィア 福田宏年訳 | トップページ | SFマガジン2013年3月号 »