« 離島ミステリ | トップページ | スタニスワフ・レム「Fiasko 大失敗」国書刊行会 久山宏一訳 »

2010年8月15日 (日)

このアクセスは人?ロボット?スパム?

 ブログのアクセス履歴を見ると、中には "ブックマーク/URL直接入力"なんてのがある。「お気に入りに登録してくれるとは嬉しい」などと喜んだりもするのだが、どうも様子が違う。そんな奇妙なアクセス履歴を調べ、大きく4種類に分けて整理してみた。

  1. 携帯電話からのアクセス
  2. 検索エンジンなどのロボット(クローラー)
  3. 迷惑コメント投稿などが目的のもの
  4. その他

では、それぞれの特徴を見ていこう。

1.携帯電話からのアクセス

  1. リンク元が http://app.m-cocolog.jp/t/typecast/ユーザID/ブログID
    携帯電話からのアクセス。ココログは携帯電話でも見える。携帯電話向けの URL は上のようになる。(*1)
    例えばこの頁は http://app.m-cocolog.jp/t/typecast/238772/201750/64409631 で、
    このブログのトッページhttp://app.m-cocolog.jp/t/typecast/238772/201750 となる。

  2. ユーザーエージェントに (KHTML, like Gecko; Google Wireless Transcoder) を含む(*2)
    携帯電話からのアクセス。Googole のモバイル検索で見つかった頁にアクセスすると、Google がプロクシのような役割をする。手順は、こんなかんじ。
     1)携帯電話の利用者が Google で検索し、検索結果から目的の頁をクリックする。
     2)Google が目的の頁にアクセスし、その頁の HTML を携帯電話用に変換する。
     3)Google が、変換した頁を利用者の携帯電話に転送する。
    2011.12.08 現在でアクセスを確認した IP アドレスまたはホスト名を挙げる。
    • 64.233.182.80 64.233.182.81 64.233.182.82 64.233.182.83 64.233.182.84 64.233.182.85 64.233.182.86 64.233.182.87 64.233.182.88 64.233.182.89
      64.233.182.90 64.233.182.91
    • 72.14.192.1 72.14.192.66
    • 72.14.202.80 72.14.202.81 72.14.202.82 72.14.202.83  72.14.202.84
      72.14.202.85
       72.14.202.86 72.14.202.87 72.14.202.88 72.14.202.89
      72.14.202.90
       72.14.202.91
    • 72.14.212.85
    • 74.125.74.129  74.125.74.196
    • 74.125.152.80 74.125.152.81 74.125.152.82 74.125.152.83 74.125.152.84 74.125.152.85 74.125.152.86 74.125.152.87
    • 74.125.154.80  74.125.154.82
    • 209.85.174.80  209.85.174.87
    • google-proxy-66-249-80-156.google.com(IPアドレス 66.249.80.156)
    2012.02.29追加:最近の Google Wireless Transcoder は、ホスト名を名乗る時もある。nslookup コマンドで存在を確認したホスト名(IPアドレス)を以下に挙げる(*8)。
    • nx-in-f80.1e100.net(209.85.174.80) ~ nx-in-f99.1e100.net(209.85.174.99)
    • tb-in-f80.1e100.net(74.125.16.80) ~ tb-in-f99.1e100.net(74.125.16.99)
    • tx-in-f80.1e100.net(72.14.202.80) ~ tx-in-f111.1e100.net(72.14.202.111)
    • we-in-f16.1e100.net(173.194.66.16) ~ we-in-f19.1e100.net(173.194.66.19)
    • we-in-f20.1e100.net(216.239.32.20) ~ we-in-f30.1e100.net(216.239.32.30)
    • we-in-f31.1e100.net(173.194.66.31) ~ we-in-f109.1e100.net(173.194.66.109)
    • we-in-f204.1e100.net(173.194.66.204) ~ we-in-f208.1e100.net(173.194.66.208)
    • we-in-f209.1e100.net(74.125.16.209) ~ we-in-f227.1e100.net(74.125.16.227) または
      tf-in-f208.1e100.net
      (74.125.16.208) ~ tf-in-f239.1e100.net(74.125.16.239)
    • google-proxy-66-249-80-1.google.com(66.249.80.1) ~
      google-proxy-66-249-85-255.google.com(66.249.85.255)
    以下はホスト名とIPアドレスの対応表。ホスト名(IPアドレス)の形で示す。
    実際に自分の頁を Googole モバイル検索 で表示して、アクセス履歴を見てみよう。Google Wireless Transcoder からのアクセスがある筈だ。
    whois で調べると、Google は少なくとも以下7つの IPアドレス領域を確保している。今後、Google のビジネス拡張に伴い、 Google Wireless Transcoder が使う IP アドレスも増えるだろう。
     64.233.160.0-64.233.191.255 72.14.192.0-72.14.255.255 74.125.0.0-74.125.255.255
     173.194.0.0-173.194.255.255 209.85.128.0-209.85.255.255 216.239.32.0-216.239.63.255
     66.249.64.0-66.249.95.255
    Google は同じ IP アドレスを別の目的にも使っている(4.その他 の b. 参照)ので、ユーザーエージェントも確認しよう。Google Wireless Transcoder なら携帯電話、Google Web Preview ならプレビュー収集だ。

2.ロボットらしきもの

 Googlebot が有名だが、ここではそれ以外のものを挙げる。

  • ユーザーエージェントに HeartRails_Capture を含む、または リモートホスト に hosted.static.webnx.com を含む
    Web頁のキャプチャ画面を収集しているサービス。http://capture.heartrails.com/。(*3)
    リモートホストは 216-18-209-28.hosted.static.webnx.com など、
    ブラウザは HeartRails_Capture 1.0.3 など、
    ユーザーエージェントは Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.8) Gecko/20100730 HeartRails_Capture/1.0.3 ( http://capture.heartrails.com/) Namoroka/3.6.8 など。
     
  • ユーザーエージェント に TinEyecrawler を含む
    イメージ(画像)検索用のロボットらしい。(*4)
     
  • リモートホストに b132108.ppp.asahi-net.or.jp を含む
    記事を投稿してから1~2時間以内にアクセスがある。ブログ検索サービスに送った更新通知の ping に基づいてアクセスしている模様。ホスト名はインターネット・プロバイダ ASAHIネット のもの。
     
  • リモートホストに 221x251x239x234.ap221.ftth.ucom.ne.jp を含む : 挙動は上に同じ。
    ホスト名はインターネット・プロバイダ UCOM のもの。
     
  • リモートホスト に msnbotsearch.msn.com を含む : MSNサーチ用のロボット。
     
  • ユーザーエージェントが facebookexternalhit/1.1 ( http://www.facebook.com/externalhit_uatext.php) である(*10*11)
    Facebook 内で誰かが、あなたの記事を紹介したので、ロボットがキャッシュまたはサムネイルを収集した。
    Facebookが確保したIPアドレスは、少なくとも以下二つの範囲がある。リモートホストも確認しよう。
    • 173.252.64.0173.252.127.255
    • 69.171.224.069.171.255.255
    下にFacebookが確保しているIPアドレスの一覧を挙げる。

3.迷惑コメントの投稿など

  • リモートホスト(ユーザーエージェントではない)に googlebot を含む(*5)
    迷惑サイトに誘導しようとしている。
     
  • リモートホストに static.reverse.softlayer.com を含む
    ポートスキャンをかけているらしい。クラッカーのアタック?
     
  • リモートホストに rad.tsai.es を含む
    あちこちの掲示板に迷惑コメントを投稿している。ドメインはスペインのもの。
     
  • リモートホストに 91.201.66.6 を含む
    あちこちの掲示板に迷惑コメントを投稿している。IP アドレスはロシアのもの。

4.その他

  • RSS リーダー経由(*6)
    リンク元が http://127.0.0.1:4474/top?* または http://127.0.0.1:4474/folder?* (* は6~7桁の数字)
    RSS更新チェッカー cococ 経由のアクセス。 あなたの頁に常連さんが出来た模様です。
     
  • ユーザーエージェントに (KHTML, like Gecko; Google Web Preview) を含む
    Google の虫眼鏡アイコンによるプレビュー。以下2つのケースがある。
    • ロボットによる自動巡回
    • 人が Google で検索してプレビューを見た=検索結果で虫眼鏡アイコンをクリックした。
    まだロボットが巡回していない頁を、人が虫眼鏡で見た場合も、Google Web Preview がアクセスに来る(実際に自分の頁を虫眼鏡で見て、アクセスを確認した)。
    2010.11.12現在、以下3つののIP アドレスを確認した。
     72.14.202.85 74.125.74.129 74.125.152.80
    今後も、 IP アドレスは上記1.b..Google Wireless Transcoder で挙げたアドレスを使うだろう。
     
  • 商用のプロクシ Blue Coat によるもの(*7)
    ユーザーエージェントが Mozilla/4.0 (compatible;) だけでリンク元などの情報はなく、数秒間に4~5頁を連続してアクセスする。ほぼ同時に、同じホストからユーザーエージェントやリンク元などの情報を含むアクセスがある。
    アクセスの例を示そう。アクセス元のホスト名は架空のもの(qgkp.gn.jp)に変えた。
    2010/12/15 09:19:15,*,トップページ,qgkp.gn.jp,"Mozilla/4.0 (compatible;)",-,-,-,-
    2010/12/15 09:19:15,*,離島ミステリ,qgkp.gn.jp,"Mozilla/4.0 (compatible;)",-,-,-,-
    2010/12/15 09:19:15,*,スタニスワフ・レム「Fiasko 大失敗」国書刊行会 久山宏一訳,qgkp.gn>.jp,"Mozilla/4.0 (compatible;)",-,-,-,-
    2010/12/15 09:19:16,*,このアクセスは人?ロボット?スパム?,qgkp.gn.jp,"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)","http://www.google.co.jp/search?q=74.125.152.81&hl=ja&lr=&prmd=iv&ei=QgkITdOAOZCAvgOt89XGDw&start=10&sa=N",1280x800(32bpp),ja,5F466E2CE7651E16
    企業など、ファイアウォール内からのアクセス。リンク元などを含むアクセスが、利用者が見たかった頁だ。上の例では、"このアクセスは人?ロボット?スパム?" が、目的の頁となる。他の頁(トップページ、離島ミステリ、スタニスワフ・レム)は、目的の頁からリンクされているはずだ。他の頁は、Blue Coat がキャッシュするため、自動でリンクを手繰って「先読み」したものと思われる。
     
  • 商用のファイアウォール WebSence 経由のもの(*9)
    リンク元が http://##.##.##.##:$$$$$/cgi-bin/blockOptions.cgi?ws-session=%%%%%%%%%%
     例:http://10.160.84.233:15871/cgi-bin/blockOptions.cgi?ws-session=1397795008
    • ##.##.##.##:プライベートIPアドレス(→Wikipedia)。
    • $$$$$:数字。5桁の場合が多い。
    • %%%%%%%%%%:数字。10桁の場合が多い。

  • リンク元が http://ime.nu/記事のURL(*12,, *13)
    誰かが、電子掲示板「2ちゃんねる」に記事のURLを投稿した。
    具体的にどのスレッドでどう言及されているか知りたい時は、Google で記事のURLをキーワードにして検索しよう。最近(2013.01.20現在)の Google は収集が早いため、投稿されてから数時間以内で検索結果に反映される。例えばこの頁「このアクセスは人?ロボット?スパム?」なら、キーワードに https://chikuwablog.cocolog-nifty.com/blog/2010/08/post-0cc2.html を指定する。

おわりに

 このブログだと、ロボットやスパムなどのアクセス頻度は、だいたい一日に1~2回程度。一日のアクセスが千件を越えるような人気ブログなら、割合にして総アクセスの0.2%以下なので誤差でしかないけれど、片隅でひっそりやってるブログにとっては、結構な比率になる。困ったもんです。

以下の頁のお世話になりました。

  1. abc_newsココログのapp.m-cocolog.jpとは
  2. 風見鶏の目Google Wireless Transcoderって何者?
  3. ロボ避けとアクセス制限のための覚え書きサムネイル・キャプチャ作成サービス
  4. 寝込み屋蔵amazonのクローラー?TinEyeってやつですか
  5. 摩耶舞薮露愚 「googlebot.com 口座」\(^o^)/
  6. あんてぃかんけいとかhttp://127.0.0.1:4474
  7. ぼくんちのバックステージUA「Mozilla/4.0 (compatible;)」のみは商用プロキシ
  8. ぺんたんinfo1e100.netとは - [その他 + その他] ぺんたん info
  9. SEO Chat ForrumsWhat is this?
  10. Facebook の サーバーのログにFacebookが記録されているのはなぜですか?
  11. trapon : experiencefacebookexternalhit っていうログをみつけた
  12. 教えて!goo http://ime.nu/って?
  13. はてなキーワードime.nu とは

関連記事

|

« 離島ミステリ | トップページ | スタニスワフ・レム「Fiasko 大失敗」国書刊行会 久山宏一訳 »

パソコン・インターネット」カテゴリの記事

コメント

海外からのアクセス(基本的に.jp以外)を弾いている者です。
1e100.netがどういう(どの国の)ホストなのか調べていてたどり着きました。
UAからしてGoogle Wireless Transcoderのようです。
こちらを参考に対策したいと思います。
分かりやすいまとめ、ありがとうございます。

投稿: | 2012年4月26日 (木) 00時48分

こんにちは。
たいへんわかりやすい説明で助かりました。ありがとうございます。

投稿: Shira | 2011年12月 5日 (月) 10時43分

情報提供に感謝します。勝手ながらお寄せいただいた情報を本文に反映させていただきました。

投稿: ちくわぶ | 2010年12月19日 (日) 23時31分

こんにちは。
ppp.asahi-net.or.jp は
プロバイダの「アサヒネット」の契約者がアクセスしているのだと思います。

投稿: | 2010年12月19日 (日) 22時24分

こんにちは、うちも閑古鳥が鳴いているブログです
IPアドレスをたどってここへやってきました
ユーザーエージェントに (KHTML, like Gecko; Google Wireless Transcoder) を含む(*2)
に該当しました、これ携帯電話なんですね
うちPC向けだから携帯でこられても満足にみれないのに・・
情報ありがとうございます

投稿: naniya | 2010年10月14日 (木) 18時26分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: このアクセスは人?ロボット?スパム?:

« 離島ミステリ | トップページ | スタニスワフ・レム「Fiasko 大失敗」国書刊行会 久山宏一訳 »