このアクセスは人?ロボット?スパム?
ブログのアクセス履歴を見ると、中には "ブックマーク/URL直接入力"なんてのがある。「お気に入りに登録してくれるとは嬉しい」などと喜んだりもするのだが、どうも様子が違う。そんな奇妙なアクセス履歴を調べ、大きく4種類に分けて整理してみた。
- 携帯電話からのアクセス
- 検索エンジンなどのロボット(クローラー)
- 迷惑コメント投稿などが目的のもの
- その他
では、それぞれの特徴を見ていこう。
1.携帯電話からのアクセス
- リンク元が http://app.m-cocolog.jp/t/typecast/ユーザID/ブログID
携帯電話からのアクセス。ココログは携帯電話でも見える。携帯電話向けの URL は上のようになる。(*1)
例えばこの頁は http://app.m-cocolog.jp/t/typecast/238772/201750/64409631 で、
このブログのトップページは http://app.m-cocolog.jp/t/typecast/238772/201750 となる。 - ユーザーエージェントに (KHTML, like
Gecko; Google Wireless Transcoder) を含む(*2)
携帯電話からのアクセス。Googole のモバイル検索で見つかった頁にアクセスすると、Google がプロクシのような役割をする。手順は、こんなかんじ。
1)携帯電話の利用者が Google で検索し、検索結果から目的の頁をクリックする。
2)Google が目的の頁にアクセスし、その頁の HTML を携帯電話用に変換する。
3)Google が、変換した頁を利用者の携帯電話に転送する。
2011.12.08 現在でアクセスを確認した IP アドレスまたはホスト名を挙げる。
- 64.233.182.80 64.233.182.81 64.233.182.82 64.233.182.83 64.233.182.84 64.233.182.85 64.233.182.86 64.233.182.87 64.233.182.88 64.233.182.89
64.233.182.90 64.233.182.91 - 72.14.192.1 72.14.192.66
- 72.14.202.80 72.14.202.81 72.14.202.82 72.14.202.83 72.14.202.84
72.14.202.85 72.14.202.86 72.14.202.87 72.14.202.88 72.14.202.89
72.14.202.90 72.14.202.91 - 72.14.212.85
- 74.125.74.129 74.125.74.196
- 74.125.152.80 74.125.152.81 74.125.152.82 74.125.152.83 74.125.152.84 74.125.152.85 74.125.152.86 74.125.152.87
- 74.125.154.80 74.125.154.82
- 209.85.174.80 209.85.174.87
- google-proxy-66-249-80-156.google.com(IPアドレス 66.249.80.156)
- nx-in-f80.1e100.net(209.85.174.80) ~ nx-in-f99.1e100.net(209.85.174.99)
- tb-in-f80.1e100.net(74.125.16.80) ~ tb-in-f99.1e100.net(74.125.16.99)
- tx-in-f80.1e100.net(72.14.202.80) ~ tx-in-f111.1e100.net(72.14.202.111)
- we-in-f16.1e100.net(173.194.66.16) ~ we-in-f19.1e100.net(173.194.66.19)
- we-in-f20.1e100.net(216.239.32.20) ~ we-in-f30.1e100.net(216.239.32.30)
- we-in-f31.1e100.net(173.194.66.31) ~ we-in-f109.1e100.net(173.194.66.109)
- we-in-f204.1e100.net(173.194.66.204) ~ we-in-f208.1e100.net(173.194.66.208)
- we-in-f209.1e100.net(74.125.16.209) ~ we-in-f227.1e100.net(74.125.16.227) または
tf-in-f208.1e100.net(74.125.16.208) ~ tf-in-f239.1e100.net(74.125.16.239) - google-proxy-66-249-80-1.google.com(66.249.80.1) ~
google-proxy-66-249-85-255.google.com(66.249.85.255)
whois で調べると、Google は少なくとも以下7つの IPアドレス領域を確保している。今後、Google のビジネス拡張に伴い、 Google Wireless Transcoder が使う IP アドレスも増えるだろう。
64.233.160.0-64.233.191.255 72.14.192.0-72.14.255.255 74.125.0.0-74.125.255.255
173.194.0.0-173.194.255.255 209.85.128.0-209.85.255.255 216.239.32.0-216.239.63.255
66.249.64.0-66.249.95.255
Google は同じ IP アドレスを別の目的にも使っている(4.その他 の b. 参照)ので、ユーザーエージェントも確認しよう。Google Wireless Transcoder なら携帯電話、Google Web Preview ならプレビュー収集だ。 - 64.233.182.80 64.233.182.81 64.233.182.82 64.233.182.83 64.233.182.84 64.233.182.85 64.233.182.86 64.233.182.87 64.233.182.88 64.233.182.89
2.ロボットらしきもの
Googlebot が有名だが、ここではそれ以外のものを挙げる。
- ユーザーエージェントに HeartRails_Capture を含む、または リモートホスト に hosted.static.webnx.com を含む
Web頁のキャプチャ画面を収集しているサービス。http://capture.heartrails.com/。(*3)
リモートホストは 216-18-209-28.hosted.static.webnx.com など、
ブラウザは HeartRails_Capture 1.0.3 など、
ユーザーエージェントは Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.8) Gecko/20100730 HeartRails_Capture/1.0.3 ( http://capture.heartrails.com/) Namoroka/3.6.8 など。
- ユーザーエージェント に TinEye と crawler を含む
イメージ(画像)検索用のロボットらしい。(*4)
- リモートホストに b132108.ppp.asahi-net.or.jp を含む
記事を投稿してから1~2時間以内にアクセスがある。ブログ検索サービスに送った更新通知の ping に基づいてアクセスしている模様。ホスト名はインターネット・プロバイダ ASAHIネット のもの。
- リモートホストに 221x251x239x234.ap221.ftth.ucom.ne.jp を含む : 挙動は上に同じ。
ホスト名はインターネット・プロバイダ UCOM のもの。
- リモートホスト に msnbot と search.msn.com を含む : MSNサーチ用のロボット。
- ユーザーエージェントが facebookexternalhit/1.1 ( http://www.facebook.com/externalhit_uatext.php) である(*10、*11)
Facebook 内で誰かが、あなたの記事を紹介したので、ロボットがキャッシュまたはサムネイルを収集した。
Facebookが確保したIPアドレスは、少なくとも以下二つの範囲がある。リモートホストも確認しよう。
- 173.252.64.0~173.252.127.255
- 69.171.224.0~69.171.255.255
3.迷惑コメントの投稿など
- リモートホスト(ユーザーエージェントではない)に googlebot を含む(*5)
迷惑サイトに誘導しようとしている。
- リモートホストに static.reverse.softlayer.com を含む
ポートスキャンをかけているらしい。クラッカーのアタック?
- リモートホストに rad.tsai.es を含む
あちこちの掲示板に迷惑コメントを投稿している。ドメインはスペインのもの。
- リモートホストに 91.201.66.6 を含む
あちこちの掲示板に迷惑コメントを投稿している。IP アドレスはロシアのもの。
4.その他
- RSS リーダー経由(*6)
リンク元が http://127.0.0.1:4474/top?* または http://127.0.0.1:4474/folder?* (* は6~7桁の数字)
RSS更新チェッカー cococ 経由のアクセス。 あなたの頁に常連さんが出来た模様です。
- ユーザーエージェントに (KHTML, like
Gecko; Google Web Preview) を含む
Google の虫眼鏡アイコンによるプレビュー。以下2つのケースがある。- ロボットによる自動巡回
- 人が Google で検索してプレビューを見た=検索結果で虫眼鏡アイコンをクリックした。
2010.11.12現在、以下3つののIP アドレスを確認した。
72.14.202.85 74.125.74.129 74.125.152.80
今後も、 IP アドレスは上記1.b..Google Wireless Transcoder で挙げたアドレスを使うだろう。
- 商用のプロクシ Blue Coat によるもの(*7)
ユーザーエージェントが Mozilla/4.0 (compatible;) だけでリンク元などの情報はなく、数秒間に4~5頁を連続してアクセスする。ほぼ同時に、同じホストからユーザーエージェントやリンク元などの情報を含むアクセスがある。
アクセスの例を示そう。アクセス元のホスト名は架空のもの(qgkp.gn.jp)に変えた。2010/12/15 09:19:15,*,トップページ,qgkp.gn.jp,"Mozilla/4.0 (compatible;)",-,-,-,-
2010/12/15 09:19:15,*,離島ミステリ,qgkp.gn.jp,"Mozilla/4.0 (compatible;)",-,-,-,-
2010/12/15 09:19:15,*,スタニスワフ・レム「Fiasko 大失敗」国書刊行会 久山宏一訳,qgkp.gn>.jp,"Mozilla/4.0 (compatible;)",-,-,-,-
2010/12/15 09:19:16,*,このアクセスは人?ロボット?スパム?,qgkp.gn.jp,"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)","http://www.google.co.jp/search?q=74.125.152.81&hl=ja&lr=&prmd=iv&ei=QgkITdOAOZCAvgOt89XGDw&start=10&sa=N",1280x800(32bpp),ja,5F466E2CE7651E16
- 商用のファイアウォール WebSence 経由のもの(*9)
リンク元が http://##.##.##.##:$$$$$/cgi-bin/blockOptions.cgi?ws-session=%%%%%%%%%%
例:http://10.160.84.233:15871/cgi-bin/blockOptions.cgi?ws-session=1397795008- ##.##.##.##:プライベートIPアドレス(→Wikipedia)。
- $$$$$:数字。5桁の場合が多い。
- %%%%%%%%%%:数字。10桁の場合が多い。
- リンク元が http://ime.nu/記事のURL(*12,, *13)
誰かが、電子掲示板「2ちゃんねる」に記事のURLを投稿した。
具体的にどのスレッドでどう言及されているか知りたい時は、Google で記事のURLをキーワードにして検索しよう。最近(2013.01.20現在)の Google は収集が早いため、投稿されてから数時間以内で検索結果に反映される。例えばこの頁「このアクセスは人?ロボット?スパム?」なら、キーワードに https://chikuwablog.cocolog-nifty.com/blog/2010/08/post-0cc2.html を指定する。
おわりに
このブログだと、ロボットやスパムなどのアクセス頻度は、だいたい一日に1~2回程度。一日のアクセスが千件を越えるような人気ブログなら、割合にして総アクセスの0.2%以下なので誤差でしかないけれど、片隅でひっそりやってるブログにとっては、結構な比率になる。困ったもんです。
以下の頁のお世話になりました。
- abc_news の ココログのapp.m-cocolog.jpとは
- 風見鶏の目 の Google Wireless Transcoderって何者?
- ロボ避けとアクセス制限のための覚え書き の サムネイル・キャプチャ作成サービス
- 寝込み屋蔵 の amazonのクローラー?TinEyeってやつですか
- 摩耶舞薮露愚 の 「googlebot.com 口座」\(^o^)/
- あんてぃかんけいとか の http://127.0.0.1:4474
- ぼくんちのバックステージ の UA「Mozilla/4.0 (compatible;)」のみは商用プロキシ
- ぺんたんinfo の 1e100.netとは - [その他 + その他] ぺんたん info
- SEO Chat Forrums の What is this?
- Facebook の サーバーのログにFacebookが記録されているのはなぜですか?
- trapon : experience の facebookexternalhit っていうログをみつけた
- 教えて!goo の http://ime.nu/って?
- はてなキーワード の ime.nu とは
関連記事
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- サミュエル・ウーリー「操作される現実 VR・合成音声・ディープフェイクが生む虚構のプロパガンダ」白揚社 小林啓倫訳(2021.07.11)
- ココログ:記事編集で余分な改行が入る→初期設定を通常エディタにする(2019.10.10)
- Q.Ethan McCallum「バッドデータ ハンドブック データにまつわる問題への19の処方箋」オライリージャパン 磯蘭水監訳 笹井崇司訳(2019.06.07)
- ココログ:リンク切れ一覧と旧URL一覧と公開記事URL一覧を突き合わせるOpenOfficeCalc(2018.11.18)
- ココログ:古い「カテゴリ別書評一覧」から各記事の旧URL 一覧を作るVBScript(2018.11.15)
コメント
海外からのアクセス(基本的に.jp以外)を弾いている者です。
1e100.netがどういう(どの国の)ホストなのか調べていてたどり着きました。
UAからしてGoogle Wireless Transcoderのようです。
こちらを参考に対策したいと思います。
分かりやすいまとめ、ありがとうございます。
投稿: | 2012年4月26日 (木) 00時48分
こんにちは。
たいへんわかりやすい説明で助かりました。ありがとうございます。
投稿: Shira | 2011年12月 5日 (月) 10時43分
情報提供に感謝します。勝手ながらお寄せいただいた情報を本文に反映させていただきました。
投稿: ちくわぶ | 2010年12月19日 (日) 23時31分
こんにちは。
ppp.asahi-net.or.jp は
プロバイダの「アサヒネット」の契約者がアクセスしているのだと思います。
投稿: | 2010年12月19日 (日) 22時24分
こんにちは、うちも閑古鳥が鳴いているブログです
IPアドレスをたどってここへやってきました
ユーザーエージェントに (KHTML, like Gecko; Google Wireless Transcoder) を含む(*2)
に該当しました、これ携帯電話なんですね
うちPC向けだから携帯でこられても満足にみれないのに・・
情報ありがとうございます
投稿: naniya | 2010年10月14日 (木) 18時26分