manekineko倉金家ホームページ

趣味の部屋/ホームページ余話

アクセスログに群がる謎のアクセス

2013年6月23日 2013年8月3日更新
 このサイトではアクセスログを一部(内容を限定して)公開しています。ただあやしい情報収集ロボットには見られないようにリンクの書き方を変えたり、Cookieのないアクセスには Guest Loginを要求してむやみにアクセスされないようにしていました。
 ところがうっかり<a>タグで普通にリンクを書いてしまったところ、えらいことに ...


 このサイトでは話の都合上、サイトのアクセスログを公開しています。
ただへんな情報収集ロボットにはわからないようにリンクの書き方を工夫したりしていました。
アクセスログへのリンクは上の例だと以下のように記述します。
<span class="link" onClick='window.open("accesslog.html", "NewWindow");'>サイトのアクセスログ</span>
すなわちjavascriptを介して開くので、javascriptを解しないロボットにはアクセスできません。
 さらにとどめにCookieをもってこない、あるいはRefererが確認できないなどの場合には Guest Loginを要求してやります。このログインダイアログには「ユーザ名:パスワードは GUEST:GUEST だよー」と表示しますので、ちゃんと人間がアクセスしたならログインできるはずです。

 ところがうっかり、このひとつ前の記事でこのアクセスログへのリンクを普通の<a>タグを使って書いてしまったのです。(実は以前に<a>タグは使わないようにしたような覚えはあったのですが、しばらく特に問題もなかったので今回は軽く考えてしまったのでした。)

 それから幾日かしてして今日の朝、アクセスログを見てびっくり。昨夜から今朝にかけてアクセスログがアクセスログへのアクセスで埋めつくされているではありませんか。
 その少し前にアクセスログは特に許可した検索ロボット以外、Cookieが有効でないとGuest Loginを要求するようにしてありました。今回のこれらのアクセスはすべてこのサイトの閲覧CookieをもってこないためGuest Loginを要求され結局読めてはいませんが、このままではログが穢れるとあってとりあえずGuest Loginをログ記録の前に移動して対処(すなわちログインを通過しないとログに記録されない)。そしてリンクを修正し一段落。
その後もすごい勢いで来てはいるがそのうち止むだろう。あまりしつこいようだとfail2banを使ってすべて拒否すればいいし。(→数日見てたらけっこうしつこいので結局fail2banで拒否しちゃいました。)

 今まで通常の記事へのリンクを書いてもこんなアクセスをされることはなかったし、なんでアクセスログだとこんなに必死に見にくるのか不思議。"accesslog"という言葉に反応しているのだろうか。確かにアクセスログにはいろんな情報が詰まっているからね。
 それに、いろんなところからこれほど集中的にしかも同じようなアクセスをされるのは偶然とは思えない。どこかでコントロールされているようにも思える。たしかにその少し前にいくつかのあやしげな情報収集ロボットと思われるものが記事を読んではいるが悪の親玉の断定はできない。

...で、今回の反省点。
情報収集ロボットにアクセスされたくない記事のリンクはせめて、
<span class="link" onClick='window.open("accesslog.html", "NewWindow");'>アクセスログ</span>
というふうにjavascriptを使ってアクセスするように書こう!
ちなみに class "link" のcssは、
.link { color:#440066; text-decoration:underline; cursor:pointer; }
.link:hover, .link:focus { color:#FF3366; }

 なおこのページには<a>タグでのアクセスログへのリンク例を書いたじゃないかと心配される方もいるかもしれませんが、その部分はCookieが有効でないと表示されないようにしました。(あやしいアクセスに見られたくない部分はCookieを確認して表示するようにしています。携帯での初回アクセスでは表示されていない場合がありますのでリロードしてみてください。)


アクセスログにアクセスしてくるルートがわかった
(2013年8月3日 追記)
 アクセスログへのリンクを上記のように書き換えてもその後ずっとアクセスログへのアクセスは続いており、実はこのアクセスだけを別ログに記録して見ていました。アクセス元IPはばらばらですが、やはり同様にいくつかの同じようなRefererやAgentを使っており、どこかで制御されているように見えます。
また来るときにはまとめて大量にきたり、あるいはしばらく何もないように止んだりするアクセスの様子からもこのことが伺われます。

で、調べた結果ついにその謎が判明し、このアクセスはぴたりと止めることができました。
その謎を知りたい方は下の「表示」ボタンをクリックしてご覧ください。
なおその前にどういう可能性があるか推理してみるのもおもしろいかと...。
アクセスログへのアクセスの謎を