最近Webページのクローラを動かしているので

created: 2017/07/09 03:42 updated: 2017/07/09 03:42

最近自作したWebページのクローラをたまに動かしているので、それに関する概要をこのページに書いてURLをUAに含めておこうと思う。


クローラ「CROOK」について

CROOKは@bonon0が作成し動作させている、不特定多数のWebページを収集するWebクローラです。
本クローラの目的は、単に「クローラを自作する」という知的好奇心を満たすためだけのものであり、
対象Webページに危害を加えようとするものではありません。

クローラは以下のユーザーエージェント名を使用し各Webページへアクセスするため、
アクセスログからこのクローラによるアクセスがどの程度のものなのかを確認することができます。

CROOK/0.1 (+http://bonono.net/logs/crook)

robots.txtについて

本クローラはrobots.txtを確認し、それに準拠した動作をするようになっています。
robots.txtの取得に成功した場合、ユーザーエージェント"CROOK", "Googlebot", "*"に関する設定を順番に確認し、
有効なものが見つかった時点でその設定を採用します。
ディレクティブはAllow, Disallow, Crawl-Delayに対応し、Crawl-Delayの単位は"秒"として扱います。

# 例: 間隔は60秒で"/admin"から始まるパスの収集を許可しない
User-Agent: CROOK
Crawl-Delay: 60
Disallow: /admin

なお、robots.txtが存在しない場合でも、同じホスト名を持つURLへのアクセスは最低で60秒の間隔をあけるものとしています。

検索ロボット向けのmetaタグについて

検索ロボット向けのmetaタグのcontent属性にnofollowが含まれている場合、本クローラはそのページに含まれるリンクを収集しません。

<meta name="robots" content="nofollow" />

その他

万が一本クローラが不適切な動作を行なっていた場合、右サイドバーにあるメールアドレスへご連絡いただくか、適当な連絡手段を用いてご連絡いただければ幸いです。