クローラ作る日記 #4

created: 2018/02/11 19:44

最近クローラ作成熱が再燃していて、以前のコードを流用しつつコードを書いている。

以前のものは1日でやっとこさ100万ページをクロールできる程度の速度しかなく、
しかも時間が経つと馬鹿みたいに速度が低下していく問題があったので、まぁその辺りを持続可能な方向に修正しましょうというのが今のところの目標です。

大体動くようにはなっていて、今日3時間ばかり走らせたところ50万ページほど回ってくれたので、以前よりは大分良くなってると思う。丸1日走らせるとどうなるかはわからないけど。

マシン(今はGCPの2コア/メモリ4GB程度のインスタンス)を増やせばちゃんとスケールするっぽいことも確認できているので、
とりあえず1マシンあたりの効率を上げるために直近はEventMachineを試しています。
このあたり、イマイチ日本語で参考になるページが少ない印象を受けるけど、関連コード読めばなんとかなる気がする。
とりあえずHTTPのGETは送れるようになったので、このままやってしまいたい。