クローラ作る日記

created: 2017/07/19 00:37 updated: 2017/07/19 00:37

作っているクローラがある程度動かせるようになったので、ConoHa上に環境を作った。
使うことにしたのは6コアプランと4コアプランで、6コアの方ではPostgreSQLとRedis、4コアの方ではクローラを動かす。
クローラの方はもうちょっと安いのでも良いかもしれない。
(これで月1万くらいだけど、今月はコードばっかり書いててお金をあまり使っていないのでこれで良い)

環境自体はすぐに作れたので、7/17の24時くらいから動かして就寝。
朝ログを確認したら2017-07-18 05:29:48を最後にクローラが止まっていた。
その時点までに巡回できたのは211978ホスト・630186ページ。

Redisのログを確認すると、メモリの確保に失敗して以降に再起動したようなので、原因はそれのよう。

今はクロール中に収集したURLを全部Redisのセットに入れていて、落ちる前には全体で8000万程度のURLがセット内に入っていたらしい。
6コアプランのメモリは8GBでPostgreSQLも相乗りしているので、まぁそれくらいで落ちるのか。

とりあえずURLのキューの構成についてもうちょっと考える。