tuareg пишет:Я ее сохранил.
Вот здесь и проблема. Штатный краулер-то на PHP и ему с сервера недоступна страница, пока он сам не авторизуется.
Решать, похоже, придётся методом userscript. Что это такое и на сколько задача решаема этим методом - не в курсе
DlTA пишет:а что делать с изображениями (вопрос не в том как их скачать а в том где их хранить, они ведь весят)
Ну не сказал бы, что прям весят. HDD всё равно дешёвые, а процессорная мощь здесь не нужна.
+ всё равно будет делаться дедубликация хотя бы по URL + sha1
Одну копию в любом случае размещу у себя, сотню-другую гб под эту задачу выделить не проблема.