поставьте нормальный юзер агент и за несколько раз в день сайт вам точно ничего не сделает
UserAgent я устанавливаю браузера, через который запускаю (пока использую Denwer), в коде выше просто удалил, так как посчитал, что это персональный данные, никому не нужны.
Вопрос в настройках опций setopt, нужно ли что-нибудь указывать, чтобы админам было видно, что я поддерживаю сессию, и не будет ли подозрительным, что каждый раз заходя на сайт, я предварительно авторизуюсь, когда сайт поддерживает автовход? (Добавление)
На всякий случай, проясню момент, это не воровство контента, это желание сделать своими руками некую замену их API, который у них видите ли криво работает, а нормальных фильтров для работы с сайтом сделано не было. Администрация не желает идти на сотрудничество, вот я и ищу обходной путь.
Задался целью парсить данные с сайта Vezetvsem.ru.
Соль вопроса, как сделать так, чтобы их сервер, считал меня настоящим браузером, и не мог "легко" вычислить, что я бот, и как следствие заблокировать меня?
Какие еще настройки желательно добавить, чтобы быть "настоящим" пользователем?
Предполагается обращение к этому сайту несколько раз в день, несколько месяцев подряд.
Сам парсер работает. Сначала функция авторизации получает куки, сохраняет их на жесткий диск, вторая функция используя куки, ходит по страницам.
К сожалению, через полчаса-час, куки, видимо, устаревают, и приходится заново проходить авторизацию. Вот в этом месте у меня по неопытности, ощущение, что администратору видно, что я парсер и часто хожу авторизовываться, ведь когда ходишь по страницам через браузер, авторизацию никогда не просит пройти.
Достаточно ли настроек, чтобы сервер не считал меня ботом?
Пожалуйста, подскажите, в какую степь копать, по сути это мой первый серьезный опыт, и от любой критики не откажусь.
P>S> если кому интересно, после, полученные данные будут с помощью регулярных выражений извлекаться и помещаться в базу, с которой уже будет идти основная работа.
(Добавление)
Как я понимаю, мне нужно сказать их серверу, чтобы он держал сессию, пока я хожу по страницам заказов, и собираю данные.
Через firebug видно, что они выдают куки подлиннее тех, что мне создает сам парсер, и я так думаю, помимо самой авторизации, выставляются куки "нахождения на сайте". Интернет активность показывает, что через определенные промежутки, он обновляет key через POST запрос на адрес http://www.vezetvsem.ru/hori/keys, который выставляет какую-то куку.
У меня пока мало опыта, поэтому я не могу быть уверен, что делаю все правильно, а сам самоучка, данные ищу в интернете.
Просто не хочется, как варвар все делать. Охото аккуратно, хотя бы постараться аккуратно.