Покинул форум
Сообщений всего: 3
Дата рег-ции: Февр. 2015 Откуда: Челябинск, Россия
Помог: 0 раз(а)
Добрый день уважаемое сообщество.
Задался целью парсить данные с сайта Vezetvsem.ru.
Соль вопроса, как сделать так, чтобы их сервер, считал меня настоящим браузером, и не мог "легко" вычислить, что я бот, и как следствие заблокировать меня?
Какие еще настройки желательно добавить, чтобы быть "настоящим" пользователем?
Предполагается обращение к этому сайту несколько раз в день, несколько месяцев подряд.
Сам парсер работает. Сначала функция авторизации получает куки, сохраняет их на жесткий диск, вторая функция используя куки, ходит по страницам.
К сожалению, через полчаса-час, куки, видимо, устаревают, и приходится заново проходить авторизацию. Вот в этом месте у меня по неопытности, ощущение, что администратору видно, что я парсер и часто хожу авторизовываться, ведь когда ходишь по страницам через браузер, авторизацию никогда не просит пройти.
Достаточно ли настроек, чтобы сервер не считал меня ботом?
Пожалуйста, подскажите, в какую степь копать, по сути это мой первый серьезный опыт, и от любой критики не откажусь.
P>S> если кому интересно, после, полученные данные будут с помощью регулярных выражений извлекаться и помещаться в базу, с которой уже будет идти основная работа.
(Добавление)
Как я понимаю, мне нужно сказать их серверу, чтобы он держал сессию, пока я хожу по страницам заказов, и собираю данные.
Через firebug видно, что они выдают куки подлиннее тех, что мне создает сам парсер, и я так думаю, помимо самой авторизации, выставляются куки "нахождения на сайте". Интернет активность показывает, что через определенные промежутки, он обновляет key через POST запрос на адрес http://www.vezetvsem.ru/hori/keys, который выставляет какую-то куку.
У меня пока мало опыта, поэтому я не могу быть уверен, что делаю все правильно, а сам самоучка, данные ищу в интернете.
Просто не хочется, как варвар все делать. Охото аккуратно, хотя бы постараться аккуратно.
OrmaJever
Отправлено: 01 Февраля, 2015 - 22:29:26
Активный участник
Покинул форум
Сообщений всего: 7540
Дата рег-ции: Янв. 2010 Откуда: Чернигов
Помог: 299 раз(а)
поставьте нормальный юзер агент и за несколько раз в день сайт вам точно ничего не сделает
----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.
OLDJman
Отправлено: 01 Февраля, 2015 - 22:56:39
Новичок
Покинул форум
Сообщений всего: 3
Дата рег-ции: Февр. 2015 Откуда: Челябинск, Россия
Помог: 0 раз(а)
OrmaJever пишет:
поставьте нормальный юзер агент и за несколько раз в день сайт вам точно ничего не сделает
UserAgent я устанавливаю браузера, через который запускаю (пока использую Denwer), в коде выше просто удалил, так как посчитал, что это персональный данные, никому не нужны.
Вопрос в настройках опций setopt, нужно ли что-нибудь указывать, чтобы админам было видно, что я поддерживаю сессию, и не будет ли подозрительным, что каждый раз заходя на сайт, я предварительно авторизуюсь, когда сайт поддерживает автовход? (Добавление)
На всякий случай, проясню момент, это не воровство контента, это желание сделать своими руками некую замену их API, который у них видите ли криво работает, а нормальных фильтров для работы с сайтом сделано не было. Администрация не желает идти на сотрудничество, вот я и ищу обходной путь.
Да и воровать там не чего.
OrmaJever
Отправлено: 02 Февраля, 2015 - 00:35:58
Активный участник
Покинул форум
Сообщений всего: 7540
Дата рег-ции: Янв. 2010 Откуда: Чернигов
Помог: 299 раз(а)
OLDJman пишет:
и не будет ли подозрительным, что каждый раз заходя на сайт, я предварительно авторизуюсь, когда сайт поддерживает автовход?
даю 95% что нет, кто на это смотрит?
----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.
OLDJman
Отправлено: 02 Февраля, 2015 - 11:29:38
Новичок
Покинул форум
Сообщений всего: 3
Дата рег-ции: Февр. 2015 Откуда: Челябинск, Россия
Помог: 0 раз(а)
OrmaJever пишет:
OLDJman пишет:
и не будет ли подозрительным, что каждый раз заходя на сайт, я предварительно авторизуюсь, когда сайт поддерживает автовход?
даю 95% что нет, кто на это смотрит?
Я просто никогда не был админом. Мне всегда казалось, что этим только и занимаются администраторы ^_^.
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.