Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737 Форумы портала PHP.SU :: помогите сделать парсер страниц с фильмами. kinopoisk.ru
Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013
Помог: 1 раз(а)
помогите сделать парсер страниц kinopoisk.ru с фильмами. там стоит защита от роботов. я новичок, плохо разбираюсь пока. не судите строго.
задача: получить контент со страницы, например http://www[dot]kinopoisk[dot]ru/film/31963/
DelphinPRO
Отправлено: 05 Мая, 2013 - 01:31:23
Активный участник
Покинул форум
Сообщений всего: 7187
Дата рег-ции: Февр. 2012
Помог: 353 раз(а)
нет там никакой защиты тупо проверяется юзер агент и еще пара параметров. На днях писал грабер (правда на дельфи) - отправлял user-agent мозилловский, заголовки keep-alive, accept, acceptencoding, acceptlanguage и referer. Скачивалось на ура.
все время кидает на http://error[dot]kinopoisk[dot]ru/?ht=17
где написано
Если вы видите эту страницу, значит с вашего IP-адреса поступило необычно много запросов. Система защиты от роботов (СЗоР) решила, что вместо вас действует программа, и ограничила доступ. и тд и тп...
подскажите что убрать что добавить. пожалуйста...
DelphinPRO
Отправлено: 06 Мая, 2013 - 09:38:01
Активный участник
Покинул форум
Сообщений всего: 7187
Дата рег-ции: Февр. 2012
Помог: 353 раз(а)
перечисленные мной заголовки вы не отправляете, зачем-то используете ПОСТ-запрос. и в качестве реферера я использовал их главную страницу (хотя это не важно).
----- Чем больше узнаю, тем больше я не знаю.
ufofly
Отправлено: 07 Мая, 2013 - 00:19:04
Новичок
Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013
Помог: 1 раз(а)
все. я разобрался. убрал строки 26-29 где пост, и все заработало
и в header достаточно только User-Agent отправлять
Большое спасибо за помощь!
возник еще один вопрос: а как самому узнать какой хидер приходит мне на сайт, чтобы реализовать примерно такую же проверку?
LIME
Отправлено: 07 Мая, 2013 - 00:27:48
Активный участник
Покинул форум
Сообщений всего: 10732
Дата рег-ции: Нояб. 2010
Помог: 322 раз(а)
$_SERVER
ufofly
Отправлено: 07 Мая, 2013 - 17:59:33
Новичок
Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013
Помог: 1 раз(а)
мда. чето сегодня опять на работает... вчера работал этот же код((( что происходит? поиогите разобраться
Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013
Помог: 0 раз(а)
ufofly ответ на твой вопрос содержится в одном из твоих же постов : ...с вашего IP-адреса поступило необычно много запросов...
система смотрит сколько запросов поступило с твоего IP за определенный промежуток времени и если их больше допустимого значения - банит тебя
огранич количество запросов например до 10 в минуту и всё будет хорошо, но мееееедлееееееннноооо
ufofly
Отправлено: 18 Мая, 2013 - 23:29:45
Новичок
Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013
Помог: 1 раз(а)
newspaper пишет:
ufofly ответ на твой вопрос содержится в одном из твоих же постов : ...с вашего IP-адреса поступило необычно много запросов...
система смотрит сколько запросов поступило с твоего IP за определенный промежуток времени и если их больше допустимого значения - банит тебя
огранич количество запросов например до 10 в минуту и всё будет хорошо, но мееееедлееееееннноооо
нет. дело не в этом. через браузер этих запросов было в десятки раз больше! я уже разобрался, нашел проблему)
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.