Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: помогите сделать парсер страниц с фильмами. kinopoisk.ru

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Описание: помогите сделать парсер страниц kinopoisk.ru с фильмами. там стоит защита от роботов
ufofly
Отправлено: 05 Мая, 2013 - 00:17:51
Post Id


Новичок


Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013  


Помог: 1 раз(а)




помогите сделать парсер страниц kinopoisk.ru с фильмами. там стоит защита от роботов. я новичок, плохо разбираюсь пока. не судите строго.
задача: получить контент со страницы, например http://www[dot]kinopoisk[dot]ru/film/31963/
 
 Top
DelphinPRO
Отправлено: 05 Мая, 2013 - 01:31:23
Post Id



Активный участник


Покинул форум
Сообщений всего: 7187
Дата рег-ции: Февр. 2012  


Помог: 353 раз(а)




нет там никакой защиты Улыбка тупо проверяется юзер агент и еще пара параметров. На днях писал грабер (правда на дельфи) - отправлял user-agent мозилловский, заголовки keep-alive, accept, acceptencoding, acceptlanguage и referer. Скачивалось на ура.

В php все это легко организуется средствами cURL

(Отредактировано автором: 05 Мая, 2013 - 01:31:59)



-----
Чем больше узнаю, тем больше я не знаю.
 
 Top
ufofly
Отправлено: 05 Мая, 2013 - 23:37:14
Post Id


Новичок


Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013  


Помог: 1 раз(а)




ну вот мой скриптик:
Спойлер (Отобразить)


все время кидает на http://error[dot]kinopoisk[dot]ru/?ht=17
где написано
Если вы видите эту страницу, значит с вашего IP-адреса поступило необычно много запросов. Система защиты от роботов (СЗоР) решила, что вместо вас действует программа, и ограничила доступ. и тд и тп...
подскажите что убрать что добавить. пожалуйста... Закатив глазки
 
 Top
DelphinPRO
Отправлено: 06 Мая, 2013 - 09:38:01
Post Id



Активный участник


Покинул форум
Сообщений всего: 7187
Дата рег-ции: Февр. 2012  


Помог: 353 раз(а)




перечисленные мной заголовки вы не отправляете, зачем-то используете ПОСТ-запрос. и в качестве реферера я использовал их главную страницу (хотя это не важно).


-----
Чем больше узнаю, тем больше я не знаю.
 
 Top
ufofly
Отправлено: 07 Мая, 2013 - 00:19:04
Post Id


Новичок


Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013  


Помог: 1 раз(а)




все. я разобрался. убрал строки 26-29 где пост, и все заработало
и в header достаточно только User-Agent отправлять
Большое спасибо за помощь!
возник еще один вопрос: а как самому узнать какой хидер приходит мне на сайт, чтобы реализовать примерно такую же проверку?
 
 Top
LIME
Отправлено: 07 Мая, 2013 - 00:27:48
Post Id


Активный участник


Покинул форум
Сообщений всего: 10732
Дата рег-ции: Нояб. 2010  


Помог: 322 раз(а)




$_SERVER
 
 Top
ufofly
Отправлено: 07 Мая, 2013 - 17:59:33
Post Id


Новичок


Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013  


Помог: 1 раз(а)




мда. чето сегодня опять на работает... вчера работал этот же код((( что происходит? поиогите разобраться

Спойлер (Отобразить)
 
 Top
newspaper
Отправлено: 16 Мая, 2013 - 17:50:37
Post Id


Новичок


Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013  


Помог: 0 раз(а)




ufofly ответ на твой вопрос содержится в одном из твоих же постов : ...с вашего IP-адреса поступило необычно много запросов...

система смотрит сколько запросов поступило с твоего IP за определенный промежуток времени и если их больше допустимого значения - банит тебя
огранич количество запросов например до 10 в минуту и всё будет хорошо, но мееееедлееееееннноооо
 
 Top
ufofly
Отправлено: 18 Мая, 2013 - 23:29:45
Post Id


Новичок


Покинул форум
Сообщений всего: 8
Дата рег-ции: Май 2013  


Помог: 1 раз(а)




newspaper пишет:
ufofly ответ на твой вопрос содержится в одном из твоих же постов : ...с вашего IP-адреса поступило необычно много запросов...

система смотрит сколько запросов поступило с твоего IP за определенный промежуток времени и если их больше допустимого значения - банит тебя
огранич количество запросов например до 10 в минуту и всё будет хорошо, но мееееедлееееееннноооо

нет. дело не в этом. через браузер этих запросов было в десятки раз больше! я уже разобрался, нашел проблему)
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« HTTP и PHP »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB