Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Мир сошел с ума. Противостояние сайтов парсеру.
Форумы портала PHP.SU » » Вопросы новичков » Мир сошел с ума. Противостояние сайтов парсеру.

Страниц (1): [1]
 

1. MikaBi - 04 Сентября, 2014 - 02:26:53 - перейти к сообщению
Привет, народ. В общем, тут такое дело...или у меня что-то уже с головой, или я чего-то тайного не знаю.

Суть такова: написал я парсер (убогонький, наверняка, зато свой- родной) , что бы забирать ссылки на нужные мне тендеры с официального сайта государственных закупок zakupki.gov.ru . Колдовал я, колдовал в итоге парсер начал приносить мне ссылочки.

Но проблема в том, что каким-то непостижимым образом ссылки ведут на заглушку "Страница не существует". Я конечно сразу подумал на тему проверки ребятами с закупок.гов.ру хоста с которого я пришел, или что-то подобное и если он не их то редирект куда-нибудь подальше..но! даже если просто скопировать ссылку мою, то есть полученную парсером и их ссылку в адресную строку, а потом пройти по ним, то родная ссылка ведет куда нужно, а моя на заглушку.

У меня осталась последняя дикая мысль... если они понимают, что пришел не человек а бот, то каким-то образом меняются некоторые латинские символы на русские...не смейтесь, но более мне предположить нечего)))

Да сами посмотрите вот две ссылки:

Их ссылка: http://zakupki[dot]gov[dot]ru/223/purcha[dot][dot][dot]435&epz=true

Моя ссылка: http://zakupki[dot]gov[dot]ru/223/purcha[dot][dot][dot]435&epz=true


Они абсолютно одинаковы.

У вас какие-нибудь предположения? Может ли такое вообще быть, или это нечто о чем я не знаю? Всем спасибо.

Решено: В общем, я лохе и параноик, никому я не нужен со своим полумертвым парсером)) видимо дело было в кодировке т.к. кое-где я приводил результат в нижний регистр таким образом

Снесите тему, если нужно)
2. MAXUS - 04 Сентября, 2014 - 06:28:07 - перейти к сообщению
Ссылки не одинаковые. Посмотри внимательно.

noticeId и noticeid...

Исправляешь на noticeId и все открывается.
3. Edwvee - 04 Сентября, 2014 - 09:53:04 - перейти к сообщению
А user agent ты в заголовках указываешь, когда посещаешь ту страницу откуда ссылки крадешь? Некоторые сайты агрятся на его отсутствие.
4. esterio - 04 Сентября, 2014 - 11:59:40 - перейти к сообщению
а сессионная кука есть? иногда и ее проверяют

 

Powered by ExBB FM 1.0 RC1