Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Мир сошел с ума. Противостояние сайтов парсеру.

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
MikaBi
Отправлено: 04 Сентября, 2014 - 02:26:53
Post Id


Новичок


Покинул форум
Сообщений всего: 21
Дата рег-ции: Июнь 2014  


Помог: 0 раз(а)




Привет, народ. В общем, тут такое дело...или у меня что-то уже с головой, или я чего-то тайного не знаю.

Суть такова: написал я парсер (убогонький, наверняка, зато свой- родной) , что бы забирать ссылки на нужные мне тендеры с официального сайта государственных закупок zakupki.gov.ru . Колдовал я, колдовал в итоге парсер начал приносить мне ссылочки.

Но проблема в том, что каким-то непостижимым образом ссылки ведут на заглушку "Страница не существует". Я конечно сразу подумал на тему проверки ребятами с закупок.гов.ру хоста с которого я пришел, или что-то подобное и если он не их то редирект куда-нибудь подальше..но! даже если просто скопировать ссылку мою, то есть полученную парсером и их ссылку в адресную строку, а потом пройти по ним, то родная ссылка ведет куда нужно, а моя на заглушку.

У меня осталась последняя дикая мысль... если они понимают, что пришел не человек а бот, то каким-то образом меняются некоторые латинские символы на русские...не смейтесь, но более мне предположить нечего)))

Да сами посмотрите вот две ссылки:

Их ссылка: http://zakupki[dot]gov[dot]ru/223/purcha[dot][dot][dot]435&epz=true

Моя ссылка: http://zakupki[dot]gov[dot]ru/223/purcha[dot][dot][dot]435&epz=true


Они абсолютно одинаковы.

У вас какие-нибудь предположения? Может ли такое вообще быть, или это нечто о чем я не знаю? Всем спасибо.

Решено: В общем, я лохе и параноик, никому я не нужен со своим полумертвым парсером)) видимо дело было в кодировке т.к. кое-где я приводил результат в нижний регистр таким образом

Снесите тему, если нужно)

(Отредактировано автором: 04 Сентября, 2014 - 02:43:44)

 
 Top
MAXUS
Отправлено: 04 Сентября, 2014 - 06:28:07
Post Id


Посетитель


Покинул форум
Сообщений всего: 329
Дата рег-ции: Апр. 2011  


Помог: 7 раз(а)




Ссылки не одинаковые. Посмотри внимательно.

noticeId и noticeid...

Исправляешь на noticeId и все открывается.
 
 Top
Edwvee
Отправлено: 04 Сентября, 2014 - 09:53:04
Post Id


Частый гость


Покинул форум
Сообщений всего: 195
Дата рег-ции: Июнь 2013  


Помог: 1 раз(а)




А user agent ты в заголовках указываешь, когда посещаешь ту страницу откуда ссылки крадешь? Некоторые сайты агрятся на его отсутствие.
 
 Top
esterio
Отправлено: 04 Сентября, 2014 - 11:59:40
Post Id



Активный участник


Покинул форум
Сообщений всего: 5025
Дата рег-ции: Нояб. 2012  
Откуда: Украина, Львов


Помог: 127 раз(а)




а сессионная кука есть? иногда и ее проверяют
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Вопросы новичков »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB