Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Определение Bots

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Описание: Как узнать что пришел Bot
eai
Отправлено: 22 Октября, 2012 - 15:25:58
Post Id



Частый посетитель


Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009  
Откуда: Петроград


Помог: 10 раз(а)




Всем привет!

Понятно что "хорошим" ботам надо открывать зеленый свет, но как их узнать ?
$_SERVER['HTTP_USER_AGENT'] это конечно хорошо, но под этим может скрываться злоумышленник, который пришлет в строке YandexBot и получит привилегии!

Как быть ?
 
 Top
Zuldek
Отправлено: 22 Октября, 2012 - 15:30:12
Post Id


Постоянный участник


Покинул форум
Сообщений всего: 2122
Дата рег-ции: Июнь 2010  


Помог: 50 раз(а)




по диапазонам их IP-адресов.
Осторожнее с клоакингом.

(Отредактировано автором: 22 Октября, 2012 - 15:31:18)

 
 Top
EuGen Администратор
Отправлено: 22 Октября, 2012 - 15:31:48
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Кроме HTTP_USER_AGENT существует так же список IP-адресов для подобных ботов. И если первое подделать и правда несложно, то вот второе - уже проблематичнее.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
eai
Отправлено: 22 Октября, 2012 - 15:34:11
Post Id



Частый посетитель


Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009  
Откуда: Петроград


Помог: 10 раз(а)




EuGen пишет:
Кроме HTTP_USER_AGENT существует так же <a href='http://www[dot]iplists[dot]com/'>список IP-адресов</a> для подобных ботов. И если первое подделать и правда несложно, то вот второе - уже проблематичнее.

Отличный список, спасибо, однако проблема там нет отечественных yandex, Mail, Rambler ....
(Добавление)
Ко мне вот приходит 66.249.76.39
whois грит что сие Гугель, а вот в указанном списке этого адреса нет Недовольство, огорчение
 
 Top
EuGen Администратор
Отправлено: 22 Октября, 2012 - 15:40:07
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




eai
Ну тогда добавьте подсеть из whois в "белый список" как google-bot. Не могу гарантировать, что список выше - абсолютно полный.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
eai
Отправлено: 22 Октября, 2012 - 15:41:36
Post Id



Частый посетитель


Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009  
Откуда: Петроград


Помог: 10 раз(а)




Дая Жень понимаю, думал просто Гугель и яндекс отдает список своих роботов, но не смог сам найти, думал у кого то есть ссылка ...
 
 Top
EuGen Администратор
Отправлено: 22 Октября, 2012 - 15:43:42
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Запрос робота google - это такой же HTTP-запрос, как и остальные. И, значит, у него в распоряжении только те средства, которые есть у всех. Никаких волшебных средств у них нет. Потому и используют HTTP_USER_AGENT для первичной фильтрации. Но так как любые заголовки Request можно подделать, то лучше списка адресов здесь вряд ли можно что-либо придумать.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
eai
Отправлено: 22 Октября, 2012 - 16:02:54
Post Id



Частый посетитель


Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009  
Откуда: Петроград


Помог: 10 раз(а)




нашел не плохой выход, проверять IP который объявляет себя SpyderBot через gethostbyaddr($IP). Если ответ аля crawl-66-249-76-39.googlebot.com, значит в базу белых ботов его.
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Вопросы новичков »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB