Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009 Откуда: Петроград
Помог: 10 раз(а)
Всем привет!
Понятно что "хорошим" ботам надо открывать зеленый свет, но как их узнать ?
$_SERVER['HTTP_USER_AGENT'] это конечно хорошо, но под этим может скрываться злоумышленник, который пришлет в строке YandexBot и получит привилегии!
Как быть ?
Zuldek
Отправлено: 22 Октября, 2012 - 15:30:12
Постоянный участник
Покинул форум
Сообщений всего: 2122
Дата рег-ции: Июнь 2010
Помог: 50 раз(а)
по диапазонам их IP-адресов.
Осторожнее с клоакингом.
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Кроме HTTP_USER_AGENT существует так же список IP-адресов для подобных ботов. И если первое подделать и правда несложно, то вот второе - уже проблематичнее.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
eai
Отправлено: 22 Октября, 2012 - 15:34:11
Частый посетитель
Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009 Откуда: Петроград
Помог: 10 раз(а)
EuGen пишет:
Кроме HTTP_USER_AGENT существует так же <a href='http://www[dot]iplists[dot]com/'>список IP-адресов</a> для подобных ботов. И если первое подделать и правда несложно, то вот второе - уже проблематичнее.
Отличный список, спасибо, однако проблема там нет отечественных yandex, Mail, Rambler .... (Добавление)
Ко мне вот приходит 66.249.76.39
whois грит что сие Гугель, а вот в указанном списке этого адреса нет
EuGen
Отправлено: 22 Октября, 2012 - 15:40:07
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
eai
Ну тогда добавьте подсеть из whois в "белый список" как google-bot. Не могу гарантировать, что список выше - абсолютно полный.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
eai
Отправлено: 22 Октября, 2012 - 15:41:36
Частый посетитель
Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009 Откуда: Петроград
Помог: 10 раз(а)
Дая Жень понимаю, думал просто Гугель и яндекс отдает список своих роботов, но не смог сам найти, думал у кого то есть ссылка ...
EuGen
Отправлено: 22 Октября, 2012 - 15:43:42
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Запрос робота google - это такой же HTTP-запрос, как и остальные. И, значит, у него в распоряжении только те средства, которые есть у всех. Никаких волшебных средств у них нет. Потому и используют HTTP_USER_AGENT для первичной фильтрации. Но так как любые заголовки Request можно подделать, то лучше списка адресов здесь вряд ли можно что-либо придумать.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
eai
Отправлено: 22 Октября, 2012 - 16:02:54
Частый посетитель
Покинул форум
Сообщений всего: 521
Дата рег-ции: Сент. 2009 Откуда: Петроград
Помог: 10 раз(а)
нашел не плохой выход, проверять IP который объявляет себя SpyderBot через gethostbyaddr($IP). Если ответ аля crawl-66-249-76-39.googlebot.com, значит в базу белых ботов его.
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.