Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Как отследить запросы ботов к файлам?

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
Extazy
Отправлено: 08 Декабря, 2014 - 23:58:09
Post Id


Посетитель


Покинул форум
Сообщений всего: 490
Дата рег-ции: Янв. 2010  


Помог: 0 раз(а)




Уважаемые гуру!
Мне необходимо отследить обращение различных ботов к файлам моего сайта. Именно файлам .jpg, .css, а не самим страницам.

Вот код для отслеживания ботов:
PHP:
скопировать код в буфер обмена
  1. function robot ($bot)
  2. {
  3.  if(strpos($_SERVER['HTTP_USER_AGENT'], $bot)!==false)
  4.  {
  5.  $text = date("Y-m-d H:i") . " $bot посетил страницу: ". $_SERVER['REQUEST_URI']."\r\n";
  6.  // запись в файл
  7.  $file = fopen("bot.txt","a");
  8.  fwrite($file, $text);
  9.  fclose ($file);
  10.  // отправка на почту
  11.  mail('example@gmail.com', "$bot посетил страницу", $text);
  12.  }
  13. }
  14.  
  15. // отслеживаем роботов
  16. robot('Googlebot');
  17. robot('Yandex');


Но он ведь не сработает, если бот минуя все страницы обратился сразу к файлу.. верно? Может как-то через .htaccess можно подключить отслеживание? Растерялся
 
 Top
nkl
Отправлено: 09 Декабря, 2014 - 08:05:06
Post Id



Посетитель


Покинул форум
Сообщений всего: 305
Дата рег-ции: Янв. 2012  


Помог: 1 раз(а)




Можно парсить access-лог веб-сервера. Там-то все регистрируется, будь-то запрос на получение CSS или спрайта с иконками.
 
 Top
DeepVarvar Супермодератор
Отправлено: 09 Декабря, 2014 - 10:13:50
Post Id



Активный участник


Покинул форум
Сообщений всего: 10377
Дата рег-ции: Дек. 2008  
Откуда: Альфа Центавра


Помог: 353 раз(а)




Вот список ботов по юзерагентам:
http://en[dot]wikipedia[dot]org/wiki/Wik[dot][dot][dot]_number_of_edits
Я сомневаюсь что он полный ))
Эт к чему - ты просто запаришься ловить конкретно бота.
А еще не факт что у бота будет ботовый юзерагент, поставят как у обычного браузера и уже не отличишь.
 
 Top
Extazy
Отправлено: 09 Декабря, 2014 - 10:22:36
Post Id


Посетитель


Покинул форум
Сообщений всего: 490
Дата рег-ции: Янв. 2010  


Помог: 0 раз(а)




Мне нужен конкретный бот под именем Odnoklassniki. В acces логах он есть.
Подскажите, каким кодом можно было бы удобно парсить все записи нужного мне бота из access.log, acces.log1, access.log2 ?
 
 Top
DeepVarvar Супермодератор
Отправлено: 09 Декабря, 2014 - 10:48:08
Post Id



Активный участник


Покинул форум
Сообщений всего: 10377
Дата рег-ции: Дек. 2008  
Откуда: Альфа Центавра


Помог: 353 раз(а)




CODE (bash):
скопировать код в буфер обмена
  1. grep odnoklassniki -i ./access.log
 
 Top
Extazy
Отправлено: 09 Декабря, 2014 - 11:00:50
Post Id


Посетитель


Покинул форум
Сообщений всего: 490
Дата рег-ции: Янв. 2010  


Помог: 0 раз(а)




а куда это вписывать?) в командную строку?) а можно сделать чтоб на автомате парсилось и в файл записывалось?
 
 Top
DeepVarvar Супермодератор
Отправлено: 09 Декабря, 2014 - 13:58:15
Post Id



Активный участник


Покинул форум
Сообщений всего: 10377
Дата рег-ции: Дек. 2008  
Откуда: Альфа Центавра


Помог: 353 раз(а)




PHP:
скопировать код в буфер обмена
  1. exec('grep odnoklassniki -i /path/do/access.log >> /path/do/filtered.log');
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Вопросы новичков »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB