Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Парсер

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
event
Отправлено: 06 Февраля, 2015 - 14:53:49
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 542
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




Привет.

Помогите составить регулярку чтобы парсила описание новости - http://www[dot]edu[dot]ru/index.php?page[dot][dot][dot]3&ntype=nuke

PHP:
скопировать код в буфер обмена
  1. $site = file_get_contents("http://www.edu.ru/index.php?page_id=5&topic_id=19&sid=32983&ntype=nuke");
  2.  
  3. preg_match('#<span style="font-size: small">(.*)</span>#', $site, $xxx);
  4.  
  5. echo var_dump($xxx);


Пробую как-то так не выходит.

Заранее спасибо.
 
 Top
event
Отправлено: 09 Февраля, 2015 - 10:45:28
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 542
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




Подскажите плиз.
(Добавление)
_http://www[dot]edu[dot]ru/index.php?page_id=5&a[dot][dot][dot]3&ntype=nuke - ссылка на новость
 
 Top
GoDr
Отправлено: 09 Февраля, 2015 - 12:43:41
Post Id



Посетитель


Покинул форум
Сообщений всего: 446
Дата рег-ции: Янв. 2015  
Откуда: Тамбов


Помог: 17 раз(а)




PHP:
скопировать код в буфер обмена
  1. $site = file_get_contents("http://www.edu.ru/index.php?page_id=5&topic_id=19&sid=32983&ntype=nuke");
  2.  
  3. preg_match('#heading2.*?<div class="block">(.*?)<table#is', $site, $m);
  4.  
  5. echo $m[1];


PS
Очередной бредовый сайт из прошлого HTML 3.2 А?! Да кто же их такие ещё делает...


-----
Система управления веб-содержимым Lotos CMS
 
 Top
event
Отправлено: 10 Февраля, 2015 - 03:21:06
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 542
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




GoDr, спасибо, работает. Подмигивание

Подскажи пожалуйста регулярку еще которой можно забрать текст новости от сюда: _http://ria.ru/society/20150205/1046069165.html

Нужен сам текст новости, без картинок и т.д.
 
 Top
GoDr
Отправлено: 10 Февраля, 2015 - 12:11:30
Post Id



Посетитель


Покинул форум
Сообщений всего: 446
Дата рег-ции: Янв. 2015  
Откуда: Тамбов


Помог: 17 раз(а)




event пишет:
Подскажи пожалуйста регулярку еще которой можно забрать текст новости от сюда: _http://ria.ru/society/20150205/1046069165.html
Заканчивай воровать контент Радость

А если честно, то какая у тебя цель? Сайт РИА достаточно сложный по структуре чтобы его просто парсить. Даже в самом контенте куча контекстной рекламы (ну или как они её называют), очень много скриптов. И при этом разные страницы имеют чуть-чуть отличную друг от друга структуры DOM


-----
Система управления веб-содержимым Lotos CMS
 
 Top
event
Отправлено: 10 Февраля, 2015 - 12:39:21
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 542
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




GoDr, это на один сайт мне нужно собирать новости из пары сайтов.

Знаю, но сделать нужно. Мне нужен сам текст, остальное обрежу как-то...
(Добавление)
GoDr, И парсить я буду только из одной категории - _http://ria.ru/education/
(Добавление)
Пример новости - _http://ria.ru/education/20150210/1046879553.html
 
 Top
GoDr
Отправлено: 10 Февраля, 2015 - 13:19:49
Post Id



Посетитель


Покинул форум
Сообщений всего: 446
Дата рег-ции: Янв. 2015  
Откуда: Тамбов


Помог: 17 раз(а)




PHP:
скопировать код в буфер обмена
  1. $site = file_get_contents("http://ria.ru/education/20150210/1046879553.html");
  2.  
  3. preg_match('#id="article_full_text".*?<p>(.*?)<div class="clear"#is', $site, $v);
  4.  
  5. echo $v[1];


-----
Система управления веб-содержимым Lotos CMS
 
 Top
event
Отправлено: 10 Февраля, 2015 - 18:23:22
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 542
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




GoDr, спасибо. Работает.

Можешь подказать как удалить из текста который эта регулярка парсит это - МОСКВА, 10 фев – РИА Новости.

Знаю, что через str_replace можно, но дата новостей (там где 10 фев.) вечно меняется, и так оно работать не будет.
(Добавление)
Все, сам сделал.

PHP:
скопировать код в буфер обмена
  1. echo preg_replace('/<strong>(.*?)<\/strong>/si', '', $text);


GoDr, еще раз спасибо. Подмигивание
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Вопросы новичков »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB