Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Парсер
Форумы портала PHP.SU » » Вопросы новичков » Парсер

Страниц (1): [1]
 

1. event - 06 Февраля, 2015 - 14:53:49 - перейти к сообщению
Привет.

Помогите составить регулярку чтобы парсила описание новости - http://www[dot]edu[dot]ru/index.php?page[dot][dot][dot]3&ntype=nuke

PHP:
скопировать код в буфер обмена
  1. $site = file_get_contents("http://www.edu.ru/index.php?page_id=5&topic_id=19&sid=32983&ntype=nuke");
  2.  
  3. preg_match('#<span style="font-size: small">(.*)</span>#', $site, $xxx);
  4.  
  5. echo var_dump($xxx);


Пробую как-то так не выходит.

Заранее спасибо.
2. event - 09 Февраля, 2015 - 10:45:28 - перейти к сообщению
Подскажите плиз.
(Добавление)
_http://www[dot]edu[dot]ru/index.php?page_id=5&a[dot][dot][dot]3&ntype=nuke - ссылка на новость
3. GoDr - 09 Февраля, 2015 - 12:43:41 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1. $site = file_get_contents("http://www.edu.ru/index.php?page_id=5&topic_id=19&sid=32983&ntype=nuke");
  2.  
  3. preg_match('#heading2.*?<div class="block">(.*?)<table#is', $site, $m);
  4.  
  5. echo $m[1];


PS
Очередной бредовый сайт из прошлого HTML 3.2 А?! Да кто же их такие ещё делает...
4. event - 10 Февраля, 2015 - 03:21:06 - перейти к сообщению
GoDr, спасибо, работает. Подмигивание

Подскажи пожалуйста регулярку еще которой можно забрать текст новости от сюда: _http://ria.ru/society/20150205/1046069165.html

Нужен сам текст новости, без картинок и т.д.
5. GoDr - 10 Февраля, 2015 - 12:11:30 - перейти к сообщению
event пишет:
Подскажи пожалуйста регулярку еще которой можно забрать текст новости от сюда: _http://ria.ru/society/20150205/1046069165.html
Заканчивай воровать контент Радость

А если честно, то какая у тебя цель? Сайт РИА достаточно сложный по структуре чтобы его просто парсить. Даже в самом контенте куча контекстной рекламы (ну или как они её называют), очень много скриптов. И при этом разные страницы имеют чуть-чуть отличную друг от друга структуры DOM
6. event - 10 Февраля, 2015 - 12:39:21 - перейти к сообщению
GoDr, это на один сайт мне нужно собирать новости из пары сайтов.

Знаю, но сделать нужно. Мне нужен сам текст, остальное обрежу как-то...
(Добавление)
GoDr, И парсить я буду только из одной категории - _http://ria.ru/education/
(Добавление)
Пример новости - _http://ria.ru/education/20150210/1046879553.html
7. GoDr - 10 Февраля, 2015 - 13:19:49 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1. $site = file_get_contents("http://ria.ru/education/20150210/1046879553.html");
  2.  
  3. preg_match('#id="article_full_text".*?<p>(.*?)<div class="clear"#is', $site, $v);
  4.  
  5. echo $v[1];
8. event - 10 Февраля, 2015 - 18:23:22 - перейти к сообщению
GoDr, спасибо. Работает.

Можешь подказать как удалить из текста который эта регулярка парсит это - МОСКВА, 10 фев – РИА Новости.

Знаю, что через str_replace можно, но дата новостей (там где 10 фев.) вечно меняется, и так оно работать не будет.
(Добавление)
Все, сам сделал.

PHP:
скопировать код в буфер обмена
  1. echo preg_replace('/<strong>(.*?)<\/strong>/si', '', $text);


GoDr, еще раз спасибо. Подмигивание

 

Powered by ExBB FM 1.0 RC1