Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: выдирание текста из HTML

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
inkor
Отправлено: 06 Марта, 2010 - 09:25:50
Post Id


Новичок


Покинул форум
Сообщений всего: 47
Дата рег-ции: Янв. 2008  


Помог: 0 раз(а)




Здравствуйте!

имеется почти 1млн. страниц из них нужно скопировать только текст статей (может содержать теги <br>, <p ....>,<a>), содержащий минимум 500 символов, он заключен в <div> либо <td>. Сложность заключается в том, что нужный текст находится во вложенных тегах например:

<div .....>
<div ...>
<div..>
текст
</div>
</div>
</div>

кое какой код я набросал, но как написать РВ чтоб находило парные теги и копировало текст из них?

CODE (htmlphp):
скопировать код в буфер обмена
  1.  
  2.  
  3. $html = file_get_contents('$page');
  4.  
  5. preg_match("#\<div[^\>]*\>|\<td[^\>]*\>([а-яА-Я0-9a-zA-Z]{500, }\<\/div\>|\<\/td\>)#Uis" ,$html,$text);        
  6.                
  7.                 echo $text['1'];


, но как написать РВ чтоб находило парные теги и копировало текст из них?
 
 Top
moskitos80
Отправлено: 13 Апреля, 2010 - 16:23:24
Post Id



Новичок


Покинул форум
Сообщений всего: 11
Дата рег-ции: Апр. 2010  


Помог: 1 раз(а)




Можно использовать "preg_match_all" и позиционные проверки.
Вот ссылка конкретно на этот вопрос:
хттп://phpclub.ru/detail/article/regexp_2
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Регулярные выражения »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB