Форумы портала PHP.SU :: Версия для печати

1. inkor - 06 Марта, 2010 - 09:25:50 - перейти к сообщению

Здравствуйте!

имеется почти 1млн. страниц из них нужно скопировать только текст статей (может содержать теги <br>, <p ....>,<a>), содержащий минимум 500 символов, он заключен в <div> либо <td>. Сложность заключается в том, что нужный текст находится во вложенных тегах например:

<div .....>
<div ...>
<div..>
текст
</div>
</div>
</div>

кое какой код я набросал, но как написать РВ чтоб находило парные теги и копировало текст из них?

CODE (htmlphp):
скопировать код в буфер обмена

 
$html = file_get_contents('$page');
 
preg_match("#\<div[^\>]*\>|\<td[^\>]*\>([а-яА-Я0-9a-zA-Z]{500, }\<\/div\>|\<\/td\>)#Uis" ,$html,$text);         
                
                echo $text['1'];

, но как написать РВ чтоб находило парные теги и копировало текст из них?