имеется почти 1млн. страниц из них нужно скопировать только текст статей (может содержать теги <br>, <p ....>,<a>), содержащий минимум 500 символов, он заключен в <div> либо <td>. Сложность заключается в том, что нужный текст находится во вложенных тегах например:
<div .....>
<div ...>
<div..>
текст
</div>
</div>
</div>
кое какой код я набросал, но как написать РВ чтоб находило парные теги и копировало текст из них?
CODE (htmlphp):
скопировать код в буфер обмена
скопировать код в буфер обмена
- $html = file_get_contents('$page');
- preg_match("#\<div[^\>]*\>|\<td[^\>]*\>([а-яА-Я0-9a-zA-Z]{500, }\<\/div\>|\<\/td\>)#Uis" ,$html,$text);
- echo $text['1'];