Доброго времени суток!
Подскажите, кто сталкивался с подобным, каким образом с помощью php можно разбить html-страницу на блоки: выделить основную часть с контентом, меню, футер и т.д., не зная структуру DOM?
Интересует в большей степени определение основного контента страницы.
В сети есть материалы на эту тему, но что-то я не совсем понял алгоритм реализации.
Например:
http://habrahabr[dot]ru/post/210824/
http://www[dot]vestnik[dot]vsu[dot]ru/pdf/an[dot][dot][dot]2/2008_02_20[dot]pdf
1. seowin - 19 Декабря, 2015 - 07:45:45 - перейти к сообщению
2. Pandion - 19 Декабря, 2015 - 13:50:55 - перейти к сообщению
Например, explode("<body>", $html);
Или через $doc = new DOMDocument();
(Добавление)
$doc->loadHTML('<?xml encoding="UTF-8">' . $html);
Или через $doc = new DOMDocument();
(Добавление)
$doc->loadHTML('<?xml encoding="UTF-8">' . $html);