Опять возникла проблема при парсинге и очистке MHT-файла, созданного MsWord.
Из него без проблем получаю html-файл-основу, но вот проблема - он переполнен всякими (не пытайтесь разбирать, это лишь пример):
Спойлер (Отобразить)CODE (
htmlphp):
скопировать код в буфер обмена
<p class=3DMsoNormal style=3D'text-align:justify;background:#548DD4;mso-bac=
kground-themecolor:
text2;mso-background-themetint:153'><b style=3D'mso-bidi-font-weight:normal=
'><i
style=3D'mso-bidi-font-style:normal'>Первоочередные задачи, которые необход=
имо
решить:<o:p></o:p></i></b></p>
<p class=3DMsoListParagraphCxSpFirst style=3D'text-align:justify;text-inden=
t:-18.0pt;
mso-list:l3 level1 lfo3'><![if !supportLists]><span style=3D'mso-bidi-font-=
family:
Calibri;mso-bidi-theme-font:minor-latin;color:red'><span style=3D'mso-list:=
Ignore'>1.<span
style=3D'font:7.0pt "Times New Roman"'> =
</span></span></span><![endif]><span
style=3D'color:red'>
После злобной очистки текст очищается напрочь и из 400кб такого вот творения индусов из Мелкомягких получается практически не измененный 75кб документ.
Все бы гуд, но прроблема в том, что ЦВЕТ шрифта также засунут в <span> и при зачистке удаляется вместе с прочей ненужной разметкой мелкомягких.