Проблема всплыла неожиданно. При парсинге MHT файлов с картинками результат был получен - htm файл и связанные с ним картинки.
Пока были картинки png, jpg, gif - нет проблем, все прекрасно.
Но когда стали так парсить старые документы Word с картинками (пересохраняя их в MHT, закидывая на сервер и там парся php) оказалось, что в них графика сохранена в растровом (?) формате WMZ.
Такие картинки при указании в виде <img src=grafik.emz> тупо не отображаются в браузерах.
Еще неприятно то, что все обычные форматы сохраняются в htm документе в нормальной ссылке - <img src= , а вот EMZ - в виде <v:imagedata=
Подскажите, есть ли возможность автоматически переконвертировать EMZ файлы в любой "привычный" формат средствами php?
Пока не смог найти ничего стоящего, а единственная мной найденная странная библиотека emz2jpg продается за 159 дохлых енотов.
Ах да, забыл добавить:
Если файл переименовать в zip и распаковать, получим файл без расширения, который, однако, открывается как Windows Enchanced Metafile.
Если его переименовать в gif - некоторые открываются в браузерах, но в совершенно ублюдочном качестве).
В приложении - 2 файлв EMZ, упакованные в рар.
1. LShark - 05 Декабря, 2012 - 14:13:48 - перейти к сообщению
2. caballero - 05 Декабря, 2012 - 14:17:55 - перейти к сообщению
Цитата:
оказалось, что в них графика сохранена в растровом (?) формате WMZ
а png, jpg, gif какие по твоему?
ту гору мусора что сохраняет офис под видом HTML в лучшем случае может нормаьно прочитать разве что IE
3. LShark - 05 Декабря, 2012 - 14:20:57 - перейти к сообщению
Увы, тут ты ошибаешься, после некоторой очистки отпарсенный файл отлично начинает открываться во всех браузерах - проверено на осле, опере и хроме.
Хотя для детальной очистки, конечно, приходится приложить некоторые усилия, но если размер файла не критичен - роли 350 кб или 420кб - уже не имеют значение.
После парсинга размер файла уменьшился вдвое, но отображение его вполне читабельное (сохранились картинки, таблицы, расположение объектов и т.д.).
Бесит, конечно, такое "счастье":
Хотя для детальной очистки, конечно, приходится приложить некоторые усилия, но если размер файла не критичен - роли 350 кб или 420кб - уже не имеют значение.
После парсинга размер файла уменьшился вдвое, но отображение его вполне читабельное (сохранились картинки, таблицы, расположение объектов и т.д.).
Бесит, конечно, такое "счастье":
CODE (htmlphp):
скопировать код в буфер обмена
скопировать код в буфер обмена
- <p align=center style='text-align:center;mso-layout-grid-align:
- none;text-autospace:none'><b></b></p>
- <p align=center style='text-align:center;mso-layout-grid-align:
- none;text-autospace:none'><b></b></p>
- <p align=center style='text-align:center;mso-layout-grid-align:
- none;text-autospace:none'><b></b></p>
- <p align=center style='text-align:center;mso-layout-grid-align:
- none;text-autospace:none'></p>
Но тут уж на автомате ничего не поделаешь, выяснить, что можно заменить на "<br><br><br><br><br>", а что нельзя - проблематично, вроде.
Но что делать с этим форматом графики?