Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Конвертер DOC в HTML
Форумы портала PHP.SU » Клиентская разработка » Программное обеспечение » Конвертер DOC в HTML

Страниц (1): [1]
 

1. Хрюн Моржов - 11 Декабря, 2009 - 11:47:39 - перейти к сообщению
Всем привет!

Очень нужна программа, которая позволит опубликовать на сайте материал, изначально введенный в MS Word. Текст (около 2-х мегабайт, картинки отдельно) представляет собой документ, в котором стилями выделены заголовки глав и разделов (всего около 200 глав), между главами множество перекрестных ссылок.

Нужно получить каждую главу в отдельном HTML-файле, при этом, естественно, тег TITLE этого файла должен содержать название главы и т.п., но самое важное - все перекрестные ссылки между главами должны сохраниться!

публиковаться все это будет на сайте под Joomla в виде статического содержимого.

Очень надеюсь получить с вашей помощью ссылку (или сразу файл) на утилитку, которая сделает все, что нужно! Поиск, которым я пользовался, приводит меня к утилитам типа DOC2HTML, которые либо не справляются с файлом такого размера, либо имеют ограничения на число обрабатываемых глав (крякнуте не пашут вообще), либо еще чем-то не соответствуют требованиям... в общем, надеюсь на нестандартный подход.

Если кто знает иной способ публикации такого объема материала - буду рад выслушать рекомендации.
2. EuGen - 11 Декабря, 2009 - 11:50:55 - перейти к сообщению
Тема подредактировани в связи с каким-то багом на форуме
3. Монстр_11111 - 11 Декабря, 2009 - 16:35:22 - перейти к сообщению
Товарищ , раз вам надо "публиковать все это на сайте под Joomla в виде статического содержимого" , то достаточно открыть документ в микро офисе , файл=> сохранить как , и выберите хтмл формат. А далее , если у вас знания хтмл ,вставьте ту часть документа вашу страницу,которая вам необходима .
4. Хрюн Моржов - 11 Декабря, 2009 - 17:50:25 - перейти к сообщению
Монстр_11111, я чрезвычайно признателен вам за столь мудрый совет, но, боюсь, вы либо приняли меня за малограмотного человека, либо сами не пытались сделать то, что советуете. на всякий случай я вам поясню: из моего документа получается почти двухмегабайтный HTML-файл - вы пробовали когда-нибудь загрузить такого монстра в Internet Explorer по dial-up каналу? вам доставит это удовольствие? вы знаете тех, кому это доставит удовольствие? причем заметьте: это вес файла без картинок! кто станет читать мой сайт с такими "статеечками"?! я ведь намерен донести информацию до посетителя в виде гипертекства, а не просто запулить файл в файлообменник!

я нуждаюсь в программе, о которой писал: ни MS Word, ни Open Office Writer не умеют сохранять файл в виде множества html-файлов! а именно это мне нужно.
5. Мелкий - 11 Декабря, 2009 - 18:05:30 - перейти к сообщению
Тогда делите задачу на 2:
1) конвертер во что-нибудь читаемое
2) парсинг, выброс мусора, нарезка на части. Если пробежаться парой замен по html'у, созданному в ворде и вырезать ничего не значащие стили и оформления (в частности всякие значения класса .0001px, ежестрочное дублирование параметров цветов), то размер файла бодренько сокращается на порядки.
6. Хрюн Моржов - 11 Декабря, 2009 - 18:46:51 - перейти к сообщению
да мне все равно, на сколько частей делить задачу - мне важно ее решить!

проблема не в том, что принцип разбиения мне непонятен, проблема в том, что это надо сделать автоматически, т.к. набирал этот текст я вручную без малого 3 месяца, если я теперь вручную буду из него 200 html-страниц делать и править гиперссылки в них - уйдет наверное столько же времени...

вы наверняка встречали обучающие курсы всякие, да и на этом сайте материалы по php грамотно структурированы, вот и я так же хочу сделать, у меня материал справочно-обучающий как раз... я понимаю, что здесь, возможно, главы набирались не в один момент, а долго, но мне надо быстро опубликовать! пока душа горит!

помню, был конвертер в формат справочного файла старых версий винды: сначала генерировался rtf с особой разметкой стилями, а потом этот rtf компилировался в hlp-файл. мне надо почти то же, но на выходе много перекрестно связанных html...

я сам программист, но написание утилиты для этой задачи ну никак не ускорит получение результата, нужна действующая готовая утилитка.
7. Мелкий - 11 Декабря, 2009 - 19:16:07 - перейти к сообщению
Некоторые задачи быстрее решить заново, чем искать готовое решение... Уж за как минимум 7 часов, что существует эта ветка (и неизвестно сколько гугления самостоятельно) и имея опыт программирования, можно было сделать чистилку даже того бреда, что генерит ворд (тут сложность зависит от особенностей оформления документа, может имеет смысл вообще затереть все style="*") и, например, регуляркой, порезать документ на части по заголовкам, которые должны в H<1-6> превращаться, попутно собирая заголовки в список индексного файла и прописывая ссылки на предыдущию и следующую страницы.

Как вариант на уменьшение мусора на выходе ворда: сохраняете в RTF и с помощью arachnophilia (4.0 точно довольно корректно преобразовывает, но win-only) конвертируете в html
8. Хрюн Моржов - 11 Декабря, 2009 - 19:20:43 - перейти к сообщению
а чем мне поможет эта "любовь к паукам"? все равно бить на части и следить за сохранением перекрестных ссылок вручную придется - в чем же кайф?!
9. Мелкий - 13 Декабря, 2009 - 16:58:07 - перейти к сообщению
Потому что её видел в работе, она довольно корректно RTF обрабатывает. Ну забыл "например" написать...
10. supmener - 14 Марта, 2010 - 15:00:54 - перейти к сообщению
А сам rtf, если в него сохранять текст с картинками и таблицами из doc, получается нормальный или покареженный?
11. cmutek - 11 Мая, 2012 - 17:26:27 - перейти к сообщению
Кому ещё надо, нашел интересный скрипт.
Класс через Google Docs конвертирует doc в html. Читайте тут
12. EuGen - 11 Мая, 2012 - 17:32:17 - перейти к сообщению
supmener пишет:
Отправлено: 14 Марта, 2010 - 15:00:54
cmutek пишет:
Отправлено: 11 Мая, 2012 - 17:26:27

С Новым Годом.

 

Powered by ExBB FM 1.0 RC1