Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Конвертер DOC в HTML

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Описание: не простой, а гибкий
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 11:47:39
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




Всем привет!

Очень нужна программа, которая позволит опубликовать на сайте материал, изначально введенный в MS Word. Текст (около 2-х мегабайт, картинки отдельно) представляет собой документ, в котором стилями выделены заголовки глав и разделов (всего около 200 глав), между главами множество перекрестных ссылок.

Нужно получить каждую главу в отдельном HTML-файле, при этом, естественно, тег TITLE этого файла должен содержать название главы и т.п., но самое важное - все перекрестные ссылки между главами должны сохраниться!

публиковаться все это будет на сайте под Joomla в виде статического содержимого.

Очень надеюсь получить с вашей помощью ссылку (или сразу файл) на утилитку, которая сделает все, что нужно! Поиск, которым я пользовался, приводит меня к утилитам типа DOC2HTML, которые либо не справляются с файлом такого размера, либо имеют ограничения на число обрабатываемых глав (крякнуте не пашут вообще), либо еще чем-то не соответствуют требованиям... в общем, надеюсь на нестандартный подход.

Если кто знает иной способ публикации такого объема материала - буду рад выслушать рекомендации.
 
 Top
EuGen Администратор
Отправлено: 11 Декабря, 2009 - 11:50:55
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Тема подредактировани в связи с каким-то багом на форуме


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
Монстр_11111
Отправлено: 11 Декабря, 2009 - 16:35:22
Post Id



Частый гость


Покинул форум
Сообщений всего: 248
Дата рег-ции: Нояб. 2009  


Помог: 0 раз(а)




Товарищ , раз вам надо "публиковать все это на сайте под Joomla в виде статического содержимого" , то достаточно открыть документ в микро офисе , файл=> сохранить как , и выберите хтмл формат. А далее , если у вас знания хтмл ,вставьте ту часть документа вашу страницу,которая вам необходима .
 
 Top
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 17:50:25
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




Монстр_11111, я чрезвычайно признателен вам за столь мудрый совет, но, боюсь, вы либо приняли меня за малограмотного человека, либо сами не пытались сделать то, что советуете. на всякий случай я вам поясню: из моего документа получается почти двухмегабайтный HTML-файл - вы пробовали когда-нибудь загрузить такого монстра в Internet Explorer по dial-up каналу? вам доставит это удовольствие? вы знаете тех, кому это доставит удовольствие? причем заметьте: это вес файла без картинок! кто станет читать мой сайт с такими "статеечками"?! я ведь намерен донести информацию до посетителя в виде гипертекства, а не просто запулить файл в файлообменник!

я нуждаюсь в программе, о которой писал: ни MS Word, ни Open Office Writer не умеют сохранять файл в виде множества html-файлов! а именно это мне нужно.
 
 Top
Мелкий Супермодератор
Отправлено: 11 Декабря, 2009 - 18:05:30
Post Id



Активный участник


Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009  
Откуда: Россия, Санкт-Петербург


Помог: 618 раз(а)




Тогда делите задачу на 2:
1) конвертер во что-нибудь читаемое
2) парсинг, выброс мусора, нарезка на части. Если пробежаться парой замен по html'у, созданному в ворде и вырезать ничего не значащие стили и оформления (в частности всякие значения класса .0001px, ежестрочное дублирование параметров цветов), то размер файла бодренько сокращается на порядки.


-----
PostgreSQL DBA
 
 Top
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 18:46:51
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




да мне все равно, на сколько частей делить задачу - мне важно ее решить!

проблема не в том, что принцип разбиения мне непонятен, проблема в том, что это надо сделать автоматически, т.к. набирал этот текст я вручную без малого 3 месяца, если я теперь вручную буду из него 200 html-страниц делать и править гиперссылки в них - уйдет наверное столько же времени...

вы наверняка встречали обучающие курсы всякие, да и на этом сайте материалы по php грамотно структурированы, вот и я так же хочу сделать, у меня материал справочно-обучающий как раз... я понимаю, что здесь, возможно, главы набирались не в один момент, а долго, но мне надо быстро опубликовать! пока душа горит!

помню, был конвертер в формат справочного файла старых версий винды: сначала генерировался rtf с особой разметкой стилями, а потом этот rtf компилировался в hlp-файл. мне надо почти то же, но на выходе много перекрестно связанных html...

я сам программист, но написание утилиты для этой задачи ну никак не ускорит получение результата, нужна действующая готовая утилитка.

(Отредактировано автором: 11 Декабря, 2009 - 18:48:38)

 
 Top
Мелкий Супермодератор
Отправлено: 11 Декабря, 2009 - 19:16:07
Post Id



Активный участник


Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009  
Откуда: Россия, Санкт-Петербург


Помог: 618 раз(а)




Некоторые задачи быстрее решить заново, чем искать готовое решение... Уж за как минимум 7 часов, что существует эта ветка (и неизвестно сколько гугления самостоятельно) и имея опыт программирования, можно было сделать чистилку даже того бреда, что генерит ворд (тут сложность зависит от особенностей оформления документа, может имеет смысл вообще затереть все style="*") и, например, регуляркой, порезать документ на части по заголовкам, которые должны в H<1-6> превращаться, попутно собирая заголовки в список индексного файла и прописывая ссылки на предыдущию и следующую страницы.

Как вариант на уменьшение мусора на выходе ворда: сохраняете в RTF и с помощью arachnophilia (4.0 точно довольно корректно преобразовывает, но win-only) конвертируете в html


-----
PostgreSQL DBA
 
 Top
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 19:20:43
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




а чем мне поможет эта "любовь к паукам"? все равно бить на части и следить за сохранением перекрестных ссылок вручную придется - в чем же кайф?!
 
 Top
Мелкий Супермодератор
Отправлено: 13 Декабря, 2009 - 16:58:07
Post Id



Активный участник


Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009  
Откуда: Россия, Санкт-Петербург


Помог: 618 раз(а)




Потому что её видел в работе, она довольно корректно RTF обрабатывает. Ну забыл "например" написать...


-----
PostgreSQL DBA
 
 Top
supmener
Отправлено: 14 Марта, 2010 - 15:00:54
Post Id


Частый гость


Покинул форум
Сообщений всего: 209
Дата рег-ции: Март 2010  


Помог: 0 раз(а)




А сам rtf, если в него сохранять текст с картинками и таблицами из doc, получается нормальный или покареженный?
 
 Top
cmutek
Отправлено: 11 Мая, 2012 - 17:26:27
Post Id


Новичок


Покинул форум
Сообщений всего: 1
Дата рег-ции: Май 2012  


Помог: 0 раз(а)




Кому ещё надо, нашел интересный скрипт.
Класс через Google Docs конвертирует doc в html. Читайте тут

(Отредактировано автором: 11 Мая, 2012 - 17:27:05)

 
 Top
EuGen Администратор
Отправлено: 11 Мая, 2012 - 17:32:17
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




supmener пишет:
Отправлено: 14 Марта, 2010 - 15:00:54
cmutek пишет:
Отправлено: 11 Мая, 2012 - 17:26:27

С Новым Годом.
Тема закрыта!


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Программное обеспечение »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB