Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009
Помог: 0 раз(а)
Всем привет!
Очень нужна программа, которая позволит опубликовать на сайте материал, изначально введенный в MS Word. Текст (около 2-х мегабайт, картинки отдельно) представляет собой документ, в котором стилями выделены заголовки глав и разделов (всего около 200 глав), между главами множество перекрестных ссылок.
Нужно получить каждую главу в отдельном HTML-файле, при этом, естественно, тег TITLE этого файла должен содержать название главы и т.п., но самое важное - все перекрестные ссылки между главами должны сохраниться!
публиковаться все это будет на сайте под Joomla в виде статического содержимого.
Очень надеюсь получить с вашей помощью ссылку (или сразу файл) на утилитку, которая сделает все, что нужно! Поиск, которым я пользовался, приводит меня к утилитам типа DOC2HTML, которые либо не справляются с файлом такого размера, либо имеют ограничения на число обрабатываемых глав (крякнуте не пашут вообще), либо еще чем-то не соответствуют требованиям... в общем, надеюсь на нестандартный подход.
Если кто знает иной способ публикации такого объема материала - буду рад выслушать рекомендации.
EuGen
Отправлено: 11 Декабря, 2009 - 11:50:55
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Тема подредактировани в связи с каким-то багом на форуме
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
Монстр_11111
Отправлено: 11 Декабря, 2009 - 16:35:22
Частый гость
Покинул форум
Сообщений всего: 248
Дата рег-ции: Нояб. 2009
Помог: 0 раз(а)
Товарищ , раз вам надо "публиковать все это на сайте под Joomla в виде статического содержимого" , то достаточно открыть документ в микро офисе , файл=> сохранить как , и выберите хтмл формат. А далее , если у вас знания хтмл ,вставьте ту часть документа вашу страницу,которая вам необходима .
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 17:50:25
Новичок
Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009
Помог: 0 раз(а)
Монстр_11111, я чрезвычайно признателен вам за столь мудрый совет, но, боюсь, вы либо приняли меня за малограмотного человека, либо сами не пытались сделать то, что советуете. на всякий случай я вам поясню: из моего документа получается почти двухмегабайтный HTML-файл - вы пробовали когда-нибудь загрузить такого монстра в Internet Explorer по dial-up каналу? вам доставит это удовольствие? вы знаете тех, кому это доставит удовольствие? причем заметьте: это вес файла без картинок! кто станет читать мой сайт с такими "статеечками"?! я ведь намерен донести информацию до посетителя в виде гипертекства, а не просто запулить файл в файлообменник!
я нуждаюсь в программе, о которой писал: ни MS Word, ни Open Office Writer не умеют сохранять файл в виде множества html-файлов! а именно это мне нужно.
Мелкий
Отправлено: 11 Декабря, 2009 - 18:05:30
Активный участник
Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009 Откуда: Россия, Санкт-Петербург
Помог: 618 раз(а)
Тогда делите задачу на 2:
1) конвертер во что-нибудь читаемое
2) парсинг, выброс мусора, нарезка на части. Если пробежаться парой замен по html'у, созданному в ворде и вырезать ничего не значащие стили и оформления (в частности всякие значения класса .0001px, ежестрочное дублирование параметров цветов), то размер файла бодренько сокращается на порядки.
----- PostgreSQL DBA
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 18:46:51
Новичок
Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009
Помог: 0 раз(а)
да мне все равно, на сколько частей делить задачу - мне важно ее решить!
проблема не в том, что принцип разбиения мне непонятен, проблема в том, что это надо сделать автоматически, т.к. набирал этот текст я вручную без малого 3 месяца, если я теперь вручную буду из него 200 html-страниц делать и править гиперссылки в них - уйдет наверное столько же времени...
вы наверняка встречали обучающие курсы всякие, да и на этом сайте материалы по php грамотно структурированы, вот и я так же хочу сделать, у меня материал справочно-обучающий как раз... я понимаю, что здесь, возможно, главы набирались не в один момент, а долго, но мне надо быстро опубликовать! пока душа горит!
помню, был конвертер в формат справочного файла старых версий винды: сначала генерировался rtf с особой разметкой стилями, а потом этот rtf компилировался в hlp-файл. мне надо почти то же, но на выходе много перекрестно связанных html...
я сам программист, но написание утилиты для этой задачи ну никак не ускорит получение результата, нужна действующая готовая утилитка.
Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009 Откуда: Россия, Санкт-Петербург
Помог: 618 раз(а)
Некоторые задачи быстрее решить заново, чем искать готовое решение... Уж за как минимум 7 часов, что существует эта ветка (и неизвестно сколько гугления самостоятельно) и имея опыт программирования, можно было сделать чистилку даже того бреда, что генерит ворд (тут сложность зависит от особенностей оформления документа, может имеет смысл вообще затереть все style="*") и, например, регуляркой, порезать документ на части по заголовкам, которые должны в H<1-6> превращаться, попутно собирая заголовки в список индексного файла и прописывая ссылки на предыдущию и следующую страницы.
Как вариант на уменьшение мусора на выходе ворда: сохраняете в RTF и с помощью arachnophilia (4.0 точно довольно корректно преобразовывает, но win-only) конвертируете в html
----- PostgreSQL DBA
Хрюн Моржов
Отправлено: 11 Декабря, 2009 - 19:20:43
Новичок
Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009
Помог: 0 раз(а)
а чем мне поможет эта "любовь к паукам"? все равно бить на части и следить за сохранением перекрестных ссылок вручную придется - в чем же кайф?!
Мелкий
Отправлено: 13 Декабря, 2009 - 16:58:07
Активный участник
Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009 Откуда: Россия, Санкт-Петербург
Помог: 618 раз(а)
Потому что её видел в работе, она довольно корректно RTF обрабатывает. Ну забыл "например" написать...
----- PostgreSQL DBA
supmener
Отправлено: 14 Марта, 2010 - 15:00:54
Частый гость
Покинул форум
Сообщений всего: 209
Дата рег-ции: Март 2010
Помог: 0 раз(а)
А сам rtf, если в него сохранять текст с картинками и таблицами из doc, получается нормальный или покареженный?
cmutek
Отправлено: 11 Мая, 2012 - 17:26:27
Новичок
Покинул форум
Сообщений всего: 1
Дата рег-ции: Май 2012
Помог: 0 раз(а)
Кому ещё надо, нашел интересный скрипт.
Класс через Google Docs конвертирует doc в html. Читайте тут
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.