Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737 Форумы портала PHP.SU :: Подскажите, как убрать </b><b> и <h1></h1> ? [2]
Покинул форум
Сообщений всего: 1365
Дата рег-ции: Июль 2010 Откуда: Украина, Запорожье
Помог: 62 раз(а)
LShark пишет:
Хотя что я курю, в первом выражении заменить a-z0-9 на a-oq-z0-9
Фу-фу-фу Плохая идея. Скажем тег span под такую регулярку уже не пройдет... Я б всеже перечислил нужные к удалению теги, к тому же судя из задачи их не так и много.
----- Все возражают против того, что я гений, хотя никто еще так меня не назвал. - Орсон Уэллс
DelphinPRO
Отправлено: 07 Января, 2013 - 21:56:18
Активный участник
Покинул форум
Сообщений всего: 7187
Дата рег-ции: Февр. 2012
Помог: 353 раз(а)
LShark пишет:
Хотя что я курю, в первом выражении заменить a-z0-9 на a-oq-z0-9
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Я так до конца и не понял, чем не устроил корректно работающий вариант с перечислением тегов, данный мной в самом начале. Либо же я не верно понял задачу?
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
LShark
Отправлено: 08 Января, 2013 - 09:52:03
Частый гость
Покинул форум
Сообщений всего: 240
Дата рег-ции: Нояб. 2012
Помог: 1 раз(а)
1. Span вырезается мной ДО этого полностью (мелкомягкие суют его в таком количестве, что после его вырезания размер документа уменьшается на 20%). При этом у нас нет документов, которые бы сильно изменили свой отображаемый вид при удалении его.
2. Проблема возникла странная.
Вставляю строку в переменную в документе: все работает.
Гружу файл через file_get_contents - ТОТ ЖЕ САМЫЙ текст - не удаляется.
Причем даже если я указываю поиск напрямую "</b><b>" - все равно эти теги не вырезаются.
Кто имеет идеи, почему так может происходить? (Добавление)
Поясню примером:
Текст в вычищенном HTML:
Цитата:
<i>головы имаго обыкновенного (род </i><i>Culex</i><i>) и малярийного (род </i><i>Anopheles</i><i>)</i> комаров.
Такое возникает потому, что Ворд при сохранении перед англобуквенными словами вставляет как раз тег <span id=EN>, и внутри него заново объявляет <i>
В результате, когда спаны вырезаются - куча лишних объявлений. (Добавление)
Сори, нашел, в чем косяк. Оказалось - еще одна неприятность.
Если я прогоняю несколько раз такой фильтр - то все постепенно вычищается, но как узнать, все ли такие "извращения" удалены?
Хм... циклом с поиском, но это нагрузка на сервер. Или как? (Добавление)
Все, сделал циклом проверок. Все равно такая обработка будет не часто, так что можно потратить избыточно немного ресурсов.
Хотя и остаются:
Цитата:
рассмотреть и <b><i>зарисовать</i></b><i>головы имаго обыкновенного (род Culex) и малярийного (род Anopheles)</i> комаров.
Но тут уже ничего не поделаешь. (Добавление)
Все, все прогнал, результат - минус 5% веса документа.
Учитывая, что таких документов около 3к и весят они около гига - выигрыш неплох...
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.