Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Подскажите, как убрать </b><b> и <h1></h1> ? [2]

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (2): « 1 [2]   

> Без описания
Саныч
Отправлено: 07 Января, 2013 - 21:49:45
Post Id



Участник


Покинул форум
Сообщений всего: 1365
Дата рег-ции: Июль 2010  
Откуда: Украина, Запорожье


Помог: 62 раз(а)




LShark пишет:
Хотя что я курю, в первом выражении заменить a-z0-9 на a-oq-z0-9
Фу-фу-фу А?! Плохая идея. Скажем тег span под такую регулярку уже не пройдет... Я б всеже перечислил нужные к удалению теги, к тому же судя из задачи их не так и много.


-----
Все возражают против того, что я гений, хотя никто еще так меня не назвал. - Орсон Уэллс
 
 Top
DelphinPRO
Отправлено: 07 Января, 2013 - 21:56:18
Post Id



Активный участник


Покинул форум
Сообщений всего: 7187
Дата рег-ции: Февр. 2012  


Помог: 353 раз(а)




LShark пишет:
Хотя что я курю, в первом выражении заменить a-z0-9 на a-oq-z0-9
Согласен с Санычем - идея плохая

вот так, наверное, сработает
CODE (text):
скопировать код в буфер обмена
  1. ~<[^p]+[a-z0-9]*></[^p]+[a-z0-9]*>~Usi
  2. ~<[^p]+[a-z0-9]*\s*[^<>]*></[^p]+[a-z0-9]*>~Usi


-----
Чем больше узнаю, тем больше я не знаю.
 
 Top
EuGen Администратор
Отправлено: 07 Января, 2013 - 23:02:10
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Я так до конца и не понял, чем не устроил корректно работающий вариант с перечислением тегов, данный мной в самом начале. Либо же я не верно понял задачу?


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
LShark
Отправлено: 08 Января, 2013 - 09:52:03
Post Id



Частый гость


Покинул форум
Сообщений всего: 240
Дата рег-ции: Нояб. 2012  


Помог: 1 раз(а)




1. Span вырезается мной ДО этого полностью (мелкомягкие суют его в таком количестве, что после его вырезания размер документа уменьшается на 20%). При этом у нас нет документов, которые бы сильно изменили свой отображаемый вид при удалении его.

2. Проблема возникла странная.
Вставляю строку в переменную в документе: все работает.
Гружу файл через file_get_contents - ТОТ ЖЕ САМЫЙ текст - не удаляется.

Причем даже если я указываю поиск напрямую "</b><b>" - все равно эти теги не вырезаются.

Кто имеет идеи, почему так может происходить?
(Добавление)
Поясню примером:

Текст в вычищенном HTML:
Цитата:
<i>головы имаго обыкновенного (род </i><i>Culex</i><i>) и малярийного (род </i><i>Anopheles</i><i>)</i> комаров.

Такое возникает потому, что Ворд при сохранении перед англобуквенными словами вставляет как раз тег <span id=EN>, и внутри него заново объявляет <i>

В результате, когда спаны вырезаются - куча лишних объявлений.
(Добавление)
Сори, нашел, в чем косяк. Оказалось - еще одна неприятность.

В документе куча мест, которые выглядят так:

CODE (htmlphp):
скопировать код в буфер обмена
  1. </b></i></u></i><i><u><i><b>


В результате, после прохода фильтром получаю:

CODE (htmlphp):
скопировать код в буфер обмена
  1. </b></i></u><u><i><b>


Если я прогоняю несколько раз такой фильтр - то все постепенно вычищается, но как узнать, все ли такие "извращения" удалены?

Хм... циклом с поиском, но это нагрузка на сервер. Или как?
(Добавление)
Все, сделал циклом проверок. Все равно такая обработка будет не часто, так что можно потратить избыточно немного ресурсов.

Хотя и остаются:
Цитата:
рассмотреть и <b><i>зарисовать</i></b><i>головы имаго обыкновенного (род Culex) и малярийного (род Anopheles)</i> комаров.

Но тут уже ничего не поделаешь.
(Добавление)
Все, все прогнал, результат - минус 5% веса документа.

Учитывая, что таких документов около 3к и весят они около гига - выигрыш неплох...


-----
Истина прежде всего в том, что...
 
 Top
Страниц (2): « 1 [2]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Регулярные выражения »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB