Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Рекурсивые регулярные выражения

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
Alex_pac
Отправлено: 18 Августа, 2013 - 15:00:31
Post Id



Новичок


Покинул форум
Сообщений всего: 41
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




Подниму проблему написания bbcode парсера

Введение:

Итак написать парсер не составляет ничего сложного

пример кода

CODE (htmlphp):
скопировать код в буфер обмена
  1. [b]hello world[/b] [i]привет[/i]


парсер

CODE (htmlphp):
скопировать код в буфер обмена
  1. <?php
  2.  
  3. class bbcodeSimple {
  4.  
  5. // массив стандартных тегов
  6. static $bb = array( # x5 столбцов
  7.         # Флаги #первый тег #между тегами #закрывающий #Замена
  8.         'si', 'b', '(.+)', '/b', '<b>$1</b>',
  9.         'si', 'u', '(.+)', '/u', '<u>$1</u>',
  10.         'si', 'i', '(.+)', '/i', '<i>$1</i>',
  11. );
  12.  
  13. // функция парсер
  14. function parse($text) {
  15.         $text = trim($text);
  16.         $text = htmlspecialchars($text,ENT_NOQUOTES);
  17.        
  18.         for ($i = 0; $i<count(self::$bb); $i+=5) {
  19.                 $text = preg_replace('#\['.self::$bb[$i+1].'\]'.self::$bb[$i+2].'\['.self::$bb[$i+3].'\]#'.self::$bb[$i],self::$bb[$i+4],$text);
  20.         }
  21.        
  22.         // чистка неверных тегов
  23.         $text = preg_replace('#(\[.+\]|\[/.+\])#Ui','',$text);
  24.         $text = nl2br($text);
  25.        
  26.         return $text;
  27. }
  28.  
  29. } // end class
  30.  
  31.  
  32. $text = '[b]hello world[/b] [i]привет[/i]';
  33.  
  34. echo bbcodeSimple::parse($text);


Результат работы кода:

Цитата:
<b>hello world</b> <i>привет</i>


САБЖ:

Теперь вернемся к теме и попробуем распарсить вот такой bbcode:

CODE (htmlphp):
скопировать код в буфер обмена
  1. [b]hello[b]привет[/b] world[/b]


Результат работы кода:

Цитата:
<b>helloпривет world</b>


Неправильно! Парсер не смог справиться с задачей! А?!

Верный вариант должен быть вот таким:
Цитата:
<b>hello<b>привет</b> world</b>


Ошибка в работе произошла по вине функции preg_replace которая не умеет разбирать вложенные выражения

напишем функцию которая умеет разбирать вложенные выражения

PHP:
скопировать код в буфер обмена
  1. function preg_replace_recursive($pattern, $replace, $subject) {
  2.         $c = 1;
  3.         $ret = $subject;
  4.         while ($c>0) {
  5.                 $ret = preg_replace($pattern,$replace,$ret,-1,&$c);
  6.         }
  7.         return $ret;
  8. }


Перепишем класс bbcodeSimple с новой функцией рекурсивного разбора выражений

PHP:
скопировать код в буфер обмена
  1. <?PHP
  2.  
  3. function preg_replace_recursive($pattern, $replace, $subject) {
  4.         $c = 1;
  5.         $ret = $subject;
  6.         while ($c>0) {
  7.                 $ret = preg_replace($pattern,$replace,$ret,-1,&$c);
  8.         }
  9.         return $ret;
  10. }
  11.  
  12. class bbcodeSimple {
  13.  
  14. // массив стандартных тегов
  15. static $bb = array( # x5 столбцов
  16.         # Флаги #первый тег #между тегами #закрывающий #Замена
  17.         'si', 'b', '(.+)', '/b', '<b>$1</b>',
  18.         'si', 'u', '(.+)', '/u', '<u>$1</u>',
  19.         'si', 'i', '(.+)', '/i', '<i>$1</i>',
  20. );
  21.  
  22. // функция парсер
  23. function parse($text) {
  24.         $text = trim($text);
  25.         $text = htmlspecialchars($text,ENT_NOQUOTES);
  26.        
  27.         for ($i = 0; $i<count(self::$bb); $i+=5) {
  28.                 // << новая функция
  29.                 $text = preg_replace_recursive('#\['.self::$bb[$i+1].'\]'.self::$bb[$i+2].'\['.self::$bb[$i+3].'\]#'.self::$bb[$i],self::$bb[$i+4],$text);
  30.         }
  31.        
  32.         // чистка неверных тегов
  33.         $text = preg_replace('#(\[.+\]|\[/.+\])#Ui','',$text);
  34.         $text = nl2br($text);
  35.        
  36.         return $text;
  37. }
  38.  
  39. } // end class
  40.  
  41.  
  42. $text = '[b]hello[b]привет[/b] world[/b]';
  43.  
  44. echo bbcodeSimple::parse($text);


результат:

Цитата:
<b>hello<b>привет</b> world</b>


Вывод:

Функция preg_replace_recursive теперь позволяет написать bbcode парсер на чистых регуляках, без написания классов "конечных автоматов" и прочих тяжеловесных абстракций

Также теперь доступен разбор вложенных тегов, как например теги цитат, используя этот же самый метод
 
 Top
DeepVarvar Супермодератор
Отправлено: 18 Августа, 2013 - 15:48:55
Post Id



Активный участник


Покинул форум
Сообщений всего: 10377
Дата рег-ции: Дек. 2008  
Откуда: Альфа Центавра


Помог: 353 раз(а)




 
 Top
Alex_pac
Отправлено: 18 Августа, 2013 - 18:18:17
Post Id



Новичок


Покинул форум
Сообщений всего: 41
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




Цитата:
см. Пример #3


PHP:
скопировать код в буфер обмена
  1. <?PHP
  2. $input = "верх [indent] глубже [indent] еще глубже [/indent] глубже [/indent] верх";
  3.  
  4. function parseTagsRecursive($input)
  5. {
  6.  
  7.     $regex = '#\[indent]((?:[^[]|\[(?!/?indent])|(?R))+)\[/indent]#';
  8.  
  9.     if (is_array($input)) {
  10.         $input = '<div style="margin-left: 10px">'.$input[1].'</div>';
  11.     }
  12.  
  13.     return preg_replace_callback($regex, 'parseTagsRecursive', $input);
  14. }
  15.  
  16. $output = parseTagsRecursive($input);
  17.  
  18. echo $output;
  19. ?>


изволю не согласиться

данный код имеет некоторые недостатки:

1) требуется внутри функции указывать каким именно образом идет замена, в то время как у preg_replace_recursive идет простая передача через параметр

2) не допускается количество аргументов более одного
 
 Top
Champion Супермодератор
Отправлено: 18 Августа, 2013 - 20:31:49
Post Id



Активный участник


Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008  
Откуда: Москва


Помог: 57 раз(а)




На самом деле проблему можно решить гораздо проще:
Alex_pac пишет:
<b>hello<b>привет</b> world</b>
такого просто не должно быть. Это не валидно. Внутри <b> не может быть другого <b>, поэтому, в зависимости от нашего желания, наша регулярка в праве выбрать любую пару <b></b> и проигнорировать остальные <b> и </b>. Например, /\[b\].+?\[\/b\]/ и без всяких recursive.
Она будет и проще, и быстрее. А написание парсера, "корректно" обрабатывающего невалидные данные - странная задача)

А еще есть рекурсивные подмаски - (?R) http://php[dot]ru/manual/regexp.reference.recursive.html
 
 Top
Alex_pac
Отправлено: 18 Августа, 2013 - 20:45:50
Post Id



Новичок


Покинул форум
Сообщений всего: 41
Дата рег-ции: Май 2011  


Помог: 0 раз(а)




Цитата:
<b>hello<b>привет</b> world</b>


это был пример на простом теге

в конечном результате имелся ввиду тег quote spoiler font color list table и прочие валидные для рекурсии теги

судя по статье http://php.net/manual/ru/regexp....ce.recursive.php

нужно сделать небольшой патч для ограничения уровня рекурсии

PHP:
скопировать код в буфер обмена
  1. function preg_replace_recursive($pattern, $replace, $subject) {
  2.         $c = 1;
  3.         $ret = $subject;
  4.         $max = 0;
  5.         while ($c>0 && $max<10) {
  6.                $ret = preg_replace($pattern,$replace,$ret,-1,&$c);
  7.                $max++;
  8.         }
  9.         return $ret;
  10. }
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Регулярные выражения »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB