Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Рекурсивые регулярные выражения
Форумы портала PHP.SU » PHP » Регулярные выражения » Рекурсивые регулярные выражения

Страниц (1): [1]
 

1. Alex_pac - 18 Августа, 2013 - 15:00:31 - перейти к сообщению
Подниму проблему написания bbcode парсера

Введение:

Итак написать парсер не составляет ничего сложного

пример кода

CODE (htmlphp):
скопировать код в буфер обмена
  1. [b]hello world[/b] [i]привет[/i]


парсер

CODE (htmlphp):
скопировать код в буфер обмена
  1. <?php
  2.  
  3. class bbcodeSimple {
  4.  
  5. // массив стандартных тегов
  6. static $bb = array( # x5 столбцов
  7.         # Флаги #первый тег #между тегами #закрывающий #Замена
  8.         'si', 'b', '(.+)', '/b', '<b>$1</b>',
  9.         'si', 'u', '(.+)', '/u', '<u>$1</u>',
  10.         'si', 'i', '(.+)', '/i', '<i>$1</i>',
  11. );
  12.  
  13. // функция парсер
  14. function parse($text) {
  15.         $text = trim($text);
  16.         $text = htmlspecialchars($text,ENT_NOQUOTES);
  17.        
  18.         for ($i = 0; $i<count(self::$bb); $i+=5) {
  19.                 $text = preg_replace('#\['.self::$bb[$i+1].'\]'.self::$bb[$i+2].'\['.self::$bb[$i+3].'\]#'.self::$bb[$i],self::$bb[$i+4],$text);
  20.         }
  21.        
  22.         // чистка неверных тегов
  23.         $text = preg_replace('#(\[.+\]|\[/.+\])#Ui','',$text);
  24.         $text = nl2br($text);
  25.        
  26.         return $text;
  27. }
  28.  
  29. } // end class
  30.  
  31.  
  32. $text = '[b]hello world[/b] [i]привет[/i]';
  33.  
  34. echo bbcodeSimple::parse($text);


Результат работы кода:

Цитата:
<b>hello world</b> <i>привет</i>


САБЖ:

Теперь вернемся к теме и попробуем распарсить вот такой bbcode:

CODE (htmlphp):
скопировать код в буфер обмена
  1. [b]hello[b]привет[/b] world[/b]


Результат работы кода:

Цитата:
<b>helloпривет world</b>


Неправильно! Парсер не смог справиться с задачей! А?!

Верный вариант должен быть вот таким:
Цитата:
<b>hello<b>привет</b> world</b>


Ошибка в работе произошла по вине функции preg_replace которая не умеет разбирать вложенные выражения

напишем функцию которая умеет разбирать вложенные выражения

PHP:
скопировать код в буфер обмена
  1. function preg_replace_recursive($pattern, $replace, $subject) {
  2.         $c = 1;
  3.         $ret = $subject;
  4.         while ($c>0) {
  5.                 $ret = preg_replace($pattern,$replace,$ret,-1,&$c);
  6.         }
  7.         return $ret;
  8. }


Перепишем класс bbcodeSimple с новой функцией рекурсивного разбора выражений

PHP:
скопировать код в буфер обмена
  1. <?PHP
  2.  
  3. function preg_replace_recursive($pattern, $replace, $subject) {
  4.         $c = 1;
  5.         $ret = $subject;
  6.         while ($c>0) {
  7.                 $ret = preg_replace($pattern,$replace,$ret,-1,&$c);
  8.         }
  9.         return $ret;
  10. }
  11.  
  12. class bbcodeSimple {
  13.  
  14. // массив стандартных тегов
  15. static $bb = array( # x5 столбцов
  16.         # Флаги #первый тег #между тегами #закрывающий #Замена
  17.         'si', 'b', '(.+)', '/b', '<b>$1</b>',
  18.         'si', 'u', '(.+)', '/u', '<u>$1</u>',
  19.         'si', 'i', '(.+)', '/i', '<i>$1</i>',
  20. );
  21.  
  22. // функция парсер
  23. function parse($text) {
  24.         $text = trim($text);
  25.         $text = htmlspecialchars($text,ENT_NOQUOTES);
  26.        
  27.         for ($i = 0; $i<count(self::$bb); $i+=5) {
  28.                 // << новая функция
  29.                 $text = preg_replace_recursive('#\['.self::$bb[$i+1].'\]'.self::$bb[$i+2].'\['.self::$bb[$i+3].'\]#'.self::$bb[$i],self::$bb[$i+4],$text);
  30.         }
  31.        
  32.         // чистка неверных тегов
  33.         $text = preg_replace('#(\[.+\]|\[/.+\])#Ui','',$text);
  34.         $text = nl2br($text);
  35.        
  36.         return $text;
  37. }
  38.  
  39. } // end class
  40.  
  41.  
  42. $text = '[b]hello[b]привет[/b] world[/b]';
  43.  
  44. echo bbcodeSimple::parse($text);


результат:

Цитата:
<b>hello<b>привет</b> world</b>


Вывод:

Функция preg_replace_recursive теперь позволяет написать bbcode парсер на чистых регуляках, без написания классов "конечных автоматов" и прочих тяжеловесных абстракций

Также теперь доступен разбор вложенных тегов, как например теги цитат, используя этот же самый метод
2. DeepVarvar - 18 Августа, 2013 - 15:48:55 - перейти к сообщению
http://php.net/manual/ru/functio...ace-callback.php см. Пример #3
3. Alex_pac - 18 Августа, 2013 - 18:18:17 - перейти к сообщению
Цитата:
см. Пример #3


PHP:
скопировать код в буфер обмена
  1. <?PHP
  2. $input = "верх [indent] глубже [indent] еще глубже [/indent] глубже [/indent] верх";
  3.  
  4. function parseTagsRecursive($input)
  5. {
  6.  
  7.     $regex = '#\[indent]((?:[^[]|\[(?!/?indent])|(?R))+)\[/indent]#';
  8.  
  9.     if (is_array($input)) {
  10.         $input = '<div style="margin-left: 10px">'.$input[1].'</div>';
  11.     }
  12.  
  13.     return preg_replace_callback($regex, 'parseTagsRecursive', $input);
  14. }
  15.  
  16. $output = parseTagsRecursive($input);
  17.  
  18. echo $output;
  19. ?>


изволю не согласиться

данный код имеет некоторые недостатки:

1) требуется внутри функции указывать каким именно образом идет замена, в то время как у preg_replace_recursive идет простая передача через параметр

2) не допускается количество аргументов более одного
4. Champion - 18 Августа, 2013 - 20:31:49 - перейти к сообщению
На самом деле проблему можно решить гораздо проще:
Alex_pac пишет:
<b>hello<b>привет</b> world</b>
такого просто не должно быть. Это не валидно. Внутри <b> не может быть другого <b>, поэтому, в зависимости от нашего желания, наша регулярка в праве выбрать любую пару <b></b> и проигнорировать остальные <b> и </b>. Например, /\[b\].+?\[\/b\]/ и без всяких recursive.
Она будет и проще, и быстрее. А написание парсера, "корректно" обрабатывающего невалидные данные - странная задача)

А еще есть рекурсивные подмаски - (?R) http://php[dot]ru/manual/regexp.reference.recursive.html
5. Alex_pac - 18 Августа, 2013 - 20:45:50 - перейти к сообщению
Цитата:
<b>hello<b>привет</b> world</b>


это был пример на простом теге

в конечном результате имелся ввиду тег quote spoiler font color list table и прочие валидные для рекурсии теги

судя по статье http://php.net/manual/ru/regexp....ce.recursive.php

нужно сделать небольшой патч для ограничения уровня рекурсии

PHP:
скопировать код в буфер обмена
  1. function preg_replace_recursive($pattern, $replace, $subject) {
  2.         $c = 1;
  3.         $ret = $subject;
  4.         $max = 0;
  5.         while ($c>0 && $max<10) {
  6.                $ret = preg_replace($pattern,$replace,$ret,-1,&$c);
  7.                $max++;
  8.         }
  9.         return $ret;
  10. }

 

Powered by ExBB FM 1.0 RC1