У меня такая проблема.
Нужно отпарсить страницу. Для этого понадобился класс [[:print:]] - все печатные символы. Но он не содержит кириллицу. А русские символы также необходимы в регулярном выражении.
Можно ли как то дополнить этот класс?
Т.е. например можно написать [0-9а-я] - цифровые символы дополняем русскими. А как поступить с классом [[:print:]] ? Можно ли дополнить его русскими символами. Или придется перечислять все заново (все цифры, буквы, знаки препинания, другие символы..) Может есть какой нибудь способ?
Поподробнее опишу задачу:
Есть страница, на которой есть название и описание товара. К примеру название обрамляется <p><a href=..........>Название</a></div>
и описание также обрамляется определенными тэгами.
Таким образом описав в регулярном выражении конструкуции
<p><a href=..........>
и </a></p> Мне нужно вытащить то, что между ними.
ereg('[0-9]+">([[:print:]]+)</a></div>',$page,$arr)
([[:print:]]+) и должно дать название, но проблемы начинаются, когда в названии встречаются русские символы.
|