Форумы портала PHP.SU :: Версия для печати

1. mr_it - 16 Августа, 2010 - 15:39:54 - перейти к сообщению

Ни как не получается отцепить адрес Хочу найти в тексте ссылку, т.е
<a href="....">....</a>
я хочу получить url адрес в href регулярным выражением

2. JustUserR - 17 Августа, 2010 - 02:19:06 - перейти к сообщению

mr_it пишет:

Я хочу получить url адрес в href регулярным выражением

Для проведения поиска в некотором тексте входящих в него гиперссылок - можно использовать простое регулярное выражение как preg_match_all("/\<a(?:.*?)href=[\"'](.*?)\2\>(.*?)\</a\>/igs",$text) Кроме того вы можете использовать шаблон проверки правильности URL-адреса из одной предыдущей темы - это полезно в том случае если полученные идентификаторы web-ресурсов используются в дальнейшей обработки и необходима их снитаксическая правильность

3. mr_it - 19 Августа, 2010 - 15:11:30 - перейти к сообщению

JustUserR пишет:

mr_it пишет:

Я хочу получить url адрес в href регулярным выражением

Для проведения поиска в некотором тексте входящих в него гиперссылок - можно использовать простое регулярное выражение как preg_match_all("/\<a(?:.*?)href=[\"'](.*?)\2\>(.*?)\</a\>/igs",$text) Кроме того вы можете использовать шаблон проверки правильности URL-адреса из одной предыдущей темы - это полезно в том случае если полученные идентификаторы web-ресурсов используются в дальнейшей обработки и необходима их снитаксическая правильность

Благодарю!

4. JustUserR - 19 Августа, 2010 - 21:27:31 - перейти к сообщению

mr_it пишет:

Благодарю!

На здоровье! Для осуществления расширенной обработки HTML-страниц в общем случае можно применять не набор специфических регурялных выражений - а специальные библиотеки предназначенные для работы с документами такого рода - а при достаточной совместимости требуемой страницы с XML-стандартном можно использовать системы парсинга типа XML-DOM или simplexml - что является в достаточной мере универсальным для многих задач

5. DedMorozzz - 25 Августа, 2010 - 11:48:09 - перейти к сообщению

Цитата:

можно использовать простое регулярное выражение как preg_match_all

preg_replace существенно быстрее работает. Само регулярное выражение, естественно, не поменяется, лишь надобно указать номер вхождения(то что в скобках) в сохраняемую переменную. Если ссылка одна. Иначе алгоритм, через прег_реплейс станет существенно сложнее(добавлять спец символы и использовать експлоид) и смысл, как таковой потеряется. Хотя прирост всё равно в скорости будет процентов на 20-30.
Мораль: если ссылка единична - прег_реплейс имеет смысл использовать заместо прег_матч(прег_матч_олл).

6. JustUserR - 26 Августа, 2010 - 09:37:54 - перейти к сообщению

DedMorozzz пишет:

Preg_replace существенно быстрее работает

В случае если в строке требуетися найти некоторое вхождений которое определяется без использования алгоритов связанного поиска или привязки - то можно использовать обычные строковые функции поиска и выбора подстроки и они должны работать еще более быстро - в частности в данном случае достаточно два раза использовать функцию strpos для поиска части первого открывающего тега "<a" и следующего за ним закрывающего "</a>" - путем передачи дополнительного аргумента strpos в качестве позиции в строке для инициазаци поиска следующего вхождения

7. DedMorozzz - 26 Августа, 2010 - 10:26:56 - перейти к сообщению

Цитата:

достаточно два раза использовать функцию strpos для поиска части первого открывающего тега "<a" и следующего за ним закрывающего "</a>" - путем передачи дополнительного аргумента strpos в качестве позиции в строке для инициазаци поиска следующего вхождения

Да, есть такое дело. Но лишь с той разницей, что алгоритм будет чуть сложнее.
Ибо необходимо найти первый закрывающий тег, записать его позицию. И далее развернуть строку, в которой происходит поиск (ибо надо найти последний открывающий, перед первым закрывающим тегом), и в ней искать перевёрнутый открытый тег и запоминать его позицию. Далее сравнить полученную позицию открывающего (путём вычетания найденной позиции из искомой длины) с закрывающим тегами. Если открывающий ранее - тогда нормально, иначе - искать следующий закрытый и цикл по новой. И лишь тогда будет у нас необходимая ссылка. Без разворота можно выцепить не то, что нужно.

8. JustUserR - 27 Августа, 2010 - 17:32:19 - перейти к сообщению

DedMorozzz пишет:

Без разворота можно выцепить не то, что нужно

В принципе можно осуществить поиск требуемого вхождения в строке и без ее явного реверсирования - дело в том что функции PHP для нахождения подстрок позволяют указывать как направление поиска определяемое strpos как прямое и strrpos как обратоке - так и позицию символа начиная с которой будет находиться подстрока что определяется дополнительным аргументов этих функций