Недавно работаю с регулярными выражениями
Требуется написать регулярку которая будет вытаскивать со страницы все ссылки из тега <a>
и запись между >ТЕКСТ </a>
То есть если есть ссылки типа, <a href = "www.mpalkor.ru"> ТЕКСТ </a> и <a href = "www.mpalkor.ru/projects"> <img src="d/img/dsfdsf.jpg"></a>
То на выходе я должен получить: array [0]->[0] www[dot]mpalkor[dot]ru [1] www[dot]mpalkor[dot]ru/projects array[1]->[0] ТЕКСТ [1] d/img/dsfdsf.jpg
собственно дописал найденную в интернете регулярку: '|<a(.*?)href[\"\'\s]{0,}=[\"\'\s]{0,}(.*?)[\"\'\s]{1}(.*?)>(.*?)</a[\s]{0,}>|is'
она дополнительно вытаскивает ссылку целиком все до href и после.
Но на некоторых сайтах например на приведенном мной mpalkor.ru работает некоректно.
Собственно помогите написать регулярку которая достает саму ссылку и титлу или img!
|