Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Получить все внешние ссылки

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
Demeus
Отправлено: 22 Апреля, 2010 - 16:45:29
Post Id


Гость


Покинул форум
Сообщений всего: 96
Дата рег-ции: Янв. 2010  


Помог: 0 раз(а)




Привет эксперты! Помогите с проблемой. есть много сайтов с которых надо собрать все внешние ссылки с анкорами и все это дело записать в файл. как это лучше сделать. Предполагаю, что нужно получить содержимое страницы с помощью file_get_contents, а что дальше?
(Добавление)
дальше продолжу Улыбка опытном путем все таки получил ссылки используя это код
PHP:
скопировать код в буфер обмена
  1.  
  2. $open_url="http://www.shoptop.ru/";
  3. $html=file_get_contents($open_url);
  4.  
  5. preg_match_all('~<a.*?href="([^"]+)".*?>(.*?)</a>~s', $html, $matches);
  6.  print_r($matches);
  7.  

Но к сожалению, он не всегда выводит то что нужно, а именно как раз в этом случае. Как мне убрать весь мусор и оставить только внешние ссылки?
 
 Top
trot
Отправлено: 22 Апреля, 2010 - 21:22:48
Post Id


Новичок


Покинул форум
Сообщений всего: 34
Дата рег-ции: Нояб. 2009  


Помог: 0 раз(а)




Что значит "внешние ссылки"?
 
 Top
Demeus
Отправлено: 22 Апреля, 2010 - 22:35:38
Post Id


Гость


Покинул форум
Сообщений всего: 96
Дата рег-ции: Янв. 2010  


Помог: 0 раз(а)




внешние ссылки, это ссылки на другие доменные имена
 
 Top
Phantik
Отправлено: 23 Апреля, 2010 - 09:03:19
Post Id


Посетитель


Покинул форум
Сообщений всего: 305
Дата рег-ции: Июнь 2009  


Помог: 0 раз(а)




Переписать регулярку так, что бы исключались из шаблона ссылки содержащие в адресе свой домен.
Либо перебирать все выбранные ссылки, искать в них вхождение ".mydomain." или "/mydomain." и исключать их из итогового списка.

(Отредактировано автором: 23 Апреля, 2010 - 09:04:24)

 
 Top
JustUserR
Отправлено: 23 Апреля, 2010 - 12:11:33
Post Id



Активный участник


Покинул форум
Сообщений всего: 8715
Дата рег-ции: Июнь 2009  


Помог: 17 раз(а)




Demeus пишет:
Предполагаю, что нужно получить содержимое страницы с помощью file_get_contents, а что дальше?
Если страница находится на удаленном web-сервере то такой способ наименее хороший - ведь для запроса страниц может потребоваться использование cookie и набор определенных HTTP-заголовок или POST-запрос - а могут быть с сайты со сложными формами запросов multipart или keep-alive - по этой причине следует использовать только CURL или socktes


-----
Сделать можно все что угодно - нужно только старание, терпение и хороший поисковик Улыбка
Безлимитный web-хостинг от 15 рублей за 40 МБ дискового пространства - http://ihost[dot]oks71[dot]ru/
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Регулярные выражения »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB