Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Пишу парсер с нуля. Нужна помощь.

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
dEROZA
Отправлено: 21 Июля, 2014 - 11:16:58
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Июль 2014  


Помог: 0 раз(а)




В общем есть сайт, есть массив с кучей id, которые являются артикулами товаров в ссылке. Нужно заставить парсер переходить по этим ссылкам и скачивать из них два изображения(для начала хотя бы одно), а затем переименовывать их и складывать в какую нибудь папку, каталог. Первый линк на .jpg изображение надо будет парсить из искомой страницы, а второй линк я уже как нибудь сам.


И так, дабы не терять драгоценных минут, приступим:
часть которую надо отловить, и затем спарсить src, хотя бы для начала её.

PHP:
скопировать код в буфер обмена
  1. <a class="product_img_link" title="some_title" href="http://some-site.com.ua/"><img alt="some_img_alt" src="/some_derictory/some_image.jpg"></img></a>


Таргет выглядит примерно так: http://some-site.com.ua/search.php?orderby=position&orderway=desc&search_query=id&submit_search= Таких id будет очень много, так что надо будет создать массив из них, или же можно закатать их в БД и уже потом заставить парсер коннектится к базе и зациклить его пусть вытягивает эти айди по очереди.. думаю так будет проще чем писать 1000+ id вручную Улыбка

Затем, скрипт надо заставить скачать данное изображение, по заранее спарсеной src, в заранее созданный каталог на сервере(локальном), и сразу же его переименовать, оставляя при этом расширение файла как .jpg

В общем парсер не писал еще не разу, с регуляторами не работал. Опыт пхп маловат, но есть. Вполне способен читать чужой код. Это все. Спасибо за понимание!

(Отредактировано автором: 21 Июля, 2014 - 11:22:20)

 
 Top
likvidator
Отправлено: 21 Июля, 2014 - 11:55:26
Post Id


Посетитель


Покинул форум
Сообщений всего: 416
Дата рег-ции: Март 2012  


Помог: 4 раз(а)

[+]


Если я правильно понял,то вам нужен MULTI_CURL...
(Добавление)
PHP:
скопировать код в буфер обмена
  1.  
  2. //$urlArray- твой массив с ссылками (с разными id)
  3. If(is_array($urlArray)){
  4. $connectionArray = array();
  5. foreach($urlArray as $key => $url)
  6. {
  7.         $ch = curl_init();
  8.         curl_setopt($ch, CURLOPT_URL, $url);
  9.         curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  10.                 curl_setopt($ch,CURLOPT_VERBOSE,1);
  11.         //Добавляем обычный CURL дескриптор к набору дескрипторов MULTI_CURL
  12.         curl_multi_add_handle($mh, $ch);
  13.         //Формируем массив заданий
  14.         $connectionArray[$key] = $ch;
  15. }
  16. //Флаг указывающий идут ли еще какие либо действия
  17. $running = null;
  18. //Запускаем задания на выполнение
  19. do
  20. {
  21.         curl_multi_exec($mh, $running);
  22.  
  23. }while($running > 0); //Тут как раз ждем, пока все соединения не отработают
  24. foreach($connectionArray as $key => $ch)
  25. {        
  26.         $info = curl_getinfo($ch,CURLINFO_EFFECTIVE_URL); //так для примера
  27. echo "$info<br>";
  28.         $file = curl_multi_getcontent($ch); // твоя страничка
  29.         //Удаляем дескриптор CURL с набора MULTI_CURL дескрипторов
  30.         curl_multi_remove_handle($mh, $ch);
  31. }
  32. //Закрываем набор MULTI_CURL дескипторов
  33. }
  34.  

(Отредактировано автором: 21 Июля, 2014 - 12:05:44)

 
 Top
dEROZA
Отправлено: 21 Июля, 2014 - 12:19:33
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Июль 2014  


Помог: 0 раз(а)




Я так понимаю обработать stdout надо будет после curl_multi_getcontent() ?! Признатся, думал будет все на много проще Улыбка

(Отредактировано автором: 21 Июля, 2014 - 12:25:54)

 
 Top
likvidator
Отправлено: 21 Июля, 2014 - 12:39:19
Post Id


Посетитель


Покинул форум
Сообщений всего: 416
Дата рег-ции: Март 2012  


Помог: 4 раз(а)

[+]


dEROZA пишет:
Признатся, думал будет все на много проще

Ну а что вам нужно? Получить контент и достать регуляркой адрес картинки? Контент получаете в $file,дальше регуляркой достаете нужную картинку(ссылку) и копируете картинку эту к себе на сервер(но хз что будет с производительностью). Можно пачками парсить

(Отредактировано автором: 21 Июля, 2014 - 12:39:55)

 
 Top
dEROZA
Отправлено: 21 Июля, 2014 - 13:18:48
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Июль 2014  


Помог: 0 раз(а)




likvidator пишет:
dEROZA пишет:
Признатся, думал будет все на много проще

Ну а что вам нужно? Получить контент и достать регуляркой адрес картинки? Контент получаете в $file,дальше регуляркой достаете нужную картинку(ссылку) и копируете картинку эту к себе на сервер(но хз что будет с производительностью). Можно пачками парсить


Мне после того как я скопирую адресс картинки, надо еще скопировать адресс ссылки на товар, затем открыть его и скопировать от туда еще одну картинку, вот тогда я не знаю что будет с производительностью Улыбка
 
 Top
dEROZA
Отправлено: 21 Июля, 2014 - 15:36:57
Post Id


Новичок


Покинул форум
Сообщений всего: 4
Дата рег-ции: Июль 2014  


Помог: 0 раз(а)




помогите с регуляркой, не могу вытащить ссылку..

PHP:
скопировать код в буфер обмена
  1. $pattern = "#\<a class\=\"product_img_link\" title\=\"[^\"]*\" href\=\"([^\"]*)\"\>#";


Используя это для preg_match_all

(Отредактировано автором: 21 Июля, 2014 - 15:44:31)

 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Вопросы новичков »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB