Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737 Форумы портала PHP.SU :: Как спарсить ссылки с сайта
Покинул форум
Сообщений всего: 31
Дата рег-ции: Март 2012
Помог: 0 раз(а)
Вообщем такое дело, нужно мне спарсить все ссылки с сайта, например с категории Бизнес, но дело в том что в этой категории 3 страницы, я написал небольшой скриптик который парсит все ссылки с 1 страницы.
Покинул форум
Сообщений всего: 434
Дата рег-ции: Янв. 2012
Помог: 0 раз(а)
Ну тут маленьким скриптом не обойтись, писал парсер, что бы делал все это + убирал не нужный текст,если нужно переводил его и заливал с картинками в вп(+ еще пара фичей), вышло 439 строк....
могу сказать гугли в сторону curl + phpQuery http://pizdo[dot]biz/parsing-tovarov[dot][dot][dot]hhi-phpquery-175
вот тут есть от части, что ты хочешь https://code[dot]google[dot]com/p/phpquery/
я же использовал еще (для постинга в вп)
http://scripts.incutio.com/xmlrpc/
Покинул форум
Сообщений всего: 434
Дата рег-ции: Янв. 2012
Помог: 0 раз(а)
Видимо человек выше пропустил, то, что тсу нужно еще спарсить контент с этих ссылок)
Тсу все же рекомендую ознакомится с тем, что дал и гуглить в ту сторону, некоторые решения уже есть в сети, попробуй допилить их под себя...
пс. для получения контента я бы юзал(да и юзаю curl)
Покинул форум
Сообщений всего: 35
Дата рег-ции: Июнь 2012
Помог: 0 раз(а)
dimaua2 пишет:
Видимо человек выше пропустил, то, что тсу нужно еще спарсить контент с этих ссылок)
Тсу все же рекомендую ознакомится с тем, что дал и гуглить в ту сторону, некоторые решения уже есть в сети, попробуй допилить их под себя...
пс. для получения контента я бы юзал(да и юзаю curl)
В задании не было указано в каком формате находиться контент с ссылок и по какому принципу его парсить. Между тем, опираясь на вышеуказанные функции, легко заменить file_get_contents() на my_user(), хотя и так всё работает)
Покинул форум
Сообщений всего: 434
Дата рег-ции: Янв. 2012
Помог: 0 раз(а)
При парсенге контента с чужого сайта, что бы ваш ип не попал в бан все же стоит имитировать пользователя, чем просто "брать" контент)
Если вас забанят на сервере, что будете делать? искать прокси? впн? искать нового донора?
меня еще тьху тьху не банили...
Hidalgo
Отправлено: 01 Апреля, 2015 - 13:36:11
Частый гость
Покинул форум
Сообщений всего: 245
Дата рег-ции: Февр. 2012 Откуда: Димитровград
зря советуете.....значит вряд ли работали с ним....
Работал, парсил им товары с dx.com. Именно с переходам по страницам, с сохранением изображений и прочее.
В отличии от пхп квери, если симпл дум не найдет в статье определенный див, что указали, то весь скрипт вываливается в фатал ерор, сталкивались с таким?)
Hidalgo
Отправлено: 01 Апреля, 2015 - 18:00:53
Частый гость
Покинул форум
Сообщений всего: 245
Дата рег-ции: Февр. 2012 Откуда: Димитровград
зря советуете.....значит вряд ли работали с ним....
Работал, парсил им товары с dx.com. Именно с переходам по страницам, с сохранением изображений и прочее.
В отличии от пхп квери, если симпл дум не найдет в статье определенный див, что указали, то весь скрипт вываливается в фатал ерор, сталкивались с таким?)
Нет не сталкивался. Перед тем как парсить, страница анализируется и изучается на предмет определенных "хелперов": id элемента, class, тэги и прочее. Затем уже с помощью этих данных парсятся определенные элементы на странице. А она одинаковая, что первая страница, что 100500-ая. И все дивы и элементы на странице будут одни и теже. Поэтому мне не понятно, как парсер не сможет найти определенный элемент.
dimaua2
Отправлено: 02 Апреля, 2015 - 06:49:54
Посетитель
Покинул форум
Сообщений всего: 434
Дата рег-ции: Янв. 2012
Помог: 0 раз(а)
ясн
значит у вас не было сайтов статейников, где в одной статье есть например див с галерей, в другой статье его нет, он там не зачем...) попробуйте, много нового узнаете и ошибок много новых повидаете, когда не найдя этот див, скрипт завершится полностью с фатал ерором...)
пс. это относится к любым сайтам, где на страницах контент может варироваться, а не как у интернет магазина на каждом товаре есть цена, описание и тп) советую детальней ознакомится с симпл дум, прежде чем его советовать...
Покинул форум
Сообщений всего: 245
Дата рег-ции: Февр. 2012 Откуда: Димитровград
Помог: 1 раз(а)
dimaua2 пишет:
ясн
значит у вас не было сайтов статейников, где в одной статье есть например див с галерей, в другой статье его нет, он там не зачем...) попробуйте, много нового узнаете и ошибок много новых повидаете, когда не найдя этот див, скрипт завершится полностью с фатал ерором...)
пс. это относится к любым сайтам, где на страницах контент может варироваться, а не как у интернет магазина на каждом товаре есть цена, описание и тп) советую детальней ознакомится с симпл дум, прежде чем его советовать...
Вы пошли в глубокие дебри. У ТС задача спарсить текст. Пусть попробует, варианты лишними не бывают.
Покинул форум
Сообщений всего: 35
Дата рег-ции: Июнь 2012
Помог: 0 раз(а)
Hidalgo пишет:
dimaua2 пишет:
ясн
значит у вас не было сайтов статейников, где в одной статье есть например див с галерей, в другой статье его нет, он там не зачем...) попробуйте, много нового узнаете и ошибок много новых повидаете, когда не найдя этот див, скрипт завершится полностью с фатал ерором...)
пс. это относится к любым сайтам, где на страницах контент может варироваться, а не как у интернет магазина на каждом товаре есть цена, описание и тп) советую детальней ознакомится с симпл дум, прежде чем его советовать...
Вы пошли в глубокие дебри. У ТС задача спарсить текст. Пусть попробует, варианты лишними не бывают.
Поясните, пожалуйста, чем сторонние библиотеки такие как phpQuery и php simple html dom parser эффективнее регулярного выражения для парсинга контента?
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.