Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Парсить сайты и их майлы
Форумы портала PHP.SU » » Вопросы новичков » Парсить сайты и их майлы

Страниц (2): [1] 2 »
 

1. huk87 - 20 Сентября, 2017 - 10:34:17 - перейти к сообщению
Доброго времени суток, стоит задача извлечь внешние ссылки на интернет магазины с сайта В ручную это делать крайне долго и тупо, много страниц и 200+ позиций на каждой да и сайтов доноров не один. Есть ли способ как-то автоматом эти данные от туда выцепить? Заранее благодарю за ответ.
2. NeuroZ - 20 Сентября, 2017 - 10:46:14 - перейти к сообщению
huk87 пишет:
чтобы эти данные соответствовали критериям таблицы, а именно в одной колонке сайт, в другой майл или несколько майлов

у вас сам критерий не четкий. Как будет выглядеть эксель таблица если у одного сайта несколкьо email адресов? Куда будут записываться остальные?
(Добавление)
а вообще используйте любой DOM парсер и записывайте данные в CSV
(Добавление)
если несколько email - я бы их писал в одну ячейку с разделителем (например ;)
3. huk87 - 20 Сентября, 2017 - 11:36:38 - перейти к сообщению
NeuroZ пишет:
если несколько email - я бы их писал в одну ячейку с разделителем (например ;)


Спасибо, впринципе подойдет такая таблица, первый столбец майлы, второй сайты которому они принадлежат, если несколько майлов с одного сайта, то ниже строками, а во втором столбце ниже строками одинаковый сайт, это подойдет.

Подредактировал первое сообщение, теперь критерий более четкий.
4. NeuroZ - 20 Сентября, 2017 - 12:08:49 - перейти к сообщению
huk87 пишет:

Спасибо, впринципе подойдет такая таблица, первый столбец майлы, второй сайты которому они принадлежат, если несколько майлов с одного сайта, то ниже строками, а во втором столбце ниже строками одинаковый сайт, это подойдет.

Подредактировал первое сообщение, теперь критерий более четкий.

Цитата:
используйте любой DOM парсер и записывайте данные в CSV
- вот ответ
5. huk87 - 20 Сентября, 2017 - 12:13:40 - перейти к сообщению
Спасибо Вам.
6. huk87 - 20 Сентября, 2017 - 16:45:44 - перейти к сообщению
Я так понял нужны навыки веб программирования для этого? А простого бесплатного прасера не существует, типа вбил ссылку в поле сайта и чтоб выдал все внешние ссылки на интернет магазины с него? Я много уже находил онлайн парсеров, но все они ищут мало ссылок по 10-15 хотя их там около 300
качал доморощенные, где куча опций но элементарного сделать не могли, выцепить внешние ссылки на инет-магазины с сайта либо выдют ошибки, либо вытаскивают много не нужного а нужного нет.
Как быть?

Упростил вопрос, нужно хотя-бы ссылки выцепить ссылки столбиком, чтобы не копировать каждую ручками с сайта.
7. andrewkard - 20 Сентября, 2017 - 17:03:49 - перейти к сообщению
huk87 пишет:
Как быть?

например так, выполните в консоли браузера код
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length; i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  
  7.  
8. huk87 - 20 Сентября, 2017 - 17:20:06 - перейти к сообщению
andrewkard пишет:
huk87 пишет:
Как быть?

например так, выполните в консоли браузера код
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length, i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  
  7.  


Я так понял нужно октрыть сайт донор ссылок и в нём нажать ctrl+shift+j затем вставить в поле этот код и клавишу ввода? не выходит - выдает ошибку Uncaught SyntaxError: Unexpected token ) в поле ниже
http://www[dot]fotolink[dot]su/v.php?id=[dot][dot][dot]8ad1cb5df1d50533
9. andrewkard - 20 Сентября, 2017 - 17:23:41 - перейти к сообщению
код с ошибкой скопировался, еще раз попробуйте
(Добавление)
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length; i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  
10. huk87 - 20 Сентября, 2017 - 17:28:32 - перейти к сообщению
andrewkard пишет:
код с ошибкой скопировался, еще раз попробуйте
(Добавление)
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length; i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  


Благодарю Вас, теперь сработало!
11. huk87 - 22 Сентября, 2017 - 10:50:32 - перейти к сообщению
А как ссылки выцепить с таких сайтов ? Этот скрипт похоже не подходит .
12. andrewkard - 22 Сентября, 2017 - 13:09:27 - перейти к сообщению
huk87
посмотрите что это document.getElementsByClassName
и
document.getElementsByTagName
13. huk87 - 05 Октября, 2017 - 12:11:22 - перейти к сообщению
А как внешние ссылки извлеч отсюда ? тут все время "показать больше" надо нажимать и только по 10 внутренних ссылок открывается, переходя по которым можно увидеть внешнюю ссылку
14. andrewkard - 05 Октября, 2017 - 14:12:08 - перейти к сообщению
huk87 пишет:
А как внешние ссылки извлеч отсюда ?


Попросить собственника поделиться.
15. huk87 - 08 Октября, 2017 - 02:21:36 - перейти к сообщению
А вот 5000 ссылок есть таких http://www[dot]cmsmagazine[dot]ru/creators/web-golden/ в этой ссылке есть эта внешняя ссылка http://web-golden[dot]ru/ , как извлечь внешние ссылки? Делать это ручками совсем малоинтересно Огорчение

 

Powered by ExBB FM 1.0 RC1