Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Парсить сайты и их майлы

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (2): [1] 2 »   

> Без описания
huk87
Отправлено: 20 Сентября, 2017 - 10:34:17
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




Доброго времени суток, стоит задача извлечь внешние ссылки на интернет магазины с сайта В ручную это делать крайне долго и тупо, много страниц и 200+ позиций на каждой да и сайтов доноров не один. Есть ли способ как-то автоматом эти данные от туда выцепить? Заранее благодарю за ответ.

(Отредактировано автором: 20 Сентября, 2017 - 16:48:21)

 
 Top
NeuroZ
Отправлено: 20 Сентября, 2017 - 10:46:14
Post Id



Посетитель


Покинул форум
Сообщений всего: 393
Дата рег-ции: Апр. 2012  


Помог: 2 раз(а)




huk87 пишет:
чтобы эти данные соответствовали критериям таблицы, а именно в одной колонке сайт, в другой майл или несколько майлов

у вас сам критерий не четкий. Как будет выглядеть эксель таблица если у одного сайта несколкьо email адресов? Куда будут записываться остальные?
(Добавление)
а вообще используйте любой DOM парсер и записывайте данные в CSV
(Добавление)
если несколько email - я бы их писал в одну ячейку с разделителем (например ;)
 
 Top
huk87
Отправлено: 20 Сентября, 2017 - 11:36:38
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




NeuroZ пишет:
если несколько email - я бы их писал в одну ячейку с разделителем (например ;)


Спасибо, впринципе подойдет такая таблица, первый столбец майлы, второй сайты которому они принадлежат, если несколько майлов с одного сайта, то ниже строками, а во втором столбце ниже строками одинаковый сайт, это подойдет.

Подредактировал первое сообщение, теперь критерий более четкий.

(Отредактировано автором: 20 Сентября, 2017 - 11:40:23)

 
 Top
NeuroZ
Отправлено: 20 Сентября, 2017 - 12:08:49
Post Id



Посетитель


Покинул форум
Сообщений всего: 393
Дата рег-ции: Апр. 2012  


Помог: 2 раз(а)




huk87 пишет:

Спасибо, впринципе подойдет такая таблица, первый столбец майлы, второй сайты которому они принадлежат, если несколько майлов с одного сайта, то ниже строками, а во втором столбце ниже строками одинаковый сайт, это подойдет.

Подредактировал первое сообщение, теперь критерий более четкий.

Цитата:
используйте любой DOM парсер и записывайте данные в CSV
- вот ответ
 
 Top
huk87
Отправлено: 20 Сентября, 2017 - 12:13:40
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




Спасибо Вам.
 
 Top
huk87
Отправлено: 20 Сентября, 2017 - 16:45:44
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




Я так понял нужны навыки веб программирования для этого? А простого бесплатного прасера не существует, типа вбил ссылку в поле сайта и чтоб выдал все внешние ссылки на интернет магазины с него? Я много уже находил онлайн парсеров, но все они ищут мало ссылок по 10-15 хотя их там около 300
качал доморощенные, где куча опций но элементарного сделать не могли, выцепить внешние ссылки на инет-магазины с сайта либо выдют ошибки, либо вытаскивают много не нужного а нужного нет.
Как быть?

Упростил вопрос, нужно хотя-бы ссылки выцепить ссылки столбиком, чтобы не копировать каждую ручками с сайта.

(Отредактировано автором: 20 Сентября, 2017 - 16:50:22)

 
 Top
andrewkard
Отправлено: 20 Сентября, 2017 - 17:03:49
Post Id


Участник


Покинул форум
Сообщений всего: 1372
Дата рег-ции: Нояб. 2014  


Помог: 30 раз(а)




huk87 пишет:
Как быть?

например так, выполните в консоли браузера код
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length; i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  
  7.  

(Отредактировано автором: 20 Сентября, 2017 - 17:21:36)

 
 Top
huk87
Отправлено: 20 Сентября, 2017 - 17:20:06
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




andrewkard пишет:
huk87 пишет:
Как быть?

например так, выполните в консоли браузера код
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length, i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  
  7.  


Я так понял нужно октрыть сайт донор ссылок и в нём нажать ctrl+shift+j затем вставить в поле этот код и клавишу ввода? не выходит - выдает ошибку Uncaught SyntaxError: Unexpected token ) в поле ниже
http://www.fotolink.su/v.php?id=5f5c1ed1c83a8a448ad1cb5df1d50533

(Отредактировано автором: 20 Сентября, 2017 - 17:26:47)

 
 Top
andrewkard
Отправлено: 20 Сентября, 2017 - 17:23:41
Post Id


Участник


Покинул форум
Сообщений всего: 1372
Дата рег-ции: Нояб. 2014  


Помог: 30 раз(а)




код с ошибкой скопировался, еще раз попробуйте
(Добавление)
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length; i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  
 
 Top
huk87
Отправлено: 20 Сентября, 2017 - 17:28:32
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




andrewkard пишет:
код с ошибкой скопировался, еще раз попробуйте
(Добавление)
CODE (javascript):
скопировать код в буфер обмена
  1.  
  2. var links = document.getElementsByClassName('js-link');
  3. for(var i = 0; i < links.length; i++){
  4.         console.log(links[i].getAttribute("href"));
  5. }
  6.  


Благодарю Вас, теперь сработало!
 
 Top
huk87
Отправлено: 22 Сентября, 2017 - 10:50:32
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




А как ссылки выцепить с таких сайтов ? Этот скрипт похоже не подходит .
 
 Top
andrewkard
Отправлено: 22 Сентября, 2017 - 13:09:27
Post Id


Участник


Покинул форум
Сообщений всего: 1372
Дата рег-ции: Нояб. 2014  


Помог: 30 раз(а)




huk87
посмотрите что это document.getElementsByClassName
и
document.getElementsByTagName
 
 Top
huk87
Отправлено: 05 Октября, 2017 - 12:11:22
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




А как внешние ссылки извлеч отсюда ? тут все время "показать больше" надо нажимать и только по 10 внутренних ссылок открывается, переходя по которым можно увидеть внешнюю ссылку

(Отредактировано автором: 05 Октября, 2017 - 12:11:58)

 
 Top
andrewkard
Отправлено: 05 Октября, 2017 - 14:12:08
Post Id


Участник


Покинул форум
Сообщений всего: 1372
Дата рег-ции: Нояб. 2014  


Помог: 30 раз(а)




huk87 пишет:
А как внешние ссылки извлеч отсюда ?


Попросить собственника поделиться.

(Отредактировано автором: 05 Октября, 2017 - 14:12:31)

 
 Top
huk87
Отправлено: 08 Октября, 2017 - 02:21:36
Post Id


Новичок


Покинул форум
Сообщений всего: 9
Дата рег-ции: Сент. 2017  


Помог: 0 раз(а)




А вот 5000 ссылок есть таких http://www[dot]cmsmagazine[dot]ru/creators/web-golden/ в этой ссылке есть эта внешняя ссылка http://web-golden[dot]ru/ , как извлечь внешние ссылки? Делать это ручками совсем малоинтересно Огорчение

(Отредактировано автором: 08 Октября, 2017 - 02:26:29)

 
 Top
Страниц (2): [1] 2 »
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Вопросы новичков »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB