Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Определить ТИЦ ресурса [2]

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (6): « 1 [2] 3 4 5 6 »   

> Описание: вытащить из xml
Champion Супермодератор
Отправлено: 02 Апреля, 2011 - 17:11:26
Post Id



Активный участник


Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008  
Откуда: Москва


Помог: 57 раз(а)




курл с прокси. Или если у компутера есть несколько ip адресов, то можно с них по очереди ходить.
(Добавление)
Хотя сейчас попробовал рукой часто-часто обновить страницу, вроде Яндекс не против)
 
 Top
vsll
Отправлено: 02 Апреля, 2011 - 17:29:52
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011  


Помог: 10 раз(а)




Ну одно дело 3-5 сайтов часто обновлять, другое 30-50 Может как-то сохранять эти данные в db в колонку weblink_cy например и раз в 3дня написать задание из админки их обновлять? (прокси долго не живут)
 
 Top
Champion Супермодератор
Отправлено: 02 Апреля, 2011 - 17:31:57
Post Id



Активный участник


Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008  
Откуда: Москва


Помог: 57 раз(а)




Vasiliya пишет:
сохранять эти данные в db в колонку weblink_cy например и раз в 3дня написать задание из админки их обновлять?
Вот кстати, это очень мудрое решение. Всё-таки ТИЦ сильно не поменяется. Можно конечно всё хранить у себя в базе и периодически ее обновлять.
 
 Top
EuGen Администратор
Отправлено: 02 Апреля, 2011 - 18:50:58
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Есть ресурсы с постоянно обновляющимися списками прокси-серверов (anonym, transparent e.t.c.).
Я делал так: проверял каждый прокси сервер при помощи proxy_judge. Работает оно так:
0. Метод proxy_judge делает вызов скрипта через этот прокси (скажем, с помощью curl);
1. Скрипт, который вызывается - тот же самый, что содержит proxy_judge (но можно вынести это и в любой другой скрипт своего сервера)
2. В вызываемом скрипте проверяется $_SERVER; $_REQUEST (все их значения) - если хотя бы где-нибудь фигурирует ip-адрес скрипта-источника (то есть по сути, нашего сервера), то доверять прокси нельзя.

Этот метод дает некоторую степень оценки безопасности прокси. Ну и конечно, списки прокси-серверов постоянно обновляются, их нужно проверять время от времени. Примерный списки легко найти:

http://www[dot]checker[dot]freeproxy[dot]ru/[dot][dot][dot]cked_proxies.php

http://www[dot]proxylists[dot]net/
и т.п.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
vsll
Отправлено: 02 Апреля, 2011 - 19:14:02
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011  


Помог: 10 раз(а)




EuGen это высший пилотаж, для этого нужно постоянно отслеживать прокси рынок, а стоит ли овчинка выделки? Да и всё это влияет на скорость загрузки страницы, и ещё нужно сделать сортировку по тиц, если найду способ то и pr
 
 Top
EuGen Администратор
Отправлено: 02 Апреля, 2011 - 19:18:42
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Это было сделано для domain crawler (доменный паук) - который сдедил за состоянием "привлекательных" доменов и сообщал о состоянии тех, дата истечения регистрации которых близка.
Правда, с введением дат резервации это стало неактуальным и заказчик отказался от проекта, однако постоянный парсинг списков прокси/их проверки, парсинге результатов выборки и т.п. дают неплохую базу для операций, схожих с той, с которой столкнулись Вы. Я предположил, что это может быть Вам полезно.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
vsll
Отправлено: 02 Апреля, 2011 - 19:25:58
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011  


Помог: 10 раз(а)




Да, в будущем, для более серьёзных проектов, безусловно полезная информация, которой я не знала, а сейчас пока игрушка, ох... бедный сайтик, чего он только не натерпелся)
 
 Top
Champion Супермодератор
Отправлено: 02 Апреля, 2011 - 19:26:52
Post Id



Активный участник


Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008  
Откуда: Москва


Помог: 57 раз(а)




Ну да, возможно, что стоит собирать базу проксей и пользоваться ими. Но вариант с хранием ТИЦев в своей базе лучше все равно сделать. Незачем постоянно обращаться за этим к Яндексу. А вот обновление базы ТИЦев можно сделать с использованием проксей. Только для начала обойтись без проксей. Если Яндекс будет капризничать, это будет видно сразу, тогда уже можно подумать о проксях.
 
 Top
EuGen Администратор
Отправлено: 02 Апреля, 2011 - 19:30:28
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Естественно, БД с прокси и их состоянием необходима (в domaincrawler так и было).
А обращаться все же придется. Прокси и правда живут недолго.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
vsll
Отправлено: 02 Апреля, 2011 - 19:30:59
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011  


Помог: 10 раз(а)




Блестящая идея Champion попробовать метод EuGenа в деле, только не знаю хватит ли на всё это моих умственных ресурсов)))
 
 Top
EuGen Администратор
Отправлено: 02 Апреля, 2011 - 19:32:39
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Если интересно, то могу поискать реализацию proxy_judge; парсера прокси, их резальтатов (со всеми операциями над БД), а так же псевдомногопоточной обработки в curl


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
vsll
Отправлено: 02 Апреля, 2011 - 19:38:03
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011  


Помог: 10 раз(а)




EuGen вы значительно облегчите мне жизнь, если учесть, что вчера в поисках как спарсить))) ТИЦ у яндекса, я неразумно гуляла под админкой и схватила вирус, который успел расплодиться))) Представляю что будет если я буду гулять в поисках списков прокси)))
 
 Top
EuGen Администратор
Отправлено: 02 Апреля, 2011 - 19:41:51
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Через curl ? просто запрашивая ресурс и разбирая его? Навряд ли.
Хорошо, попробую поднять архивы, возможно, там сыщется что-то, что Вам пригодится.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
vsll
Отправлено: 06 Апреля, 2011 - 17:45:24
Post Id


Частый посетитель


Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011  


Помог: 10 раз(а)




EuGen пишет:
Хорошо, попробую поднять архивы, возможно, там сыщется что-то, что Вам пригодится.


Нашлось что-нибудь?

Для pr существует такая вещь:
http://www[dot]pagerankcode[dot]com/download-script[dot]html

Правда не очень понятно предупреждение вначале:
Цитата:
Unfortunately, some IPs may be banned by Google, therefore the server running this code may not be allowed to query the Google servers. In this case the pagerank returned will always be -1.

Это касается определяемых доменов или ресурсов с которых идёт запрос?
 
 Top
EuGen Администратор
Отправлено: 06 Апреля, 2011 - 17:55:02
Post Id


Профессионал


Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007  
Откуда: Berlin


Помог: 707 раз(а)




Нет, увы, на текущих разделах и примонтированных по локальной сети найти не удалось. Это значит, что оно лежит в старых архивах, которые пока, к сожалению, нет времени поднимать и просматривать.


-----
Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
 
 Top
Страниц (6): « 1 [2] 3 4 5 6 »
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Регулярные выражения »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB