Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737 Форумы портала PHP.SU :: Определить ТИЦ ресурса [2]
Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008 Откуда: Москва
Помог: 57 раз(а)
курл с прокси. Или если у компутера есть несколько ip адресов, то можно с них по очереди ходить. (Добавление)
Хотя сейчас попробовал рукой часто-часто обновить страницу, вроде Яндекс не против)
vsll
Отправлено: 02 Апреля, 2011 - 17:29:52
Частый посетитель
Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011
Помог: 10 раз(а)
Ну одно дело 3-5 сайтов часто обновлять, другое 30-50 Может как-то сохранять эти данные в db в колонку weblink_cy например и раз в 3дня написать задание из админки их обновлять? (прокси долго не живут)
Champion
Отправлено: 02 Апреля, 2011 - 17:31:57
Активный участник
Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008 Откуда: Москва
Помог: 57 раз(а)
Vasiliya пишет:
сохранять эти данные в db в колонку weblink_cy например и раз в 3дня написать задание из админки их обновлять?
Вот кстати, это очень мудрое решение. Всё-таки ТИЦ сильно не поменяется. Можно конечно всё хранить у себя в базе и периодически ее обновлять.
EuGen
Отправлено: 02 Апреля, 2011 - 18:50:58
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Есть ресурсы с постоянно обновляющимися списками прокси-серверов (anonym, transparent e.t.c.).
Я делал так: проверял каждый прокси сервер при помощи proxy_judge. Работает оно так:
0. Метод proxy_judge делает вызов скрипта через этот прокси (скажем, с помощью curl);
1. Скрипт, который вызывается - тот же самый, что содержит proxy_judge (но можно вынести это и в любой другой скрипт своего сервера)
2. В вызываемом скрипте проверяется $_SERVER; $_REQUEST (все их значения) - если хотя бы где-нибудь фигурирует ip-адрес скрипта-источника (то есть по сути, нашего сервера), то доверять прокси нельзя.
Этот метод дает некоторую степень оценки безопасности прокси. Ну и конечно, списки прокси-серверов постоянно обновляются, их нужно проверять время от времени. Примерный списки легко найти:
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
vsll
Отправлено: 02 Апреля, 2011 - 19:14:02
Частый посетитель
Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011
Помог: 10 раз(а)
EuGen это высший пилотаж, для этого нужно постоянно отслеживать прокси рынок, а стоит ли овчинка выделки? Да и всё это влияет на скорость загрузки страницы, и ещё нужно сделать сортировку по тиц, если найду способ то и pr
EuGen
Отправлено: 02 Апреля, 2011 - 19:18:42
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Это было сделано для domain crawler (доменный паук) - который сдедил за состоянием "привлекательных" доменов и сообщал о состоянии тех, дата истечения регистрации которых близка.
Правда, с введением дат резервации это стало неактуальным и заказчик отказался от проекта, однако постоянный парсинг списков прокси/их проверки, парсинге результатов выборки и т.п. дают неплохую базу для операций, схожих с той, с которой столкнулись Вы. Я предположил, что это может быть Вам полезно.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
vsll
Отправлено: 02 Апреля, 2011 - 19:25:58
Частый посетитель
Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011
Помог: 10 раз(а)
Да, в будущем, для более серьёзных проектов, безусловно полезная информация, которой я не знала, а сейчас пока игрушка, ох... бедный сайтик, чего он только не натерпелся)
Champion
Отправлено: 02 Апреля, 2011 - 19:26:52
Активный участник
Покинул форум
Сообщений всего: 4350
Дата рег-ции: Авг. 2008 Откуда: Москва
Помог: 57 раз(а)
Ну да, возможно, что стоит собирать базу проксей и пользоваться ими. Но вариант с хранием ТИЦев в своей базе лучше все равно сделать. Незачем постоянно обращаться за этим к Яндексу. А вот обновление базы ТИЦев можно сделать с использованием проксей. Только для начала обойтись без проксей. Если Яндекс будет капризничать, это будет видно сразу, тогда уже можно подумать о проксях.
EuGen
Отправлено: 02 Апреля, 2011 - 19:30:28
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Естественно, БД с прокси и их состоянием необходима (в domaincrawler так и было).
А обращаться все же придется. Прокси и правда живут недолго.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
vsll
Отправлено: 02 Апреля, 2011 - 19:30:59
Частый посетитель
Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011
Помог: 10 раз(а)
Блестящая идея Champion попробовать метод EuGenа в деле, только не знаю хватит ли на всё это моих умственных ресурсов)))
EuGen
Отправлено: 02 Апреля, 2011 - 19:32:39
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Если интересно, то могу поискать реализацию proxy_judge; парсера прокси, их резальтатов (со всеми операциями над БД), а так же псевдомногопоточной обработки в curl
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
vsll
Отправлено: 02 Апреля, 2011 - 19:38:03
Частый посетитель
Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011
Помог: 10 раз(а)
EuGen вы значительно облегчите мне жизнь, если учесть, что вчера в поисках как спарсить))) ТИЦ у яндекса, я неразумно гуляла под админкой и схватила вирус, который успел расплодиться))) Представляю что будет если я буду гулять в поисках списков прокси)))
EuGen
Отправлено: 02 Апреля, 2011 - 19:41:51
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Через curl ? просто запрашивая ресурс и разбирая его? Навряд ли.
Хорошо, попробую поднять архивы, возможно, там сыщется что-то, что Вам пригодится.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
vsll
Отправлено: 06 Апреля, 2011 - 17:45:24
Частый посетитель
Покинул форум
Сообщений всего: 530
Дата рег-ции: Февр. 2011
Помог: 10 раз(а)
EuGen пишет:
Хорошо, попробую поднять архивы, возможно, там сыщется что-то, что Вам пригодится.
Unfortunately, some IPs may be banned by Google, therefore the server running this code may not be allowed to query the Google servers. In this case the pagerank returned will always be -1.
Это касается определяемых доменов или ресурсов с которых идёт запрос?
EuGen
Отправлено: 06 Апреля, 2011 - 17:55:02
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
Нет, увы, на текущих разделах и примонтированных по локальной сети найти не удалось. Это значит, что оно лежит в старых архивах, которые пока, к сожалению, нет времени поднимать и просматривать.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.