Покинул форум
Сообщений всего: 327
Дата рег-ции: Окт. 2010
Помог: 1 раз(а)
Приветствую!
Друзья, подскажите в чем может быть проблема. Написал несколько парсеров под разные сайты и все отлично. Но тут столкнулся с одним и он на овтеты парсера отвечает очень долго, что мой сервер отвечает "504 Gateway Time-out". Причем если открывать данный сайт в браузере, то он летает пулей! А через парсеры - очееень долго.
Использовал curl и simple html dom. И там и там одно и то же. Скажите в чем может быть дело. С меню плюсики в карму)
EuGen
Отправлено: 07 Апреля, 2011 - 11:33:52
Профессионал
Покинул форум
Сообщений всего: 9095
Дата рег-ции: Июнь 2007 Откуда: Berlin
Помог: 707 раз(а)
504 - это означает, что ответ бекенда сервера, обрабатывающего запрос, был слишком долгим (например, когда apache отрабатывает за проксирующим nginx).
Далее, веб-сайт может отслеживать то, что его запрашивает парсер (например, браузер отсылает такие вещи, как HTTP_USER_AGENT и т.п.) и пресекать попытки забрать контент. Правда, реагировать долгим ответом - оригинальный способ (но действенный)
В Вашем случае, соответственно, нужно попробовать "представиться браузером" - высылая все заголовки, что обычно шлет браузер. Возможно, дело в этом.
----- Есть в мире две бесконечные вещи - это Вселенная и человеческая глупость. Но насчет первой .. я не уверен.
Мелкий
Отправлено: 07 Апреля, 2011 - 11:34:14
Активный участник
Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009 Откуда: Россия, Санкт-Петербург
Помог: 618 раз(а)
Возможно, для этого сайта вы не похожи на пользователя.
----- PostgreSQL DBA
antobra
Отправлено: 07 Апреля, 2011 - 11:42:30
Посетитель
Покинул форум
Сообщений всего: 327
Дата рег-ции: Окт. 2010
Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009 Откуда: Россия, Санкт-Петербург
Помог: 618 раз(а)
ммм, момент
Нет, не вижу в классе криминала никакого, меня с толку сбил ваш метод setCurlOptions.
Ловите заголовки, которыми обмениваются браузер с этим сайтом и смотрите, что не совпадает.
Покинул форум
Сообщений всего: 327
Дата рег-ции: Окт. 2010
Помог: 1 раз(а)
А не может усложнять работу всякие там системы типа Google Аналитикс... Т.к. когда открывается этот сайт вся страница загружается, а потом минуту другую браузер пишет, что загружается аналитикс...
Может быть в этом дело?
Хотя парсится в htmlе.... (((
movEAX
Отправлено: 07 Апреля, 2011 - 16:26:59
Частый посетитель
Покинул форум
Сообщений всего: 750
Дата рег-ции: Авг. 2009
Помог: 16 раз(а)
Подсмотрите сниффером какие заголовки шлет браузер, и отошлите точно такие же, проблем возникнуть не должно. Если есть какие-то специфические заголовки, то воспользуйтесь CURLOPT_HTTPHEADER.
И еще, посмотрите в сторону curl_setopt_array..
----- армия.. самое убогое место
antobra
Отправлено: 09 Апреля, 2011 - 16:27:47
Посетитель
Покинул форум
Сообщений всего: 327
Дата рег-ции: Окт. 2010
Помог: 1 раз(а)
Помогите еще с ошибкой - 504 Gateway Time-out.
У меня свой сервер и я изменил продолжительность работы php с 30 секунд до 500 и все равно эта ошибка... причем она показывается через 5-7 секунд. Это как понимать?
Все гости форума могут просматривать этот раздел. Только зарегистрированные пользователи могут создавать новые темы в этом разделе. Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.