Форумы портала PHP.SU :: Версия для печати :: Урок № 14

Страниц (1): [1]

1. valenok - 25 Мая, 2009 - 00:37:54 - перейти к сообщению

libcurl для обменна данных

libcurl это библиотека функций, которая позволяет взаимодействовать (обмениваться информацией) с различными серверами по различным протоколам. В настоящее время libcurl поддерживает протоколы http, https, ftp, gopher, telnet, dict, file, и ldap. libcurl также умеет работать с сертификатами HTTPS, посылать запросы к HTTP серверам методами POST и PUT, закачивать файлы по протоколам HTTP и FTP (последнее можно сделать также используя модуль FTP), использовать прокси-серверы, cookies и аутентификацию пользователей.

Нас поймут только по протоколу

Любые сервера, в том числе и web, умеют реагировать на присланные им данные т, но только в том случае, если они понимают, что им прислали. Для этого, данные посылаемые им оформляются согласно определенным правилам. Такой набор правил и называется протоколом. Данные по протоколу оформит libcurl сама, мы же лишь рассмотрим далее как их ей передать.

Раз, два, начали.

Функций в библиотеке совсем не много, но одну из них, приводящую шестеренки в действие, вы встретите в любом скрипте с curl. curl_init — Инициализирует сеанс CURL
Другими словами - эта функция запускает механизм curl и возвращает указатель, дескриптор на созданный механизм.

Напомню что такое ресурс (указатель), тем кто забыл.

Дескриптор ( Resource )
Дескриптор представляет из себя указатель, ссылку, на внешний ресурс.
Представим автосервис с большим количеством машин, которым заливают несколько по литров масла в двигатель. Со свистом тормозов из подворотни вылетает феррари и паркуется на очередной сервисной парковке. Хозяин сервиса уже кричит рабочему, залить 5 литров масла и тычет большим пальцем в красную феррари.
Наш рабочий получает в данном случае два типа данных - число (литров масла) и указатель на машину, то-есть определение - какому именно объекту из всех вокруг нужно подлить чего-нибудь.

Подмечу, что рабочий получает от босса вовсе не саму машину, а лишь дескриптор (указатель) машины с которой предстоит работать. В php этим дескриптором является тип данных resource.

Функция curl_init также может сразу принимать url, адрес того сервера с которым будем общаться. Можно его и не указывать, а указать попозже. Инициализировав механизм, можно сразу отправить запрос, ну и наконец освободить память от этого механизма.
Вот что в итоге получится:

PHP:
скопировать код в буфер обмена

<?PHP 
$ch = curl_init('http://php.su');
curl_exec($ch); // выполняем запрос curl - обращаемся к сервера php.su
curl_close($ch);

результатом этого кода будет прямой вывод содержимого главной страницы php.su. Не всегда нужно вывести результат запроса прямо в браузер и для этого достаточно просто покрутить пару настроек. Сейчас выясним как это сделать.

Конфигурируем общение

curl_setopt — Устанавливает параметр для сеанса CURL
параметры бывают разные, и их много, очень. Какой за что отвечает можно посмотреть, само собой, в справочнике функции curl_setopt. Мы же сейчас рассмотрим парочку основных и выясним как ими манипулировать.

Но прежде я хочу вернуться на момент к обсуждению протокола http. Из чего же состоит набор правил этого протокола. Давай посмотрим как браузер общается с нашим сервером, что он ему посылает, и что тот от него получает. Я для этого использую расширение браузера livehttpheaders. И вот, что происходит при общении браузера с сервером:

Общение браузера с сервером получилось не слишком замысловатое. Смотрим:

GET /index.php HTTP/1.1 Дай страницу index.php. данные пришли правильно оформленные
Host: php.su с сайта php.su
User-Agent: Mozilla/5.0 А вот такой вот!
Accept: text/html И понимаю я только текст и html.
Accept-Language: ru,en-us; И говори по русски или я твоя не понимать
Accept-Charset: windows-1251,utf-8; Со специями пожалуйста.
Connection: keep-alive Жду от тебя ответа
Keep-Alive: 300 но терпения у меня мало.
Cookie: lastvisit=1243232518; А еще я заходил вчера и заказывал столик. Помнишь меня ? Нет? ну не важно, ты просил напомнить что я заходил во столько то. Теперь вспомнил? Отлично. Где мой столик ?

HTTP/1.1 200 OK Данные принял, состояние 200.
Date: Mon, 25 May 2009 06:33:05 GMT
Server: Apache Вас обслуживает ООО "Сервер Apache"
X-Powered-By: PHP/5.2.6 Старший шеф повар, php 5.2.6
Transfer-Encoding: chunked Это порция первая, вторая ща будет
Connection: close А теперь получил?, распишись, больше не жди
Content-Type: text/html; charset=cp1251 Ваша пицаа по русски, с грибами

Сразу после заголовков ответа идёт сам ответ, тоесть html страницы. А мы, тем временем, что стали свидетелями общения моего браузера с сервером php.su. А раз браузер может, то и мы с нашей программой можем.

Заказываем данные с нужными опциями

После того, как мы запустили наш код простой код

PHP:
скопировать код в буфер обмена

<?PHP 
$ch = curl_init('http://php.su');
curl_exec($ch); // выполняем запрос curl - обращаемся к сервера php.su
curl_close($ch);

мы увидели в браузере только html код полученный от сервера. Возможно нам захочется также посмотреть на заголовки, который прислал сервер, а то вдруг я все выше написанное выдумал ?

Для этого установим опцию "показывать заголовки"
CURLOPT_HEADER : При установке этого параметра в ненулевое значение результат будет включать полученные заголовки.
Разумеется параметры устанавливать нужно до того, как отправим сам запрос серверу. И так, получилось вот такое:

PHP:
скопировать код в буфер обмена

<?PHP 
$ch = curl_init('http://php.su');
curl_setopt  ($ch, CURLOPT_HEADER, true);
curl_exec($ch); // выполняем запрос curl
curl_close($ch);

----------------------------------------------------------

http://php.su/forum/loginout.php

POST /forum/loginout.php HTTP/1.1

User-Agent: Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.10) Gecko/2009042523 Ubuntu/8.10 (intrepid) Firefox/3.0.10

Accept: text/html,application/xhtml xml,application/xml;q=0.9,*/*;q=0.8

Accept-Language: ru,en-us;q=0.7,en;q=0.3

Accept-Encoding: gzip,deflate

Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7

Connection: keep-alive

Referer: http://php.su/forum/loginout.php

Content-Type: application/x-www-form-urlencoded

action=login&imembername=valenok&ipassword=ne_skaju&submit=%C2%F5%EE%E4

Date: Tue, 26 May 2009 14:09:09 GMT

X-Powered-By: PHP/5.2.6

Expires: Thu, 19 Nov 1981 08:52:00 GMT

Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0

Set-Cookie: lastvisit=1243346949; expires=Wed, 26-May-2010 14:09:09 GMT; path=/

Set-Cookie: exbbn=19; expires=Wed, 26-May-2010 14:09:09 GMT; path=/

Set-Cookie: exbbp=1234567525d2b72bcb01cd2ffe123456; expires=Wed, 26-May-2010 14:09:09 GMT; path=/

Set-Cookie: PHPSESSID=123456789e4eef401e4539060010cc0f;

Set-Cookie: lastvisit=1243346949; expires=Wed, 26-May-2010 14:09:09 GMT; path=/

Content-Encoding: gzip

Vary: Accept-Encoding

Content-Type: text/html; charset=cp1251

$ch = curl_init('http://php.su/forum/loginout.php');

# /forum/loginout.php HTTP/1.1

curl_setopt($ch, CURLOPT_POST, 1);

curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (бла бла бла..) ");

'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*;q=0.8',

'Accept-Language: ru,en-us;q=0.7,en;q=0.3',

'Accept-Encoding: deflate',

'Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7'

curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);

# добавляем заголовков к нашему запросу. Чтоб смахивало на настоящих

curl_setopt($ch, CURLOPT_REFERER, "http://php.su/forum/loginout.php");

# Подделываем значение - откуда пришли данные.

curl_setopt($ch, CURLOPT_POSTFIELDS, 'action=login&imembername=valenok&ipassword=ne_skaju&submit=%C2%F5%EE%E4');

# post данные.

# умная libcurl сама добавит заголовки

# Content-Type: application/x-www-form-urlencoded и Content-Length: 71

curl_setopt($ch, CURLOPT_COOKIEJAR, "my_cookies.txt");

curl_setopt($ch, CURLOPT_COOKIEFILE, "my_cookies.txt");

# Функции для обработки установливаемых форумом кук.

# подробнее рассмотрим далее.

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

# Убираем вывод данных в браузер. Пусть функция их возвращает а не выводит

$result = curl_exec($ch); // выполняем запрос curl

$ch = curl_init('http://php.su/forum/loginout.php');

curl_setopt($ch, CURLOPT_POST, 1);

curl_setopt($ch, CURLOPT_NOBODY, 1);

curl_setopt($ch, CURLOPT_POSTFIELDS, 'action=login&imembername=valenok&ipassword=ne_skaju&submit=%C2%F5%EE%E4');

curl_setopt($ch, CURLOPT_COOKIEJAR, "my_cookies.txt");

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

Array('url' => 'http://yandex.ru/login.php', 'post' => 'a=b&c=d'),

Array('url' => 'http://php.su/index.php', 'post' => 'a=b&c=d'),

Array('url' => 'http://google.com/search.py', 'post' => 'a=b&c=d')

function multiCurl($data, $options = array())

// Массив дескрипторов. Библиотека создат много экземпляров своего

// механизма, но работать они будут параллельно

// массив с результатами запрошенных страниц которые наша функция вернет.

// Дескриптор мульти потока. Тоесть эта штука отвечает за то, чтобы много

// запросов шли параллельно.

foreach ($data as $id => $d) {

$curls[$id] = curl_init();

// Для каждого url создаем отдельный curl механизм чтоб посылал запрос)

$url = (is_array($d) && !empty($d['url'])) ? $d['url'] : $d;

// Если $d это массив (как в случае с пост), то достаем из массива url

// если это не массив, а уже ссылка - то берем сразу ссылку

curl_setopt($curls[$id], CURLOPT_URL, $url);

curl_setopt($curls[$id], CURLOPT_HEADER, 0);

curl_setopt($curls[$id], CURLOPT_RETURNTRANSFER, 1);

// Если у нас есть пост данные, тоесть запрос отправляется постом

// устанавливаем флаги и добавляем сами данные

if (is_array($d) && !empty($d['post']))

curl_setopt($curls[$id], CURLOPT_POST, 1);

curl_setopt($curls[$id], CURLOPT_POSTFIELDS, $d['post']);

// Если указали дополнительные параметры $options то устанавливаем их

// смотри документацию функции curl_setopt_array

if (count($options)>0) curl_setopt_array($curls[$id], $options);

// добавляем текущий механизм к числу работающих параллельно

curl_multi_add_handle($mh, $curls[$id]);

// число работающих процессов.

// curl_mult_exec запишет в переменную running количество еще не завершившихся

// процессов. Пока они есть - продолжаем выполнять запросы.

do { curl_multi_exec($mh, $running); } while($running > 0);

// Собираем из всех созданных механизмов результаты, а сами механизмы удаляем

foreach($curls as $id => $c)

$result[$id] = curl_multi_getcontent($c);

// Освобождаем память от механизма мультипотоков

// возвращаем данные собранные из всех потоков.

// инициализация сеанса

// установка URL и других необходимых параметров

curl_setopt($ch, CURLOPT_URL, $_POST["texturl"]);

//curl_setopt($ch, CURLOPT_HEADER, 0);

curl_setopt($ch, CURLOPT_NOPROGRESS, 0);

// загрузка страницы и выдача её браузеру

// завершение сеанса и освобождение ресурсов

curl_setopt($ch, CURLOPT_PROXY, '10.224.100.2 : 18080');