Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: про парсинг(граббинг)
Форумы портала PHP.SU » Разное » Литература » про парсинг(граббинг)

Страниц (1): [1]
 

1. movEAX - 25 Декабря, 2010 - 13:43:20 - перейти к сообщению
Наткнулся в интернете на довольно интересную книженцию, но, к сожалению, на английском. Думаю, кому-нибудь она все же будет интересна.
http://turbobit[dot]net/ge3b387cvz1l[dot]html

Описание:
Несмотря на все достижения в Веб-API и совместимости, неизбежно что, в какой-либо точке вашей карьеры, вам понадобится "спарсить" контент с сайта который не имеет Веб-сервисов для доступа к контенту. И, не смотря на грязность этого метода, вы можете легально его использовать, например для получения всех данных со старого сайта для переноса их на современную CMS.

Эта книга, написана экспертом по "граббингу" Matthew Turland, охватывает технику Веб-парсинга и темы от самого простого, до экзотического множества техник и фреймворков:
* Понимание HTTP запросов
* PHP HTTP streams wrapper
* cURL
* pecl_http
* PEAR:HTTP
* Zend_Http_Client
* Построение собственной библиотеки для парсинга
* Использование Tidy
* Анализ кода по средством DOM, SimpleXML and XMLReader extensions
* CSS selector libraries
* Регулярные выражения
* Tips and Tricks
* Multiprocessing / паралельные вычисления

Описание(оригинал):
Despite all the advancements in web APIs and interoperability, it’s inevitable that, at some point in your career, you will have to “scrape” content from a website that was not built with web services in mind. And, despite its sometimes less-than-stellar reputation, web scraping is usually an entire legitimate activity—for example, to capture data from an old version of a website for insertion into a modern CMS.

This book, written by scraping expert Matthew Turland, covers web scraping techniques and topics that range from the simple to exotic using a variety of technologies and frameworks:
* Understanding HTTP requests
* The PHP HTTP streams wrapper
* cURL
* pecl_http
* PEAR:HTTP
* Zend_Http_Client
* Building your own scraping library
* Using Tidy
* Analyzing code with the DOM, SimpleXML and XMLReader extensions
* CSS selector libraries
* PCRE pattern matching
* Tips and Tricks
* Multiprocessing / parallel processing
2. koka - 16 Июля, 2011 - 19:27:19 - перейти к сообщению
movEAX, файлообменник пишет, что файл удалён. Можете перезалить или дать ссылку на название книги, чтобы погуглить???

 

Powered by ExBB FM 1.0 RC1