Пишу модуль к админке и возник вопрос разбора полученного контента (модуль для анализа своих страниц: количество исходящих ссылок, мета теги, плотность ключевых слов и т.д. то есть не для воровства контента)
так вот получив контент я пытаюсь вырезать все ненужное:
1. 3d_killer - 30 Июля, 2014 - 11:28:33 - перейти к сообщению
с регулярками вообще не дружу сколько пытался не могу их понять, например эта строка:
мне нужно вырезать все кроме того что имеет атрибут rel='cannonical' например, как это сделать я не знаю.
Посчитать количество ссылок всего и ссылок с атрибутом nofollow и получить якорь с этой ссылки.
И еще одно как разобрать ответ приходящий с сервера типо:
CODE (htmlphp):
скопировать код в буфер обмена
скопировать код в буфер обмена
- HTTP/1.1 200 OK Via: 1.1 DNK-TMG-01 Connection: Keep-Alive Proxy-Connection: Keep-Alive Transfer-Encoding: chunked Expires: Wed, 30 Jul 2014 08:06:40 GMT Date: Wed, 30 Jul 2014 08:01:40 GMT Content-Type: text/html; charset=utf-8 X-Yandex-Items-Count: 10 Cache-Control: private, max-age=300 Set-Cookie: ys=wprid.1406707300747877-66730252321923798713152-9-021; path=/; domain=yandex.ru Set-Cookie: yandexuid=975226401406707300; path=/; domain=.yandex.ru; expires=Thu, 31-Dec-2037 20:59:59 GMT X-Content-Type-Options: nosniff X-Frame-Options: DENY