С расширинями дергаться не стал, ведь функция и так проверит content-type...
Теперь прошу помочь в функцией, которая бы выдергивала бы из текста адреса ссылок и помещала их в массив. У меня это нормально сделать не получаеться (оч. плохо с регулярными выражениями). Рассчитываю на помощь.
Я кажется начинаю разбираться что к чему... Спасибо Вам большое!
Сейчас буду переделывать функцию чтения удаленного документа, но мне нужно знать какие content-type бывают, то есть какие мне оставлять. Перечислите мне пожалуйста, если нетрудно, а то я кроме text/html и text/plain никаких не знаю.
По расширению я сделаю, но ведь бывает, что картинка или архив отдаются не по прямым ссылкам с расширением, а сгенерированные скриптом.
А вот с CURLOPT_HEADER у меня почему то ничего не выходит. Точнее не получается так сделать, что бы сначала получить только заголовки, проверить их, и если они подходят, скачать все остальное содержимое. У меня почему то либо вообще ничего не выводиться:
Подскажите пожалуйста, как решить эту проблему. Ведь нужно сначала загрузить заголовки и проверить их, а потом все остальное. Какой смысл скачивать многомегабайтный архив, что бы потом проверить его заголовки и понять, что это не то, что ожидалось? Очень надеюсь на помощь.
Нет, все таки у самого что-то не получается организовать проверку content-type. Прошу помощи. Вот код функции, которая открывает удаленный URL и читает исходный код документа в переменную. Нужно усовершенствовать ее, что бы она проверяла content-type и открывала только тектовые и HTML-документы.
Да вот в качестве тренировки решил написать небольшой скрипт для поиска по сайту, что бы ходил по ссылкам, находил только ссылки, принадлежащие этому сайту, открывал их и индексировал содержимое. По-этому нужно что бы он умел определять, где веб-страница, а где - нет.
На счет того, что не защитит - это ладно. Я ведь только набираю опыт. Но если Вам не лень, то предложите другой вариант решения этой проблемы. Буду только благодарен.
Цитата:
При помощи curl
Уже нашел статью по этому вопросу. попытаюсь что-то из нее понять. Только там про сокеты написано...
Чаще всего ведь правильные заголовки посылают. Да вопрос не в том, подскажите, как можно эти заголовки прочитать, а правильные они или нет - вопрос отдельный.
По поводу первого варианта, спасибо, понял. Просто думал, что это как-то по-другому делается.
На счет второго теоретически понятно, но как это реализовать, подскажите пожалуйста? Каким образом можно вырезать этот кусок? Для меня регулярные выражения - сродни китайскому языку, как я не старался их понять. По-этому обращаюсь за помощью.
Делаю скрипт, который читает содержимое удаленной веб-страницы в переменную, но сначала хотелось бы проверить, а веб-страница ли это? Как можно проверить тип открываемого URL-адреса? Ведь браузеру, когда заходишь на какой-нибудь сайт, передается тип документа (text/html, application/xml и т.д.). Как это можно проверить с помощью PHP в моем случае?
Заранее огромное спасибо!
Здравствуйте, уважаемые форумчане!
Я новичок в PHP-программировании, по-этому прошу совета.
Заметил, что многие CMS и форумы в файлах шаблонов используют такие символы: { и }, что бы подставлять вместо их содержимого какие-то данные. Так вот, мне очень интересно, как же это можно реализовать в своих сценариях? Это был первый вопрос. Что бы не разводить много постов, задам второй вопрос здесь же.
К сожалению, я полный ноль в работе с регулярными выражениями, как ни старался их понять... По этому задаю свой вопрос: подскажите пожалуйста, каким образом можно сделать, что бы скрипт "увидел", если, например, строка {URL} обрамлена HTML-комментариями (<!-- {URL} --> ) или находиться в JavaScript-блоке (<script type=javascript>{URL}</script> ), или еще ее как-то пытаются скрыть.
Допустим, в переменной $text содержится код страницы, и нужно найти в ней {URL} и проверить, не является ли он комментарием, а так же не заключен ли он в JavaScript-код. Вот собственно это мне и нужно.