анализ объявлений с сайтов объявлений и показ пользователю нужных. Это полезный сервис.
Ладно моё, но вам не жалко СВОЕГО времени? Я что, создал тему "обсудите мой проект"? Есть конкретный вопрос - мне нужен конкретный ответ. Остальное меня не волнует. Ваше мнение - в особенности.
У меня полезный сервис, никакого вредительства. Есть мысль подключить GD библиотеку и через нее проверять - картинка загружается моим сервером или страница злоумышленником. И отсеивать второй вариант.
Здравствуйте! У меня парсер объявлений. Показывается примерно 65 тысяч объявлений, у каждого загружается превьюшка с того сайта, который спарсили. Т.е. адрес превью записывается в БД, а сами картинки на мой сервер не загружаются. Думаю, такой расклад не понравится ПС, ведь получается, я ворую контент. Появилась мысль: между сервером и сайтом-жертвой есть скрипт, которому через GET передается адрес превью, и в <img src="">
фигурирует уже мой сайт, а не реальный источник.
Например, мой сайт abc.ru
Сайт-жертва: xxx.ru
Я знаю, что есть картинка xxx.ru/img.jpg
У себя на сайте abc.ru я пишу <img src="xxx.ru/img.jpg">
А когда появляется скрипт-посредник, я пишу так <img src="abc.ru/load.php?img=img.jpg">
Скрипт-посредник загружает картинку через file_get_contents и через print отдает результат.
Вопрос всей темы: как разрешить скрипту-посреднику загружать ТОЛЬКО картинки и только с сайта xxx.ru? Я не хочу чтобы из моего скрипта-посредника сделали парсер))
Итак. Мы имеем парсер сайта объявлений по продаже авто. На сайте около 60 тысяч объявлений, все они записываются в базу. Обновление каждые полчаса по крону с TRUNCATE таблицы. Что мне нужно: для каждой марки, каждой модели, каждого года узнать среднюю цену за: неделю, месяц, и текущую. Из 60 тысяч объявлений получается примерно 8000 средних цен. Но я планируют парсить еще несколько сайтов в дальнейшем. С текущей средней ценой мы разобрались выше, еще раз спасибо, а как организовать вычисление и хранение средней цены за неделю и за месяц?
Нифига, как все просто. Спасибо! Тогда еще вопрос: такой запрос дает нам текущую среднюю цену, а как правильно организовать хранение недельной и месячной средней цены? Интересует именно структура таблиц, пока на ум приходит только сделать тридцать столбцов, и каждый новый день перезаписывать данные, но блин, там будет 10000 средних цен, и мне кажется, это не панацея. Подскажите.
Здравствуйте! Есть на яндексе сервис по продаже автомобилей. У каждой марки есть модели, у каждой модели есть года выпуска. У каждого года выпуска своя средняя цена.
Задача: вытянуть среднюю цену на автомобиль с сайта auto.yandex.ru
Как делал я: через file_get_contents загружаю исходный код страницы, где есть средняя цена. С помощью регулярного выражения вырезаю цену.
Все работает, но если например, мне нужно узнать среднюю цену на 30 автомобилей, получается, что мой скрип грузит 30 страниц с яндекса, и яндекс блокирует. Если бы мы смотрели это в браузере, яндекс предложил бы нам ввести каптчу для дальнейшей работы. Я не знаю как делается эта блокировка - по IP я думаю. А как это обойти моему сценарию? Куда идти читать?
Но, блин, мое исключение не работает, как я планировал, регулярка вытаскивает все строки, даже есть там в параметрах тега есть "data-groups_model="1"
Как бы мне это сделать? И желательно, чтобы не было пробелов, потому что в исходных данных куча пробелов и табуляций. \s+ не помогает почему-то. (Добавление)
По задумке, из исходного текста должно вернуться только Array("2170 PRIORA СЕДАН") (Добавление)
Короче, за неимением лучшего, придумал такой велосипед: