Форумы портала PHP.SU :: Версия для печати :: Помогите навести порядок в некотором агрегаторе...

1. nkl - 09 Декабря, 2014 - 08:38:52 - перейти к сообщению

Доброго времени суток, передо мной давно стоит задача быстрой агрегации больших объемов данных, для последующего их возврата в REST-сервисе через ajax. Так вот, сама логика агрегации написана полностью, запилена внушительных размеров БД, операторы исправно модифицируют и подготавливают исходные данные для передачи их в REST-сервис. Все это дело сейчас работает через cron:

Цитата:

get_feeds.php - собственно получение свежих данных, работает порядка 2-3 мин, потому что парсит большие (~100-200 Мб) xml-файлы. Желательно делать это каждый 2-3 мин, т.к. данные динамично обновляются и REST-сервис должен отдавать самые свежие данные, но сейчас делаю раз в 10 мин, иначе возникают проблемы, которые я опишу чуть ниже...
update_feeds_alias.php - т.к. соединение данных происходит по текстовым аббревиатурам - этот скрипт проверят базу аббревиатур и дописывает те, что еще нет в БД для каждого источника xml-данных. Делается 2 раза в час, т.к. не так уж и часто появляются новые псевдонимы (делается порядка 15-20 мин., т.к. база псевдонимов по каждому источнику данных уже порядка 60к строк, плюс идет полнотекстовый поиск, а не выборка по какому-то айдишнику)
aggregate.php - собственно сам процесс выявления идентичных строк со всех источников и соединение их под один псевдоним (который сопоставили операторы). По идее должен происходить сразу же после того, как были получены распарсены xml-данные, но делается тоже по крону ибо процесс долгий.
add_redy_events.php - это скрипт выявляет только идентичные строки со всех источников и пишет их в БД, таким образом, что бы в последствии к этим строкам можно было обращаться по нашему уникальному айдишнику. Должен делаться тоже после того, как получены xml-данные.
update_cfs_to_redy_events.php - это собственно скрипт для обновления инфы по выявленным строкам для каждого источника данных

Уф. Вроде все описал конспиративно) Так вот, в чем проблема, вся эта херня должна работать очень быстро, все эти скрипты берут исходные данные, модифицируют их для дальнейшей стадии обработки сохраняя их в промежуточные таблицы БД, т.к. в оперативки все это держать не реально, а следующий скрипт уже берет модифицированные данные и еще больше их модифицирует. В общем такая вот сложная цепочка обработки происходит, с хранением промежуточных итогов вычисления в промежуточных таблицах.

В чем собственно проблема: если весь этот алгоритм работает раз в 10 мин, то все норм, но если увеличить периодичность этого пересчета и парсинга, то сервер начинает загибаться, т.к. еще не успел отработать один экземпляр скрипта, как крон запускает его еще раз и еще раз, в итоге получается каша, а все скрипты должны работать строго в заданном порядке. Пробую решить эту задачу через GEARMAN и SUPERVISOR (для управления воркерами), но чувствую я, что эти вещи не для этих целей предназначены, а может это просто я тупой и не до конца разобрался в мат.части серверов очередей. Может опытное сообщество моего любимого форума подскажет мне как навести порядок в этой цепочке? Растерялся

2. DeepVarvar - 09 Декабря, 2014 - 09:16:01 - перейти к сообщению

Решение то на поверхности.
С каждым новым запущенным процессом создавать PID файл, а по завершении удалять его.
Тогда хоть раз в минуту запускать по крону, но проверять, если PID файл есть, то сворачивать свои дела до момента пока PID файла не будет.
Ну а общая оптимизация работы, чтобы быстрее завершало, это уже другой вопрос.

3. nkl - 09 Декабря, 2014 - 09:29:38 - перейти к сообщению

Да, пробовал я с этим pid-файлом делать, в начале каждого скрипта прописана эта проверка, но ска, ненадежная эта штука, вроде бы работает-работает, пока нормально, а потом херак и где нить в пол шестого утра выясняется что сервер лежит... Нахмурился

Причем совершенно по непонятно причине запущено 10 экзепляров одного и того же процесса и непонятно, с чем это связано, ведь и pid-файл имеется и проверка идет, ан нет, процесс запускается еще раз...

Буду дальше крутить сервер очередей, как подсказывает начальник. Говорит, надо получить статус задачи, прежде чем еще раз добавлять её в очередь, может в этом моя проблема Растерялся

4. DeepVarvar - 09 Декабря, 2014 - 10:03:26 - перейти к сообщению

Вместо пида можно еще грепать пути в пээсе, я тут чот похожее делал ранее: http://forum.php.su/topic.php?fo...58894#1320758894

5. nkl - 10 Декабря, 2014 - 07:27:18 - перейти к сообщению

DeepVarvar пишет:

Вместо пида можно еще грепать пути в пээсе, я тут чот похожее делал ранее: http://forum.php.su/topic.php?forum=66&topic=908&postid=1320758894#1320758894

Честно говоря не совсем понял о чем тот пример и как использовать тот класс. Попробовал сделать по мануалу, как предлагается тут http://tarlyun[dot]com/blog/2013/02/[dot][dot][dot]j-kopii-skripta/
Только у меня такой вопрос, сработает ли register_shutdown_function() в том случае, когда скрипт будет завершено аварийно (например Out of memory и т.п.)? Хотя вот тут люди пишут, что как раз для таких случаев и применяется этот вызов и не сработает он только в том случае, если нажать в консоли Ctrl+C.

6. DeepVarvar - 10 Декабря, 2014 - 08:29:45 - перейти к сообщению

Цитата:

...с помощью register_shutdown_function(), которая срабатывает даже тогда, когда скрипт завершился с фатальной ошибкой (этот способ, кстати, годится для отлова почти любых ошибок, в том числе ошибок нехватки памяти)...

О как завернул. Нюню, интересно, памяти нет, т.е. более не выделяется. И тут вдруг, оппа! и выделилась для шутдауна. Эт если в ядре так сделано, что шутдаун не чувствителен к лимиту установленному в ини. А это, на минуточку, дыра. Я так вообще всю память-жрущую локику в шутдаун буду помещать, и плевать на лимиты установленные хостером например ))

Вобщем я предлагал так:

PHP:
скопировать код в буфер обмена

while (1) {
    sleep(1);
    echo microtime(true) . PHP_EOL;
}

CODE (bash):
скопировать код в буфер обмена

$ /usr/bin/php /home/deep/test.php

CODE (bash):
скопировать код в буфер обмена

$ ps ax | grep test
?        S      0:01 gedit /home/deep/test.php
pts/0    S+     0:00 /usr/bin/php /home/deep/test.php
pts/2    S+     0:00 grep test