Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Интересная задачка - получить координаты найденного слова в тексте!
Форумы портала PHP.SU » PHP » Напишите за меня, пожалуйста » Интересная задачка - получить координаты найденного слова в тексте!

Страниц (1): [1]
 

1. ВиталийОдесса - 08 Сентября, 2016 - 12:40:34 - перейти к сообщению
Здравствуйте. Есть текстовой файл 2гб, задача найти слово к примеру "тундра" - в этом файле слово встречается 357раз. Нужно для каждого слова найти байты с которых оно начинается! Результат должен быть примерно таким:

1 тундра 1144
2 тундра 44545
3 тундра 45666
4 тундра 741758
5 тундра 825527
6 тундра 5241757
....
357 тундра 19000000104
2. ВиталийОдесса - 08 Сентября, 2016 - 22:47:50 - перейти к сообщению
Пока есть вариант - побайтовый перебор всего файла, но для 2 гб это очень долго! Есть более оптимальные идеи?
3. Строитель - 09 Сентября, 2016 - 01:29:20 - перейти к сообщению
ВиталийОдесса, мне до сегодняшнего дня не приходилось обрабатывать файлы такого объёма, но я решил попробовать. Ну, в итоге написал рекурсивную функцию, которая может обработать чуть больше тысячи строк в текст.файле, примерно за 45 сек, при условии, что длина строки в файле равна 70 символам, и искомое слово (тундра) встречается в каждой строке один раз. Но объём текст.файла при этом всего 123 кб., это ничтожно мало в сравнении с 2 Gb. ... Я не уверен, но может быть, если попробовать как-то разбить текст.файл на части, то можно будет обработать его полностью? Печатаю код, может быть пригодится ...
PHP:
скопировать код в буфер обмена
  1.  
  2.  
  3. // Путь к вашему файлу
  4. $file = 'text.txt';
  5. $content = (file_exists($file) ? file_get_contents($file) : '');
  6.  
  7. echo findWord($content, 'Тундра');
  8.  
  9. function findWord($str, $find) {
  10.     if (empty($str) || empty($find)) return false;
  11.     static $i = 0;
  12.     $space = str_repeat(' ', mb_strlen($find, 'UTF-8'));
  13.     $pos = mb_stripos($str, $find, 0, 'UTF-8');
  14.     $result = false;
  15.     if ($pos !== false) {
  16.         $result .= ++$i .' '. $find .' '. $pos .'<br />';
  17.         $repl = preg_replace('~'.$find.'~iu', $space, $str, 1);
  18.         $result .= findWord($repl, $find);
  19.     }
  20.  
  21.     return $result;
  22. }
  23.  
4. armancho7777777 - 09 Сентября, 2016 - 01:43:43 - перейти к сообщению
CODE (shell):
скопировать код в буфер обмена
  1. grep -b -o -m 357 "тундра" /path/to/file

(Добавление)
PHP:
скопировать код в буфер обмена
  1. exec('grep -b -o -m 357 "тундра" /path/to/file', $res);
  2. print_r($res);
5. Мелкий - 09 Сентября, 2016 - 08:43:35 - перейти к сообщению
ВиталийОдесса пишет:
побайтовый перебор всего файла, но для 2 гб это очень долго! Есть более оптимальные идеи?

А как вы ещё собрались искать без полного прочтения всего файла?
6. ВиталийОдесса - 09 Сентября, 2016 - 09:44:59 - перейти к сообщению
решение найдено

preg_match_all с параметром PREG_OFFSET_CAPTURE справляется на ура!

 

Powered by ExBB FM 1.0 RC1