Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Интересная задачка - получить координаты найденного слова в тексте!

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Описание: Поиск в большом файле!
ВиталийОдесса
Отправлено: 08 Сентября, 2016 - 12:40:34
Post Id


Новичок


Покинул форум
Сообщений всего: 3
Дата рег-ции: Сент. 2016  


Помог: 0 раз(а)




Здравствуйте. Есть текстовой файл 2гб, задача найти слово к примеру "тундра" - в этом файле слово встречается 357раз. Нужно для каждого слова найти байты с которых оно начинается! Результат должен быть примерно таким:

1 тундра 1144
2 тундра 44545
3 тундра 45666
4 тундра 741758
5 тундра 825527
6 тундра 5241757
....
357 тундра 19000000104
 
 Top
ВиталийОдесса
Отправлено: 08 Сентября, 2016 - 22:47:50
Post Id


Новичок


Покинул форум
Сообщений всего: 3
Дата рег-ции: Сент. 2016  


Помог: 0 раз(а)




Пока есть вариант - побайтовый перебор всего файла, но для 2 гб это очень долго! Есть более оптимальные идеи?
 
 Top
Строитель
Отправлено: 09 Сентября, 2016 - 01:29:20
Post Id



Участник


Покинул форум
Сообщений всего: 1580
Дата рег-ции: Февр. 2014  
Откуда: Украина


Помог: 73 раз(а)




ВиталийОдесса, мне до сегодняшнего дня не приходилось обрабатывать файлы такого объёма, но я решил попробовать. Ну, в итоге написал рекурсивную функцию, которая может обработать чуть больше тысячи строк в текст.файле, примерно за 45 сек, при условии, что длина строки в файле равна 70 символам, и искомое слово (тундра) встречается в каждой строке один раз. Но объём текст.файла при этом всего 123 кб., это ничтожно мало в сравнении с 2 Gb. ... Я не уверен, но может быть, если попробовать как-то разбить текст.файл на части, то можно будет обработать его полностью? Печатаю код, может быть пригодится ...
PHP:
скопировать код в буфер обмена
  1.  
  2.  
  3. // Путь к вашему файлу
  4. $file = 'text.txt';
  5. $content = (file_exists($file) ? file_get_contents($file) : '');
  6.  
  7. echo findWord($content, 'Тундра');
  8.  
  9. function findWord($str, $find) {
  10.     if (empty($str) || empty($find)) return false;
  11.     static $i = 0;
  12.     $space = str_repeat(' ', mb_strlen($find, 'UTF-8'));
  13.     $pos = mb_stripos($str, $find, 0, 'UTF-8');
  14.     $result = false;
  15.     if ($pos !== false) {
  16.         $result .= ++$i .' '. $find .' '. $pos .'<br />';
  17.         $repl = preg_replace('~'.$find.'~iu', $space, $str, 1);
  18.         $result .= findWord($repl, $find);
  19.     }
  20.  
  21.     return $result;
  22. }
  23.  
 
 Top
armancho7777777 Супермодератор
Отправлено: 09 Сентября, 2016 - 01:43:43
Post Id



Активный участник


Покинул форум
Сообщений всего: 4526
Дата рег-ции: Февр. 2011  
Откуда: Москва


Помог: 221 раз(а)




CODE (shell):
скопировать код в буфер обмена
  1. grep -b -o -m 357 "тундра" /path/to/file

(Добавление)
PHP:
скопировать код в буфер обмена
  1. exec('grep -b -o -m 357 "тундра" /path/to/file', $res);
  2. print_r($res);

(Отредактировано автором: 09 Сентября, 2016 - 01:56:22)

 
 Top
Мелкий Супермодератор
Отправлено: 09 Сентября, 2016 - 08:43:35
Post Id



Активный участник


Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009  
Откуда: Россия, Санкт-Петербург


Помог: 618 раз(а)




ВиталийОдесса пишет:
побайтовый перебор всего файла, но для 2 гб это очень долго! Есть более оптимальные идеи?

А как вы ещё собрались искать без полного прочтения всего файла?


-----
PostgreSQL DBA
 
 Top
ВиталийОдесса
Отправлено: 09 Сентября, 2016 - 09:44:59
Post Id


Новичок


Покинул форум
Сообщений всего: 3
Дата рег-ции: Сент. 2016  


Помог: 0 раз(а)




решение найдено

preg_match_all с параметром PREG_OFFSET_CAPTURE справляется на ура!

(Отредактировано автором: 09 Сентября, 2016 - 09:45:27)

 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Напишите за меня, пожалуйста »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB