Здравствуйте. Есть текстовой файл 2гб, задача найти слово к примеру "тундра" - в этом файле слово встречается 357раз. Нужно для каждого слова найти байты с которых оно начинается! Результат должен быть примерно таким:
1 тундра 1144
2 тундра 44545
3 тундра 45666
4 тундра 741758
5 тундра 825527
6 тундра 5241757
....
357 тундра 19000000104
1. ВиталийОдесса - 08 Сентября, 2016 - 12:40:34 - перейти к сообщению
2. ВиталийОдесса - 08 Сентября, 2016 - 22:47:50 - перейти к сообщению
Пока есть вариант - побайтовый перебор всего файла, но для 2 гб это очень долго! Есть более оптимальные идеи?
3. Строитель - 09 Сентября, 2016 - 01:29:20 - перейти к сообщению
ВиталийОдесса, мне до сегодняшнего дня не приходилось обрабатывать файлы такого объёма, но я решил попробовать. Ну, в итоге написал рекурсивную функцию, которая может обработать чуть больше тысячи строк в текст.файле, примерно за 45 сек, при условии, что длина строки в файле равна 70 символам, и искомое слово (тундра) встречается в каждой строке один раз. Но объём текст.файла при этом всего 123 кб., это ничтожно мало в сравнении с 2 Gb. ... Я не уверен, но может быть, если попробовать как-то разбить текст.файл на части, то можно будет обработать его полностью? Печатаю код, может быть пригодится ...
PHP:
скопировать код в буфер обмена
скопировать код в буфер обмена
- // Путь к вашему файлу
- $file = 'text.txt';
- echo findWord($content, 'Тундра');
- function findWord($str, $find) {
- static $i = 0;
- $result = false;
- if ($pos !== false) {
- $result .= ++$i .' '. $find .' '. $pos .'<br />';
- $result .= findWord($repl, $find);
- }
- return $result;
- }