Форумы портала PHP.SU » » Кодировки и все смежное » как читать файл по строке в кодировке utf-8

Страниц (1): [1]
 

1. DlTA - 24 Августа, 2016 - 16:53:38 - перейти к сообщению
у меня файл в кодировке utf-8, нужно прочитать часть файла
найти в файле данные.

как прочитать файл?? он очень большой (почти 2 гига) и как то это нужно сделать по частям?

данные в файле не разбиты на строчки.
(Добавление)
в общем, мое решение (надеюсь что получится)

читаем из файла по байту fgetc()
по правилам https://ru[dot]wikipedia[dot]org/wiki/UTF-8
получается первый байт это типа указатель на количество следующий байт
каждый следующий байт состоит из 10111111

в общем все будет тормозяво но вроде рабочее.
2. dcc0 - 25 Августа, 2016 - 13:44:52 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1. читаем из файла по байту fgetc()

Субъективно, чота как-то не айс
Я бы примерно так сделал , правда с оговоркой, что доступ к проекту имеет ограничение
system(grep патттерн)

Можно еще сделать алгоритм, который будет бить файл на несколько "временных" частей
И искать в этих частях, причем, скорее всего, в два шага (если вдруг шаблон поиска окажется на стыке).
3. DlTA - 25 Августа, 2016 - 17:30:54 - перейти к сообщению
для начала таки забил, и в линухе перекодил файл в cp1251

там же в joe частично убрал лишний текст (как же это все тормозит !!!!!)

ну а час пытаюсь разбить на чет по меньше

но опять не понятно как бы это не здохло
4. dcc0 - 25 Августа, 2016 - 18:34:57 - перейти к сообщению
"10 отличных примеров просмотра больших файлов в линуксе"

http://gnu[dot]su/news.php?extend[dot]1464

Нужно только передать php

 

Powered by ExBB FM 1.0 RC1