Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Как узнать кодировку файла xml?
Форумы портала PHP.SU » PHP » Программирование на PHP » Как узнать кодировку файла xml?

Страниц (1): [1]
 

1. Bazila - 19 Октября, 2009 - 11:16:13 - перейти к сообщению
Есть файл xml вида:
<?xml version="1.0" encoding="windows-1251"?>
<!DOCTYPE InfoPacket SYSTEM "http://xml.bullion.ru/dtd/UIF.dtd">
< текст>

Извиняюсь за бестолковость, но когда я начинаю читать файл - то мне сразу выводится вторая строчка. Как прочитать тип кодировки средствами php ?
Когда обрабатываю не зная кодировки - вылетает ошибка о неверном символе.
Использую стандартный парсер (xml_parser_create и т.д.)
Другие парсеры не подходят, т.к. формат файла не соответствует стандартам и не парсится.
2. valenok - 19 Октября, 2009 - 12:16:26 - перейти к сообщению
Покажи пожалуйста как именно ты читаешь файл.
Кроме того
Цитата:
Starting from PHP 5, the input encoding is automatically detected, so that the encoding parameter specifies only the output encoding


Попробуй просто взять готовую функцию отсюда.
http://il2.php.net/manual/en/fun...on.xml-parse.php
3. Bazila - 19 Октября, 2009 - 12:47:47 - перейти к сообщению
читаю через xml_parser_create, вставляя рекурсивно куски файла полученные через fread (file, 4096) и проверяя "вручную" к какому блоку они принадлежат. Структура файла нестандартная Недовольство, огорчение
Для каждой кодировки я вынужден делать конверсию (кроме умолчальной UTF-8).
Причем если пытаюсь считать "неправильную" кодировку - то скрипт вылетает с ошибкой.

Вопрос то не про xml, а про то как прочитать заголовок файла.... Нагуглить ничего толкового не могу.
Приведенная функция помочь не должна т.к. xml_parser_set_option($parser, XML_OPTION_TARGET_ENCODING, 'UTF-8');

А мне нужно get ;)
4. valenok - 19 Октября, 2009 - 13:56:24 - перейти к сообщению
Если честно, я не очень понимаю в чем проблема.
Прочитать первую строку файла можно стандартным ифункциями чтения fread, file_get_contents , но зачем парсеру передавать xml по кускам, когда он может его сам читать из файла, сам распознавать его кодировку и сам все делать - я не понимаю.

На всякий случай, для наглядности, привидите пожалуйста свой код и пример того, что получается и что должно получиться.
5. Viper - 20 Октября, 2009 - 07:47:54 - перейти к сообщению
прочитайте кусок файла и регуляркой выдерните encoding.
6. Bazila - 20 Октября, 2009 - 09:05:11 - перейти к сообщению
Народ, а вы точно пробовали читать файл xml через fread?
Я же написал, что он почему то читается со второй строчки.
Это мой локальный пеолтергейст (сам кстати удивился) или как то специфически его читать надо?
7. Champion - 20 Октября, 2009 - 10:30:59 - перейти к сообщению
Bazila пишет:
Народ, а вы точно пробовали читать файл xml через fread?
Для fread не важно, xml, txt, mp3... Не может он читаться со второй строчки. Просто ты, наверное считываешь ее где-то отдельно от всего основного и теряешь.
8. Viper - 20 Октября, 2009 - 13:30:26 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1. $file = 'something.xml';
  2. $handle = fopen($file, 'rb');
  3. $contents = fread($handle, filesize($file));
  4. fclose($handle);
  5.  
  6. echo $contents;


в первой строке приезжает
CODE (text):
скопировать код в буфер обмена
  1. <?xml version="1.0" encoding="windows-1251"?>
9. Champion - 20 Октября, 2009 - 13:34:50 - перейти к сообщению
А еще мысль. Может быть, автор считывает в массив и забывает, что нумерация элементов массива начинается с 0 ?
10. fenume - 25 Января, 2010 - 06:15:11 - перейти к сообщению
По-моему вы зря все это городите - скорее всего у человека сохранен xml файл в utf8+BOM. вот этот BOM и дает неверный символ об который спотыкается парсер. Или кодировка файла не соответствует указанной в хмл
11. JustUserR - 25 Января, 2010 - 12:57:26 - перейти к сообщению
Bazila Читайте именно fread-ом как вам советовали выше - потому что эта функция не смотрит на всякие спецсимволы и читает некоторое число байт - таким образом вы гарантированно получить первую строчку
Если вы открывали файл равнее то сделайте fseek($file,0,0) и еще так как у вас файл может быть юникодный то установить соответствующую локаль

 

Powered by ExBB FM 1.0 RC1