Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: Проблема с CP1251/CP1252
Форумы портала PHP.SU » » Кодировки и все смежное » Проблема с CP1251/CP1252

Страниц (1): [1]
 

1. Tmin10 - 17 Мая, 2015 - 18:08:16 - перейти к сообщению
Пытаюсь распарсить страничку bash.im, сайт в кодировке Windows-1251, сам скрипт в кодировке UTF-8. При простом выводе строки текста на экран получаю получаю:
Цитата:
Ïåðåïèñêà â ãðóïïå êëàíà WoT.

При попытке использования
PHP:
скопировать код в буфер обмена
  1. echo iconv ('windows-1251','UTF-8', "Переписка в группе клана WoT.");
получаю:
Цитата:
Ïåðåïèñêàâ ãðóïïå êëàíàWoT.

Декодер Лебедева на первую строку говорит, что для читабельности преобразовал CP1252 → CP1251? что у меня также не особо заработало...
Подскажите, как правильно провести конвертацию кодировки в данном случае? Пример кода под спойлером:
Спойлер (Отобразить)
2. Ts.Saltan - 17 Мая, 2015 - 21:08:53 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1.  
  2. $dom->loadHTML(
  3.    iconv ('windows-1251','UTF-8', $html)
  4. );
  5.  


клиент точно получает данные в UTF-8?

чтоб наверняка, в начало скрипта
PHP:
скопировать код в буфер обмена
  1. header('Content-type: text/html; charset=UTF-8');
3. Tmin10 - 18 Мая, 2015 - 19:23:43 - перейти к сообщению
Что любопытно,

отображает нормально страницу, она в юникоде, получается, то, что парсер HTML преобразует этот юникод в нечто непонятное, которое обратно не преобразуется...
(Добавление)
Плюнул на гордость и сделал файл в кодировке Windows-1251, поменял в хидере тип кодировки, однако после применения xPath получается всё равно кривая строка:
Цитата:
Ïåðåïèñêà â ãðóïïå êëà íà WoT.

Наверное дело в самом domDocument, который использует где-то внутри настройки юникода, а получает Windows-1251 и ошибается...
4. Ts.Saltan - 18 Мая, 2015 - 19:52:12 - перейти к сообщению
а если явно указать кодировку?
PHP:
скопировать код в буфер обмена
  1. $dom = new DOMDocument ('4.0', 'UTF-8');
5. Tmin10 - 18 Мая, 2015 - 20:04:04 - перейти к сообщению
Нет, тоже самое...
В общем ладно, решил свою проблему поиском нужного блока регулярным выражением, оно работает замечательно в данном простом случает. Возможно какой-то баг DOMDocument или же я не полностью разобрался в его настройке...

 

Powered by ExBB FM 1.0 RC1