Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Проблема с CP1251/CP1252

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
Tmin10
Отправлено: 17 Мая, 2015 - 18:08:16
Post Id



Частый гость


Покинул форум
Сообщений всего: 239
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




Пытаюсь распарсить страничку bash.im, сайт в кодировке Windows-1251, сам скрипт в кодировке UTF-8. При простом выводе строки текста на экран получаю получаю:
Цитата:
Ïåðåïèñêà â ãðóïïå êëàíà WoT.

При попытке использования
PHP:
скопировать код в буфер обмена
  1. echo iconv ('windows-1251','UTF-8', "Переписка в группе клана WoT.");
получаю:
Цитата:
Ïåðåïèñêàâ ãðóïïå êëàíàWoT.

Декодер Лебедева на первую строку говорит, что для читабельности преобразовал CP1252 → CP1251? что у меня также не особо заработало...
Подскажите, как правильно провести конвертацию кодировки в данном случае? Пример кода под спойлером:
Спойлер (Отобразить)

(Отредактировано автором: 18 Мая, 2015 - 18:49:48)

 
 Top
Ts.Saltan
Отправлено: 17 Мая, 2015 - 21:08:53
Post Id



Посетитель


Покинул форум
Сообщений всего: 384
Дата рег-ции: Дек. 2013  
Откуда: Belarus


Помог: 22 раз(а)




PHP:
скопировать код в буфер обмена
  1.  
  2. $dom->loadHTML(
  3.    iconv ('windows-1251','UTF-8', $html)
  4. );
  5.  


клиент точно получает данные в UTF-8?

чтоб наверняка, в начало скрипта
PHP:
скопировать код в буфер обмена
  1. header('Content-type: text/html; charset=UTF-8');
 
 Top
Tmin10
Отправлено: 18 Мая, 2015 - 19:23:43
Post Id



Частый гость


Покинул форум
Сообщений всего: 239
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




Что любопытно,

отображает нормально страницу, она в юникоде, получается, то, что парсер HTML преобразует этот юникод в нечто непонятное, которое обратно не преобразуется...
(Добавление)
Плюнул на гордость и сделал файл в кодировке Windows-1251, поменял в хидере тип кодировки, однако после применения xPath получается всё равно кривая строка:
Цитата:
Ïåðåïèñêà â ãðóïïå êëà íà WoT.

Наверное дело в самом domDocument, который использует где-то внутри настройки юникода, а получает Windows-1251 и ошибается...
 
 Top
Ts.Saltan
Отправлено: 18 Мая, 2015 - 19:52:12
Post Id



Посетитель


Покинул форум
Сообщений всего: 384
Дата рег-ции: Дек. 2013  
Откуда: Belarus


Помог: 22 раз(а)




а если явно указать кодировку?
PHP:
скопировать код в буфер обмена
  1. $dom = new DOMDocument ('4.0', 'UTF-8');
 
 Top
Tmin10
Отправлено: 18 Мая, 2015 - 20:04:04
Post Id



Частый гость


Покинул форум
Сообщений всего: 239
Дата рег-ции: Дек. 2009  


Помог: 0 раз(а)




Нет, тоже самое...
В общем ладно, решил свою проблему поиском нужного блока регулярным выражением, оно работает замечательно в данном простом случает. Возможно какой-то баг DOMDocument или же я не полностью разобрался в его настройке...
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Кодировки и все смежное »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB