Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770
Форумы портала PHP.SU :: Версия для печати :: DOMDocument портит кодировку
Форумы портала PHP.SU » » Кодировки и все смежное » DOMDocument портит кодировку

Страниц (1): [1]
 

1. Bio man - 26 Сентября, 2014 - 14:50:24 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1. var_dump(mb_detect_encoding($mapHTML)); // UTF-8
  2.  
  3. $dom = new \DOMDocument();
  4. $dom->loadHTML($mapHTML);
  5.  
  6. var_dump(mb_detect_encoding($dom->saveHTML())); // ASCII
  7.  


Далее использую DOMXpath
PHP:
скопировать код в буфер обмена
  1. $xPath = new \DOMXPath($dom);
  2. $nodeList = $xPath->query('//div[@class="place free"]');
  3.  
  4. $result = \DOMHelper::toArray($nodeList, function($node) {
  5.     $attributes = $node->attributes;
  6.     $place = $attributes->getNamedItem("data-section-name");
  7.  
  8.     var_dump(mb_detect_encoding($place->value)); // UTF-8 но значение выводится иероглифами (РŸР°С€С‚РµС€)
  9.  
  10.     return $place->value;
  11. });


DOMHelper::toArray - из NodeList делает массив применяя callback для каждой итерации, на данные никак не влияет.

Как быть с кодировкой?
(Добавление)
Пример из другого парсера, рабочего.

PHP:
скопировать код в буфер обмена
  1. var_dump(mb_detect_encoding($data)); // UTF-8
  2.  
  3. $dom = new \DOMDocument();
  4. $dom->loadHTML($data);
  5.  
  6. var_dump(mb_detect_encoding($dom->saveHTML())); // UTF-8


значит что то в исходном тексте, что это может быть?
2. Panoptik - 26 Сентября, 2014 - 15:09:12 - перейти к сообщению
а что в этом закодировано?
Цитата:
РŸР°С€С‚РµС€

не очень похоже на кракозябры. больше как результат htmlentity
3. Bio man - 26 Сентября, 2014 - 15:10:51 - перейти к сообщению
Panoptik пишет:
а что в этом закодировано?
Партер
(Добавление)
Не такие кракозябры, такие - ПартеÑ
4. Panoptik - 26 Сентября, 2014 - 15:17:52 - перейти к сообщению
это должно помочь
PHP:
скопировать код в буфер обмена
  1. $dom->loadHTML(mb_convert_encoding($data, 'HTML-ENTITIES', 'UTF-8'));
5. Bio man - 26 Сентября, 2014 - 15:19:56 - перейти к сообщению
Panoptik, спасибо! сработало

 

Powered by ExBB FM 1.0 RC1