Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Проблема с функцией strlen()

PHP.SU

Программирование на PHP, MySQL и другие веб-технологии

PHP.SU Портал

Главная

Помощь

Поиск

Поиск Яндекс Вакансии

Пользователи

Здравствуйте, Гость

( Вход · Регистрация · Правила форума )

Забыли пароль?

Проблема с функцией strlen()

Форумы портала PHP.SU » PHP » Программирование на PHP (Модераторы: valenok, OrmaJever, Саныч)

Страниц (1): [1]

Описание: Проблема с функцией strlen и строкой русскими буквами в utf-8

Поиск в теме | Версия для печати

Haron	Отправлено: 05 Апреля, 2011 - 18:44:40
Частый гость Покинул форум Сообщений всего: 197 Дата рег-ции: Июнь 2010 Откуда: Оттуда Помог: 5 раз(а)	Итак, передаю я функции strlen() русскую строку (естественно urldecode) в кодировке utf-8 и начинаются интересные вещи! Оказывается, что длина слова "ты" - 4 символа, слова "член" - 8 символов, тогда как длина слова "ас" - 44(!) символа. Парни, что делать? Есть ли способ правильно определить число букв в utf-8 русском слове? (Отредактировано автором: 05 Апреля, 2011 - 18:45:15) ----- И чё?

valenok	Отправлено: 05 Апреля, 2011 - 19:05:51
Здесь могла бы быть ваша реклама Покинул форум Сообщений всего: 4574 Дата рег-ции: Июль 2006 Откуда: Israel Помог: 3 раз(а)	PHP: скопировать код в буфер обмена mb_strlen('член', 'UTF-8'); ----- Truly yours, Sasha.

Haron	Отправлено: 05 Апреля, 2011 - 19:17:30
Частый гость Покинул форум Сообщений всего: 197 Дата рег-ции: Июнь 2010 Откуда: Оттуда Помог: 5 раз(а)	valenok пишет: PHP: скопировать код в буфер обмена mb_strlen('член', 'UTF-8'); Не канает Результаты работы multibyte-функции: Длина строки из одной (любой) русской буквы равна 11 Длина слова "вся" - 33 Да и ещё... В поисках решения проблемы и независимости от multibyte расширения -, был придуман такой вот костыль: PHP: скопировать код в буфер обмена function ce_strlen($str) { $str = utf8_decode($str); $k = 0; while(@$str{$k}) { $arr[$k] = $str{$k}; $k++; } return count($arr); } Выдаёт те же печальные результаты на некоторых словах, что и mb_strlen(); (Отредактировано автором: 05 Апреля, 2011 - 19:27:41) ----- И чё?

OrmaJever	Отправлено: 05 Апреля, 2011 - 19:31:42
Активный участник Покинул форум Сообщений всего: 7540 Дата рег-ции: Янв. 2010 Откуда: Чернигов Помог: 299 раз(а)	Haron пишет: Не канает если написали значит это работает, просто вы что-то не так делаете! ----- Если вы хотя бы 3-4 раза не решите всё выкинуть и начать заново - вы явно что-то делаете не так.

valenok	Отправлено: 05 Апреля, 2011 - 19:36:52
Здесь могла бы быть ваша реклама Покинул форум Сообщений всего: 4574 Дата рег-ции: Июль 2006 Откуда: Israel Помог: 3 раз(а)	Дайте угадаю. Длинна слова из 10 букв у вас 1010 ? ----- Truly yours, Sasha.

DeepVarvar	Отправлено: 05 Апреля, 2011 - 19:39:07
Активный участник Покинул форум Сообщений всего: 10377 Дата рег-ции: Дек. 2008 Откуда: Альфа Центавра Помог: 353 раз(а)	Haron строка откуда появляется? Из файла? $_GET/POST? Из базы? ----- Шта? Репозиторий?

Haron	Отправлено: 05 Апреля, 2011 - 19:47:31
Частый гость Покинул форум Сообщений всего: 197 Дата рег-ции: Июнь 2010 Откуда: Оттуда Помог: 5 раз(а)	Цитата: Дайте угадаю. Длинна слова из 10 букв у вас 1010 ? Не угадали, FAIL Цитата: Если написали значит это работает, просто вы что-то не так делаете! А если напишут что йа редиско, йа редиско? Цитата: Haron строка откуда появляется? Из файла? $_GET/POST? Из базы? Из массива $_GET. Правда, $_GET - сразу обрабатывается функцией очистки от "вредных" вложений: PHP: скопировать код в буфер обмена function __data_clean($input) { $utf8 = (preg_match("/^([\x09\x0A\x0D\x20-\x7E]\|[\xC2-\xDF][\x80-\xBF]\|\xE0[\xA0-\xBF][\x80-\xBF]\|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}\|\xED[\x80-\x9F][\x80-\xBF]\|\xF0[\x90-\xBF][\x80-\xBF]{2}\|[\xF1-\xF3][\x80-\xBF]{3}\|\xF4[\x80-\x8F][\x80-\xBF]{2})$/", $input)) ? true : false; if ($utf8) { $input = urldecode($input); } else { $input = iconv('cp1251', 'UTF-8', (urldecode($input))); } $input = htmlentities($input, ENT_QUOTES, 'UTF-8'); $input = strip_tags($input); $input = str_replace ("\n"," ", $input); $input = str_replace ("\r","", $input); return $input; } Однако, на проблему она никак не влияет (Проблема сохраняется если данные идут мимо функции). Задача этой функции - получить на выходе безопасную строку unicode и работает она корректно. ----- И чё?*

DeepVarvar	Отправлено: 05 Апреля, 2011 - 19:52:50
Активный участник Покинул форум Сообщений всего: 10377 Дата рег-ции: Дек. 2008 Откуда: Альфа Центавра Помог: 353 раз(а)	Заголовки при отдаче страницы (с которой потом этот ГЕТ прилетает) отправляете? PHP: скопировать код в буфер обмена header('Content-Type: text/html; charset=utf-8'); ----- Шта? Репозиторий?

Haron	Отправлено: 05 Апреля, 2011 - 19:57:45
Частый гость Покинул форум Сообщений всего: 197 Дата рег-ции: Июнь 2010 Откуда: Оттуда Помог: 5 раз(а)	DeepVarvar пишет: Заголовки при отдаче страницы (с которой потом этот ГЕТ прилетает) отправляете? PHP: скопировать код в буфер обмена header('Content-Type: text/html; charset=utf-8'); Конечно. Более того, все файлы проекта, база данных и типы записей - utf-8. Файлы без BOM ----- И чё?

valenok	Отправлено: 05 Апреля, 2011 - 19:58:58
Здесь могла бы быть ваша реклама Покинул форум Сообщений всего: 4574 Дата рег-ции: Июль 2006 Откуда: Israel Помог: 3 раз(а)	создайте отедльный файл и выполните в нем команды PHP: скопировать код в буфер обмена echo mb_strlen('член', 'UTF-8'), ', ', mb_strlen($_GET['x'], 'UTF-8'); ----- Truly yours, Sasha.

DeepVarvar	Отправлено: 05 Апреля, 2011 - 20:09:37
Активный участник Покинул форум Сообщений всего: 10377 Дата рег-ции: Дек. 2008 Откуда: Альфа Центавра Помог: 353 раз(а)	valenok пишет: и выполните У меня все прошло удачно. (nginx,phpFCGI) ----- Шта? Репозиторий?

Haron	Отправлено: 05 Апреля, 2011 - 20:17:56
Частый гость Покинул форум Сообщений всего: 197 Дата рег-ции: Июнь 2010 Откуда: Оттуда Помог: 5 раз(а)	Нашёл ошибку. Прошу прощения, всё нормально . Зря гнал. ----- И чё?

DeepVarvar	Отправлено: 05 Апреля, 2011 - 20:22:53
Активный участник Покинул форум Сообщений всего: 10377 Дата рег-ции: Дек. 2008 Откуда: Альфа Центавра Помог: 353 раз(а)	Haron а что было то? ----- Шта? Репозиторий?

Haron	Отправлено: 05 Апреля, 2011 - 20:28:03
Частый гость Покинул форум Сообщений всего: 197 Дата рег-ции: Июнь 2010 Откуда: Оттуда Помог: 5 раз(а)	Два прогона вместо одного (в некоторых случаях) в цикле с echo. Так что товарищ Valenok оказался таки прав Приношу ему извинения. ----- И чё?

Поиск в теме | Версия для печати

Страниц (1): [1]

Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)

« Программирование на PHP »

Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.