Warning: Cannot use a scalar value as an array in /home/admin/public_html/forum/include/fm.class.php on line 757

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/include/fm.class.php on line 770

Warning: Invalid argument supplied for foreach() in /home/admin/public_html/forum/topic.php on line 737
Форумы портала PHP.SU :: Оптимизация перекодировки в UTF8

 PHP.SU

Программирование на PHP, MySQL и другие веб-технологии
PHP.SU Портал     На главную страницу форума Главная     Помощь Помощь     Поиск Поиск     Поиск Яндекс Поиск Яндекс     Вакансии  Пользователи Пользователи


 Страниц (1): [1]   

> Без описания
dron817
Отправлено: 03 Декабря, 2018 - 12:50:18
Post Id


Новичок


Покинул форум
Сообщений всего: 3
Дата рег-ции: Дек. 2018  


Помог: 0 раз(а)




PHP:
скопировать код в буфер обмена
  1.  
  2. <?PHP
  3.  
  4. /*
  5.     У заказчика имеется база данных, в которой есть таблица с текстами технических документов, вида:
  6.  
  7.     create table documents
  8.     (
  9.         id int(11) not null auto_increment,
  10.         title varchar(255) not null,
  11.         document_text text not null,
  12.         PRIMARY KEY(id)
  13.     ) CHARACTER SET cp1251;
  14.  
  15.     Примерный размер базы составляет около 1 000 000 записей.
  16.     Необходимо было убрать из содержимого все html теги и перекодировать в utf-8.
  17.     Для решения этой задачи был составлен скрипт:
  18. */
  19.  
  20. //устанавливаем соединение с базой данных
  21. $dbh = new PDO('mysql:host=localhost;dbname=test;charset=UTF8', 'root', '');
  22.  
  23. //создаем новую таблицу, в которой разместим измененные данные
  24. $newTableName = 'documents_encoded';
  25. $newTableSql = <<<EOL
  26. create table if not exists {$newTableName}
  27. (
  28.     id int(11) not null auto_increment,
  29.     title varchar(255) not null,
  30.     document_text text not null,
  31.     PRIMARY KEY(id)
  32. ) CHARACTER SET utf8 COLLATE utf8_general_ci;
  33. EOL;
  34. if ($dbh->exec($newTableSql) === false) {
  35.     throw new Exception('Не удалось создать новую таблицу');
  36. }
  37.  
  38. //собираем данные из старой таблицы, обрабатываем и вносим в новую
  39. $oldTableName = 'documents';
  40. $selectOldData = "SELECT * FROM {$oldTableName}";
  41. foreach ($dbh->query($selectOldData) as $row) {
  42.     $insertRowToNewTable = "INSERT INTO `{$newTableName}` SET";
  43.     $insertRowToNewTable .= " `id`='{$row['id']}',";
  44.     $insertRowToNewTable .= " `title`='".strip_tags(iconv('CP1251', 'UTF8', $row['title']))."',";
  45.     $insertRowToNewTable .= " `document_text`='".strip_tags(iconv('CP1251', 'UTF8', $row['document_text']))."'";
  46.     $dbh->exec($insertRowToNewTable);
  47. }
  48.  
  49. /*
  50.     Проанализируйте данный скрипт и предложите изменения по улучшению его работы.
  51.     Улучшения должны быть предоставлены в качестве новой версии данного скрипта.
  52. */
  53.  
  54.  
 
 Top
Мелкий Супермодератор
Отправлено: 03 Декабря, 2018 - 13:04:59
Post Id



Активный участник


Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009  
Откуда: Россия, Санкт-Петербург


Помог: 618 раз(а)




Ну и что вы сами думаете по поводу этого вопроса с очевидно собеседования?


-----
PostgreSQL DBA
 
 Top
dron817
Отправлено: 03 Декабря, 2018 - 13:21:56
Post Id


Новичок


Покинул форум
Сообщений всего: 3
Дата рег-ции: Дек. 2018  


Помог: 0 раз(а)




Мелкий пишет:
Ну и что вы сами думаете по поводу этого вопроса с очевидно собеседования?

Ну во-первых, возможно стоит использовать mb_convert_encoding, вместо iconv (говорят надёжней и может немного быстрей)
2-е, по-любому нужно ускорить выборку из БД, из решений, нашёл установку флага у обработанных записей и выборке по 10-100 записей
 
 Top
Мелкий Супермодератор
Отправлено: 03 Декабря, 2018 - 13:45:27
Post Id



Активный участник


Покинул форум
Сообщений всего: 11926
Дата рег-ции: Июль 2009  
Откуда: Россия, Санкт-Петербург


Помог: 618 раз(а)




dron817 пишет:
возможно стоит использовать mb_convert_encoding, вместо iconv

Проверили? Что вышло? Статистически-значимую разницу удалось заметить?

dron817 пишет:
установку флага у обработанных записей

Замедлите кратно с использованием индекса, на порядки - без него.

Для получения значимой разницы по работе с СУБД: https://dev[dot]mysql[dot]com/doc/refman[dot][dot][dot]ata-loading[dot]html
Использование prepared statements для этой задачи весьма оправдано
Хотя вовсе формирование csv и загрузка обратно через LOAD DATA INFILE напрямую базой должно быть сильно быстрее.

На полях стоит отметить вопрос, требуется ли от миграции корректная обработка конкурентного доступа к исходной табличке либо система на время миграции выключена (либо переведена в read-only)


-----
PostgreSQL DBA
 
 Top
dron817
Отправлено: 03 Декабря, 2018 - 13:50:06
Post Id


Новичок


Покинул форум
Сообщений всего: 3
Дата рег-ции: Дек. 2018  


Помог: 0 раз(а)




Мелкий пишет:
dron817 пишет:
возможно стоит использовать mb_convert_encoding, вместо iconv

Проверили? Что вышло? Статистически-значимую разницу удалось заметить?

dron817 пишет:
установку флага у обработанных записей

Замедлите кратно с использованием индекса, на порядки - без него.

Для получения значимой разницы по работе с СУБД: https://dev[dot]mysql[dot]com/doc/refman[dot][dot][dot]ata-loading[dot]html
Использование prepared statements для этой задачи весьма оправдано
Хотя вовсе формирование csv и загрузка обратно через LOAD DATA INFILE напрямую базой должно быть сильно быстрее.

На полях стоит отметить вопрос, требуется ли от миграции корректная обработка конкурентного доступа к исходной табличке либо система на время миграции выключена (либо переведена в read-only)


Спасибо, попробую, потестирую
 
 Top
Страниц (1): [1]
Сейчас эту тему просматривают: 0 (гостей: 0, зарегистрированных: 0)
« Программирование на PHP »


Все гости форума могут просматривать этот раздел.
Только зарегистрированные пользователи могут создавать новые темы в этом разделе.
Только зарегистрированные пользователи могут отвечать на сообщения в этом разделе.
 



Powered by PHP  Powered By MySQL  Powered by Nginx  Valid CSS  RSS

 
Powered by ExBB FM 1.0 RC1. InvisionExBB