Форумы портала PHP.SU » PHP » Программирование на PHP » Оптимизация перекодировки в UTF8

Страниц (1): [1]
 

1. dron817 - 03 Декабря, 2018 - 12:50:18 - перейти к сообщению
PHP:
скопировать код в буфер обмена
  1.  
  2. <?PHP
  3.  
  4. /*
  5.     У заказчика имеется база данных, в которой есть таблица с текстами технических документов, вида:
  6.  
  7.     create table documents
  8.     (
  9.         id int(11) not null auto_increment,
  10.         title varchar(255) not null,
  11.         document_text text not null,
  12.         PRIMARY KEY(id)
  13.     ) CHARACTER SET cp1251;
  14.  
  15.     Примерный размер базы составляет около 1 000 000 записей.
  16.     Необходимо было убрать из содержимого все html теги и перекодировать в utf-8.
  17.     Для решения этой задачи был составлен скрипт:
  18. */
  19.  
  20. //устанавливаем соединение с базой данных
  21. $dbh = new PDO('mysql:host=localhost;dbname=test;charset=UTF8', 'root', '');
  22.  
  23. //создаем новую таблицу, в которой разместим измененные данные
  24. $newTableName = 'documents_encoded';
  25. $newTableSql = <<<EOL
  26. create table if not exists {$newTableName}
  27. (
  28.     id int(11) not null auto_increment,
  29.     title varchar(255) not null,
  30.     document_text text not null,
  31.     PRIMARY KEY(id)
  32. ) CHARACTER SET utf8 COLLATE utf8_general_ci;
  33. EOL;
  34. if ($dbh->exec($newTableSql) === false) {
  35.     throw new Exception('Не удалось создать новую таблицу');
  36. }
  37.  
  38. //собираем данные из старой таблицы, обрабатываем и вносим в новую
  39. $oldTableName = 'documents';
  40. $selectOldData = "SELECT * FROM {$oldTableName}";
  41. foreach ($dbh->query($selectOldData) as $row) {
  42.     $insertRowToNewTable = "INSERT INTO `{$newTableName}` SET";
  43.     $insertRowToNewTable .= " `id`='{$row['id']}',";
  44.     $insertRowToNewTable .= " `title`='".strip_tags(iconv('CP1251', 'UTF8', $row['title']))."',";
  45.     $insertRowToNewTable .= " `document_text`='".strip_tags(iconv('CP1251', 'UTF8', $row['document_text']))."'";
  46.     $dbh->exec($insertRowToNewTable);
  47. }
  48.  
  49. /*
  50.     Проанализируйте данный скрипт и предложите изменения по улучшению его работы.
  51.     Улучшения должны быть предоставлены в качестве новой версии данного скрипта.
  52. */
  53.  
  54.  
2. Мелкий - 03 Декабря, 2018 - 13:04:59 - перейти к сообщению
Ну и что вы сами думаете по поводу этого вопроса с очевидно собеседования?
3. dron817 - 03 Декабря, 2018 - 13:21:56 - перейти к сообщению
Мелкий пишет:
Ну и что вы сами думаете по поводу этого вопроса с очевидно собеседования?

Ну во-первых, возможно стоит использовать mb_convert_encoding, вместо iconv (говорят надёжней и может немного быстрей)
2-е, по-любому нужно ускорить выборку из БД, из решений, нашёл установку флага у обработанных записей и выборке по 10-100 записей
4. Мелкий - 03 Декабря, 2018 - 13:45:27 - перейти к сообщению
dron817 пишет:
возможно стоит использовать mb_convert_encoding, вместо iconv

Проверили? Что вышло? Статистически-значимую разницу удалось заметить?

dron817 пишет:
установку флага у обработанных записей

Замедлите кратно с использованием индекса, на порядки - без него.

Для получения значимой разницы по работе с СУБД: https://dev[dot]mysql[dot]com/doc/refman[dot][dot][dot]ata-loading[dot]html
Использование prepared statements для этой задачи весьма оправдано
Хотя вовсе формирование csv и загрузка обратно через LOAD DATA INFILE напрямую базой должно быть сильно быстрее.

На полях стоит отметить вопрос, требуется ли от миграции корректная обработка конкурентного доступа к исходной табличке либо система на время миграции выключена (либо переведена в read-only)
5. dron817 - 03 Декабря, 2018 - 13:50:06 - перейти к сообщению
Мелкий пишет:
dron817 пишет:
возможно стоит использовать mb_convert_encoding, вместо iconv

Проверили? Что вышло? Статистически-значимую разницу удалось заметить?

dron817 пишет:
установку флага у обработанных записей

Замедлите кратно с использованием индекса, на порядки - без него.

Для получения значимой разницы по работе с СУБД: https://dev[dot]mysql[dot]com/doc/refman[dot][dot][dot]ata-loading[dot]html
Использование prepared statements для этой задачи весьма оправдано
Хотя вовсе формирование csv и загрузка обратно через LOAD DATA INFILE напрямую базой должно быть сильно быстрее.

На полях стоит отметить вопрос, требуется ли от миграции корректная обработка конкурентного доступа к исходной табличке либо система на время миграции выключена (либо переведена в read-only)


Спасибо, попробую, потестирую

 

Powered by ExBB FM 1.0 RC1