Здравствуйте, давненько не был, но появился повод спросить:
работаю над сайтом где есть... статьи на разных языках и переводы к ним на русский (и между языками), основной упор - переводы на русский.
языков много, среди них иврит, греческий, арабский, японский и тд, включая европейские и кириллические.
урлы в пределах каждого автора должны быть уникальны.
делал так:
для кирилических транслитерировал и в базу (utf-8)
для европейских романоподобных польский, чешский, немецки, французский и тд - тоже транслитерировал, но тут стали появляться отличия (по буквам/звукам, в правилах транслитерации по сравнению с родными для языка сайтами)
теперь добавились иврит, греческий, арабский, японский и тд, просмотрев "ихние" сайты - вижу что они урлят так сказать и на своей локали.
сейчас же вижу картину работы подругому:
- для русских языков - транслит
- для романских - как есть
- иврит, греческий, арабский, японский - ?
все их в rawurlencode() и в бд
вопрос :
как правильно/лучше/быстрее сохранять/хранить/выводить
а также индексировать в бд, какую кодировку для сравнения использовать, размер поля...
требуется сохранить дружественность внешнего вида урла для посетителей
учесть СЕО, (получать и иностранных посетителей на сайт)
в общем кто сталкивался - подскажите как у вас, как вы видите это?
(надеюсь доступно изложил суть)
спасибо
|