Выбор кодировки для сайта
#1
Отправлено 10 июля 2005 - 15:10
Плюсы:
* все данные в одной кодировке (на этом плюсы заканчиваются)
Минусы:
* достаточно сложно реализовать проверку вводимых символов, т.к. часто для написания одной буквы используются многобайтовые последовательности.
* нельзя слать сообщения на email в utf8 (чтобы не получить проблем с последующем их прочтением)
* надо определиться, в какой кодировке следует писать код (в плане русских и нерусских букв). В силу того, что я достаточно не владею английским языком все отладочные сообщения пишу по-русски.
* могут возникнуть проблемы с базой данных (но эти проблемы я уже решил)
Если взять кодировку Win-1251
Плюсы:
* стандартная кодировка у русских
* лёгкая проверка как русских, так и эстонских букв
Минусы:
* эстонские äöü придётся хранить в их кодах
Пока ещё не решил как быть с мультиязычными данными в базе данных. Как осуществлять по ним поиск. Если c UTF8 проблем нет, то с Win-1251 и эстонскими äöü могут возникнуть проблемы. Пока ещё не тестировал.
Все современные браузеры поддерживают обе кодировки и не сложно их заставить правильно показывать выбранную кодировку.
Какие есть мненеия?
#2
Отправлено 10 июля 2005 - 18:38
Хотелось бы заметить, что русские буквы в UTF8 занимают в 2 раза больше места, чем они же в Win1251, что вызвано тем, что им предшествует байт, который говорит, что это многобайтная последовательность.
Теперь, если взять к примеру количество русских символов, хранимых в базе данных и букв äöõ становится ясно, что использовать UTF8 в данном случае довольнотаки расточительно. Это ещё один минус данной кодировки.
#3
Отправлено 11 июля 2005 - 11:37
-
достаточно сложно реализовать проверку вводимых символов, т.к. часто для написания одной буквы используются многобайтовые последовательности.
+ работай с символами, а не с байтами.
-
нельзя слать сообщения на email в utf8 (чтобы не получить проблем с последующем их прочтением)
+ в заголовке мыла указываешь, что сообщение находится в UTF-8 и всё работает на 5+.
-
надо определиться, в какой кодировке следует писать код (в плане русских и нерусских букв). В силу того, что я достаточно не владею английским языком все отладочные сообщения пишу по-русски.
+ Не совсем понял проблему. Если у тебя в редакторе все файлы UTF-8. То все равно на катором языке ты пишешь (конечно если придерживаешься семантики языка программирования). И если у тебя выходной поток (в нашем примере как я понял это SGML) как UTF-8 и правильно раставлены заголовки, то и на экране ты сможешь прочитать весь ассортимент символов и правильной интерпретации.
-
могут возникнуть проблемы с базой данных (но эти проблемы я уже решил)
Устанавливаешь, что в базе кодировка UTF-8 и в 99% это реашет проблему.
Верю в смерть после жизни, любовь после секса и в крем после бритья ...
#4
Отправлено 11 июля 2005 - 12:04
О работе с символами я как-то и не догадался, не знаю почему мне пришла идея работать именно с байтами. Наверное потому, что с символами теоретически могут возникнуть проблемы на хостинге.
Насчёт почты - нужно сделать статистику по мейлерам и почтовым службам, чтобы убедиться, что многие из них поддерживают UTF8. Например, много лет используемый мною, горячо любимый, TheBat! Только недавно подружился с данной кодировкой.
По поводу редактора - в том-то и дело, что если проект будет в UTF8, придётся и файлы "переделывать" в UTF8. В этом нет проблемы. Иногда встречается проблема, когда редактор (например, Windows Notepad) добавляет в начало файла невидимый символ BOM, из-за которого прут ошибки. Но это тоже не проблема, т.к. Notepad'а я не использую
В принципе, с кодировками уже все проблемы решены. Мне интересно мнение по поводу того, что все русские буквы в данной кодировке занимают по 2 байта. Например, в базе будет накапливаться по 100Мегабайт текста в год. А если сравнить 50 и 100 Мбайт, то разница думаю, будет приличная
#5
Отправлено 11 июля 2005 - 12:27
Добавлено в [mergetime]1121077678[/mergetime]
Setor, ну здесь всё просто ... логично что русские занимают 2 байта ... а если ты хочешь хранить по 50 Мб ... то думаю проще установить сжатие ZIP. На скорость сильно не влияет. Или как вариант, сжимать тестовой контент до запихивания в базу.
Верю в смерть после жизни, любовь после секса и в крем после бритья ...
#6
Отправлено 11 июля 2005 - 12:41
#7
Отправлено 11 июля 2005 - 12:46
Верю в смерть после жизни, любовь после секса и в крем после бритья ...
#9
Отправлено 11 июля 2005 - 13:23
Верю в смерть после жизни, любовь после секса и в крем после бритья ...