Алгоритм - Учебный центр
Заполните форму ниже! Мы вам перезвоним!

Нажав на кнопку "Отправить", Я даю своё согласие на автоматизированную обработку указанной информации, распространяющейся на осуществление всех действий с ней, включая сбор, передачу по сетям связи общего назначения, накопление, хранение, обновление, изменение, использование, обезличивание, блокирование, уничтожение и обработку посредством внесения в электронную базу данных, систематизации, включения в списки и отчетные формы.


Стандарт Unicode.

Стандарт Unicode.

 

Стандарт Unicode для кодировки символов был предложен некоммерческой ор­ганизацией Unicode Consortium. Для представления каждого символа в этом стандарте используются два байта, что позволяет закоди­ровать очень большое число символов из разных пись­менностей. В документах Unicode могут соседствовать русские, латинские, греческие буквы, китайские иерог­лифы и математические символы. Кодовые страницы при использовании Unicode становятся ненужными.

Коды в Unicode разделены на несколько областей. Область с кодами от 0000 до 007F содержит символы на­бора Latin 1 (младшие байты соответствуют кодировке ISO 8859-1). Далее идут области, в которых расположены знаки различных письменностей, а также знаки пунктуа­ции и технические символы; часть кодов зарезервирова­на для использования в будущем. Символам кириллицы выделены коды в диапазоне от 0400 до 0451.

Для работы с документами Unicode нужны соответст­вующие шрифты. Как правило, файл шрифта Unicode со­держит начертания не для всех символов, определенных в стандарте, а лишь для символов из некоторых областей.

Кодировка формата Unicode. Unicode  -  это универсальная международная кодировка, которая предусматри­вает выделение для набора символов каждого языка определенной непрерывной последовательности двоичных чисел. Символы Unicode хранятся в виде 16-разрядных чисел, что позволяет представить свыше 60 тысяч различных символов, но на каждый символ расходуется два байта па­мяти. Набор символов латинского алфавита (то есть символов английского языка) и математические символы считаются в Unicode основными и размещаются в диапазоне 0020h-007Eh. Преобразование латинских символов из формата Unicode в ASCII-код сводится к простому отсечению старшего байта символа. Символы русского языка (Cyrillic) размещаются в диапазоне 0410h-044Fh (см. рис.1 и рис.2).

QIP Shot - Image: 2016-09-21 11:55:51

Рис. 1. Кодировка латинских и математических символов в формате Unicode.

QIP Shot - Image: 2016-09-21 11:57:25 

Рис. 2. Представление символов русского алфавита в формате Unicode.

 

Начиная с ядра еще Windows NT, ее графический интерфейс (GDI) и файловая система NTFS уже были реализованы с использованием Unicode. Программы, запущенные в среде Windows NT, могли ра­ботать также с однобайтовыми символами, кодировка которых в этом случае соответствует установленной по умолчанию кодовой странице ANSI (для России - Windows Cyrillic, или СР 1251). Перед вызовом некоторых функций программного интерфейса Windows NT программы, работающие с кодовой стра­ницей ANSI, преобразуют однобайтовые символы в Unicode. Чтобы преобразование выполнялось без оши­бок, пользователь должен правильно указать страну в приложении Regional Settings.

Выяснить, какие наборы символов присутствуют в том или ином шрифте Unicode, можно было с помощью стан­дартной утилиты Character Map (таблица символов), включенной в состав Windows NT.

Использование Unicode значительно упрощает созда­ние многоязычных приложений. Поэтому, создавая про­граммы с прицелом на этот стандарт, вы закладываете не­плохую базу для локализации своего программного про­дукта.  

 


Лицензия