Алгоритм - Учебный центр

Версия сайта для слабовидящих
Заполните форму ниже! Мы вам перезвоним!

Нажав на кнопку "Отправить", Я даю своё согласие на автоматизированную обработку указанной информации, распространяющейся на осуществление всех действий с ней, включая сбор, передачу по сетям связи общего назначения, накопление, хранение, обновление, изменение, использование, обезличивание, блокирование, уничтожение и обработку посредством внесения в электронную базу данных, систематизации, включения в списки и отчетные формы.


Стандарт Unicode.

 

Стандарт Unicode.

 

                Стандарт Unicode для кодировки символов был предложен некоммерческой ор­ганизацией Unicode Consortium. Для представления каждого символа в этом стандарте используются два байта, что позволяет закоди­ровать очень большое число символов из разных пись­менностей. В документах Unicode могут соседствовать русские, латинские, греческие буквы, китайские иерог­лифы и математические символы. Кодовые страницы при использовании Unicode становятся ненужными.

Коды в Unicode разделены на несколько областей. Область с кодами от 0000 до 007F содержит символы на­бора Latin 1 (младшие байты соответствуют кодировке ISO 8859-1). Далее идут области, в которых расположены знаки различных письменностей, а также знаки пунктуа­ции и технические символы; часть кодов зарезервирова­на для использования в будущем. Символам кириллицы выделены коды в диапазоне от 0400 до 0451.

                Для работы с документами Unicode нужны соответст­вующие шрифты. Как правило, файл шрифта Unicode со­держит начертания не для всех символов, определенных в стандарте, а лишь для символов из некоторых областей.

Кодировка формата Unicode. Unicode  -  это универсальная международная кодировка, которая предусматри­вает выделение для набора символов каждого языка определенной непрерывной последовательности двоичных чисел. Символы Unicode хранятся в виде 16-разрядных чисел, что позволяет представить свыше 60 тысяч различных символов, но на каждый символ расходуется два байта па­мяти. Набор символов латинского алфавита (то есть символов английского языка) и математические символы считаются в Unicode основными и размещаются в диапазоне 0020h-007Eh. Преобразование латинских символов из формата Unicode в ASCII-код сводится к простому отсечению старшего байта символа. Символы русского языка (Cyrillic) размещаются в диапазоне 0410h-044Fh.

 QIP Shot - Image: 2016-05-16 09:07:27

Рис. 1. Кодировка латинских и математических символов в формате Unicode.

QIP Shot - Image: 2016-05-16 09:11:34

Рис. 2. Представление символов русского алфавита в формате Unicode.

Ядро Windows NT, ее графический интерфейс (GDI) и файловая система NTFS уже были реализованы с использованием Unicode. Программы, запущенные в среде Windows NT, могли ра­ботать также с однобайтовыми символами, кодировка которых в этом случае соответствует установленной по умолчанию кодовой странице ANSI (для России - Windows Cyrillic, или СР 1251). Перед вызовом некоторых функций программного интерфейса Windows NT программы, работающие с кодовой стра­ницей ANSI, преобразуют однобайтовые символы в Unicode. Чтобы преобразование выполнялось без оши­бок, пользователь должен правильно указать страну в приложении Regional Settings.

В отличие от Windows NT, ядро и графический интер­фейс более «старой» Windows 95 не используют Unicode, а работают с ко­довыми страницами. Однако в этой операционной системе предусмотрена возможность динамического изменения наборов симво­лов и раскладок клавиатуры, что позволяет создавать до­кументы, содержащие одновременно символы из разных наборов. В составе Windows 95 поставлялся набор шрифтов Unicode, с которыми, в частности, могли работать про­граммы Microsoft Office 97.

Выяснить, какие наборы символов присутствуют в том или ином шрифте Unicode, можно с помощью стан­дартной утилиты Character Map (таблица символов), включенной еще в состав Windows NT (аналогичная програм­ма из Windows 95 не подходит). Запустите ее и выберите в списке Font шрифт Arial, а в списке Subset  - набор сим­волов Windows Characters. Получившаяся таблица будет повторять кодовую страницу ANSI с символами западноевропейской лати­ницы. Выбрав же в списке Subset строку Cyrillic, вы уви­дите таблицу с символами кириллицы и без символов ла­тиницы, соответствующую кириллической области Unicode.

                Использование Unicode значительно упрощает созда­ние многоязычных приложений. Поэтому, создавая про­граммы с прицелом на этот стандарт, вы закладываете не­плохую базу для локализации своего программного про­дукта. 


Лицензия