Кана половинной ширины - Half-width kana
Кана половинной ширины (半角カ ナ, Hankaku kana ) - символы катаканы, отображаемые сжатыми на половину своей нормальной ширины ( соотношение сторон 1: 2 ) вместо обычного квадратного (1: 1) соотношения сторон. Например, обычная (полная) форма катакана ка - カ, а форма полуширины -. Половина ширины хирагана не включена в Unicode, хотя это можно использовать на Web или электронные книги с помощью CSS «S font-feature-settings: "hwid" 1
с Adobe-Japan1-6 на основе OpenType шрифтов. Кандзи половинной ширины нельзя использовать на современных компьютерах, даже если они используются в некоторых принтерах чеков, электрических досках объявлений или старых компьютерах.
Кана половинной ширины использовались на заре японских вычислений, чтобы японские символы отображались в той же сетке, что и моноширинные шрифты латинских символов. Кандзи половинной ширины не использовались. Символы кана половинной ширины сегодня обычно не используются, но находят некоторое применение в определенных условиях, таких как дисплеи кассовых аппаратов , в квитанциях магазинов, японском цифровом телевидении и субтитрах DVD, а также на этикетках почтовых адресов. Их использование иногда также является стилистическим выбором, особенно часто в определенном интернет-сленге .
Термин «кана половинной ширины», который строго относится только к тому, как отображаются каны , а не к тому, как они хранятся, также используется в широком смысле для обозначения блока A0 – DF (шестнадцатеричный), где катакана хранится в некоторых кодировках символов , таких как как JIS X 0201 (1969) - см. кодировки ниже. Однако это формально неверно - этот стандарт JIS просто указывает, что катакана может храниться в этих местах, без указания того, как они должны отображаться; путаница связана с тем, что на ранних этапах вычислений символы, хранящиеся здесь, фактически отображались как кана половинной ширины - см. путаницу ниже.
История
Кана половинной ширины и Кана 2/3 ширины использовались с докомпьютерной эры. В раннюю компьютерную эру ASCII определялся как 7-битный набор символов и имел место для 128 символов. Однако, поскольку этот стандарт был разработан для США , он не содержит символов и символов, таких как символ йены (¥), необходимых для представления японской валюты, а также не включает места для символов других алфавитов, таких как кана или кандзи. - таким образом, японские символы не могут быть закодированы . Кроме того, японские символы, как кана, так и кандзи, нарисованы на квадратной сетке, тогда как латинские символы обычно пишутся более узко, поэтому японские символы также не могут отображаться .
JIS X 0201 был разработан в 1969 году, в то время, когда компьютеры, как правило, были неспособны, как по дизайну программного обеспечения, так и по аппаратным ресурсам, отображать тысячи китайских иероглифов иероглифов, используемых в японском языке. В качестве компромисса этот стандарт закодировал катакану (только - не хирагана или кандзи) как небольшой набор символов, назначенных в диапазоне значений старшего байта 0x80–0xFF. Это позволяло 8-битным процессорам кодировать и обрабатывать японский текст фонетически (как катакана), но без возможности обработки хираганы или кандзи. Эти символы катаканы, в свою очередь, отображались как «кана половинной ширины» - новый, неортодоксальный, более узкий форм-фактор, чтобы соответствовать той же ширине, которую машины с моноширинными латинскими алфавитами могли печатать и отображать. С точки зрения кодирования JIS X 0201 является вариантом расширения ASCII - он включает дополнительные символы и не совсем соответствует ASCII в части перекрытия (раздел латинских символов).
Кана половинной ширины были разработаны как «... первые японские символы, закодированные на компьютерах, потому что они используются для японских телеграмм».
Общенациональная система передачи банковских данных (全国 銀行 デ ー タ 通信 シ ス テ ム) , крупнейшая система денежных переводов в Японии, была создана в 1973 году. В транзакционных сообщениях между банками можно было использовать только латиницу, цифры и катакану половинной ширины в пределах 20 символов. В 2018 году эту систему заменила ZEDI (Национальная система обмена банковскими электронными данными), которая может обрабатывать хирагана и кандзи с символами переменной длины.
Чтобы катакана поместилась в разрешенной более узкой области ячейки, были сделаны некоторые компромиссы. Например, диакритические знаки dakuten и handakuten обрабатываются как отдельные символы, а не являются частью предыдущего символа. Этот компромисс привел к тому, что многие сочли "кана половинной ширины" визуально непривлекательной, и сегодня вызывает проблемы для многих компьютерных программ.
Еще одно применение каны половинной ширины - экономия места. Японская версия Windows 95 использовала катакану половинной ширины MS P Gothic в своем пользовательском интерфейсе. На смену ей пришла полноразмерная кана из MS UI Gothic, немного уже, чем MS P Gothic.
Кодирование
В спецификации JIS X 0201 (1969 г.) катаканы кодируются в блоке A0 – DF (шестнадцатеричный) - способ их отображения не указывается, и отсутствует отдельное кодирование полноширинной и полушириной каны. В JIS X 0208 все катакана, хирагана и кандзи закодированы (и отображаются как символы полной ширины; символы половинной ширины отсутствуют), хотя порядок каны отличается - см. JIS X 0208 # Хирагана и катакана .
В Shift JIS , который объединяет JIS X 0201 и JIS X 0208, эти кодировки (обе из которых могут кодировать латинские символы и катакану) хранятся отдельно, причем все JIS X 0201 отображаются как полуширины (таким образом, катакана JIS X 0201 является отображается как кана половинной ширины), тогда как все JIS X 0208 отображаются как полноширинные (таким образом, латинские символы JIS X 0208 отображаются как латинские символы полной ширины). Таким образом, в Shift JIS латинские символы и катакана имеют две кодировки с двумя отдельными формами отображения, как полуширины, так и полной ширины.
В Юникоде катакана и хирагана в основном используются как обычные полноширинные символы (блоки катакана и хирагана отображаются как полноширинные символы); отдельный блок, блок Halfwidth и Fullwidth Forms используется для хранения вариантных символов, включая кана половинной ширины и латинские символы полной ширины.
Таким образом, катакана в JIS X 0201 и соответствующая часть производных кодировок (часть JIS X 0201 Shift JIS) отображаются как полуширина, тогда как в формах полуширины Unicode указываются отдельно.
Стол половинной ширины
«J» указывает первые четыре бита в JIS X 0201 (хотя см. Ниже , они не обязательно указывают на половинную ширину), а в других наборах, таких как Shift JIS , «U» указывает строку в Unicode в блоке половинной и полной ширины. .
J | U | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | B | C | D | E | F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
А | FF6 | 。 | 「 | 」 | 、 | ・ | ヲ | ァ | ィ | ゥ | ェ | ォ | ャ | ュ | ョ | ッ | |
B | FF7 | ー | ア | イ | ウ | エ | オ | カ | キ | ク | ケ | コ | サ | シ | ス | セ | ソ |
C | FF8 | タ | チ | ツ | テ | ト | ナ | ニ | ヌ | ネ | ノ | ハ | ヒ | フ | ヘ | ホ | マ |
D | FF9 | ミ | ム | メ | モ | ヤ | ユ | ヨ | ラ | リ | ル | レ | ロ | ワ | ン | ゙ | ゚ |
Обратите внимание, что пустая первая ячейка представляет собой несуществующий символ в JIS, A0; но двойные круглые скобки полной ширины ⦆ в Unicode, U + FF60.
Кана половинной ширины в Интернете
Эл. почта
Поскольку протоколы SMTP и NNTP (используемые для доставки электронной почты и Usenet , соответственно) раньше могли передавать только 7 бит, тогда было принято использовать ISO-2022-JP для отправки электронной почты на японском языке.
Кана половинной ширины не содержится в ISO-2022-JP: он включает римский набор JIS X 0201 и весь JIS X 0208, но не набор катаканы JIS X 0201 (который используется для каны половинной ширины в Shift JIS, например). Оба набора JIS X 0201 имеют коды ISO 2022, но профиль ISO-2022-JP включает только римский набор: это означает, что формат для включения катаканы половинной ширины в ISO-2022-JP является как четко определенным, так и нарушением формата ISO-2022-JP. По этой причине, если кана половинной ширины случайно была включена в сообщение, оно могло быть искажено во время передачи (см. Моджибаке ). Стандарт кодирования WHATWG, используемый HTML5, разрешает декодирование, но не кодирование, катаканы JIS X 0201 в ISO-2022-JP в качестве расширения формата и преобразует катакану половинной ширины в их эквиваленты JIS X 0208 при кодировании.
Это больше не проблема, поскольку большинство серверов электронной почты сегодня поддерживают расширение 8BITMIME и, следовательно, понимают 8-битные символы. В качестве альтернативы можно использовать систему кодирования, такую как Base64 , и указать ее в сообщении с помощью MIME .
веб-страница
Проблема, которая существует в электронной почте, не существует с веб-страницами, поскольку HTTP принимает 8-битные символы.
Однако существует одна проблема, которая заключается в том, что компьютерные программы испытывают трудности с определением того, следует ли рассматривать символ как Shift JIS , EUC-JP или UTF-8, поэтому информацию о коде символа следует указывать с заголовком ответа HTTP или метатегом .
Путаница
Строго говоря, кодировка JIS X 0201 как «катакана половинной ширины» неверна, поскольку стандарт не определяет ширину символов - он определяет только кодовое представление символов катаканы. В стандарте JIS X 0201 символы катаканы печатаются с нормальной (полной) шириной, а не с половинной шириной.
Символы половинной ширины использовались для отображения только в тот период, когда символы отображались в половинной ширине (и использовались однобайтовые кодировки), до того, как стали отображаться символы полной ширины (и связанные двухбайтовые кодировки, такие как JIS X 0208). широко распространенный. Однако в стандарте Shift JIS, который сочетает в себе стандарт JIS X 0201 (символы которого - латиницу и катакана - отображались половинной шириной) и стандарт JIS X 0208 (символы которого - катакана, хирагана, кандзи и латынь - были отображаются как полноширинные), символы катакана и латинские символы кодируются дважды, как в JIS X 0201, так и в JIS 0208, но отображаются как полуширина или полная ширина в зависимости от того, в каком разделе они находятся (0201 или 0208) - таким образом, 0201 Блок катаканы можно рассматривать как соответствующий «кане половинной ширины», и широко распространено неправильное понимание того, что стандарт 0201 определяет символы «половинной ширины».
Кроме того, хотя JIS X 0201 является однобайтовой кодировкой (и отображается с полушириной), а JIS X 0208 является двухбайтовой кодировкой (и отображается с полной шириной), связи между количеством байтов и шириной нет ( кроме соответствующих в Shift JIS, как указано выше) - например, Unicode может быть закодирован четырьмя байтами ( UTF-32 ) для отображения как полноширинных, так и одинарных символов.
В популярной культуре
Персонажи кана половинной ширины предстают перед публикой в трилогии «Матрица» , которую поставили Вачовски . «Цифровой дождь» состоит из зеркальных половинных шириной кана символов, букв латинского алфавита и арабских цифр.
Смотрите также
использованная литература
- ^ Лунде, Кен. CJKV Обработка информации. О'Рейли, 2-е изд., 2009 г.,стр. 224–226(также 1-е изд., 1999 г., стр. 144–145)