Вьетнамский язык и компьютеры - Vietnamese language and computers

Вьетнамский язык написан с латинским алфавитом с диакритическими знаками , которая требует несколько помещений при наборе на телефоне или компьютере. Программные системы - самая популярная форма письма на вьетнамском языке. Телекс - это самый старый метод ввода, разработанный для кодирования вьетнамского языка, который часто устанавливается по умолчанию на виртуальных клавиатурах на телефонах и устройствах с сенсорным экраном. Другие методы ввода также могут включать VNI и VIQR , которые больше подходят для физических персональных настольных компьютеров или ноутбуков.

Метод ввода VNI не следует путать с кодовой страницей VNI.

Исторически сложилось так, что вьетнамский язык также был написан на chữ Nôm , который в наши дни используется в церемониальных и традиционных целях, и остается в поле зрения историков и филологов .

Шрифты и кодировки символов

Вьетнамский алфавит

Обычно на одной гласной на вьетнамском языке ставятся два диакритических знака. Некоторые шрифты складывают эти диакритические знаки, а другие смещают отметку тона.

Для представления вьетнамского алфавита существует 46 кодировок символов . Юникод стал самой популярной формой для многих мировых систем письма из-за его отличной совместимости и поддержки программного обеспечения. Диакритические знаки могут быть закодированы либо как объединяющие символы, либо как предварительно составленные символы , которые разбросаны по блокам Latin Extended-A , Latin Extended-B и Latin Extended Additional . Вьетнамский đồng символ кодируется в валюте Символы блока. Исторически во вьетнамском языке использовались и другие символы помимо современного алфавита. Средний вьетнамская буква B с процветать (ꞗ) входит в Латинской Продлен D блока. Апекс не входит в Unicode, но U + 1DC4 ◌᷄ ОБЪЕДИНЕНИЕ MACRON-ОСТРАЯ может служить как грубое приближение.

Ранние версии Unicode назначали символы U + 0340 ◌̀ COMBINING GRAVE TONE MARK и U + 0341 ◌́ COMBINING ACUTE TONE MARK с целью размещения этих знаков рядом с циркумфлексом, как это принято во вьетнамской типографике. Эти два символа устарели; U + 0301 ◌́ COMBINING ACUTE ACCENT и U + 0300 ◌̀ COMBINING GRAVE ACCENT теперь используются независимо от существующего циркумфлекса.

Для систем, в которых отсутствует поддержка Unicode, были разработаны десятки 8-битных вьетнамских кодовых страниц . Наиболее часто используемые из них были VISCII , VSCII (TCVN 5712: 1993), VNI , VPS и Windows , 1258 . Там, где требуется ASCII , например, при обеспечении удобочитаемости в электронном письме с обычным текстом, вьетнамские буквы часто кодируются в соответствии с вьетнамскими кавычками-читаемыми (VIQR) или VSCII Mnemonic (VSCII-MNEM), хотя использование любой схемы переменной ширины снизилось. резко после принятия Unicode во всемирной паутине . Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году.

Многие вьетнамские шрифты, предназначенные для настольных издательских систем, имеют кодировку VNI или TCVN3 ( VSCII ). Такие шрифты известны как «шрифты ABC». Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как неразборчивый моджибаке в системах, на которых они не установлены.

Справа - í , сохраняющая свой титул .

В вьетнамском языке диакритические знаки часто складываются, поэтому дизайнеры шрифтов должны позаботиться о том, чтобы диакритические знаки не совпадали с соседними буквами или строками. Когда тональный знак используется вместе с другим диакритическим знаком, смещение тонального знака вправо сохраняет последовательность и позволяет избежать замедления саккад . В рекламных вывесках и в скорописном почерке диакритические знаки часто принимают формы, непривычные для других латинских алфавитов. Например, строчная буква I сохраняет свой титул в ì , ỉ , ĩ и í . Эти нюансы редко учитываются в вычислительной среде.

Подходы

Для вьетнамского письма требуется 134 дополнительных буквы (в обоих случаях) помимо 52, уже присутствующих в ASCII. Это превышает 128 дополнительных символов, доступных в обычной расширенной кодировке ASCII . Хотя это можно решить, используя кодировку переменной ширины (как это сделано в UTF-8 ), другие кодировки использовали ряд подходов для поддержки вьетнамского языка без этого:

Замените не менее шести символов ASCII, выбранных либо из-за того, что они не используются во вьетнамском языке, и / или из-за того, что они не являются инвариантными в ISO 646 или DEC NRCS (как в VNI для DOS ).
Отбросьте прописные буквы, которые используются реже, или все прописные буквы с тональными метками (как в VSCII-3 (TCVN3)). Эти буквы все еще могут быть введены с помощью шрифтов, полностью прописных.
Бросьте формы буквы Y с тональными знаками, что требует использования буквы I в этих обстоятельствах . Этот подход был отвергнут разработчиками VISCII на том основании, что кодировка символов не должна пытаться решить проблему реформы орфографии.
Заменить по крайней мере , шесть управляющих символов С0 (как в VISCII , VSCII-1 (TCVN1) и VPS ).
Используйте комбинированные символы, позволяя полностью представить одну гласную с ударением с помощью последовательности символов (как в VNI , VSCII-2 (TCVN2), Windows-1258 и ANSEL ).

Chữ Nôm

Символ nôm для phở .

Unicode включает в себя более 10 000 символов номинала как часть репертуара Unicode унифицированных иероглифов CJK . Из этих символов 10082 можно найти в блоке CJK Unified Ideographs Extension B , а остальные распределены между блоками CJK Unified Ideographs , CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C. Еще 1028 символов, в том числе более 400 символов, характерных для языка Тай , закодированы в блоке CJK Unified Ideographs Extension E. Символы взяты из вьетнамских стандартов TCVN 5773: 1993 и TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?], А также из исследований Исследовательского института Хан-Ном и других групп. Все символы в TCVN 5773: 1993 и около 95% символов в TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?] Имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773: 1993 отображал большинство своих символов в Private Используйте область Unicode. Unicode 13.0 добавил два диакритических символа в блок Ideographic Symbols и Punctuation , которые обычно использовались для обозначения заимствованных символов в chữ Nôm .

Два наиболее всеобъемлющий NOM шрифтов являются вьетнамцы Фонд содействием сохранению Nom «s NOM Na Tong Свет и сообщество Развитой HAN NOM / HAN NOM B , оба из которых поместить большое количество Нестандартизованных символов в частном использовании территориях .

База данных Unihan Консорциума Unicode включает в себя вьетнамские чтения некоторых символов, но не делает различий между китайско-вьетнамскими и nôm чтениями.

Как и другие системы письма CJKV , chữ Nôm традиционно пишется вертикально , сверху вниз и справа налево.

Chữ Hán и chữ Nôm также могут быть аннотированы с использованием символов рубина , что аналогично chữ quốc ngữ для вьетнамского языка.

Ввод текста

Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества буквенно-диакритических-диакритических комбинаций в алфавите, например á, à, ả, ã, ạ, â, ấ и т. Д. Вместо этого вьетнамский ввод основан на шаблонных программных раскладках клавиатуры, виртуальных клавиатурах или методах ввода (также известных как IME).

Раскладки клавиатуры

Microsoft Windows включает в себя вьетнамскую раскладку клавиатуры на основе TCVN 6064: 1995.

Раскладка клавиатуры для вьетнамской пишущей машинки на базе AZERTY

Вьетнамские раскладки клавиатуры полагаются на мертвые клавиши для составления букв с диакритическими знаками. Большинство операционных систем для настольных ПК имеют вьетнамскую раскладку клавиатуры, аналогичную вьетнамскому национальному стандарту TCVN 6064: 1995 [ vi ] . Раньше в пишущих машинках использовалась вьетнамская раскладка на основе AZERTY.

Методы ввода

xvnkb, IME, совместимый со структурой метода ввода X в системах Unix, поддерживает вывод в шести кодировках символов.

Три наиболее распространенных метода ввода во Вьетнаме - это Telex , VNI и VIQR . Телекс обозначает диакритические знаки, используя буквы, которые вряд ли появятся в конце слова, в то время как VNI перепрофилирует цифровые клавиши или функциональные клавиши, а VIQR перепрофилирует различные знаки препинания. Условные обозначения Telex и VIQR возникли в более раннюю эру телексных машин и пишущих машинок соответственно.

Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые известны на вьетнамском языке как bộ gõ , буквально «клюшки» или «перкуссия» в более общем смысле. IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в виде сценария . К распространенным сторонним приложениям относятся GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey и xvnkb. В Unix-подобных операционных системах инфраструктуры IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок объявлений , в вьетнамской Википедии и других сайтах с большим объемом текста. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.

Методы ввода позволяют составлять слова в более гибком порядке, чем позволяет раскладка клавиатуры. Например, чтобы ввести слово « viết » с использованием раскладки клавиатуры TCVN 6064: 1995 , нужно вводить слово VI38Tв указанном порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETSв телексе, VIET61в VNI или VIET^'в VIQR. Некоторые IME даже позволяют вводить диакритические знаки перед базовыми буквами. В зависимости от реализации IME также может быть возможно редактировать диакритические знаки существующего слова без повторного ввода слова.

Заимствуя функцию, обычную для китайских методов ввода , некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки, и вместо этого, после ввода основных букв, пользователь может выбрать слово с диакритическими знаками из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой . Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в ch Nôm , поскольку между буквенными словами и nôm- символами нет однозначного соответствия .

Прочие соображения

Типичный вьетнамский текст содержит большое количество сложных слов. Сложные слова никогда не переноситься в современном использовании, поэтому проверки орфографии ограничиваются проверкой отдельных слогов , если статистическая модель языка не советовался.

Вьетнамский язык имеет жесткие правила правописания и несколько исключений, поэтому средства преобразования текста в речь могут избегать поиска в словаре, кроме случаев, когда встречаются иностранные заимствованные слова. Механизмы TTS должны учитывать тона , которые важны для значения любого вьетнамского слова, например, má (мать) - это слово, отличное от слова mà (но).

Смотрите также

дальнейшее чтение

Лунде, Кен (2009). CJKV Обработка информации . Севастополь, Калифорния: O'Reilly Media . ISBN 978-0-596-51447-1 - через Google Книги.

Внешние ссылки

Вычислительная техника на вьетнамском языке: прогресс и проблемы - презентация Международной группы пользователей Macintosh, 2005 г.
Vietnamese Conversions - онлайн-инструмент для восстановления вьетнамского моджибаке

Languages

In other projects