Вьетнамский язык и компьютеры - Vietnamese language and computers
Вьетнамский язык написан с латинским алфавитом с диакритическими знаками , которая требует несколько помещений при наборе на телефоне или компьютере. Программные системы - самая популярная форма письма на вьетнамском языке. Телекс - это самый старый метод ввода, разработанный для кодирования вьетнамского языка, который часто устанавливается по умолчанию на виртуальных клавиатурах на телефонах и устройствах с сенсорным экраном. Другие методы ввода также могут включать VNI и VIQR , которые больше подходят для физических персональных настольных компьютеров или ноутбуков.
Метод ввода VNI не следует путать с кодовой страницей VNI.
Исторически сложилось так, что вьетнамский язык также был написан на chữ Nôm , который в наши дни используется в церемониальных и традиционных целях, и остается в поле зрения историков и филологов .
Шрифты и кодировки символов
Вьетнамский алфавит
Для представления вьетнамского алфавита существует 46 кодировок символов . Юникод стал самой популярной формой для многих мировых систем письма из-за его отличной совместимости и поддержки программного обеспечения. Диакритические знаки могут быть закодированы либо как объединяющие символы, либо как предварительно составленные символы , которые разбросаны по блокам Latin Extended-A , Latin Extended-B и Latin Extended Additional . Вьетнамский đồng символ кодируется в валюте Символы блока. Исторически во вьетнамском языке использовались и другие символы помимо современного алфавита. Средний вьетнамская буква B с процветать (ꞗ) входит в Латинской Продлен D блока. Апекс не входит в Unicode, но U + 1DC4 ◌᷄ ОБЪЕДИНЕНИЕ MACRON-ОСТРАЯ может служить как грубое приближение.
Ранние версии Unicode назначали символы U + 0340 ◌̀ COMBINING GRAVE TONE MARK и U + 0341 ◌́ COMBINING ACUTE TONE MARK с целью размещения этих знаков рядом с циркумфлексом, как это принято во вьетнамской типографике. Эти два символа устарели; U + 0301 ◌́ COMBINING ACUTE ACCENT и U + 0300 ◌̀ COMBINING GRAVE ACCENT теперь используются независимо от существующего циркумфлекса.
Для систем, в которых отсутствует поддержка Unicode, были разработаны десятки 8-битных вьетнамских кодовых страниц . Наиболее часто используемые из них были VISCII , VSCII (TCVN 5712: 1993), VNI , VPS и Windows , 1258 . Там, где требуется ASCII , например, при обеспечении удобочитаемости в электронном письме с обычным текстом, вьетнамские буквы часто кодируются в соответствии с вьетнамскими кавычками-читаемыми (VIQR) или VSCII Mnemonic (VSCII-MNEM), хотя использование любой схемы переменной ширины снизилось. резко после принятия Unicode во всемирной паутине . Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году.
Многие вьетнамские шрифты, предназначенные для настольных издательских систем, имеют кодировку VNI или TCVN3 ( VSCII ). Такие шрифты известны как «шрифты ABC». Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как неразборчивый моджибаке в системах, на которых они не установлены.
В вьетнамском языке диакритические знаки часто складываются, поэтому дизайнеры шрифтов должны позаботиться о том, чтобы диакритические знаки не совпадали с соседними буквами или строками. Когда тональный знак используется вместе с другим диакритическим знаком, смещение тонального знака вправо сохраняет последовательность и позволяет избежать замедления саккад . В рекламных вывесках и в скорописном почерке диакритические знаки часто принимают формы, непривычные для других латинских алфавитов. Например, строчная буква I сохраняет свой титул в ì , ỉ , ĩ и í . Эти нюансы редко учитываются в вычислительной среде.
Подходы
Для вьетнамского письма требуется 134 дополнительных буквы (в обоих случаях) помимо 52, уже присутствующих в ASCII. Это превышает 128 дополнительных символов, доступных в обычной расширенной кодировке ASCII . Хотя это можно решить, используя кодировку переменной ширины (как это сделано в UTF-8 ), другие кодировки использовали ряд подходов для поддержки вьетнамского языка без этого:
- Замените не менее шести символов ASCII, выбранных либо из-за того, что они не используются во вьетнамском языке, и / или из-за того, что они не являются инвариантными в ISO 646 или DEC NRCS (как в VNI для DOS ).
- Отбросьте прописные буквы, которые используются реже, или все прописные буквы с тональными метками (как в VSCII-3 (TCVN3)). Эти буквы все еще могут быть введены с помощью шрифтов, полностью прописных.
- Бросьте формы буквы Y с тональными знаками, что требует использования буквы I в этих обстоятельствах . Этот подход был отвергнут разработчиками VISCII на том основании, что кодировка символов не должна пытаться решить проблему реформы орфографии.
- Заменить по крайней мере , шесть управляющих символов С0 (как в VISCII , VSCII-1 (TCVN1) и VPS ).
- Используйте комбинированные символы, позволяя полностью представить одну гласную с ударением с помощью последовательности символов (как в VNI , VSCII-2 (TCVN2), Windows-1258 и ANSEL ).
Chữ Nôm
Unicode включает в себя более 10 000 символов номинала как часть репертуара Unicode унифицированных иероглифов CJK . Из этих символов 10082 можно найти в блоке CJK Unified Ideographs Extension B , а остальные распределены между блоками CJK Unified Ideographs , CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C. Еще 1028 символов, в том числе более 400 символов, характерных для языка Тай , закодированы в блоке CJK Unified Ideographs Extension E. Символы взяты из вьетнамских стандартов TCVN 5773: 1993 и TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?], А также из исследований Исследовательского института Хан-Ном и других групп. Все символы в TCVN 5773: 1993 и около 95% символов в TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?] Имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773: 1993 отображал большинство своих символов в Private Используйте область Unicode. Unicode 13.0 добавил два диакритических символа в блок Ideographic Symbols и Punctuation , которые обычно использовались для обозначения заимствованных символов в chữ Nôm .
Два наиболее всеобъемлющий NOM шрифтов являются вьетнамцы Фонд содействием сохранению Nom «s NOM Na Tong Свет и сообщество Развитой HAN NOM / HAN NOM B , оба из которых поместить большое количество Нестандартизованных символов в частном использовании территориях .
База данных Unihan Консорциума Unicode включает в себя вьетнамские чтения некоторых символов, но не делает различий между китайско-вьетнамскими и nôm чтениями.
Как и другие системы письма CJKV , chữ Nôm традиционно пишется вертикально , сверху вниз и справа налево.
Chữ Hán и chữ Nôm также могут быть аннотированы с использованием символов рубина , что аналогично chữ quốc ngữ для вьетнамского языка.
Ввод текста
Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества буквенно-диакритических-диакритических комбинаций в алфавите, например á, à, ả, ã, ạ, â, ấ и т. Д. Вместо этого вьетнамский ввод основан на шаблонных программных раскладках клавиатуры, виртуальных клавиатурах или методах ввода (также известных как IME).
Раскладки клавиатуры
Вьетнамские раскладки клавиатуры полагаются на мертвые клавиши для составления букв с диакритическими знаками. Большинство операционных систем для настольных ПК имеют вьетнамскую раскладку клавиатуры, аналогичную вьетнамскому национальному стандарту TCVN 6064: 1995 . Раньше в пишущих машинках использовалась вьетнамская раскладка на основе AZERTY.
Методы ввода
Три наиболее распространенных метода ввода во Вьетнаме - это Telex , VNI и VIQR . Телекс обозначает диакритические знаки, используя буквы, которые вряд ли появятся в конце слова, в то время как VNI перепрофилирует цифровые клавиши или функциональные клавиши, а VIQR перепрофилирует различные знаки препинания. Условные обозначения Telex и VIQR возникли в более раннюю эру телексных машин и пишущих машинок соответственно.
Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые известны на вьетнамском языке как bộ gõ , буквально «клюшки» или «перкуссия» в более общем смысле. IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в виде сценария . К распространенным сторонним приложениям относятся GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey и xvnkb. В Unix-подобных операционных системах инфраструктуры IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок объявлений , в вьетнамской Википедии и других сайтах с большим объемом текста. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.
Методы ввода позволяют составлять слова в более гибком порядке, чем позволяет раскладка клавиатуры. Например, чтобы ввести слово « viết » с использованием раскладки клавиатуры TCVN 6064: 1995 , нужно вводить слово VI38Tв указанном порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETSв телексе, VIET61в VNI или VIET^'в VIQR. Некоторые IME даже позволяют вводить диакритические знаки перед базовыми буквами. В зависимости от реализации IME также может быть возможно редактировать диакритические знаки существующего слова без повторного ввода слова.
Заимствуя функцию, обычную для китайских методов ввода , некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки, и вместо этого, после ввода основных букв, пользователь может выбрать слово с диакритическими знаками из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой . Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в ch Nôm , поскольку между буквенными словами и nôm- символами нет однозначного соответствия .
Прочие соображения
Типичный вьетнамский текст содержит большое количество сложных слов. Сложные слова никогда не переноситься в современном использовании, поэтому проверки орфографии ограничиваются проверкой отдельных слогов , если статистическая модель языка не советовался.
Вьетнамский язык имеет жесткие правила правописания и несколько исключений, поэтому средства преобразования текста в речь могут избегать поиска в словаре, кроме случаев, когда встречаются иностранные заимствованные слова. Механизмы TTS должны учитывать тона , которые важны для значения любого вьетнамского слова, например, má (мать) - это слово, отличное от слова mà (но).
Смотрите также
Рекомендации
дальнейшее чтение
- Лунде, Кен (2009). CJKV Обработка информации . Севастополь, Калифорния: O'Reilly Media . ISBN 978-0-596-51447-1 - через Google Книги.
Внешние ссылки
- Вычислительная техника на вьетнамском языке: прогресс и проблемы - презентация Международной группы пользователей Macintosh, 2005 г.
- Vietnamese Conversions - онлайн-инструмент для восстановления вьетнамского моджибаке