Кодовая страница 437 - Code page 437

Кодовая страница 437
Codepage-437.png
Кодовая страница 437, отображаемая на IBM PC с использованием стандартного VGA
MIME / IANA IBM437
Псевдоним (а) cp437, 437, csPC8CodePage437, OEM-США
Язык (и) английский
Классификация Расширенный ASCII , кодовая страница OEM
Расширяется US-ASCII
Другая связанная кодировка (и) Кодовая страница 850 , CWI-2

Кодовая страница 437 ( CCSID 437) - это набор символов исходного IBM PC (персонального компьютера). Он также известен как CP437, OEM-US, OEM 437, PC-8 или DOS Latin US. В набор входят все печатаемые символы ASCII , расширенные коды для акцентированных букв ( диакритические знаки ), некоторые греческие буквы, значки и символы рисования линий. Иногда его называют «OEM-шрифт», «высокий ASCII» или « расширенный ASCII » (одно из многих взаимно несовместимых расширений ASCII).

Этот набор символов остается основным набором в ядре любой видеокарты, совместимой с EGA и VGA . Таким образом, текст, отображаемый при перезагрузке ПК перед загрузкой и визуализацией шрифтов, обычно отображается с использованием этого набора символов. Многие форматы файлов, разработанные во времена IBM PC, также основаны на кодовой странице 437.

Видеоадаптеры

Оригинальный IBM PC содержал этот шрифт в качестве шрифта 9 × 14 пикселей-за-символа , хранящегося в ПЗУ в IBM монохромного видеоадаптер (MDA) и 8 × 8 пиксели-за-символ шрифта Graphics Adapter Color ( CGA ) карты. IBM Enhanced Graphics Adapter (ЭГ) содержал 8 × 14 пикселей-за-версию символа, и VGA содержал версию 9 × 16.

Все эти видеоадаптеры имеют текстовые режимы, в которых каждая символьная ячейка содержит 8-битный код символа (см. Подробности ), что дает 256 возможных значений для графических символов. Всем 256 кодам был назначен графический символ в ПЗУ, включая коды от 0 до 31, которые были зарезервированы в ASCII для неграфических управляющих символов.

В разных восточноевропейских ПК использовались разные наборы символов, которые иногда выбирались пользователем с помощью перемычек или настройки CMOS. Эти наборы были разработаны так, чтобы максимально соответствовать 437, например, совместно использовать кодовые точки для многих символов рисования линий, при этом позволяя отображать текст на местном языке.

Альтернативные коды

Наследие кодовой страницы 437 - это числовые комбинации, используемые в кодах клавиш Windows Alt . Пользователь мог ввести символ, удерживая клавишу Alt и вводя трехзначный десятичный код клавиши Alt на цифровой клавиатуре, и многие пользователи запомнили числа, необходимые для CP437 (или для аналогичной кодовой страницы 850 ). Когда Microsoft перешла на свои собственные наборы символов (например, CP1252 ) и более поздний Unicode в Windows, исходные коды были сохранены; Microsoft добавила возможность вводить код в новом наборе символов, вводя цифровую клавиатуру 0 перед цифрами.

Набор символов

В следующих таблицах показана кодовая страница 437. Каждый символ показан с его эквивалентной кодовой точкой Unicode и его десятичным кодом Alt . См. Также примечания ниже, поскольку для некоторых кодовых точек существует несколько эквивалентных символов Unicode.

Хотя ПЗУ предоставляет графику для всех 256 различных возможных 8-битных кодов, некоторые API-интерфейсы не будут печатать некоторые кодовые точки, в частности диапазон 0–31 и код 127. Вместо этого они будут интерпретировать их как управляющие символы. Например, многие методы вывода текста на исходном IBM PC интерпретируют коды для BEL, BS, CR и LF. Многие принтеры также не могли печатать эти символы.

Кодовая страница 437
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
0_ NUL
0000
0

263A
1

263B
2

2665
3

2666
4

2663
5

2660
6

2022
7

25D8
8

25CB
9

25D9
10

2642
11

2640
12

266A
13

266B
14

263C
15
1_
25BA
16

25C4
17

2195
18

203C
19

00B6
20
§
00A7
21

25AC
22

21A8
23

2191
24

2193
25

2192
26

2190
27

221F
28

2194
29

25B2
30

25BC
31
2_ SP
0020
32
!
0021
33
"
0022
34
#
0023
35
$
0024
36
%
0025
37
&
0026
38
'
0027
39
(
0028
40
)
0029
41
*
002A
42
+
002B
43
,
002C
44
-
002D
45
.
002E
46
/
002F
47
3_ 0
0030
48
1
0031
49
2
0032
50
3
0033
51
4
0034
52
5
0035
53
6
0036
54
7
0037
55
8
0038
56
9
0039
57
:
003A
58
;
003B
59
<
003C
60
=
003D
61
>
003E
62
?
003F
63
4_ @
0040
64
A
0041
65
В
0042
66
С
0043
67
D
0044
68
E
0045
69
F
0046
70
G
0047
71
В
0048
72
Я
0049
73
J
004A
74
К
004В
75
L
004C
76
M
004D
77

004E
78
O
004F
79
5_ П
0050
80
Q
0051
81
R
0052
82
С
0053
83
Т
0054
84
U
0055
85
V
0056
86
W
0057
87
X
0058
88
Y
0059
89
Z
005A
90
[
005B
91
\
005C
92
]
005D
93
^
005E
94
_
005F
95
6_ `
0060
96
а
0061
97
b
0062
98
c
0063
99
d
0064
100
e
0065
101
f
0066
102
г
0067
103
h
0068
104
я
0069
105
j
006A
106
k
006B
107
l
006C
108
м
006D
109

006E
110
o
006F
111
7_ п
0070
112
в
0071
113
р
0072
114
с
0073
115
т
0074
116
u
0075
117
v
0076
118
ж
0077
119
х
0078
120
г
0079
121
z
007A
122
{
007B
123
|
007C
124
}
007D
125
~
007E
126

2302
127
8_ Ç
00C7
128
ü
00FC
129
é
00E9
130
â
00E2
131
ä
00E4
132
à
00E0
133
å
00E5
134
ç
00E7
135
ê
00EA
136
ë
00EB
137
è
00E8
138

00EF
139
î
00EE
140
ì
00EC
141
Ä
00C4
142
Å
00C5
143
9_ É
00C9
144
æ
00E6
145
Æ
00C6
146
ô
00F4
147
ö
00F6
148
ò
00F2
149
û
00FB
150
ù
00F9
151
ÿ
00FF
152
Ö
00D6
153
Ü
00DC
154
¢
00A2
155
£
00A3
156
¥
00A5
157

20A7
158
ƒ
0192
159
A_ á
00E1
160

00ED
161
ó
00F3
162
ú
00FA
163

00F1
164
Ñ
00D1
165
ª
00AA
166
º
00BA
167
¿
00BF
168

2310
169
¬
00AC
170
½
00BD
171
¼
00BC
172
¡
00A1
173
«
00AB
174
»
00BB
175
B_
2 591
176

2 592
+177

2593
+178

2 502
+179

2524
180

2 561
+181

2 562
+182

2556
183

две тысячи пятьсот пятьдесят-пять
184

2563
185

два тысячи пятьсот пятьдесят-один
186

2 557
187

255D
188

255C
189

255B
190

2510
191
C_
2 514
192

2 534
193

252C
194

251C
195

2500
196

253C
197

255E
198

255F
199

255A
200

2554
201

2 569
202

2566
203

2560
204
=
2550
205

256C
206

2567
207
D_
2568
208

2564
209

2 565
210

2559
211

2558
212

2552
213

2553
214

256B
215

256A
216

2518
217

250C
218

2588
219

2584
220

258C
221

+2590
222

2580
223
E_ α
03B1
224
ß
00DF
225
Γ
0393
226
π
03C0
227
Σ
03A3
228
σ
03C3
229
µ
00B5
230
τ
03C4
231
Φ
03A6
232
Θ
0398
233
Ом
03A9
234
δ
03B4
235

221E
236
φ
03C6
237
ε
03B5
238

2 229
+239
F_
две тысячи двести шестьдесят-одна
240
±
00B1
241

2265
242

2264
243

2320
244

два тысячи триста двадцать-один
245
÷
00F7
246

2248
247
°
00B0
248

2219
249
·
00B7
250

221A
251

207F
252
²
00B2
253

25A0
254
nbsp
00A0
255

  Письмо  Число  Пунктуация  Условное обозначение  Другой  Неопределенный

При переводе в Unicode некоторые коды не имеют уникального единственного эквивалента Unicode; правильный выбор может зависеть от контекста.

История

Репертуар кодовой страницы 437 был взят из набора символов текстовых процессоров Wang , согласно Биллу Гейтсу в интервью Гейтсу и Полу Аллену , появившемуся в выпуске журнала Fortune от 2 октября 1995 года :

«... Мы были очарованы специальными текстовыми процессорами от Wang, потому что мы верили, что машины общего назначения могут делать это так же хорошо. Вот почему, когда пришло время разрабатывать клавиатуру для IBM PC, мы добавили забавный Набор символов Wang в машину - вы знаете, смайлики, прямоугольники, треугольники и прочее. Мы думали, что когда-нибудь захотим сделать клон программы для обработки текстов Wang ».

Согласно интервью с Дэвидом Дж. Брэдли (разработчиком ROM-BIOS для ПК ), персонажи были определены во время четырехчасовой встречи во время полета из Сиэтла в Атланту Энди Саенсом (ответственным за видеокарту), Лью Эггебрехтом. (главный инженер по ПК) и сам.

Подбор графических символов имеет некоторую внутреннюю логику:

  • Строки таблицы 0 и 1, коды от 0 до 31 (от 00 в шестнадцатеричном формате до 1F в шестнадцатеричном формате ), представляют собой различные дингбаты (дополнительные и декоративные символы). Изолированный символ 127 (7F шестнадцатеричный ) также принадлежит к этой группе.
  • Строки со 2 по 7 таблицы, коды с 32 по 126 (от 20 шестнадцатеричных до 7E шестнадцатеричных ) являются стандартными печатными символами ASCII .
  • Строки таблицы с 8 по 10, коды от 128 до 175 (от 80 шестнадцатеричных до AF шестнадцатеричных ), представляют собой набор международных текстовых символов.
  • Строки таблицы от 11 до 13, коды 176 до 223 (В0 гекс с DF гекса ), являются окно рисования и блок символов. Этот блок устроен так, что символы с 192 по 223 ( шестнадцатеричный от C0 до шестнадцатеричного DF ) содержат все правые руки и области, закрашенные справа. Исходный адаптер дисплея IBM PC MDA хранил глифы из 437 символов кодовой страницы как растровые изображения шириной восемь пикселей , но для визуального улучшения отображал их каждые девять пикселей на экране. В этом диапазоне символов восьмой столбец пикселей дублировался специальной аппаратной схемой, таким образом заполняя пробелы в строках и заполненные области. Адаптер VGA позволяет включать и выключать это поведение.
  • Строки 14 и 15 таблицы, коды с 224 по 254 (от E0 шестнадцатеричного до FE шестнадцатеричного ) посвящены математическим символам, где первые двенадцать представляют собой набор греческих букв, обычно используемых в физике.

Большинство шрифтов для Microsoft Windows включают специальные графические символы в показанных индексах Unicode, поскольку они являются частью набора WGL4, который Microsoft рекомендует разработчикам шрифтов поддерживать. (Семейство моноширинных растровых шрифтов Terminal было ранним шрифтом, который воспроизводил всю кодовую страницу 437 символов, по крайней мере, в некоторых разрешениях.) Чтобы нарисовать эти символы непосредственно из этих кодовых точек, шрифт Microsoft Windows под названием MS Linedraw копирует всю кодовую страницу 437 символов, тем самым обеспечивая один способ отображения текста DOS на современной машине Windows, как это было показано в DOS, с ограничениями.

Интернационализация

Кодовая страница 437 состоит из ряда международных символов, в основном от 128 до 175 (от 80 шестнадцатеричных до AF шестнадцатеричных ). Однако он полностью охватывает только несколько основных западноевропейских языков, включая английский , немецкий и шведский , и поэтому в нем отсутствуют некоторые символы (в основном заглавные буквы), важные для многих основных западноевропейских языков:

  • Испанский : Á, Í, Ó и Ú
  • Французский : À, Â, È, Ê, Ë, Î, Ï, Ô, Œ, œ, Ù, Û и Ÿ
  • Португальский : Á, À, Â, Ã, ã, Ê, Í, Ó, Ô, Õ, õ и Ú
  • Каталанский : À, È, Í, Ï, Ò, Ó и Ú
  • Итальянский : À, È, Ì, Ò и Ù
  • Исландский : Á, Ð, ð, Í, Ó, Ú, Ý, ý, Þ и þ
  • Датский / норвежский : Ø и ø. Символ номер 237 ( шестнадцатеричный код ED ), малый фи (закрытая форма), может использоваться в качестве суррогата, даже если он может плохо отображаться (кроме того, он имеет тенденцию отображаться в Unicode и / или отображаться в шрифтах Unicode, поскольку открытый -form phi или замкнутая вертикальная форма phi, которые даже дальше от O с чертой). Для компенсации в кодовых страницах датского / норвежского и исландского языков ( 865 и 861 ) знак цента (¢) заменен на ø, а знак йены (¥) - на Ø.
  • Большинство символов греческого алфавита были опущены, за исключением основных математических символов. (Они были включены в кодовые страницы греческого языка 737 и 869. У некоторых греческих символов, которые уже были на кодовой странице 437, были изменены глифы с математической или научной формы, чтобы соответствовать фактическому использованию в греческом языке.)

Наряду с символами валюты цент (¢), фунт стерлингов (£) и иена / юань (¥), он имеет пару бывших символов европейской валюты: флорин (ƒ, Нидерланды) и песета (₧, Испания). Наличие последнего необычно, поскольку испанская песета никогда не была международной валютой, а также никогда не имела собственного символа; его просто сокращали как «Pt», «Pta», «Pts» или «Ptas». Однако испанские модели электрической пишущей машинки IBM также имели одну позицию, посвященную ей.

Более поздние наборы символов DOS, такие как кодовая страница 850 (DOS Latin-1), кодовая страница 852 (DOS Central-European) и кодовая страница 737 (DOS Greek), заполнили пробелы для международного использования с некоторой совместимостью с кодовой страницей 437, сохранив одиночные и двойные символы рисования прямоугольником, отбрасывая смешанные ( например, горизонтальный двойной / вертикальный одиночный). Все символы кодовой страницы 437 имеют одинаковые глифы в Unicode и в наборе символов Microsoft WGL4 , и поэтому доступны в большинстве шрифтов в Microsoft Windows , а также в шрифте VGA по умолчанию ядра Linux и шрифтах ISO 10646 для X11 .

Смотрите также

Примечания

использованная литература

  1. ^ Наборы символов , Internet Assigned Numbers Authority (IANA), 12 декабря 2018 г.
  2. ^ "Информационный документ CCSID 437" . Архивировано из оригинального 27 марта 2016 года.
  3. ^ "OEM 437" . Перейти в глобальный центр разработчиков . Microsoft . Архивировано из оригинала 9 июня 2016 года . Проверено 22 сентября 2011 года .
  4. ^ a b "Фирменный шрифт" . Энциклопедия . PCmag.com. Архивировано 27 ноября 2020 года . Проверено 19 октября 2021 года .
  5. ^ Кано, Надин. «Приложение H Кодовые страницы». Глобализация и локализация: кодовая страница 437 DOS Latin US . Разработка международного программного обеспечения . Microsoft . Архивировано 17 марта 2016 года . Проверено 14 ноября 2011 года .
  6. ^ a b c «Глоссарий терминов, используемых на этом сайте» . Microsoft . (См. Описание термина «Alt + Numpad»). Архивировано из оригинала на 8 сентября 2012 года . Проверено 17 августа 2018 года .
  7. ^ Мюррей Сарджент. «Ввод символов Unicode - Мюррей Сарджент: математика в офисе» . Проверено 17 августа 2018 года .
  8. ^ «Комбинации клавиш ALT + NUMPAD ASCII: α и Ω создания непонятных паролей» . Проверено 17 августа 2018 года .
  9. ^ «Вставка латинских символов и символов ASCII или Unicode - служба поддержки Office» . Microsoft . Проверено 17 августа 2018 года .
  10. ^ "Информационный документ кодовой страницы SBCS CPGID 00437" . Наборы кодированных символов и связанные ресурсы . IBM . 1986 [1984-05-01]. Архивировано 9 июня 2016 года . Проверено 14 ноября 2011 года .
  11. Стил, Шон (24 апреля 1996 г.). «cp437_DOSLatinUS в таблицу Unicode» (TXT) . 2.00. Консорциум Unicode . Архивировано 9 июня 2016 года . Проверено 14 ноября 2011 года .
  12. ^ Кодовая страница CPGID 00437 (pdf) (PDF) , IBM
  13. ^ Кодовая страница CPGID 00437 (txt) , IBM
  14. ^ Международные компоненты для Unicode (ICU), Ibm-437_P100-1995.ucm , 3 декабря 2002 года
  15. ^ "Кодовая страница (CPGID): 00437" . Наборы кодированных символов и связанные ресурсы . IBM . 1984 . Проверено 25 февраля 2017 года .
  16. ^ a b «Графические идентификаторы символов: алфавит, греческий» . Наборы кодированных символов и связанные ресурсы . IBM . Проверено 25 февраля 2017 года .
  17. ^ Unicode , Консорциум (21 мая 2003). «Глава 7: Европейские алфавитные письма». Стандарт Unicode 4.0 (PDF) . Addison-Wesley (опубликовано в августе 2003 г.). п. 176. ISBN. 0-321-18578-1. Проверено 9 июня +2016 .
  18. ^ "cpython / cp437.py на главном сервере · python / cpython · GitHub" . Проверено 17 августа 2018 года .
  19. ^ «Греческий и коптский: Диапазон: 0370–03FF» (PDF) . Стандарт Unicode, версия 9.0 . Консорциум Unicode . Проверено 25 февраля 2017 года .
  20. Эдвардс, Бендж (6 ноября 2015 г.) [2011]. «Происхождение символа смайлика ASCII: обмен электронной почтой с доктором Дэвидом Брэдли» . Архивировано 28 ноября 2016 года . Проверено 27 ноября +2016 . Если вы посмотрите на первые 32 символа в наборе символов IBM PC, вы увидите множество причудливых персонажей - смайлик, музыкальные ноты, масти игральных карт и другие. Они предназначались для игр с персонажами [...] Поскольку мы использовали 8-битные символы, у нас было 128 новых мест для заполнения. Мы поместили туда серьезных персонажей - три колонки с иностранными персонажами, основываясь на нашем опыте Datamaster . Три столбца блочных графических символов [...] у многих клиентов с адаптером монохромного дисплея вообще не будет графики. [...] в двух столбцах были математические символы, греческие буквы (для математики) и другие [...] о первых 32 символах (x00-x1F)? [...] Эти символы возникли при передаче телетайпа. Но мы могли отображать их на экранах персонажей. Итак, мы добавили набор «несерьезных» персонажей. Они были предназначены только для отображения символов, а не для передачи или хранения. Их наиболее вероятное использование будет в играх, основанных на персонажах. [...] Как и в большинстве случаев для IBM PC, годичный график разработки оставлял мало времени для размышлений и пересмотра. [...] набор персонажей был разработан в ходе четырехчасовой встречи из трех человек, и я был одним из тех, кто летел из Сиэтла в Атланту. После этой встречи были внесены некоторые незначительные изменения, но нужно было спроектировать / исправить / решить множество других вещей, так что это все. [...] другими участниками той поездки на самолете были Энди Саенс - ответственный за видеокарту и Лью Эггебрехт - главный инженер ПК.
  21. ^ Уилтон, Ричард (декабрь 1987). Руководство программиста по видеосистемам для ПК и PS / 2: максимальная производительность видео для EGA, VGA, HGC и MCGA (1-е изд.). Microsoft Press . ISBN 1-55615-103-9.
  22. ^ Джошуа Д. Нил, Регистры контроллера атрибутов: Регистр управления режимом атрибутов , Аппаратный уровень VGA и SVGA Страница информации о программировании видео: бит 2 - это включение линейной графики.
  23. ^ Майк Джейкобс. «Семейство шрифтов MS LineDraw - Типография | Microsoft Docs» . Типографика Microsoft . 2.00. Корпорация Microsoft . Проверено 17 августа 2018 года .
  24. ^ Персонал (26 октября 2013 г.). «WD97: Шрифт MS LineDraw не используется в Word» . Microsoft . 2.0. Microsoft . KB179422, Q179422. Архивировано 24 марта 2016 года . Проверено 1 июля 2012 года .

внешние ссылки