Формат с плавающей запятой одинарной точности - Single-precision floating-point format

Формат с плавающей запятой одинарной точности (иногда называемый FP32 или float32 ) - это формат компьютерных чисел , обычно занимающий 32 бита в компьютерной памяти ; он представляет широкий динамический диапазон числовых значений с использованием точки с плавающей запятой .

Переменная с плавающей запятой может представлять более широкий диапазон чисел, чем переменная с фиксированной запятой той же разрядности за счет точности. Подписано 32-битное целое число , переменная имеет максимальное значение , равное 2 ³¹ - 1 = 2147483647, в то время как 754 стандарта IEEE 32-битная база-2 переменная с плавающей точкой имеет максимальное значение (2 - 2 ^-23 ) × 2 ¹²⁷ ≈ 3.4028235 × 10 ³⁸ . Все целые числа с 7 или менее десятичными знаками и любые 2 ⁿ для целого числа −149 ≤ n ≤ 127 могут быть точно преобразованы в значение с плавающей запятой одинарной точности IEEE 754.

В IEEE 754-2008 стандарт , формат 32-битная база-2 официально называется binary32 ; в IEEE 754-1985 он назывался синглом . IEEE 754 определяет дополнительные типы с плавающей запятой, такие как 64-битные представления с двойной точностью по основанию 2 и, в последнее время, представления с основанием 10.

Одним из первых языков программирования, предоставивших типы данных с плавающей запятой одинарной и двойной точности, был Фортран . До широкого принятия IEEE 754-1985 представление и свойства типов данных с плавающей запятой зависели от производителя компьютера и модели компьютера, а также от решений, принимаемых разработчиками языков программирования. Например, тип данных одинарной точности GW-BASIC был 32-битным форматом с плавающей запятой MBF .

Одинарная точность называется REAL в Fortran , SINGLE-FLOAT в Common Lisp , float в C , C ++ , C # , Java , Float в Haskell и Swift и Single в Object Pascal ( Delphi ), Visual Basic и MATLAB . Однако float в Python , Ruby , PHP и OCaml и single в версиях Octave до 3.2 относятся к числам с двойной точностью . В большинстве реализаций PostScript и некоторых встроенных системах единственная поддерживаемая точность - одинарная.

Двоичный формат с плавающей запятой одинарной точности IEEE 754: binary32

Стандарт IEEE 754 определяет binary32 как имеющий:

Знаковый бит : 1 бит
Ширина экспоненты : 8 бит
Существенная точность : 24 бита (23 сохранены явно)

Это дает точность от 6 до 9 десятичных знаков . Если десятичная строка с не более чем 6 значащими цифрами преобразована в представление с одинарной точностью IEEE 754, а затем преобразована обратно в десятичную строку с тем же количеством цифр, окончательный результат должен соответствовать исходной строке. Если число с одинарной точностью IEEE 754 преобразовано в десятичную строку, содержащую не менее 9 значащих цифр, а затем преобразовано обратно в представление с одинарной точностью, окончательный результат должен соответствовать исходному числу.

Бит знака определяет знак числа, который также является знаком мантиссы. Показатель степени представляет собой 8-битовое целое число без знака от 0 до 255 в смещенной форме : значение степени 127 представляет фактический ноль. Экспоненты находятся в диапазоне от -126 до +127, поскольку показатели степени -127 (все нули) и +128 (все единицы) зарезервированы для специальных чисел.

Истинное значение включает 23 дробных бита справа от двоичной точки и неявный ведущий бит (слева от двоичной точки) со значением 1, если показатель степени не сохранен со всеми нулями. Таким образом , только 23 фракций бит мантисс появляются в формате память, но общая точность 24 бита (эквивалент для входа ₁₀ (2 ²⁴ ) ≈ 7.225 десятичных цифр). Биты расположены следующим образом:

Действительное значение, принимаемое заданными 32-битными двоичными 32 данными с заданным знаком , смещенной экспонентой e (8-битное целое число без знака) и 23-битной дробью, равно

{\ displaystyle (-1) ^ {b_ {31}} \ times 2 ^ {(b_ {30} b_ {29} \ dots b_ {23}) _ {2} -127} \ times (1.b_ {22 } b_ {21} \ dots b_ {0}) _ {2}}

,

который дает

{\ displaystyle {\ text {value}} = (- 1) ^ {\ text {sign}} \ times 2 ^ {(E-127)} \ times \ left (1+ \ sum _ {i = 1} ^ {23} b_ {23-i} 2 ^ {- i} \ right).}

В этом примере:

${\ displaystyle {\ text {sign}} = b_ {31} = 0}$ ,
${\ displaystyle (-1) ^ {\ text {sign}} = (- 1) ^ {0} = + 1 \ in \ {- 1, + 1 \}}$ ,
${\ displaystyle E = b_ {30} b_ {29} \ dots b_ {23} = \ sum _ {i = 0} ^ {7} b_ {23 + i} 2 ^ {+ i} = 124 \ in \ { 1, \ ldots, (2 ^ {8} -1) -1 \} = \ {1, \ ldots, 254 \}}$ ,
${\ displaystyle 2 ^ {(E-127)} = 2 ^ {124-127} = 2 ^ {- 3} \ in \ {2 ^ {- 126}, \ ldots, 2 ^ {127} \}}$ ,
${\ displaystyle 1.b_ {22} b_ {21} ... b_ {0} = 1 + \ sum _ {i = 1} ^ {23} b_ {23-i} 2 ^ {- i} = 1 + 1 \ cdot 2 ^ {- 2} = 1,25 \ дюйм \ {1,1 + 2 ^ {- 23}, \ ldots, 2-2 ^ {- 23} \} \ subset [1; 2-2 ^ {- 23}] \ subset [1; 2)}$ .

таким образом:

${\ displaystyle {\ text {value}} = (+ 1) \ times 2 ^ {- 3} \ times 1,25 = + 0,15625}$ .

Примечание:

${\ displaystyle 1 + 2 ^ {- 23} \ приблизительно 1.000 \, 000 \, 119}$ ,
${\ displaystyle 2-2 ^ {- 23} \ приблизительно 1,999 \, 999 \, 881}$ ,
${\ displaystyle 2 ^ {- 126} \ приблизительно 1.175 \, 494 \, 35 \ times 10 ^ {- 38}}$ ,
${\ displaystyle 2 ^ {+ 127} \ приблизительно 1.701 \, 411 \, 83 \ times 10 ^ {+ 38}}$ .

Экспонентное кодирование

Двоичная экспонента с плавающей запятой одинарной точности кодируется с использованием двоичного представления смещения с нулевым смещением 127; также известный как смещение экспоненты в стандарте IEEE 754.

E _мин = 01 _H −7F _H = −126
E _макс = FE _H −7F _H = 127
Смещение экспоненты = 7F _H = 127

Таким образом, чтобы получить истинную экспоненту, как определено двоичным представлением смещения, смещение 127 должно быть вычтено из сохраненной экспоненты.

Сохраненные экспоненты 00 _H и FF _H интерпретируются особым образом.

Экспонента	фракция = 0	дробь ≠ 0	Уравнение
00 _H = 00000000 ₂	± ноль	субнормальное число	${\ displaystyle (-1) ^ {знак} \ times 2 ^ {- 126} \ times 0.fraction}$
01 _H , ..., FE _H = 00000001 ₂ , ..., 11111110 ₂	нормальное значение		${\ displaystyle (-1) ^ {знак} \ times 2 ^ {exponent-127} \ times 1.fraction}$
FF _H = 11111111 ₂	± бесконечность	NaN (тихо, сигнализирует)

Минимальное положительное нормальное значение равно, а минимальное положительное (субнормальное) значение . ${\ displaystyle 2 ^ {- 126} \ приблизительно 1,18 \ times 10 ^ {- 38}}$ ${\ displaystyle 2 ^ {- 149} \ примерно 1,4 \ times 10 ^ {- 45}}$

Преобразование из десятичного представления в формат binary32

В общем, обратитесь к самому стандарту IEEE 754 для строгого преобразования (включая поведение округления) действительного числа в его эквивалентный формат binary32.

Здесь мы можем показать, как преобразовать действительное число с основанием 10 в двоичный 32-формат IEEE 754, используя следующую схему:

Рассмотрим действительное число с целой и дробной частью, например 12,375.
Преобразование и нормализация целой части в двоичную
Преобразуйте дробную часть, используя следующую технику, как показано здесь.
Добавьте два результата и настройте их, чтобы получить правильное окончательное преобразование.

Преобразование дробной части: Рассмотрим 0,375, дробную часть 12,375. Чтобы преобразовать его в двоичную дробь, умножьте дробь на 2, возьмите целую часть и повторите с новой дробью на 2, пока не будет найдена дробная часть, равная нулю, или пока не будет достигнут предел точности, который составляет 23 цифры дробной части для формата IEEE 754 binary32. .

{\ displaystyle 0,375 \ times 2 = 0,750 = 0 + 0,750 \ Rightarrow b _ {- 1} = 0}

, целая часть представляет собой двоичную дробную цифру. Чтобы продолжить, умножьте 0,750 на 2.

{\ displaystyle 0,750 \ times 2 = 1,500 = 1 + 0,500 \ Rightarrow b _ {- 2} = 1}

{\ displaystyle 0.500 \ times 2 = 1.000 = 1 + 0.000 \ Rightarrow b _ {- 3} = 1}

, дробь = 0,011, конец

Мы видим, что это может быть точно представлено в двоичном формате как . Не все десятичные дроби могут быть представлены в виде конечной двоичной дроби. Например, десятичное число 0,1 не может быть точно представлено в двоичном формате, оно может быть только приближенным. Следовательно: ${\ displaystyle (0,375) _ {10}}$ ${\ displaystyle (0,011) _ {2}}$

{\ displaystyle (12,375) _ {10} = (12) _ {10} + (0,375) _ {10} = (1100) _ {2} + (0,011) _ {2} = (1100,011) _ {2} }

Поскольку для формата binary32 стандарта IEEE 754 требуется, чтобы реальные значения были представлены в формате (см. Нормализованное число , Денормализованное число ), 1100.011 сдвигается вправо на 3 цифры, чтобы стать ${\ displaystyle (1.x_ {1} x_ {2} ... x_ {23}) _ {2} \ times 2 ^ {e}}$ ${\ displaystyle (1.100011) _ {2} \ times 2 ^ {3}}$

Наконец, мы видим, что: ${\ displaystyle (12.375) _ {10} = (1.100011) _ {2} \ times 2 ^ {3}}$

Из чего мы делаем вывод:

Показатель степени равен 3 (и, следовательно, в смещенной форме ) ${\ displaystyle 130 = 1000 \ 0010}$
Дробь равна 100011 (если смотреть справа от двоичной точки)

Из них мы можем сформировать результирующее 32-битное представление формата binary32 IEEE 754 для 12,375:

{\ displaystyle (12.375) _ {10} = (0 \ 10000010 \ 10001100000000000000000) _ {2} = (41460000) _ {16}}

Примечание: подумайте о преобразовании 68,123 в двоичный 32-формат IEEE 754: используя описанную выше процедуру, вы ожидаете получить с последними 4 битами, равными 1001. Однако из-за поведения округления по умолчанию для формата IEEE 754, вы получите , чьи последние 4 бита равны 1010. ${\ displaystyle ({\ text {42883EF9}}) _ {16}}$ ${\ displaystyle ({\ text {42883EFA}}) _ {16}}$

Пример 1: Рассмотрим десятичную дробь 1. Мы видим, что: ${\ displaystyle (1) _ {10} = (1,0) _ {2} \ times 2 ^ {0}}$

Из чего мы делаем вывод:

Показатель степени равен 0 (и, следовательно, в смещенной форме ) ${\ displaystyle 127 = 0111 \ 1111}$
Дробь равна 0 (если смотреть справа от двоичной точки в 1.0, все ) ${\ displaystyle 0 = 000 ... 0}$

Из них мы можем сформировать результирующее 32-битное представление в двоичном формате IEEE 754 действительного числа 1:

{\ displaystyle (1) _ {10} = (0 \ 01111111 \ 00000000000000000000000) _ {2} = ({\ text {3F800000}}) _ {16}}

Пример 2: Рассмотрим значение 0,25. Мы это видим: ${\ displaystyle (0,25) _ {10} = (1,0) _ {2} \ times 2 ^ {- 2}}$

Из чего мы делаем вывод:

Показатель степени равен −2 (и в смещенной форме это так ) ${\ Displaystyle (127 + (- 2)) _ {10} = (125) _ {10} = (0111 \ 1101) _ {2}}$
Дробь равна 0 (если смотреть справа от двоичной точки в 1.0, все нули)

Из них мы можем сформировать результирующее 32-битное представление в формате binary32 IEEE 754 действительного числа 0,25:

{\ displaystyle (0,25) _ {10} = (0 \ 01111101 \ 00000000000000000000000) _ {2} = ({\ text {3E800000}}) _ {16}}

Пример 3: Рассмотрим значение 0,375. Мы видели это ${\ displaystyle 0.375 = {(0,011) _ {2}} = {(1.1) _ {2}} \ times 2 ^ {- 2}}$

Следовательно, после определения представления 0,375, мы можем продолжить, как указано выше: ${\ displaystyle {(1.1) _ {2}} \ times 2 ^ {- 2}}$

Показатель степени равен −2 (и в смещенной форме это так ) ${\ Displaystyle (127 + (- 2)) _ {10} = (125) _ {10} = (0111 \ 1101) _ {2}}$
Дробь равна 1 (если смотреть справа от двоичной точки в 1.1, это одно ) ${\ displaystyle 1 = x_ {1}}$

Из них мы можем сформировать результирующее 32-битное представление в формате binary32 IEEE 754 действительного числа 0,375:

{\ displaystyle (0,375) _ {10} = (0 \ 01111101 \ 10000000000000000000000) _ {2} = ({\ text {3EC00000}}) _ {16}}

Примеры одинарной точности

Эти примеры даны в битовом представлении , в шестнадцатеричном и двоичном формате значения с плавающей запятой. Это включает знак, (смещенную) экспоненту и значащую.

0 00000000 00000000000000000000001₂ = 0000 0001₁₆ = 2⁻¹²⁶ × 2⁻²³ = 2⁻¹⁴⁹ ≈ 1.4012984643 × 10⁻⁴⁵
                                                   (smallest positive subnormal number)

0 00000000 11111111111111111111111₂ = 007f ffff₁₆ = 2⁻¹²⁶ × (1 − 2⁻²³) ≈ 1.1754942107 ×10⁻³⁸
                                                   (largest subnormal number)

0 00000001 00000000000000000000000₂ = 0080 0000₁₆ = 2⁻¹²⁶ ≈ 1.1754943508 × 10⁻³⁸
                                                   (smallest positive normal number)

0 11111110 11111111111111111111111₂ = 7f7f ffff₁₆ = 2¹²⁷ × (2 − 2⁻²³) ≈ 3.4028234664 × 10³⁸
                                                   (largest normal number)

0 01111110 11111111111111111111111₂ = 3f7f ffff₁₆ = 1 − 2⁻²⁴ ≈ 0.999999940395355225
                                                   (largest number less than one)

0 01111111 00000000000000000000000₂ = 3f80 0000₁₆ = 1 (one)

0 01111111 00000000000000000000001₂ = 3f80 0001₁₆ = 1 + 2⁻²³ ≈ 1.00000011920928955
                                                   (smallest number larger than one)

1 10000000 00000000000000000000000₂ = c000 0000₁₆ = −2
0 00000000 00000000000000000000000₂ = 0000 0000₁₆ = 0
1 00000000 00000000000000000000000₂ = 8000 0000₁₆ = −0
                                   
0 11111111 00000000000000000000000₂ = 7f80 0000₁₆ = infinity
1 11111111 00000000000000000000000₂ = ff80 0000₁₆ = −infinity
                                   
0 10000000 10010010000111111011011₂ = 4049 0fdb₁₆ ≈ 3.14159274101257324 ≈ π ( pi )
0 01111101 01010101010101010101011₂ = 3eaa aaab₁₆ ≈ 0.333333343267440796 ≈ 1/3
                                   
x 11111111 10000000000000000000001₂ = ffc0 0001₁₆ = qNaN (on x86 and ARM processors)
x 11111111 00000000000000000000001₂ = ff80 0001₁₆ = sNaN (on x86 and ARM processors)

По умолчанию 1/3 округляется в большую сторону , а не в меньшую, как при двойной точности , из-за четного числа бит в мантиссе. Биты на 1/3 за точкой округления 1010...составляют более 1/2 единицы в последнем месте .

Кодировки qNaN и sNaN не указаны в IEEE 754 и по-разному реализованы на разных процессорах. Семейство x86 и процессоры семейства ARM используют старший бит значимого поля для обозначения тихого NaN. Процессоры PA-RISC используют этот бит для указания NaN сигнализации.

Преобразование двоичного числа с одинарной точностью в десятичное

В этом примере мы начнем с шестнадцатеричного представления значения 41C80000 и преобразуем его в двоичное:

{\ displaystyle {\ text {41C8 0000}} _ {16} = 0100 \ 0001 \ 1100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2}}

затем мы разбиваем его на три части: бит знака, показатель степени и значащая величина.

Знаковый бит: ${\ displaystyle 0_ {2}}$
Показатель: ${\ displaystyle 1000 \ 0011_ {2} = 83_ {16} = 131_ {10}}$
Значение: ${\ displaystyle 100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2} = 480000_ {16}}$

Затем мы добавляем неявный 24-й бит к мантиссе:

Значение: ${\ displaystyle \ mathbf {1} 100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2} = {\ text {C80000}} _ {16}}$

и декодируем значение экспоненты вычитанием 127:

Необработанная экспонента: ${\ displaystyle 83_ {16} = 131_ {10}}$
Расшифрованная экспонента: ${\ displaystyle 131-127 = 4}$

Каждый из 24 бит мантиссы (включая неявный 24-й бит), от бита 23 до бита 0, представляет собой значение, начинающееся с 1 и уменьшающееся вдвое для каждого бита, как показано ниже:

bit 23 = 1
bit 22 = 0.5
bit 21 = 0.25
bit 20 = 0.125
bit 19 = 0.0625
bit 18 = 0.03125
.
.
bit 0 = 0.00000011920928955078125

Мантисса в этом примере имеет три установленных бита: бит 23, бит 22 и бит 19. Теперь мы можем декодировать мантиссу, складывая значения, представленные этими битами.

Расшифрованное значение: ${\ displaystyle 1 + 0,5 + 0,0625 = 1,5625 = {\ text {C80000}} / 2 ^ {23}}$

Затем нам нужно умножить с основанием 2 на степень экспоненты, чтобы получить окончательный результат:

{\ displaystyle 1.5625 \ times 2 ^ {4} = 25}

Таким образом

{\ displaystyle {\ text {41C8 0000}} = 25}

Это эквивалентно:

{\ Displaystyle п = (- 1) ^ {s} \ раз (1 + м * 2 ^ {- 23}) \ раз 2 ^ {х-127}}

где $s$ - знаковый бит, $x$ - показатель степени, а $m$ - значение.

Ограничения точности десятичных значений в [1, 16777216]

Десятичные числа от 1 до 2: фиксированный интервал 2 ⁻²³ (1 + 2 ⁻²³ - следующее по величине число с плавающей запятой после 1)
Десятичные числа от 2 до 4: фиксированный интервал 2 ⁻²²
Десятичные числа от 4 до 8: фиксированный интервал 2 ⁻²¹
...
Десятичные числа от 2 ⁿ до 2 ^{n + 1} : фиксированный интервал 2 ^n-23
...
Десятичные числа от 2 ²² = 4194304 до 2 ²³ = 8388608: фиксированный интервал 2 ⁻¹ = 0,5
Десятичные числа от 2 ²³ = 8388608 до 2 ²⁴ = 16777216: фиксированный интервал 2 ⁰ = 1

Ограничения точности для целочисленных значений

Целые числа от 0 до 16777216 могут быть точно представлены (также применимо к отрицательным целым числам от -16777216 до 0)
Целые числа от 2 ²⁴ = 16777216 до 2 ²⁵ = 33554432 округляются до кратного 2 (четного числа).
Целые числа от 2 ²⁵ до 2 ²⁶ округляются до кратного 4
...
Целые числа от 2 ⁿ до 2 ^{n + 1} округлить до кратного 2 ^n-23
...
Целых между 2 ¹²⁷ и 2 ¹²⁸ раундом кратными 2 ¹⁰⁴
Целые числа больше или равные 2 ¹²⁸ округляются до «бесконечности».

Оптимизация

Конструкция формата с плавающей запятой допускает различные оптимизации, являющиеся результатом простой генерации аппроксимации логарифма с основанием 2 из целочисленного представления необработанного битового шаблона. Целочисленная арифметика и сдвиг битов могут дать приближение к обратному квадратному корню ( быстрый обратный квадратный корень ), что обычно требуется в компьютерной графике .

Смотрите также

Стандарт IEEE для арифметики с плавающей запятой (IEEE 754)
ISO / IEC 10967 , арифметика, не зависящая от языка
Примитивный тип данных
Численная стабильность

Languages

In other projects

Формат с плавающей запятой одинарной точности - Single-precision floating-point format

СОДЕРЖАНИЕ

Двоичный формат с плавающей запятой одинарной точности IEEE 754: binary32

Экспонентное кодирование

Преобразование из десятичного представления в формат binary32

Примеры одинарной точности

Преобразование двоичного числа с одинарной точностью в десятичное

Ограничения точности десятичных значений в [1, 16777216]

Ограничения точности для целочисленных значений

Оптимизация

Смотрите также

использованная литература

внешние ссылки