Битовая глубина звука - Audio bit depth

Аналоговый сигнал (красный), закодированный в 4-битные цифровые выборки PCM (синий); битовая глубина равна четырем, поэтому амплитуда каждой выборки - одно из 16 возможных значений.

В цифровом аудио с использованием импульсно-кодовой модуляции (ИКМ) битовая глубина - это количество бит информации в каждой выборке , и она напрямую соответствует разрешающей способности каждой выборки. Примеры битовой глубины включают компакт-диск Digital Audio , который использует 16 бит на сэмпл, и DVD-Audio и Blu-ray Disc, которые могут поддерживать до 24 бит на сэмпл.

В базовых реализациях изменения битовой глубины в первую очередь влияют на уровень шума из-за ошибки квантования, то есть на отношение сигнал / шум (SNR) и динамический диапазон . Однако такие методы, как дизеринг , формирование шума и передискретизация, смягчают эти эффекты без изменения битовой глубины. Битовая глубина также влияет на скорость передачи данных и размер файла.

Битовая глубина имеет значение только в отношении цифрового сигнала PCM . Не-PCM форматы, такие как форматы сжатия с потерями , не имеют связанной битовой глубины.

Двоичное представление

Сигнал ИКМ - это последовательность цифровых аудиосэмплов, содержащих данные, обеспечивающие необходимую информацию для восстановления исходного аналогового сигнала . Каждый отсчет представляет собой амплитуду сигнала в определенный момент времени, и отсчеты равномерно распределены во времени. Амплитуда - это единственная информация, которая явно хранится в выборке, и она обычно хранится как целое число или число с плавающей запятой , закодированное как двоичное число с фиксированным количеством цифр: битовая глубина выборки , также называемая длиной слова. или размер слова.

Разрешение указывает количество дискретных значений, которые могут быть представлены в диапазоне аналоговых значений. Разрешение двоичных целых чисел экспоненциально увеличивается с увеличением длины слова. Добавление одного бита увеличивает разрешение вдвое, добавление в два раза увеличивает его и так далее. Число возможных значений, которые могут быть представлены целочисленной битовой глубиной, можно вычислить, используя 2 n , где n - битовая глубина. Таким образом, 16-битная система имеет разрешение 65 536 (2 16 ) возможных значений.

Integer PCM аудио данные обычно хранятся в виде подписанных чисел в дополнительном двоичном формате.

Многие аудио форматы файлов и цифровых аудио рабочих станций (галки) теперь поддерживает форматы PCM с образцами представлены числами с плавающей точкой. И формат файла WAV , и формат файла AIFF поддерживают представления с плавающей запятой. В отличие от целых чисел, битовая комбинация которых представляет собой одну серию битов, число с плавающей запятой вместо этого состоит из отдельных полей, математическая связь которых образует число. Наиболее распространенным стандартом является IEEE 754, который состоит из трех полей: знаковый бит, который представляет, является ли число положительным или отрицательным, показатель степени и мантисса, которая увеличивается на показатель степени. Мантисса выражается как двоичная дробь в форматах с плавающей запятой IEEE base-two.

Квантование

Битовая глубина ограничивает отношение сигнал / шум (SNR) восстановленного сигнала до максимального уровня, определяемого ошибкой квантования . Битовая глубина не влияет на частотную характеристику , которая ограничена частотой дискретизации .

Ошибка квантования, возникающая при аналого-цифровом преобразовании (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным цифровым значением. Шум нелинейный и зависит от сигнала.

8-битовое двоичное число (149 в десятичной системе ), причем младший бит выделены

В идеальном АЦП, где ошибка квантования равномерно распределена между младшим значащим битом (LSB) и где сигнал имеет равномерное распределение, охватывающее все уровни квантования, отношение сигнал / шум квантования (SQNR) может быть вычислено из

где Q - количество битов квантования, а результат измеряется в децибелах (дБ).

Следовательно, 16-битный цифровой звук на компакт-дисках имеет теоретический максимум SNR 96 дБ, а профессиональный 24-битный цифровой звук достигает 144 дБ. По состоянию на 2011 год технология цифрового аудиопреобразователя ограничена отношением сигнал / шум около 123 дБ ( фактически 21 бит) из-за реальных ограничений в конструкции интегральных схем . Тем не менее, это примерно соответствует характеристикам слуховой системы человека . Несколько преобразователей могут использоваться для охвата разных диапазонов одного и того же сигнала, объединяясь вместе для записи более широкого динамического диапазона в долгосрочной перспективе, при этом ограничиваясь динамическим диапазоном одного преобразователя в краткосрочной перспективе, что называется расширением динамического диапазона. .

Отношение сигнал / шум и разрешение битовой глубины
# бит SNR Возможные целочисленные значения (на выборку) Диапазон со знаком по основанию десять (для каждого образца)
4 24,08 дБ 16 От −8 до +7
8 48,16 дБ 256 От −128 до +127
11 66,22 дБ 2048 От −1024 до +1023
12 72,24 дБ 4096 От −2048 до +2047
16 96,33 дБ 65 536 От −32 768 до +32 767
18 108,37 дБ 262 144 От -131072 до +131071
20 120,41 дБ 1 048 576 От −524 288 до +524 287
24 144,49 дБ 16 777 216 От −8 388 608 до +8 388 607
32 192,66 дБ 4 294 967 296 От −2 147 483 648 до +2 147 483 647
48 288,99 дБ 281 474 976 710 656 -140,737,488,355,328 до +140,737,488,355,327
64 385,32 дБ 18 446 744 073 709 551 616 От −9,223,372,036,854,775,808 до +9,223,372,036,854,775,807

Плавающая запятая

Разрешение отсчетов с плавающей запятой менее прямолинейно, чем целочисленных отсчетов, поскольку значения с плавающей запятой не распределены равномерно. В представлении с плавающей запятой пространство между любыми двумя соседними значениями пропорционально значению. Это значительно увеличивает SNR по сравнению с целочисленной системой, потому что точность сигнала высокого уровня будет такой же, как точность идентичного сигнала на более низком уровне.

Компромисс между числами с плавающей запятой и целыми числами заключается в том, что пространство между большими значениями с плавающей запятой больше, чем пространство между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей запятой приводит к большей ошибке, чем округление небольшого числа с плавающей запятой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют равномерное округление, всегда округляя младший бит до 0 или 1, а с плавающей запятой имеет однородное отношение сигнал / шум, уровень шума квантования всегда пропорционален уровню сигнала. Минимальный уровень шума с плавающей запятой будет повышаться по мере увеличения сигнала и падать по мере его падения, что приводит к слышимым отклонениям, если битовая глубина достаточно мала.

Обработка звука

Большинство операций обработки цифрового звука включают повторное квантование выборок и, таким образом, вносят дополнительную ошибку округления, аналогичную исходной ошибке квантования, возникающей во время аналого-цифрового преобразования. Чтобы предотвратить ошибку округления, превышающую неявную ошибку АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные отсчеты.

Операции цифровой обработки сигналов (DSP) могут выполняться с точностью до фиксированной или плавающей точки. В любом случае точность каждой операции определяется точностью аппаратных операций, используемых для выполнения каждого шага обработки, а не разрешением входных данных. Например, на процессорах x86 операции с плавающей запятой выполняются с одинарной или двойной точностью, а операции с фиксированной запятой - с 16-, 32- или 64-битным разрешением. Следовательно, вся обработка, выполняемая на оборудовании на базе Intel, будет выполняться с этими ограничениями независимо от исходного формата.

Цифровые сигнальные процессоры с фиксированной точкой часто поддерживают определенную длину слова для поддержки определенных разрешений сигнала. Например, микросхема Motorola 56000 DSP использует 24-битные умножители и 56-битные накопители для выполнения операций умножения-накопления на двух 24-битных выборках без переполнения или усечения. На устройствах, которые не поддерживают большие накопители, результаты с фиксированной точкой могут быть усечены, что снижает точность. Ошибки возникают на нескольких этапах DSP со скоростью, которая зависит от выполняемых операций. Для некоррелированных шагов обработки аудиоданных без смещения постоянного тока ошибки считаются случайными с нулевым средним. При этом предположении стандартное отклонение распределения представляет собой сигнал ошибки, а ошибка квантования масштабируется как квадратный корень из числа операций. Высокие уровни точности необходимы для алгоритмов, включающих повторяющуюся обработку, например свертку . Высокие уровни точности также необходимы в рекурсивных алгоритмах, таких как фильтры с бесконечной импульсной характеристикой (БИХ). В частном случае БИХ-фильтров ошибка округления может ухудшить частотную характеристику и вызвать нестабильность.

Дизеринг

Запас и минимальный уровень шума на этапах аудиопроцесса для сравнения с уровнем дизеринга

Шум, вносимый ошибкой квантования, включая ошибки округления и потерю точности, вносимую во время обработки звука, может быть уменьшен путем добавления небольшого количества случайного шума, называемого дизерингом , к сигналу перед квантованием. Дизеринг устраняет нелинейные ошибки квантования, давая очень низкие искажения, но за счет слегка повышенного минимального уровня шума . Рекомендуемый дизеринг для 16-битного цифрового звука, измеренного с использованием взвешивания шума ITU-R 468 , примерно на 66 дБ ниже уровня выравнивания или на 84 дБ ниже полной шкалы цифрового звука , что сопоставимо с уровнем шума микрофона и помещения и, следовательно, имеет незначительные последствия для 16-разрядного. бит аудио.

24-битный звук не требует дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, но, судя по таблицам данных производителя, не существует АЦП, который может обеспечить более ~ 125 дБ.

Дизеринг также можно использовать для увеличения эффективного динамического диапазона. Воспринимается динамический диапазон 16-битного звука может составлять 120 дБ или больше с шумом формы псевдослучайного сигнала, воспользовавшись частотной характеристики человеческого уха.

Динамический диапазон и запас по высоте

Динамический диапазон - это разница между самым большим и самым маленьким сигналом, который система может записать или воспроизвести. Без дизеринга динамический диапазон коррелирует с минимальным уровнем шума квантования. Например, 16-битное целочисленное разрешение обеспечивает динамический диапазон около 96 дБ. При правильном применении дизеринга цифровые системы могут воспроизводить сигналы с уровнями ниже, чем их разрешение обычно позволяет, расширяя эффективный динамический диапазон за пределы, налагаемые разрешением. Использование таких методов, как передискретизация и формирование шума, может дополнительно расширить динамический диапазон дискретизированного звука, перемещая ошибку квантования за пределы интересующей полосы частот.

Если максимальный уровень сигнала ниже, чем разрешено битовой глубиной, запись имеет запас по пространству . Использование более высокой битовой глубины во время студийной записи может сделать доступным запас по пространству при сохранении того же динамического диапазона. Это снижает риск клиппирования без увеличения ошибок квантования при низкой громкости.

Передискретизация

Передискретизация - это альтернативный метод увеличения динамического диапазона звука PCM без изменения количества бит на выборку. При передискретизации аудиосэмплы собираются с кратностью желаемой частоты дискретизации. Поскольку предполагается, что ошибка квантования равномерно распределена по частоте, большая часть ошибки квантования смещается в сторону ультразвуковых частот и может быть удалена с помощью цифроаналогового преобразователя во время воспроизведения.

Для увеличения разрешения, эквивалентного n дополнительных битов, сигнал должен быть передискретизирован на

Например, 14-битный АЦП может воспроизводить 16-битный звук 48 кГц при работе с 16-кратной передискретизацией или 768 кГц. Поэтому передискретизированный PCM обменивает меньшее количество бит на выборку на большее количество выборок, чтобы получить такое же разрешение.

Динамический диапазон также может быть расширен за счет передискретизации при восстановлении сигнала без передискретизации в источнике. Рассмотрим 16-кратную передискретизацию при реконструкции. Каждая выборка при реконструкции будет уникальной в том смысле, что для каждой из исходных точек выборки вставляются шестнадцать, все они были рассчитаны с помощью фильтра цифровой реконструкции . Механизм увеличения эффективной битовой глубины описан ранее, то есть мощность шума квантования не была уменьшена, но спектр шума был расширен на 16-кратную ширину полосы звукового сигнала.

Историческая справка. Стандарт компакт-дисков был разработан в результате сотрудничества Sony и Philips. Первый потребительский блок Sony был оснащен 16-битным ЦАП; первые Philips представили двойные 14-битные ЦАП. Это вызвало путаницу на рынке и даже в профессиональных кругах, потому что 14-битный PCM допускает SNR 84 дБ, что на 12 дБ меньше, чем 16-битный PCM. Philips реализовал 4-кратную передискретизацию с формированием шума первого порядка, что теоретически реализовало полный динамический диапазон 96 дБ формата CD. На практике Philips CD100 имел отношение сигнал / шум 90 дБ в звуковом диапазоне 20 Гц - 20 кГц, как и Sony CDP-101.

Формирование шума

Передискретизация сигнала приводит к одинаковому шуму квантования на единицу ширины полосы на всех частотах и ​​к динамическому диапазону, который улучшается только при получении квадратного корня из коэффициента передискретизации. Формирование шума - это метод, который добавляет дополнительный шум на более высоких частотах, который устраняет некоторые ошибки на более низких частотах, что приводит к большему увеличению динамического диапазона при передискретизации. Для формирования шума n- го порядка динамический диапазон передискретизированного сигнала улучшается на дополнительные 6 n  дБ по сравнению с передискретизацией без формирования шума. Например, для аналогового звука 20 кГц, дискретизированного с 4-кратной передискретизацией с формированием шума второго порядка, динамический диапазон увеличивается на 30 дБ. Следовательно, 16-битный сигнал, дискретизированный с частотой 176 кГц, будет иметь битовую глубину, равную 21-битному сигналу, дискретизированному с частотой 44,1 кГц, без формирования шума.

Формирование шума обычно реализуется с дельта-сигма модуляцией . Используя дельта-сигма модуляцию, Direct Stream Digital достигает теоретического отношения сигнал / шум 120 дБ на звуковых частотах с использованием 1-битного звука с 64-кратной передискретизацией.

Приложения

Битовая глубина - это фундаментальное свойство реализаций цифрового звука. В зависимости от требований приложения и возможностей оборудования для разных приложений используется разная битовая глубина.

Примеры приложений и поддерживаемая битовая глубина звука
заявка Описание Аудио формат (ы)
CD-DA (Красная книга) Цифровые СМИ 16-битный LPCM
DVD-аудио Цифровые СМИ 16-, 20- и 24-битный LPCM
Супер аудио компакт-диск Цифровые СМИ 1-битный цифровой прямой поток ( PDM )
Blu-ray Disc аудио Цифровые СМИ 16-, 20- и 24-битный LPCM и другие
Аудио DV Цифровые СМИ 12- и 16-битный несжатый PCM
МСЭ-Т Рекомендация G.711 Стандарт сжатия для телефонии 8-битный PCM с компандированием
NICAM -1, NICAM-2 и NICAM-3 Стандарты сжатия для вещания 10-, 11- и 10-битный PCM соответственно, с компандированием
Пыл ОУПЖ от Пола Дэвиса и пыл сообщества 32-битная с плавающей запятой
Инструменты Pro 11 DAW от Avid Technology 16- и 24-битные или 32-битные сеансы с плавающей запятой и 64-битное смешивание с плавающей запятой
Logic Pro X DAW от Apple Inc. 16- и 24-битные проекты и смешивание 32-битных или 64-битных чисел с плавающей запятой
Cubase DAW от Steinberg Обеспечивает точность обработки звука до 32 бит с плавающей запятой или 64 бит с плавающей запятой
Ableton Live DAW от Ableton 32-битная разрядность с плавающей запятой и 64-битное суммирование
Причина 7 DAW от Propellerhead Software 16-, 20- и 24-битный ввод-вывод, 32-битная арифметика с плавающей запятой и 64-битное суммирование
Жнец 5 DAW от Cockos Inc. 8-битный PCM, 16-битный PCM, 24-битный PCM, 32-битный PCM, 32-битный FP, 64-битный FP, 4-битный IMA ADPCM и 2-битный рендеринг cADPCM ;

Смешивание 8-битных int, 16-битных int, 24-битных int, 32-битных int, 32-битных чисел с плавающей запятой и 64-битных чисел с плавающей запятой

GarageBand '11 (версия 6) DAW от Apple Inc. 16-битное значение по умолчанию с 24-битной записью реального инструмента
Мужество Аудиоредактор с открытым исходным кодом 16- и 24-битный LPCM и 32-битный с плавающей запятой
FL Studio DAW от Image-Line 16- и 24-битные int и 32-битные числа с плавающей запятой (под управлением ОС)

Битрейт и размер файла

Битовая глубина влияет на битрейт и размер файла. Биты - это основная единица данных, используемая в вычислительной технике и цифровой связи. Битовая скорость относится к количеству данных, в частности битов, передаваемых или принимаемых за секунду. В MP3 и других аудиоформатах со сжатием с потерями битрейт описывает количество информации, используемой для кодирования аудиосигнала. Обычно измеряется в кб / с .

Смотрите также

Примечания

использованная литература

  • Кен С. Полманн (15 февраля 2000 г.). Принципы цифрового звука (4-е изд.). McGraw-Hill Professional. ISBN 978-0-07-134819-5.