Двоичные данные - Binary data

Двоичные данные - это данные , единица которых может принимать только два возможных состояния, традиционно обозначаемых как 0 и 1 в соответствии с двоичной системой счисления и булевой алгеброй .

Двоичные данные встречаются во многих различных технических и научных областях, где их можно называть разными именами, включая бит (двоичную цифру) в информатике , значение истинности в математической логике и связанных областях и двоичную переменную в статистике.

Математические и комбинаторные основы

Дискретная переменная , которая может принимать только одно состояние содержит ноль информации , а также 2 является следующим натуральное число после 1. Поэтому бит , переменная только с двумя возможными значениями, является стандартной первичной единицей информации .

Набор из n битов может иметь 2 n состояний: подробности см. В двоичном числе . Число состояний набора дискретных переменных экспоненциально зависит от числа переменных и только как степенной закон от числа состояний каждой переменной. Десять битов имеют больше ( 1024 ) состояний, чем три десятичных цифры ( 1000 ). 10 k битов более чем достаточно для представления информации ( числа или чего-либо еще), требующей 3 k десятичных цифр, поэтому информация, содержащаяся в дискретных переменных с 3 , 4, 5, 6, 7, 8, 9, 10 … состояниями, может когда-либо заменяется выделением в два, три или четыре раза большего числа битов. Таким образом, использование любого другого малого числа, кроме 2, не дает преимущества.

Диаграмма Хассы : представление булевой алгебры как ориентированный граф

Более того, булева алгебра предоставляет удобную математическую структуру для набора битов с семантикой набора пропозициональных переменных . Операции булевой алгебры известны в информатике как « побитовые операции ». Булевы функции также хорошо изучены теоретически и легко реализуемы либо с помощью компьютерных программ , либо с помощью так называемых логических вентилей в цифровой электронике . Это способствует использованию битов для представления различных данных, даже тех, которые изначально не были двоичными.

В статистике

В статистике , двоичные данные представляет собой тип статистических данных , состоящий из категориальных данных , которые могут иметь ровно два возможных значения, такие как «A» и «B», или «орлов» и «хвостов». Как форма категориальных данных, двоичные данные являются номинальными данными , что означает, что они представляют качественно разные значения, которые нельзя сравнивать численно. Однако двоичные данные часто преобразуются для подсчета данных , считая одно из двух значений «успехом» и представляя результаты как 1 или 0, что соответствует подсчету количества успехов в одном испытании: 1 (успех) или 0 ( отказ); см. § Подсчет .

Часто двоичные данные используются для представления одного из двух концептуально противоположных значений, например:

  • результат эксперимента («успех» или «неудача»)
  • ответ на вопрос "да-нет" ("да" или "нет")
  • наличие или отсутствие какой-либо функции («присутствует» или «нет»)
  • истинность или ложность предложения («истинное» или «ложное», «правильное» или «неправильное»)

Однако его также можно использовать для данных, которые, как предполагается, имеют только два возможных значения, даже если они концептуально не противоположны или концептуально представляют все возможные значения в пространстве. Например, двоичные данные часто используются для представления партийного выбора избирателей на выборах в США , т. Е. Республиканской или демократической . В этом случае нет внутренней причины, по которой должны существовать только две политические партии , и, действительно, в США существуют другие партии, но они настолько незначительны, что их обычно просто игнорируют. Моделирование непрерывных данных (или категориальных данных более чем двух категорий) в качестве двоичной переменной для целей анализа называется дихотомией (создание дихотомии ). Как и всякая дискретизация , она включает ошибку дискретизации , но цель состоит в том, чтобы узнать что-то ценное, несмотря на ошибку: рассматривать ее как незначительную для поставленной цели, но помня, что в целом нельзя считать ее незначительной.

Бинарные переменные

Двоичная переменная является случайной величиной двоичного типа, то есть с двумя возможными значениями. Независимые и одинаково распределенные (iid) двоичные переменные следуют распределению Бернулли , но в целом двоичные данные не обязательно должны поступать из переменных iid. Общее количество двоичных переменных iid (эквивалентно сумм двоичных переменных iid, закодированных как 1 или 0) подчиняется биномиальному распределению , но когда двоичные переменные не являются iid, распределение не обязательно должно быть биномиальным.

Подсчет

Как категориальной данные, двоичные данные могут быть преобразованы в вектор из данных счетов путем записи одной координаты для каждого возможного значения, и подсчета 1 для значения , которое происходит, и 0 для значения , которое не происходит. Например, если значениями являются A и B, то набор данных A, A, B может быть представлен в счетчиках как (1, 0), (1, 0), (0, 1). После преобразования в счетчики двоичные данные могут быть сгруппированы и добавлены счетчики. Например, если набор A, A, B сгруппирован, общее количество составляет (2, 1): 2 A и 1 B (из 3 испытаний).

Поскольку есть только два возможных значения, это можно упростить до одного подсчета (скалярного значения), рассматривая одно значение как «успех», а другое как «неудачу», кодируя значение успеха как 1 и неудачи как 0. Например, если значение A считается «успешным» (и, таким образом, B считается «неудачным»), набор данных A, A, B будет представлен как 1, 1, 0. Когда он сгруппирован, значения добавляются, в то время как количество испытаний обычно отслеживается неявно. Например, A, A, B будут сгруппированы как 1 + 1 + 0 = 2 успешных (из }} испытаний). Иначе говоря, данные подсчета являются двоичными данными, причем два класса имеют значение 0 (сбой) или 1 (успех).

Подсчет бинарных переменных iid следует биномиальному распределению с общим количеством испытаний (точек в сгруппированных данных).

Регресс

Регрессионный анализ предсказанных результатов, которые представляют собой бинарные переменные, известен как бинарная регрессия ; когда двоичные данные преобразуются в данные подсчета и моделируются как переменные iid (чтобы они имели биномиальное распределение), может использоваться биномиальная регрессия . Наиболее распространенными методами регрессии для двоичных данных являются логистическая регрессия , пробит-регрессия или связанные типы моделей двоичного выбора .

Точно так же количество категориальных переменных iid с более чем двумя категориями можно смоделировать с помощью полиномиальной регрессии . Подсчет двоичных данных, отличных от iid, можно смоделировать с помощью более сложных распределений, таких как бета-биномиальное распределение ( составное распределение ). В качестве альтернативы, взаимосвязь может быть смоделирована без необходимости явно моделировать распределение выходной переменной с использованием методов из обобщенных линейных моделей (GLM), таких как квази-правдоподобие и квазибиномиальная модель; см. Сверхдисперсия § Биномиальный .

В информатике

Бинарное изображение из QR - код , представляющий 1 бит на пиксел, в отличие от типичного 24-битного истинного цвета изображения.

В современных компьютерах под двоичными данными понимаются любые данные, представленные в двоичной форме, а не интерпретируемые на более высоком уровне или преобразованные в какую-либо другую форму. На самом низком уровне биты хранятся в бистабильном устройстве, таком как триггер . Хотя большинство двоичных данных имеют символическое значение (за исключением безразличия ), не все двоичные данные являются числовыми. Некоторые двоичные данные соответствуют компьютерным инструкциям , таким как данные в регистрах процессора, декодированные блоком управления в течение цикла выборка-декодирование-выполнение . Компьютеры редко изменяют отдельные биты по соображениям производительности. Вместо этого данные выравниваются группами по фиксированному количеству битов, обычно 1 байт (8 бит). Следовательно, «двоичные данные» в компьютерах на самом деле представляют собой последовательности байтов. На более высоком уровне доступ к данным осуществляется группами из 1 слова (4 байта) для 32-битных систем и 2 слов для 64-битных систем.

В прикладной информатике и в области информационных технологий термин « двоичные данные» часто противопоставляется текстовым данным , относящимся к любому виду данных, которые нельзя интерпретировать как текст. Различие между «текстом» и «двоичным» иногда может относиться к семантическому содержанию файла (например, письменный документ или цифровое изображение ). Однако это часто относится конкретно к тому, могут ли отдельные байты файла интерпретироваться как текст (см. Кодировку символов ) или не могут быть интерпретированы таким образом. Когда подразумевается это последнее значение, иногда используются более конкретные термины двоичный формат и текстовый (ual) формат . Семантически текстовые данные могут быть представлены в двоичном формате (например, при сжатии или в определенных форматах, которые смешивают различные типы кодов форматирования, как в формате DOC, используемом Microsoft Word ); напротив, данные изображения иногда представлены в текстовом формате (например, в формате изображения X PixMap , используемом в системе X Window ).

Смотрите также

использованная литература