Тип статистических данных - Statistical data type

В статистике группы отдельных точек данных могут быть классифицированы как принадлежащие к любому из различных типов статистических данных , например категориальному («красный», «синий», «зеленый»), действительному числу (1,68, -5, 1,7e + 6). , нечетное число (1,3,5) и т. д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды распределения вероятностей могут логически использоваться для описания переменной, допустимые операции с переменной, тип регрессионного анализа, используемый для прогнозирования переменной и т. д. Концепция типа данных аналогична концепции уровня измерения , но более конкретна: например, данные подсчета требуют другого распределения (например, распределение Пуассона или биномиальное распределение ) чем неотрицательные данные с действительным знаком , но оба подпадают под один и тот же уровень измерения (шкала отношений).

Были предприняты различные попытки составить таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого порядка ранжирования среди значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточные различия между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования с сохранением порядка. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношения имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями, а также допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются вместе как категориальные переменные , тогда как измерения отношения и интервалы группируются вместе как количественные переменные , которые могут быть дискретными или непрерывными из-за их числовой природы. Такие различия часто могут быть слабо коррелированы с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в интегральном типе данных и непрерывные переменные с реальным типом данных, включающим вычисление с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних реализуется.

Были предложены и другие категории. Например, Мостеллер и Тьюки (1977) различали оценки, ранги, подсчитанные дроби, количества, суммы и остатки. Нелдер (1990) описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. См. Также Chrisman (1998), van den Berg (1991).

Вопрос о том, уместно ли применять разные виды статистических методов к данным, полученным с помощью различных процедур измерения, осложняется проблемами, связанными с преобразованием переменных и точной интерпретацией вопросов исследования. "Связь между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. "(Hand, 2004, стр. 82).

Простые типы данных

В следующей таблице классифицируются различные простые типы данных, связанные распределения, допустимые операции и т. Д. Независимо от логических возможных значений, все эти типы данных обычно кодируются с использованием действительных чисел , поскольку теория случайных величин часто явно предполагает, что они являются действительными. числа.

Тип данных Возможные значения Пример использования Уровень измерения Распределение Шкала относительных различий Допустимая статистика Регрессионный анализ
двоичный 0, 1 (произвольные метки) двоичный результат («да / нет», «истина / ложь», «успех / неудача» и т. д.) номинальная шкала Бернулли несравненный режим , хи-квадрат логистика , пробит
категоричный 1, 2, ..., K (произвольные метки) категоричный исход (конкретная группа крови , политическая партия , слово и т. д.) категоричный полиномиальный логит , полиномиальный пробит
порядковый целое или действительное число (произвольный масштаб) относительная оценка, важная только для создания рейтинга порядковая шкала категоричный относительное сравнение порядковая регрессия ( упорядоченный логит , упорядоченный пробит )
биномиальный 0, 1, ..., N количество успехов (например, голосов за) из N возможных шкала интервалов биномиальные , бета-биномиальные и т. д. добавка среднее , медиана , мода , стандартное отклонение , корреляция биномиальная регрессия ( логистическая , пробит )
считать неотрицательные целые числа (0, 1, ...) количество предметов ( телефонных звонков , людей, молекул , рождений, смертей и т. д.) в заданном интервале / площади / объеме шкала отношений Пуассон , отрицательный бином и т. Д. мультипликативный Все статистические данные , разрешенные для интервальных шкал , плюс следующий: среднего геометрического , гармонического среднего , коэффициента вариации Пуассон , отрицательная биномиальная регрессия
действительная добавка настоящий номер температура в градусах Цельсия или градусах Фаренгейта, относительное расстояние, параметр местоположения и т. д. (или приблизительно, все, что не меняется в больших масштабах) шкала интервалов нормальный и т. д. (обычно симметричный относительно среднего ) добавка среднее , медиана , мода , стандартное отклонение , корреляция стандартная линейная регрессия
действительный мультипликативный положительное действительное число температура в кельвинах , цена, доход, размер, масштабный параметр и т. д. (особенно при изменении в большом масштабе) шкала отношений логарифмически нормальный , гамма , экспоненциальный и т. д. (обычно асимметричное распределение) мультипликативный Все статистические данные , разрешенные для интервальных шкал , плюс следующий: среднего геометрического , гармонического среднего , коэффициента вариации обобщенная линейная модель с логарифмической связью

Многовариантные типы данных

Данные, которые нельзя описать с помощью одного числа, часто превращаются в случайные векторы случайных величин с действительным знаком , хотя растет тенденция обрабатывать их самостоятельно. Некоторые примеры:

Эти концепции берут свое начало в различных областях науки и часто совпадают в использовании. В результате очень часто к одной и той же проблеме можно применить несколько концепций.

Ссылки