Тип статистических данных - Statistical data type
В статистике группы отдельных точек данных могут быть классифицированы как принадлежащие к любому из различных типов статистических данных , например категориальному («красный», «синий», «зеленый»), действительному числу (1,68, -5, 1,7e + 6). , нечетное число (1,3,5) и т. д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды распределения вероятностей могут логически использоваться для описания переменной, допустимые операции с переменной, тип регрессионного анализа, используемый для прогнозирования переменной и т. д. Концепция типа данных аналогична концепции уровня измерения , но более конкретна: например, данные подсчета требуют другого распределения (например, распределение Пуассона или биномиальное распределение ) чем неотрицательные данные с действительным знаком , но оба подпадают под один и тот же уровень измерения (шкала отношений).
Были предприняты различные попытки составить таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого порядка ранжирования среди значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточные различия между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования с сохранением порядка. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношения имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями, а также допускают любое преобразование масштабирования.
Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются вместе как категориальные переменные , тогда как измерения отношения и интервалы группируются вместе как количественные переменные , которые могут быть дискретными или непрерывными из-за их числовой природы. Такие различия часто могут быть слабо коррелированы с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в интегральном типе данных и непрерывные переменные с реальным типом данных, включающим вычисление с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних реализуется.
Были предложены и другие категории. Например, Мостеллер и Тьюки (1977) различали оценки, ранги, подсчитанные дроби, количества, суммы и остатки. Нелдер (1990) описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. См. Также Chrisman (1998), van den Berg (1991).
Вопрос о том, уместно ли применять разные виды статистических методов к данным, полученным с помощью различных процедур измерения, осложняется проблемами, связанными с преобразованием переменных и точной интерпретацией вопросов исследования. "Связь между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. "(Hand, 2004, стр. 82).
Простые типы данных
В следующей таблице классифицируются различные простые типы данных, связанные распределения, допустимые операции и т. Д. Независимо от логических возможных значений, все эти типы данных обычно кодируются с использованием действительных чисел , поскольку теория случайных величин часто явно предполагает, что они являются действительными. числа.
Тип данных | Возможные значения | Пример использования | Уровень измерения | Распределение | Шкала относительных различий | Допустимая статистика | Регрессионный анализ |
---|---|---|---|---|---|---|---|
двоичный | 0, 1 (произвольные метки) | двоичный результат («да / нет», «истина / ложь», «успех / неудача» и т. д.) | номинальная шкала | Бернулли | несравненный | режим , хи-квадрат | логистика , пробит |
категоричный | 1, 2, ..., K (произвольные метки) | категоричный исход (конкретная группа крови , политическая партия , слово и т. д.) | категоричный | полиномиальный логит , полиномиальный пробит | |||
порядковый | целое или действительное число (произвольный масштаб) | относительная оценка, важная только для создания рейтинга | порядковая шкала | категоричный | относительное сравнение | порядковая регрессия ( упорядоченный логит , упорядоченный пробит ) | |
биномиальный | 0, 1, ..., N | количество успехов (например, голосов за) из N возможных | шкала интервалов | биномиальные , бета-биномиальные и т. д. | добавка | среднее , медиана , мода , стандартное отклонение , корреляция | биномиальная регрессия ( логистическая , пробит ) |
считать | неотрицательные целые числа (0, 1, ...) | количество предметов ( телефонных звонков , людей, молекул , рождений, смертей и т. д.) в заданном интервале / площади / объеме | шкала отношений | Пуассон , отрицательный бином и т. Д. | мультипликативный | Все статистические данные , разрешенные для интервальных шкал , плюс следующий: среднего геометрического , гармонического среднего , коэффициента вариации | Пуассон , отрицательная биномиальная регрессия |
действительная добавка | настоящий номер | температура в градусах Цельсия или градусах Фаренгейта, относительное расстояние, параметр местоположения и т. д. (или приблизительно, все, что не меняется в больших масштабах) | шкала интервалов | нормальный и т. д. (обычно симметричный относительно среднего ) | добавка | среднее , медиана , мода , стандартное отклонение , корреляция | стандартная линейная регрессия |
действительный мультипликативный | положительное действительное число | температура в кельвинах , цена, доход, размер, масштабный параметр и т. д. (особенно при изменении в большом масштабе) | шкала отношений | логарифмически нормальный , гамма , экспоненциальный и т. д. (обычно асимметричное распределение) | мультипликативный | Все статистические данные , разрешенные для интервальных шкал , плюс следующий: среднего геометрического , гармонического среднего , коэффициента вариации | обобщенная линейная модель с логарифмической связью |
Многовариантные типы данных
Данные, которые нельзя описать с помощью одного числа, часто превращаются в случайные векторы случайных величин с действительным знаком , хотя растет тенденция обрабатывать их самостоятельно. Некоторые примеры:
- Случайные векторы . Отдельные элементы могут коррелировать, а могут и не быть . Примерами распределений, используемых для описания коррелированных случайных векторов, являются многомерное нормальное распределение и многомерное t-распределение . В общем, между любыми элементами и любыми другими могут быть произвольные соотношения; однако это часто становится неуправляемым при превышении определенного размера, что требует дополнительных ограничений на коррелированные элементы.
- Случайные матрицы . Случайные матрицы можно расположить линейно и рассматривать как случайные векторы; однако это может быть неэффективным способом представления корреляций между различными элементами. Некоторые распределения вероятностей специально разработаны для случайных матриц, например, нормальное распределение матриц и распределение Уишарта .
- Случайные последовательности . Иногда они считаются такими же, как случайные векторы, но в других случаях этот термин применяется специально к случаям, когда каждая случайная величина коррелирует только с соседними переменными (как в модели Маркова ). Это частный случай байесовской сети, который часто используется для очень длинных последовательностей, например последовательностей генов или длинных текстовых документов. Ряд моделей специально разработан для таких последовательностей, например, скрытые марковские модели .
- Случайные процессы . Они похожи на случайные последовательности, но в которых длина последовательности неопределенная или бесконечная, а элементы в последовательности обрабатываются один за другим. Это часто используется для данных, которые можно описать как временные ряды , например, цена акции в последовательные дни. Случайные процессы также используются для моделирования значений, которые изменяются непрерывно (например, температура в последовательные моменты времени), а не через дискретные интервалы.
-
Байесовские сети . Они соответствуют агрегатам случайных величин, описываемым с помощью графических моделей , где отдельные случайные величины связаны в структуру графа с условными распределениями, связывающими переменные с соседними переменными.
- Многоуровневые модели - это подклассы байесовских сетей, которые можно рассматривать как имеющие несколько уровней линейной регрессии .
- Случайные деревья . Это подкласс байесовской сети, в которой переменные связаны в древовидной структуре . Примером является проблема синтаксического анализа предложения, когда используются методы статистического анализа, такие как вероятностные контекстно-свободные грамматики (PCFG).
- Случайные поля . Они представляют собой распространение случайных процессов на несколько измерений и распространены в физике , где они используются в статистической механике для описания таких свойств, как сила или электрическое поле, которые могут непрерывно изменяться в трех измерениях (или четырех измерениях, если учитывать время). .
Эти концепции берут свое начало в различных областях науки и часто совпадают в использовании. В результате очень часто к одной и той же проблеме можно применить несколько концепций.