Распределение хи-квадрат - Chi-squared distribution

хи-квадрат
Функция плотности вероятности
Хи-квадрат pdf.svg
Кумулятивная функция распределения
Хи-квадрат cdf.svg
Обозначение или
Параметры (известные как «степени свободы»)
Служба поддержки если , иначе
PDF
CDF
Иметь в виду
Медиана
Режим
Дисперсия
Асимметрия
Бывший. эксцесс
Энтропия
MGF
CF
PGF

В теории вероятностей и статистике , то хи-квадрат распределения (также хи-квадрат или χ 2 -распределение ) с K степенями свободы является распределение суммы квадратов K независимых стандартных нормальных случайных величин. Распределение хи-квадрат является частным случаем гамма-распределения и является одним из наиболее широко используемых распределений вероятностей в статистике вывода , особенно при проверке гипотез и при построении доверительных интервалов . Это распределение иногда называют центральным распределением хи-квадрат , частным случаем более общего нецентрального распределения хи-квадрат .

Х-квадрат распределение используются в общих х-квадрате тестов для СОГЛАСИЯ из наблюдаемого распределения к теоретическому, в независимости двух критериев классификации качественных данных , а также в доверительном интервале оценки для населения стандартного отклонения от а нормальное распределение от стандартного отклонения выборки. Многие другие статистические тесты также используют это распределение, например , дисперсионный анализ Фридмана по рангам .

Определения

Если Z 1 , ..., Z K являются независимыми , стандартные нормальные случайные величины, то сумма их квадратов,

распределяется согласно распределению хи-квадрат с k степенями свободы. Обычно это обозначается как

Распределение хи-квадрат имеет один параметр: положительное целое число k, которое определяет количество степеней свободы (количество суммируемых случайных величин, Z i s).

Вступление

Распределение хи-квадрат используется в основном для проверки гипотез и в меньшей степени для доверительных интервалов для дисперсии совокупности, когда базовое распределение является нормальным. В отличие от более широко известных распределений, таких как нормальное распределение и экспоненциальное распределение , распределение хи-квадрат не так часто применяется при прямом моделировании природных явлений. Среди прочего, он возникает при следующих проверках гипотез:

Это также компонент определения t-распределения и F-распределения, используемых в t-тестах, дисперсионном анализе и регрессионном анализе.

Основная причина, по которой распределение хи-квадрат широко используется при проверке гипотез, - это его связь с нормальным распределением. Многие тесты гипотез используют статистику теста, такую ​​как t-статистика в t-тесте. Для этих проверок гипотез по мере увеличения размера выборки n выборочное распределение тестовой статистики приближается к нормальному распределению ( центральная предельная теорема ). Поскольку статистика теста (например, t) асимптотически нормально распределена, при условии, что размер выборки достаточно велик, распределение, используемое для проверки гипотез, может быть аппроксимировано нормальным распределением. Проверка гипотез с использованием нормального распределения хорошо понятна и относительно проста. Простейшее распределение хи-квадрат - это квадрат стандартного нормального распределения. Таким образом, везде, где для проверки гипотез можно использовать нормальное распределение, можно использовать распределение хи-квадрат.

Предположим , что случайная величина выборки из стандартного нормального распределения, где среднее значение и дисперсия является : . Теперь рассмотрим случайную величину . Распределение случайной величины является примером распределения хи-квадрат: нижний индекс 1 указывает, что это конкретное распределение хи-квадрат построено только на основе одного стандартного нормального распределения. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат единственного стандартного нормального распределения, имеет 1 степень свободы. Таким образом, по мере увеличения размера выборки для проверки гипотез распределение статистики теста приближается к нормальному распределению. Так же, как крайние значения нормального распределения имеют низкую вероятность (и дают малые p-значения), крайние значения распределения хи-квадрат имеют низкую вероятность.

Дополнительная причина того, что распределение хи-квадрат широко используется, заключается в том, что оно проявляется как распределение большой выборки тестов обобщенного отношения правдоподобия (LRT). LRT обладают несколькими желательными свойствами; в частности, простые LRT обычно обеспечивают наивысшую степень отклонения нулевой гипотезы ( лемма Неймана – Пирсона ), и это также приводит к свойствам оптимальности обобщенных LRT. Однако нормальные приближения и приближения хи-квадрат действительны только асимптотически. По этой причине предпочтительно использовать t-распределение, а не нормальное приближение или приближение хи-квадрат для небольшого размера выборки. Аналогичным образом, при анализе таблиц сопряженности приближение хи-квадрат будет плохим для небольшого размера выборки, и предпочтительно использовать точный критерий Фишера . Рэмси показывает, что точный биномиальный тест всегда более эффективен, чем нормальное приближение.

Ланкастер показывает связи между биномиальным, нормальным и хи-квадрат распределениями следующим образом. Де Муавр и Лаплас установили, что биномиальное распределение можно аппроксимировать нормальным распределением. В частности, они показали асимптотическую нормальность случайной величины.

где - наблюдаемое количество успехов в испытаниях, где вероятность успеха , и .

Возведение обеих частей уравнения в квадрат дает

Используя , и это уравнение можно переписать в виде

Выражение справа имеет форму, которую Карл Пирсон обобщил до формы

куда

= Совокупная статистика теста Пирсона, которая асимптотически приближается к распределению.
= количество наблюдений типа .
= ожидаемая (теоретическая) частота типа , утвержденная нулевой гипотезой о том, что доля типа в генеральной совокупности равна
= количество ячеек в таблице.

В случае биномиального результата (подбрасывание монеты) биномиальное распределение может быть аппроксимировано нормальным распределением (для достаточно больших ). Поскольку квадрат стандартного нормального распределения является распределением хи-квадрат с одной степенью свободы, вероятность такого результата, как 1 голова в 10 испытаниях, может быть аппроксимирована либо прямым использованием нормального распределения, либо распределением хи-квадрат для нормализованная квадратная разница между наблюдаемым и ожидаемым значением. Однако многие проблемы включают в себя более двух возможных результатов бинома и вместо этого требуют 3 или более категорий, что приводит к полиномиальному распределению. Подобно тому, как де Муавр и Лаплас искали и находили нормальное приближение к биномиальному, Пирсон искал и находил вырожденное многомерное нормальное приближение к полиномиальному распределению (числа в каждой категории складываются в общий размер выборки, который считается фиксированным) . Пирсон показал, что распределение хи-квадрат возникло из такого многомерного нормального приближения к полиномиальному распределению с тщательным учетом статистической зависимости (отрицательной корреляции) между числами наблюдений в разных категориях.

Функция плотности вероятности

Функция плотности вероятности (PDF) распределения хи-квадрат имеет вид

где обозначает гамма-функцию , которая имеет значения в замкнутой форме для целых чисел .

Для получения PDF в случаях единицы, двух и степеней свободы см. Доказательства, связанные с распределением хи-квадрат .

Кумулятивная функция распределения

Граница Чернова для CDF и хвоста (1-CDF) случайной величины хи-квадрат с десятью степенями свободы ( = 10)

Его кумулятивная функция распределения :

где - нижняя неполная гамма-функция и - регуляризованная гамма-функция .

В частном случае = 2 эта функция имеет простой вид:

которые можно легко получить прямым интегрированием . Целочисленное повторение гамма-функции позволяет легко вычислить другие малые, даже .

Таблицы кумулятивной функции распределения хи-квадрат широко доступны, и эта функция включена во многие электронные таблицы и все статистические пакеты .

Допустим , границы Чернова для нижнего и верхнего хвостов CDF могут быть получены. Для случаев, когда (которые включают все случаи, когда этот CDF меньше половины):

Хвостовая граница для случаев, когда аналогично

Для другого приближения для CDF, смоделированного после куба Гаусса, см. Раздел «Нецентральное распределение хи-квадрат» .

Характеристики

Сумма квадратов независимых одинаково распределенных нормальных случайных величин за вычетом их среднего

Если Z 1 , ..., Z k - независимые одинаково распределенные (iid) стандартные нормальные случайные величины, то

куда

Аддитивность

Из определения распределения хи-квадрат следует, что сумма независимых переменных хи-квадрат также имеет распределение хи-квадрат. В частности, если независимые хи-квадрат с переменными , степенями свободы, соответственно, то есть хи-квадрат распределение с степенями свободы.

Выборочное среднее

Выборочное среднее iid переменных хи-квадрат степени распределяется согласно гамма-распределению с параметрами формы и масштаба :

Асимптотически , учитывая, что для параметра масштаба, стремящегося к бесконечности, гамма-распределение сходится к нормальному распределению с математическим ожиданием и дисперсией , выборочное среднее сходится к:

Обратите внимание , что мы получили бы тот же результат вызова вместо этого центральной предельной теоремы , отметив , что для каждых х-квадрата переменной степени ожидание состоит в том , и его дисперсии (и , следовательно , дисперсия выборочных средних существ ).

Энтропия

Дифференциальная энтропия задаются

где ψ ( x ) - дигамма-функция .

Распределение хи-квадрат - это максимальное распределение вероятностей энтропии для случайной переменной, для которой и фиксированы. Поскольку хи-квадрат находится в семействе гамма-распределений, его можно получить, подставив соответствующие значения в ожидание логарифмического момента гамма . Для вывода из более основных принципов см. Вывод в функции создания момента достаточной статистики .

Нецентральные моменты

Моменты около нуля распределения хи-квадрат со степенями свободы задаются выражением

Кумулянты

В кумулянтах легко получается с помощью (формальными) разложений в ряде логарифма характеристической функции:

Концентрация

Распределение хи-квадрат сильно концентрируется вокруг своего среднего значения. Стандартные оценки Лорана-Массара:

Асимптотические свойства

Приближенная формула для медианы (из преобразования Уилсона – Хильферти) в сравнении с числовым квантилем (вверху); и разница (синий) и относительная разница (красный) между числовым квантилем и приблизительной формулой (внизу). Для распределения хи-квадрат имеют значение только положительные целые числа степеней свободы (кружки).

Согласно центральной предельной теореме , поскольку распределение хи-квадрат представляет собой сумму независимых случайных величин с конечным средним и дисперсией, оно сходится к нормальному распределению для больших . Для многих практических целей, поскольку распределение достаточно близко к нормальному распределению, различие можно игнорировать. В частности, если , then as стремится к бесконечности, распределение стремится к стандартному нормальному распределению. Однако, конвергенция медленно , как перекос является и избыток эксцесс является .

Распределение выборки сходится к нормальности намного быстрее, чем распределение выборки , поскольку логарифм устраняет большую часть асимметрии. Другие функции распределения хи-квадрат быстрее сходятся к нормальному распределению. Вот несколько примеров:

  • Тогда если тогда приблизительно нормально распределено со средним значением и единичной дисперсией (1922, Р. А. Фишер , см. (18.23), стр. 426 Джонсона.
  • Если то приблизительно нормально распределено со средним значением и дисперсией. Это известно как преобразование Вильсона – Хильферти, см. (18.24), с. 426 Джонсона.
    • Это нормализующее преобразование непосредственно приводит к обычно используемому медианному приближению путем обратного преобразования из среднего, которое также является медианным значением нормального распределения.

Связанные дистрибутивы

  • As , ( нормальное распределение )
  • ( нецентральное распределение хи-квадрат с параметром нецентральности )
  • Если тогда имеет распределение хи-квадрат
  • Как частный случай, если then имеет распределение хи-квадрат
  • (Квадрат нормой из K стандартных нормально распределенных переменных хи-квадрат распределение с K степенями свободы )
  • Если и , то . ( гамма-распределение )
  • Если то ( распределение хи )
  • Если , то - экспоненциальное распределение . (Подробнее см. Гамма-распределение .)
  • Если , то это распределение Эрланга .
  • Если , то
  • Если ( распределение Рэлея ), то
  • Если ( распределение Максвелла ), то
  • Если то ( обратное распределение хи-квадрат )
  • Распределение хи-квадрат - это частный случай распределения Пирсона III типа.
  • Если и независимы, то ( бета-распределение )
  • Если ( равномерное распределение ), то
  • Если тогда
  • Если следует обобщенное нормальное распределение (версия 1) с параметрами, то
  • Распределение хи-квадрат - это преобразование распределения Парето
  • T-распределение Стьюдента - это преобразование распределения хи-квадрат.
  • Распределение Стьюдента может быть получено из распределения хи-квадрат и нормального распределения.
  • Нецентральное бета-распределение может быть получено как преобразование распределения хи-квадрат и нецентрального распределения хи-квадрат.
  • Нецентральное t-распределение может быть получено из нормального распределения и распределения хи-квадрат.

Переменная хи-квадрат со степенями свободы определяется как сумма квадратов независимых стандартных нормальных случайных величин.

Если - это -мерный гауссовский случайный вектор с вектором среднего и ранговой ковариационной матрицей , то это хи-квадрат, распределенный со степенями свободы.

Сумма квадратов статистически независимых гауссовских переменных с единичной дисперсией, которые не имеют среднего нуля, дает обобщение распределения хи-квадрат, называемое нецентральным распределением хи-квадрат .

Если есть вектор н.о.р. стандартных нормальных случайных величин и является симметричным , идемпотентная матрица с рангом , то квадратичная форма является хи-квадрат распределение с степенями свободы.

Если - положительно-полуопределенная ковариационная матрица со строго положительными диагональными элементами, то для и случайный -вектор, не зависящий от такого, что и выполняется, что

Распределение хи-квадрат также естественно связано с другими распределениями, возникающими из гауссиана. Особенно,

  • является F-распределенным , если , где и статистически независимы.
  • Если и статистически независимы, то . Если и не являются независимыми, то не имеет распределения хи-квадрат.

Обобщения

Распределение хи-квадрат получается как сумма квадратов k независимых гауссовских случайных величин с нулевым средним и единичной дисперсией. Обобщения этого распределения могут быть получены путем суммирования квадратов других типов гауссовских случайных величин. Ниже описаны несколько таких дистрибутивов.

Линейная комбинация

Если - случайные величины хи-квадрат и , то замкнутое выражение для распределения неизвестно. Однако его можно эффективно аппроксимировать, используя свойство характеристических функций случайных величин хи-квадрат.

Распределения хи-квадрат

Нецентральное распределение хи-квадрат

Нецентральное распределение хи-квадрат получается из суммы квадратов независимых гауссовских случайных величин, имеющих единичную дисперсию и ненулевые средние.

Обобщенное распределение хи-квадрат

Обобщенное распределение хи-квадрат получается из квадратичной формы z′Az, где z - гауссовский вектор с нулевым средним, имеющий произвольную ковариационную матрицу, а A - произвольная матрица.

Гамма, экспоненциальное и родственные распределения

Распределение хи-квадрат является частным случаем гамма-распределения , в котором используется параметризация скорости гамма-распределения (или масштабная параметризация гамма-распределения), где k - целое число.

Поскольку экспоненциальное распределение также является частным случаем гамма-распределения, мы также имеем, что если , то является экспоненциальным распределением .

Распределение Эрланга также является частным случаем гамма-распределения, и, таким образом, у нас также есть это, если с четным , то распределение Эрланга с параметром формы и параметром масштаба .

Возникновение и приложения

Распределение хи-квадрат имеет множество приложений в статистике вывода , например, в тестах хи-квадрат и при оценке дисперсии . Он затрагивает проблему оценки среднего значения нормально распределенной совокупности и проблему оценки наклона линии регрессии через ее роль в t-распределении Стьюдента . Он входит во все проблемы дисперсионного анализа через свою роль в F-распределении , которое представляет собой распределение отношения двух независимых случайных величин хи-квадрат , каждая из которых делится на свои соответствующие степени свободы.

Ниже приведены некоторые из наиболее распространенных ситуаций, в которых распределение хи-квадрат возникает из выборки с распределением по Гауссу.

  • если будут IID случайных величин , то где .
  • В блоке ниже показаны некоторые статистические данные, основанные на независимых случайных величинах, которые имеют распределения вероятностей, связанные с распределением хи-квадрат:
Имя Статистика
распределение хи-квадрат
нецентральное распределение хи-квадрат
распределение ци
нецентральное распределение ци

Распределение хи-квадрат также часто встречается при магнитно-резонансной томографии .

Вычислительные методы

Таблица из й 2 значения против р -значения

Р -значение является вероятность обнаружения тестовой статистики по крайней мере , в качестве крайности в хи-квадрат. Соответственно, поскольку кумулятивная функция распределения (CDF) для соответствующих степеней свободы (df) дает вероятность получения значения менее экстремального, чем эта точка, вычитание значения CDF из 1 дает значение p . Низкое значение p ниже выбранного уровня значимости указывает на статистическую значимость , т. Е. Достаточное свидетельство для отклонения нулевой гипотезы. Уровень значимости 0,05 часто используется как граница между значимыми и незначимыми результатами.

В таблице ниже приводится ряд значений p, соответствующих первым 10 степеням свободы.

Степени свободы (df) ценить
1 0,004 0,02 0,06 0,15 0,46 1.07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2.41 3,22 4,61 5,99 9.21 13,82
3 0,35 0,58 1.01 1,42 2.37 3,66 4,64 6,25 7,81 11,34 16,27
4 0,71 1.06 1,65 2,20 3,36 4.88 5,99 7,78 9,49 13,28 18,47
5 1.14 1,61 2.34 3,00 4,35 6.06 7,29 9,24 11.07 15.09 20,52
6 1,63 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12.02 14.07 18,48 24,32
8 2,73 3,49 4,59 5,53 7,34 9,52 11.03 13,36 15.51 20.09 26.12
9 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 3,94 4.87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 23,21 29,59
p -значение (вероятность) 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Эти значения могут быть вычислены путем оценки функции квантиля (также известной как «обратный CDF» или «ICDF») распределения хи-квадрат; например, χ 2 ICDF для р = 0,05 и DF = 7 урожайности 2,1673 ≈ 2,17 , как и в приведенной выше таблице, заметив , что 1 - р является р -значение из таблицы.

История

Это распределение было впервые описано немецким статистиком Фридрихом Робертом Хельмертом в работах 1875–1875 годов, где он вычислил выборочное распределение дисперсии выборки нормальной генеральной совокупности. Таким образом, на немецком языке это традиционно было известно как Helmert'sche («Гельмертов») или «распределение Гельмерта».

Распределение было независимо переоткрыто английским математиком Карлом Пирсоном в контексте согласия , для которого он разработал свой критерий хи-квадрат Пирсона , опубликованный в 1900 году, с вычисленной таблицей значений, опубликованной в ( Elderton 1902 ), собранной в ( Pearson 1914 , стр. Xxxi – xxxiii, 26–28, таблица XII) . Название «хи-квадрат» в конечном счете происходит от сокращения Пирсона для показателя степени в многомерном нормальном распределении с греческой буквой Chi , написав −½χ 2 для того, что в современных обозначениях появилось бы как −½ x T Σ −1 x (Σ - это ковариационная матрица ). Однако идея семейства «распределений хи-квадрат» не принадлежит Пирсону, а возникла как дальнейшее развитие благодаря Фишеру в 1920-х годах.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки