Студенческий t- критерий -Student's t-test

Т -test любой статистический тест гипотезы , в котором тестовая статистика следует Стьюдент т -распределение под нулевой гипотезой .

Т -test является наиболее часто применяется , когда тестовая статистика будет следовать нормальному распределению , если значение термина масштабирования в тестовых статистиках было известно. Когда термин масштабирование неизвестен и заменяется оценкой на основе данных , статистические данные испытаний (при определенных условиях) следует Стьюдент т распределению. Т -test может быть использован, например, чтобы определить , есть ли средства двух наборов данных могут значительно отличаться друг от друга.

История

Уильям Сили Госсет , который разработал « t- статистику» и опубликовал ее под псевдонимом «Студент».

Термин « t- статистика» сокращен от «статистика проверки гипотез». В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Гельмертом и Люротом . T-распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. Однако T-распределение, также известное как Student's T Distribution, получило свое название от Уильяма Сили Госсета, который впервые опубликовал его на английском языке в 1908 году в научном журнале Biometrika под псевдонимом «Студент», потому что его работодатель предпочитал, чтобы сотрудники использовали псевдонимы при публикации. научные статьи вместо их настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. Госсет работал на пивоварне Guinness Brewery в Дублине , Ирландия , и интересовался проблемами малых образцов - например, химическими свойствами ячменя при малых размерах образцов. Следовательно, вторая версия этимологии термина Студент заключается в том, что Guinness не хотел, чтобы их конкуренты знали, что они использовали t-критерий для определения качества сырья (см . T -распределение Стьюдента для подробной истории этого псевдонима, который не следует путать с буквальным термином студент ). Хотя это был Уильям Госсет, в честь которого был написан термин «Студент», на самом деле именно благодаря работе Рональда Фишера распределение стало широко известно как «распределение Стьюдента» и «t-критерий Стьюдента».

Госсет был нанят благодаря политике Клода Гиннесса по привлечению лучших выпускников Оксфорда и Кембриджа для применения биохимии и статистики в производственных процессах Гиннесса. Госсет разработал t- тест как экономичный способ контроля качества стаутов . Работа t- теста была отправлена ​​и принята в журнал Biometrika и опубликована в 1908 году.

У Guinness была политика, разрешающая техническому персоналу отпуск для учебы (так называемый «учебный отпуск»), который Госсет использовал в течение первых двух семестров 1906–1907 учебного года в биометрической лаборатории профессора Карла Пирсона в Университетском колледже Лондона . Личность Госсета была тогда известна коллегам-статистикам и главному редактору Карлу Пирсону.

Использует

Среди наиболее часто используемых t- тестов:

  • Один образец теста расположение ли среднее значение популяции имеет значение , указанное в нулевой гипотезы .
  • Двухвыборочная проверка нулевой гипотезы место таким образом, что средства двух популяций равны. Все такие тесты, как правило , называют Стьюдента т - тестов , хотя , строго говоря , что имя должно быть использовано только в случае , если отклонения двух популяций также предполагаются равными; форма теста, используемая при отказе от этого предположения, иногда называется t- критерием Велча . Эти тесты часто называют t- тестами для непарных или независимых выборок , поскольку они обычно применяются, когда статистические единицы, лежащие в основе двух сравниваемых выборок, не перекрываются.

Предположения

Большинство тестовых статистик имеют вид t = Z/s, где Z и s - функции данных.

Z может быть чувствительным к альтернативной гипотезе (т. Е. Его величина имеет тенденцию быть больше, когда альтернативная гипотеза верна), тогда как s является параметром масштабирования, который позволяетопределитьраспределение t .

Например, в однократном t- тесте

где X - выборочное среднее из выборки X 1 , X 2 ,…, X n , размера n , s - стандартная ошибка среднего , - оценка стандартного отклонения генеральной совокупности, а μ - генеральная средняя .

Допущения, лежащие в основе t- теста в простейшей форме, приведенной выше, заключаются в следующем:

  • X следует нормальному распределению со средним μ и дисперсиейσ 2/п
  • s 2 ( n  - 1) / σ 2 следует распределению χ 2 с n  - 1 степенями свободы . Это предположение выполняется, когда наблюдения, используемые для оценки s 2, исходят из нормального распределения (и iid для каждой группы).
  • Z и s являются независимыми .

В t- тесте, сравнивающем средние значения двух независимых выборок, должны выполняться следующие допущения:

  • Средние значения двух сравниваемых популяций должны соответствовать нормальному распределению . При слабых предположениях это следует для больших выборок из центральной предельной теоремы , даже если распределение наблюдений в каждой группе ненормально.
  • При использовании оригинальное определение Студента о т -теста, две популяции сравниваемых должны иметь одинаковую дисперсию (проверяемые с помощью F -test , тест Левена в , тест Бартлетта или тест Брауна-Форсайта , или оценимый графически с помощью Q-Q участок ). Если размеры выборки в двух сравниваемых группах равны, исходный t- критерий Стьюдента очень устойчив к наличию неравных дисперсий. T- критерий Велча нечувствителен к равенству дисперсий независимо от того, схожи ли размеры выборки.
  • Данные, используемые для проведения теста, следует либо отбирать независимо от двух сравниваемых популяций, либо полностью объединять в пары. Это, как правило, не тестируется на основе данных, но если известно, что данные являются зависимыми (например, спарены по дизайну теста), необходимо применить зависимый тест. Для частично парных данных классические независимые t- тесты могут дать неверные результаты, поскольку статистика теста может не соответствовать t- распределению, в то время как зависимый t- критерий является субоптимальным, поскольку он отбрасывает непарные данные.

Большинство двухвыборочных t- тестов устойчивы ко всем отклонениям от предположений, кроме больших.

Для точности , то т -test и Z -test требуют нормальности средства выборки, а т -test дополнительно требуют, чтобы образец дисперсия следует масштабируется χ 2 распределения , и что выборочная средняя и выборочная дисперсия быть статистически независима . При соблюдении этих условий нормальность отдельных значений данных не требуется. Согласно центральной предельной теореме средние выборки умеренно больших выборок часто хорошо аппроксимируются нормальным распределением, даже если данные не имеют нормального распределения. Для ненормальных данных распределение дисперсии выборки может существенно отклоняться от распределения χ 2 . Однако, если размер выборки большой, теорема Слуцкого подразумевает, что распределение дисперсии выборки мало влияет на распределение тестовой статистики.

Непарные и парные двухвыборочные t- тесты

Ошибка типа I для непарных и парных двухвыборочных t- тестов как функция корреляции. Смоделированные случайные числа происходят из двумерного нормального распределения с дисперсией 1. Уровень значимости составляет 5%, а количество случаев - 60.
Мощность непарных и парных двухвыборочных t- тестов как функция корреляции. Смоделированные случайные числа происходят из двумерного нормального распределения с дисперсией 1 и отклонением от ожидаемого значения 0,4. Уровень значимости 5%, количество случаев - 60.

Два образец т - тесты для разницы в среднем включают независимые выборки (образцы) непарные или парные образцы. Парные t- тесты представляют собой форму блокировки и имеют большую мощность (вероятность избежать ошибки типа II, также известную как ложноотрицательный), чем непарные тесты, когда парные единицы аналогичны в отношении «факторов шума», которые не зависят от членство в двух сравниваемых группах. В другом контексте парные t- тесты могут использоваться для уменьшения влияния смешивающих факторов в наблюдательном исследовании .

Независимые (непарные) образцы

T- критерий независимых выборок используется, когда получены два отдельных набора независимых и одинаково распределенных выборок, по одному от каждой из двух сравниваемых популяций. Например, предположим, что мы оцениваем эффект от лечения и включаем 100 субъектов в наше исследование, а затем случайным образом назначаем 50 субъектов в группу лечения и 50 субъектов в контрольную группу. В этом случае у нас есть две независимые выборки, и мы будем использовать непарную форму t- критерия.

Парные образцы

Т- тесты парных выборок обычно состоят из выборки совпадающих пар одинаковых единиц или одной группы единиц, которая была протестирована дважды ( t- тест «повторных измерений» ).

Типичный пример t- теста с повторными измерениями - это когда субъектов тестируют перед лечением, скажем, на высокое кровяное давление, и тех же субъектов снова проверяют после лечения препаратом, снижающим артериальное давление. Сравнивая количество одних и тех же пациентов до и после лечения, мы эффективно используем каждого пациента в качестве контроля. Таким образом, правильное отклонение нулевой гипотезы (здесь: отсутствие различий, вызванных лечением) может стать гораздо более вероятным, со статистической мощностью, увеличивающейся просто потому, что случайная вариация между пациентами теперь устранена. Однако увеличение статистической мощности имеет свою цену: требуется больше тестов, каждый предмет должен быть протестирован дважды. Поскольку половина выборки теперь зависит от другой половины, парная версия t- критерия Стьюдента имеет толькоп/2- 1 степень свободы ( n - общее количество наблюдений). Пары становятся отдельными тестовыми образцами, и образец необходимо удвоить, чтобы достичь того же количества степеней свободы. Обычно существует n - 1 степень свободы ( n - общее количество наблюдений).

T -тест парных выборок, основанный на «выборке согласованных пар», получается из непарной выборки, которая впоследствии используется для формирования парной выборки с использованием дополнительных переменных, которые были измерены вместе с интересующей переменной. Сопоставление осуществляется путем идентификации пар значений, состоящих из одного наблюдения из каждой из двух выборок, где пара аналогична с точки зрения других измеряемых переменных. Этот подход иногда используется в обсервационных исследованиях для уменьшения или устранения влияния смешивающих факторов.

T- тесты парных выборок часто называют t- тестами зависимых выборок .

Расчеты

Ниже приведены явные выражения, которые можно использовать для проведения различных t- тестов. В каждом случае приводится формула для тестовой статистики, которая либо точно следует, либо близко аппроксимирует t -распределение при нулевой гипотезе. Кроме того, в каждом случае указаны соответствующие степени свободы . Каждую из этих статистических данных можно использовать для проведения одностороннего или двустороннего теста .

После определения значения t и степеней свободы можно найти p -значение , используя таблицу значений t -распределения Стьюдента . Если вычисленное значение p ниже порога, выбранного для статистической значимости (обычно уровня 0,10, 0,05 или 0,01), то нулевая гипотеза отклоняется в пользу альтернативной гипотезы.

Один образец т -test

При проверке нулевой гипотезы о том, что среднее значение генеральной совокупности равно заданному значению μ 0 , используется статистика

где - среднее значение выборки, s - стандартное отклонение выборки, а n - размер выборки. В этом тесте используются степени свободы n - 1 . Хотя родительская популяция не обязательно должна быть нормально распределенной, предполагается, что распределение выборочных средних является нормальным.

Согласно центральной предельной теореме , если наблюдения независимы и второй момент существует, то будет приблизительно нормальным N (0; 1).

Наклон линии регрессии

Предположим, что кто-то соответствует модели

где x известно, α и β неизвестны, ε - это нормально распределенная случайная величина со средним 0 и неизвестной дисперсией σ 2 , а Y - интересующий результат. Мы хотим проверить нулевую гипотезу о том, что наклон β равен некоторому заданному значению β 0 (часто принимается равным 0, и в этом случае нулевая гипотеза состоит в том, что x и y некоррелированы).

Позволять

потом

имеет t -распределение с n - 2 степенями свободы, если нулевая гипотеза верна. Стандартная ошибка коэффициента наклона :

можно записать через остатки. Позволять

Тогда t- балл определяется по формуле:

Другой способ определения t- балла :

где r - коэффициент корреляции Пирсона .

Т оценка, отсекаемый может быть определена из т балла, наклон :

где s x 2 - дисперсия выборки.

Независимый двухвыборочный t- тест

Равные размеры выборки и дисперсия

Учитывая две группы (1, 2), этот тест применим только тогда, когда:

  • два размера выборки (то есть количество участников n в каждой группе) равны;
  • можно предположить, что два распределения имеют одинаковую дисперсию;

Нарушения этих предположений обсуждаются ниже.

Т статистики для проверки различно может быть вычислена следующим образом средства:

куда

Здесь s p - объединенное стандартное отклонение для n = n 1 = n 2 и s 2
х 1
и s 2
х 2
являются несмещенные оценки этих дисперсий двух образцов. Знаменатель t - это стандартная ошибка разницы между двумя средними.

Для проверки значимости степени свободы этого теста равны 2 n - 2, где n - количество участников в каждой группе.

Равные или неравные размеры выборки, одинаковые дисперсии (1/2 < s X 1/s X 2 <2)

Этот тест используется только тогда, когда можно предположить, что два распределения имеют одинаковую дисперсию. (Если это предположение нарушается, см. Ниже.) Предыдущие формулы являются частным случаем формул ниже, их восстанавливают, когда оба образца равны по размеру: n = n 1 = n 2 .

Т статистики для проверки различно может быть вычислена следующим образом средства:

куда

является оценкой объединенного стандартного отклонения двух выборок: он определяется таким образом, что его квадрат является несмещенной оценкой общей дисперсии независимо от того, совпадают ли средние значения генеральной совокупности. В этих формулах n i - 1 - это количество степеней свободы для каждой группы, а общий размер выборки минус два (то есть n 1 + n 2 - 2 ) - это общее количество используемых степеней свободы. в тестировании значимости.

Равные или неравные размеры выборки, неравные дисперсии ( s X 1 > 2 s X 2 или s X 2 > 2 s X 1 )

Этот тест, также известный как t- критерий Велча , используется только тогда, когда предполагается, что две дисперсии генеральной совокупности не равны (два размера выборки могут быть или не равны) и, следовательно, должны оцениваться отдельно. Т статистики для теста, отличаются ли средства населения рассчитывается как:

куда

Вот ев я 2 является несмещенной оценкой из дисперсии каждого из двух образцов с п я = количество участников в группе я ( я = 1 или 2). В этом случае не объединенная дисперсия. Для использования в тестировании значимости распределение тестовой статистики аппроксимируется как обычное t -распределение Стьюдента со степенями свободы, рассчитанными с использованием

Это известно как уравнение Уэлча – Саттертуэйта . Истинное распределение тестовой статистики фактически зависит (немного) от двух неизвестных дисперсий совокупности (см. Проблему Беренса – Фишера ).

Зависимый t- критерий для парных выборок

Этот тест используется, когда образцы зависимы; то есть, когда есть только один образец, который был протестирован дважды (повторные измерения), или когда есть два образца, которые были сопоставлены или «спарены». Это пример парного разностного теста . Т статистики рассчитывается как

где и - среднее и стандартное отклонение разностей между всеми парами. Пары представляют собой, например, баллы одного человека до и после теста или между парами людей, составленных в значимые группы (например, взятые из одной семьи или возрастной группы: см. Таблицу). Константа μ 0 равна нулю, если мы хотим проверить, существенно ли отличается среднее значение разницы. Используемая степень свободы равна n - 1 , где n представляет количество пар.

Пример повторных измерений
Число Имя Тест 1 Тест 2
1 Майк 35% 67%
2 Мелани 50% 46%
3 Мелисса 90% 86%
4 Митчелл 78% 91%
Пример подобранных пар
Пара Имя Возраст Тестовое задание
1 Джон 35 год 250
1 Джейн 36 340
2 Джимми 22 460
2 Джесси 21 год 200

Примеры работ

Пусть A 1 обозначает набор, полученный путем случайной выборки из шести измерений:

и пусть A 2 обозначает второй набор, полученный аналогично:

Это может быть, например, вес шурупов, выбранных из ведра.

Мы проведем проверку нулевой гипотезы о том, что средние значения совокупностей, из которых были взяты две выборки, равны.

Разница между двумя выборочными средними значениями, каждое из которых обозначено X i , которое появляется в числителе для всех двухвыборочных подходов к тестированию, обсужденных выше, составляет

Образцы стандартные отклонения для двух образцов примерно 0,05 и 0,11, соответственно. Для таких небольших выборок проверка равенства между двумя дисперсиями генеральной совокупности не будет очень действенной. Поскольку размеры выборки равны, две формы двухвыборочного t- критерия в этом примере будут работать одинаково.

Неравные отклонения

Если следовать подходу для неравных дисперсий (обсужденному выше), результаты будут

и степени свободы

Статистический показатель теста составляет приблизительно 1,959, что дает значение p двустороннего теста 0,09077.

Равные отклонения

Если следовать подходу равных дисперсий (обсужденному выше), результаты будут

и степени свободы

Статистика теста приблизительно равна 1,959, что дает двустороннее p- значение 0,07857.

Связанные статистические тесты

Альтернативы t- тесту для определения местоположения

Т -test обеспечивает точный тест на равенство средств двух IID нормальных популяций с неизвестным, но равен, дисперсиями. ( Уэлч т -test является почти точным тестом для случая , когда данные являются нормальными , но дисперсии могут отличаться) . Для умеренно больших выборок и одного хвостатых теста, т -test является относительно устойчивой к умеренному нарушению нормальности предположения. В достаточно больших выборках t-критерий асимптотически приближается к z- критерию и становится устойчивым даже к большим отклонениям от нормальности.

Если данные существенно не соответствуют норме, а размер выборки невелик, t- критерий может дать вводящие в заблуждение результаты. См. В разделе « Проверка местоположения» для распределений смеси гауссовского масштаба некоторую теорию, относящуюся к одному конкретному семейству ненормальных распределений.

Когда предположение о нормальности не выполняется, непараметрическая альтернатива t- критерию может иметь лучшую статистическую мощность . Однако, когда данные не являются нормальными с различными отклонениями между группами, t-тест может иметь лучший контроль ошибок типа 1, чем некоторые непараметрические альтернативы. Кроме того, непараметрические методы, такие как U-критерий Манна-Уитни, обсуждаемый ниже, обычно не проверяют разницу средних значений, поэтому их следует использовать осторожно, если разница средних значений представляет первостепенный научный интерес. Например, U-критерий Манна-Уитни сохранит ошибку типа 1 на желаемом уровне альфа, если обе группы имеют одинаковое распределение. Он также будет иметь возможность обнаруживать альтернативу, по которой группа B имеет то же распределение, что и A, но после некоторого сдвига на константу (в этом случае действительно будет разница в средних значениях двух групп). Однако могут быть случаи, когда группы A и B будут иметь разные распределения, но с одинаковыми средними значениями (например, два распределения, одно с положительной асимметрией, а другое с отрицательным, но смещенное таким образом, чтобы иметь одинаковые средние значения). В таких случаях MW может иметь больше, чем уровень альфа-уровня в отклонении гипотезы о нуле, но приписывать интерпретацию различия в средних значениях такому результату было бы неверно.

При наличии выброса t-тест не является надежным. Например, для двух независимых выборок, когда распределения данных асимметричны (то есть распределения искажены ) или распределения имеют большие хвосты, тогда критерий суммы рангов Вилкоксона (также известный как U- критерий Манна – Уитни ) может иметь три в четыре раза большей мощности, чем t- тест. Непараметрическим аналогом t - критерия для парных выборок является знаковый ранговый критерий Вилкоксона для парных выборок. Для обсуждения выбора между t- критерием и непараметрическими альтернативами см. Lumley, et al. (2002).

Односторонний дисперсионный анализ (ANOVA) обобщает двухвыборочный t- критерий, когда данные принадлежат более чем двум группам.

Дизайн, включающий как парные, так и независимые наблюдения.

Когда в двух планах выборки присутствуют как парные наблюдения, так и независимые наблюдения, при условии, что данные отсутствуют полностью случайным образом (MCAR), парные наблюдения или независимые наблюдения могут быть отброшены, чтобы продолжить стандартные тесты, описанные выше. В качестве альтернативы, используя все доступные данные, предполагая нормальность и MCAR, можно использовать t-тест обобщенных частично перекрывающихся выборок.

Многовариантное тестирование

Обобщение t- статистики Стьюдента , называемое t- квадратной статистикой Хотеллинга , позволяет проверять гипотезы по множественным (часто коррелированным) измерениям в пределах одной и той же выборки. Например, исследователь может подвергнуть несколько испытуемых личностному тесту, состоящему из множественных личностных шкал (например, Миннесотский многофазный опросник личности ). Поскольку меры этого типа обычно положительно коррелированы, не рекомендуется проводить отдельные одномерные t- тесты для проверки гипотез, поскольку они пренебрегают ковариацией между мерами и увеличивают вероятность ложного отклонения по крайней мере одной гипотезы ( ошибка типа I ). В этом случае для проверки гипотез предпочтительнее использовать одномерный многомерный тест. Метод Фишера для объединения нескольких тестов с уменьшенным альфа для положительной корреляции между тестами - один. Другой Хотеллинг T 2 статистика следует Т 2 распределения. Однако на практике это распределение используется редко, так как табличные значения T 2 трудно найти. Обычно вместо этого T 2 конвертируется в статистику F.

Для многомерного теста с одной выборкой гипотеза состоит в том, что средний вектор ( μ ) равен заданному вектору ( μ 0 ). Статистика теста - t 2 Хотеллинга :

где n - размер выборки, x - вектор средних значений столбца, а S - ковариационная матрица выборки m × m .

Для многомерного теста с двумя выборками гипотеза состоит в том, что средние векторы ( μ 1 , μ 2 ) двух выборок равны. Статистический показатель теста - это двухвыборочный t 2 Хотеллинга :

Программные реализации

Многие программы для работы с электронными таблицами и статистические пакеты, такие как QtiPlot , LibreOffice Calc , Microsoft Excel , SAS , SPSS , Stata , DAP , gretl , R , Python , PSPP , MATLAB и Minitab , включают реализации t- теста Стьюдента .

Язык / Программа Функция Примечания
Microsoft Excel до 2010 г. TTEST(array1, array2, tails, type) См. [1]
Microsoft Excel 2010 и более поздние версии T.TEST(array1, array2, tails, type) См. [2]
LibreOffice Calc TTEST(Data1; Data2; Mode; Type) См. [3]
Google Таблицы TTEST(range1, range2, tails, type) См. [4]
Python scipy.stats.ttest_ind(a, b, equal_var=True) См. [5]
MATLAB ttest(data1, data2) См. [6]
Mathematica TTest[{data1,data2}] См. [7]
р t.test(data1, data2, var.equal=TRUE) См. [8]
SAS PROC TTEST См. [9]
Джава tTest(sample1, sample2) См. [10]
Юлия EqualVarianceTTest(sample1, sample2) См. [11]
Stata ttest data1 == data2 См. [12]

Смотрите также

использованная литература

Цитаты

Источники

дальнейшее чтение

  • Боне, К. Алан (1960). «Последствия нарушения предположений, лежащих в основе t- теста». Психологический бюллетень . 57 (1): 49–64. DOI : 10.1037 / h0041412 . PMID  13802482 .
  • Edgell, Стивен Э .; Полдень, Шейла М. (1984). «Влияние нарушения нормальности на t- тест коэффициента корреляции». Психологический бюллетень . 95 (3): 576–583. DOI : 10.1037 / 0033-2909.95.3.576 .

внешние ссылки