Разъясненная вариация - Explained variation

В статистике , объясненной вариации измеряет долю , в которой математическая модель учитывает вариации ( дисперсии ) данного набора данных. Часто вариацию количественно оценивают как дисперсию ; затем можно использовать более конкретный термин « объясненная дисперсия» .

Дополнительная часть общей вариации называется необъяснимой или остаточной вариацией.

Определение с точки зрения получения информации

Получение информации за счет лучшего моделирования

Следуя Кенту (1983), мы используем информацию Фрейзера (Fraser 1965).

где - плотность вероятности случайной величины , а с ( ) - два семейства параметрических моделей. Семейство моделей 0 является более простым с ограниченным пространством параметров .

Параметры определяются методом максимального правдоподобия ,

Информационный выигрыш модели 1 по сравнению с моделью 0 записывается как

где для удобства включен коэффициент 2. Γ всегда неотрицательно; он измеряет степень, в которой лучшая модель семьи 1 лучше, чем лучшая модель семьи 0 в объяснении g ( r ).

Получение информации с помощью условной модели

Предположим, что это двумерная случайная величина, где X следует рассматривать как объясняющую переменную, а Y как зависимую переменную. Модели семьи 1 «объясняют» Y через X ,

,

тогда как в семействе 0 предполагается , что X и Y независимы. Мы определяем случайность Y с помощью , а случайность Y , заданного X , с помощью . Потом,

можно интерпретировать как долю дисперсии данных , которая является «объяснено» с помощью X .

Частные случаи и обобщенное использование

Линейная регрессия

Доля необъяснимой дисперсии - это устоявшееся понятие в контексте линейной регрессии . Обычное определение коэффициента детерминации основано на фундаментальной концепции объясненной дисперсии.

Коэффициент корреляции как мера объясненной дисперсии

Пусть X - случайный вектор, а Y - случайная величина, которая моделируется нормальным распределением с центром . В этом случае полученная выше доля объясненной вариации равна квадрату коэффициента корреляции .

Обратите внимание на сильные допущения модели: центр Y распределения должна быть линейной функцией от X , и для любых заданных х , то Y распределение должно быть нормальным. В других ситуациях, как правило, неоправданно интерпретировать как долю объясненной дисперсии.

В анализе главных компонент

Объясненная дисперсия обычно используется в анализе главных компонентов . Связь с получением информации Фрейзером – Кентом еще предстоит выяснить.

Критика

Поскольку доля «объясненной дисперсии» равна квадрату коэффициента корреляции , она разделяет все недостатки последнего: она отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.

По словам одного критика: «Таким образом , получается« процент отклонения, объясняемого »регрессией, выражение, которое для большинства социологов имеет сомнительный смысл, но имеет большую риторическую ценность. Если это число велико, регрессия дает хорошее подходят, и нет смысла искать дополнительные переменные. Другие уравнения регрессии для других наборов данных считаются менее удовлетворительными или менее эффективными, если их меньше. Ничего подобного не поддерживает эти утверждения ". И, после построения примера, где улучшается просто за счет совместного рассмотрения данных из двух разных популяций: «Объясненная дисперсия ничего не объясняет».

Смотрите также

Рекомендации

внешняя ссылка