Исследовательский анализ данных - Exploratory data analysis

В статистике , разведочный анализ данных представляет собой подход анализ наборов данных резюмировать их основные характеристики, часто используя статистические графики и других визуализации данных методов. Статистическая модель может быть использована или нет, но в первую очередь EDA для видеть то , что данные могут сказать нам за формальное моделирование или гипотезы задачи тестирования. Исследовательский анализ данных продвигается Джоном Тьюки с 1970 года, чтобы побудить статистиков изучить данные и, возможно, сформулировать гипотезы, которые могут привести к сбору новых данных и экспериментам. EDA отличается от анализа исходных данных (IDA) , который более узко фокусируется на проверке предположений, необходимых для подгонки модели и проверки гипотез, а также на обработке недостающих значений и выполнении преобразований переменных по мере необходимости. EDA включает IDA.

Обзор

Тьюки определил анализ данных в 1961 году как: «Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать их анализ более простым, точным или более точным, а также все механизмы и результаты ( математическая) статистика, которая применяется для анализа данных ".

Поддержка Тьюки EDA стимулировала разработку пакетов статистических вычислений , особенно S в Bell Labs . Язык программирования S вдохновил система S-PLUS и R . Это семейство сред статистических вычислений отличается значительно улучшенными возможностями динамической визуализации, что позволяет статистикам выявлять выбросы , тенденции и закономерности в данных, которые заслуживают дальнейшего изучения.

EDA Тьюки был связан с двумя другими достижениями в статистической теории : надежной статистикой и непараметрической статистикой , обе из которых пытались снизить чувствительность статистических выводов к ошибкам при формулировании статистических моделей . Тьюки способствовали использованию пять суммарного числа числовых данных-два крайних ( максимальные и минимальным ), в среднем , и квартилей -Потых этой медианы и квартили, будучи функцию эмпирического распределения определены для всех распределений, в отличии от среднего и стандартное отклонение ; кроме того, квартили и медиана более устойчивы к асимметричным распределениям или распределениям с тяжелыми хвостами, чем традиционные итоги (среднее и стандартное отклонение). Пакеты S , S-PLUS и R включены процедуры с использованием ресэмплинга статистики , такие как Quenouille и Тьюки складной нож и Ефрон «ы начальной загрузка , которые являются непараметрическими и надежными (для многих задач).

Исследовательский анализ данных, надежная статистика, непараметрическая статистика и развитие языков статистического программирования облегчили работу статистиков над научными и инженерными проблемами. К таким проблемам относились изготовление полупроводников и понимание сетей связи, которые волновали Bell Labs. Эти статистические разработки, отстаиваемые Тьюки, были призваны дополнить аналитическую теорию проверки статистических гипотез , в частности акцент лапласовской традиции на экспоненциальные семейства .

Разработка

Блок-схема процесса обработки данных

Джон В. Тьюки написал книгу « Исследовательский анализ данных» в 1977 году. Тьюки считал, что в статистике слишком много внимания уделяется проверке статистических гипотез (подтверждающему анализу данных); больший акцент необходимо сделать на использовании данных для предложения гипотез для проверки. В частности, он считал, что смешение двух типов анализа и использование их на одном и том же наборе данных может привести к систематической систематической ошибке из-за проблем, присущих проверке гипотез, предложенных данными .

Цели EDA:

Предложите гипотезы о причинах наблюдаемых явлений.
Оценить предположения, на которых будут основаны статистические выводы.
Поддержка выбора подходящих статистических инструментов и методов
Обеспечить основу для дальнейшего сбора данных с помощью опросов или экспериментов.

Многие методы EDA были адаптированы для интеллектуального анализа данных . Они также преподаются молодым студентам как способ приобщить их к статистическому мышлению.

Техники и инструменты

Существует ряд инструментов, которые могут быть полезны для EDA, но EDA характеризуется больше настроением, чем конкретными методами.

Типичные графические методы, используемые в EDA:

Коробчатый сюжет
Гистограмма
Многовариантная диаграмма
График выполнения
Диаграмма Парето
Диаграмма разброса
Стеблево-листовой участок
Параллельные координаты
Соотношение шансов
Целенаправленное преследование проекции
Методы визуализации на основе глифов, такие как лица PhenoPlot и Чернова.
Методы проецирования, такие как грандиозный тур, экскурсия с гидом и ручная экскурсия.
Интерактивные версии этих сюжетов

Снижение размерности :

Типичные количественные методы:

История

Многие идеи EDA восходят к более ранним авторам, например:

Фрэнсис Гальтон сделал упор на статистику порядка и квантили .
Артур Лайон Боули использовал предшественники основного графика и пятизначное резюме (Боули фактически использовал « семизначное резюме », включая крайние значения, децили и квартили , а также медианное значение - см. Его « Элементарное руководство по статистике» (3-е изд., 1920 г.) ), стр. 62 - он определяет «максимум и минимум, медиана, квартили и два дециля» как «семь позиций»).
Эндрю Эренберг сформулировал философию сокращения данных (см. Его одноименную книгу).

Открытый университет курс Статистика в обществе (MDST 242), приняли вышеуказанные идеи и объединить их с Готфридом Нетер работой «s, который представил статистический вывод с помощью монеты подбрасывания и медианного теста .

Пример

Результаты EDA ортогональны задаче первичного анализа. Для иллюстрации рассмотрим пример из Cook et al. где задача анализа состоит в том, чтобы найти переменные, которые лучше всего предсказывают чаевые официанту за ужином. Переменные, доступные в данных, собранных для этой задачи: сумма чаевых, общий счет, пол плательщика, раздел для курящих / некурящих, время суток, день недели и размер вечеринки. Задача первичного анализа решается путем подбора регрессионной модели, в которой показатель чаевых является переменной отклика. Подходящая модель

( ставка чаевых ) = 0,18 - 0,01 × (размер группы)

в котором говорится, что по мере увеличения размера обеда на одного человека (что приводит к увеличению счета) ставка чаевых уменьшится на 1%.

Однако изучение данных обнаруживает другие интересные особенности, не описанные в этой модели.

Гистограмма суммы чаевых, где ячейки покрывают приращения в 1 доллар. Распределение значений искажено вправо и одномодально, как это часто бывает при распределении небольших неотрицательных величин.
Гистограмма суммы чаевых, где ячейки покрывают приращение 0,10 доллара. Наблюдается интересный феномен: пики возникают при суммах в целый доллар и полдоллара, что вызвано тем, что клиенты выбирают круглые числа в качестве чаевых. Такое поведение характерно и для других типов покупок, например, при покупке бензина.
Диаграмма рассеяния чаевых и счета. Точки под линией соответствуют чаевым, которые ниже ожидаемой (для данной суммы счета), а точки над линией выше ожидаемых. Мы могли бы ожидать увидеть тесную положительную линейную связь, но вместо этого увидим вариации, которые увеличиваются с увеличением суммы чаевых . В частности, в правом нижнем углу больше точек далеко от линии, чем в верхнем левом, что указывает на то, что больше клиентов очень дешевые, чем очень щедрые.
Диаграмма разброса чаевых и счета, разделенных по полу плательщика и статусу раздела для курящих. На вечеринках для курящих гораздо больше вариантов советов, которые они дают. Мужчины, как правило, платят (несколько) более высокие счета, а некурящие женщины, как правило, очень часто дают чаевые (с тремя заметными исключениями, показанными в выборке).

То, что извлекается из графиков, отличается от того, что проиллюстрировано регрессионной моделью, даже несмотря на то, что эксперимент не был разработан для исследования каких-либо других тенденций. Паттерны, обнаруженные при изучении данных, предполагают гипотезы об опрокидывании, которые, возможно, не ожидались заранее, и которые могут привести к интересным последующим экспериментам, в которых гипотезы формально формулируются и проверяются путем сбора новых данных.

Программное обеспечение

JMP , пакет EDA от института SAS .
KNIME , Konstanz Information Miner - платформа для исследования данных с открытым исходным кодом, основанная на Eclipse.
Minitab , EDA и пакет общей статистики, широко используемый в промышленных и корпоративных условиях.
Orange , программный пакет для интеллектуального анализа данных и машинного обучения с открытым исходным кодом.
Python , язык программирования с открытым исходным кодом, широко используемый в интеллектуальном анализе данных и машинном обучении.
R , язык программирования с открытым исходным кодом для статистических вычислений и графики. Вместе с Python один из самых популярных языков для науки о данных.
TinkerPlots программное обеспечение EDA для учащихся старших классов начальной и средней школы.
Weka - пакет интеллектуального анализа данных с открытым исходным кодом, который включает инструменты визуализации и EDA, такие как целевое проекционное отслеживание .

Смотрите также

Квартет Анскомба о важности исследований
Дноуглубительные работы
Прогнозная аналитика
Анализ структурированных данных (статистика)
Конфигурационный частотный анализ
Описательная статистика

использованная литература

Библиография

Андриенко, Н. и Андриенко, Г. (2005) Исследовательский анализ пространственных и временных данных. Системный подход . Springer. ISBN 3-540-25994-5
Д. Кук и Д. Ф. Суэйн (с А. Буджей, Д. Темпл Ланг, Х. Хофманном, Х. Уикхэмом, М. Лоуренсом) (2007-12-12). Интерактивная и динамическая графика для анализа данных: с R и GGobi . Springer. ISBN 9780387717616.CS1 maint: несколько имен: список авторов ( ссылка )
Хоглин, округ Колумбия; Мостеллер, Ф & Тьюки, Джон Уайлдер (редакторы) (1985). Изучение таблиц данных, тенденций и форм . ISBN 978-0-471-09776-1.CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: дополнительный текст: список авторов ( ссылка )
Хоглин, округ Колумбия; Мостеллер, Ф & Тьюки, Джон Уайлдер (редакторы) (1983). Понимание надежного и исследовательского анализа данных . ISBN 978-0-471-09777-8.CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: дополнительный текст: список авторов ( ссылка )
Инзельберг, Альфред (2009). Параллельные координаты: визуальная многомерная геометрия и ее приложения . Лондон Нью-Йорк: Спрингер. ISBN 978-0-387-68628-8.
Лейнхардт, Г., Лейнхардт, С., Исследовательский анализ данных: новые инструменты для анализа эмпирических данных , Обзор исследований в области образования, Vol. 8, 1980 (1980), стр. 85–157.
Мартинес, WL ; Мартинес, А. Р. и Солка, Дж. (2010). Исследовательский анализ данных с помощью MATLAB, второе издание . Чепмен и Холл / CRC. ISBN 9781439812204.
Теус, М., Урбанек, С. (2008), Интерактивная графика для анализа данных: принципы и примеры, CRC Press, Бока-Ратон, Флорида, ISBN 978-1-58488-594-8
Такер, L; МакКаллум, Р. (1993). Исследовательский факторный анализ . [1] .
Тьюки, Джон Уайлдер (1977). Исследовательский анализ данных . Эддисон-Уэсли. ISBN 978-0-201-07616-5.
Веллеман П.Ф .; Хоглин, округ Колумбия (1981). Приложения, основы и вычисления исследовательского анализа данных . ISBN 978-0-87150-409-8.
Янг, Ф. В. Валеро-Мора, П. и Френдли М. (2006) Визуальная статистика: просмотр данных с помощью динамической интерактивной графики . Wiley ISBN 978-0-471-68160-1
Джамбу М. (1991) Исследовательский и многомерный анализ данных . ISBN Academic Press 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Графический анализ исследовательских данных . Springer ISBN 978-1-4612-9371-2

Languages

In other projects