Шумные данные - Noisy data

Шумные данные - это данные, которые повреждены, искажены или имеют низкое отношение сигнал / шум . Неправильные процедуры (или неправильно задокументированные процедуры) для вычитания шума в данных могут привести к ложному ощущению точности или ложным выводам.

Данные = истинный сигнал + шум

Зашумленные данные - это данные с большим количеством дополнительной бессмысленной информации, называемой шумом. Это включает в себя повреждение данных, и этот термин часто используется как синоним поврежденных данных. Он также включает любые данные, которые пользовательская система не может правильно понять и интерпретировать. Например, многие системы не могут использовать неструктурированный текст . Шумные данные могут отрицательно повлиять на результаты любого анализа данных и исказить выводы, если с ними не обращаться должным образом. Статистический анализ иногда используется для устранения шума из зашумленных данных.

Источники шума

В этом примере выброса и фильтрации точка t2 является выбросом. Плавный переход к выбросу и от него связан с фильтрацией, и это тоже не действительные данные, а больше шума. Представление отфильтрованных результатов (сглаженных переходов) как фактических измерений может привести к ложным выводам.
Этот тип фильтра ( скользящее среднее ) сдвигает данные вправо. Скользящая средняя цена в данный момент времени, как правило , сильно отличается от фактической цены в это время.

Отличия реальных измеренных данных от истинных значений обусловлены множеством факторов, влияющих на измерения.

Случайный шум часто является значительным компонентом шума в данных. Случайный шум в сигнале измеряется как отношение сигнал / шум . Случайный шум содержит почти равное количество широкого диапазона частот и также называется белым шумом (поскольку цвета света объединяются, чтобы получить белый ). Случайный шум - неизбежная проблема. Это влияет на процессы сбора и подготовки данных, где часто возникают ошибки. У шума два основных источника: ошибки, вносимые инструментами измерения, и случайные ошибки, вносимые обработкой или экспертами при сборе данных.

Неправильная фильтрация может добавить шум, если отфильтрованный сигнал обрабатывается так, как если бы это был непосредственно измеренный сигнал. Например, цифровые фильтры типа свертки, такие как скользящее среднее, могут иметь побочные эффекты, такие как запаздывание или усечение пиков. Дифференцирующие цифровые фильтры усиливают случайный шум в исходных данных.

Данные выброса - это данные, которые, по-видимому, не принадлежат набору данных. Это может быть вызвано человеческой ошибкой, такой как перестановка цифр, неправильная маркировка, программные ошибки и т. Д. Если фактические выбросы не удаляются из набора данных, они искажают результаты в небольшой или большой степени в зависимости от обстоятельств. Если действительные данные идентифицируются как выбросы и ошибочно удаляются, это также искажает результаты.

Мошенничество : люди могут намеренно исказить данные, чтобы повлиять на результаты и привести к желаемому выводу. Данные, которые выглядят хорошо с небольшими выбросами, хорошо отражаются на собирающем их отдельном человеке, и поэтому может быть стимул удалить больше данных как выбросы или сделать данные более гладкими, чем они есть на самом деле.

Рекомендации