Что такое выброс в наборе данных?
Выброс — это значение, которое не похоже на остальные. Например, если все в классе английского языка сдали тест в среднем на 78 баллов, но один парень полностью провалил тест, набрав 24 балла, этот результат называется выбросом. Выбросы — это фрагменты (числа), выходящие за рамки нормы. Они имеют тенденцию искажать среднее значение выше или ниже, чем оно должно быть. Необходимо выявлять выбросы, потому что если кто-то считывает среднее значение для набора данных, он может быть введен в заблуждение.
Выбросы влияют на среднее значение набора, заставляя аналитиков полагаться на другие способы более точного измерения. Например, если баскетболист набирает в среднем 32 очка за игру, но в одной игре игрок набирает только 4 очка, средний показатель игрока значительно снизится. Если скаут колледжа считывал средний результат игрока и увидел, что средний результат равен 20 из-за отклонения, то он может упустить великого игрока просто потому, что у него была одна плохая игра!
На этой точечной диаграмме показан набор данных без выбросов. В этом случае среднее значение и медиана совпадают. Среднее значение и медиана могут различаться без каких-либо выбросов, но когда выброс присутствует, на среднее значение влияет слишком сильно, чтобы его можно было надежно использовать для оценки данных.
На этой точечной диаграмме показан ряд (набор данных) с выбросом. Область кластера чисел представляет собой реальное представление данных, но среднее значение очень близко к наибольшему числу в этом кластере, поскольку выброс равен 20. Когда аналитик читает среднее значение, он предполагает, что быть половина значений выше среднего и половина ниже среднего еще до того, как вы увидите фактический набор данных!
Диаграмма рассеяния показывает пример без выбросов, с линией наилучшего соответствия, дающей хороший прогноз тенденции данных. Он почти равномерно разделяет точки на графике.
Однако, когда в наборе есть выброс, это влияет на линию наилучшего соответствия, что дает плохое представление о тенденции данных.
На гистограмме можно увидеть выброс, влияющий на асимметрию.
Минимумы и максимумы при вводе данных
Минимальное количество записей данных — это цифры с наименьшим значением. Максимум — это данные с наибольшим значением в наборе. Минимум и максимум легко определить, упорядочив ввод от меньшего к большему числу.
Например, если числа: 14, 8, 17, 15, 27, 19, 2, 11 и 22 являются записями данных, было бы полезно упорядочить значения от наименьшего к наибольшему.
В упорядоченном виде это выглядит следующим образом: 2, 8, 11, 14, 15, 17, 19, 22 и 27. Упорядоченный наборпоказывает, что первое число — это наименьшее число и минимум, равный 2. Максимум это 27.
Используйте заданные минимальные и максимальные данные для расчета диапазона. Цель диапазона — широко показать распространение данных, описывая, насколько далеко друг от друга потенциально могут находиться записи.
Используя тот же пример, диапазон будет равен
27−2 = 25
Поиск выбросов в наборе данных
Существует несколько методов поиска выбросов в наборе данных или ряду, например использование межквартильного диапазона, расчет z-показателя, построение графика и сортировка.
Сортировка данных — это та же концепция, что и их упорядочивание от меньшего к большему. Как только это будет сделано, посмотрите на высокие или низкие цифры, которые кажутся выделяющимися. Например, если в списке десять чисел от 30 до 40, но одно число — 4, а другое — 87, их можно идентифицировать, как выбросы.
Аналогично, если данные были нанесены на точечную диаграмму или числовую линию точечной диаграммы, набор данных будет либо сгруппирован вместе, либо довольно равномерно распределен. Однако если за пределами кластера или тренда нанесенных точек находится от одной до трех точек, их можно идентифицировать как выбросы.
Пример: минимум, максимум и выброс в наборе данных.
Найдите минимум, максимум и выброс для возрастов: 73, 87, 85, 72, 15, 70, 73, 81, 79, 38, 84, 85, 119, 122.
Отсортируйте числа от наименьшего к наибольшему: 15, 38, 70, 72, 73, 73, 79, 81, 84, 85, 85, 87, 119, 122.
В зависимости от порядка минимум — 15, максимум — 112.
Поскольку большая часть группы находится в возрасте 70-х и 80-х годов, записи, которые выделяются и могут быть идентифицированы как выбросы, — это 15, 38, 119 и 122.
При построении графика выбросы можно увидеть за пределами обычного разброса кластера данных.
Чтобы убедиться, что 15, 38, 119 и 122 действительно являются выбросами, рассчитайте границы для данных, используя межквартильный диапазон. Представьте заборы как забор дома — все внутри забора дает измеримое представление о том, что делают данные. Любые числа за пределами забора будут выбросами.
Чтобы рассчитать IQR, вычтите Q3 из Q1.
Q1 и Q3 определяются путем просмотра отсортированного набора: 15, 38, 70, 72, 73, 73, 79, 81, 84, 85, 85, 87, 119, 122.
Найдите медиану. Поскольку медиана является средним значением, она будет равна 80. Поскольку имеется четное количество записей, медиана была найдена путем сложения двух средних чисел и деления их на 2.
Чтобы определить Q1, посмотрите только на те записи, которые предшествуют медиане 80: 15, 38, 70, 72, 73, 73, 79. Медианой этого меньшего набора чисел будет Q1, то есть 72.
Чтобы определить Q3, посмотрите только на те записи, которые идут после медианы 80: 81, 84, 85, 85, 87, 119, 122. Медианой этого большего набора чисел будет Q3, то есть 85.
Поскольку IQR= Q3 = Q1, тогда IQR= 85-72. Упрощение показывает, что IQR=13.
Верхняя граница определяется уравнением, Q3 + (1,5 * IQR). Подставляя в Q3 и IQR, 85 + (1,5*13), 85+ (19.5), показывающее что 104.5 это верхняя граница.
Нижняя граница может быть определена аналогично, за исключением того, что уравнение является верхним ограждением, определяется уравнением, Q1 + (1,5 * IQR). Подставляя в Q1 и IQR получаем 72 — (1.5*13), показывающее что 52.5 это нижняя граница.
Любой ввод данных выше верхней границы (предела) является выбросом, и любой ввод ниже нижней границы также является выбросом.
Поскольку 119 и 122 находятся выше верхней границы, в то время как 15 и 38 находятся ниже нижней границы, 15, 38, 119 и 122 проверяются, как выбросы.
Краткие итоги урока
Выбросы — это записи данных, которые не входят в тренд или кластер других записей. Их можно представить в виде точечных диаграмм, диаграмм с ящичками и усами, диаграмм рассеяния, гистограмм и любым другим способом визуального представления набора данных.
- Чтобы выявить выбросы с помощью метода сортировки, расположите набор в порядке от меньшего к большему. Затем посмотрите, какие записи будут неуместны.
- Чтобы определить выброс с помощью диаграмм рассеяния, нанесите данные на координатную плоскость и посмотрите, есть ли какие-либо точки, далекие от тренда других точек. Это выбросы.
- Гистограммы также могут отображать выбросы, отображая информацию в интервалах в виде графика и определяя, какой интервал находится далеко от кластера интервалов. Это может показать, что одиночный интервал является выбросом.
- Чтобы проверить выбросы, рассчитайте IQR и посмотрите, какие записи находятся выше верхней границы, а какие точки — ниже нижней границы.
Часто задаваемые вопросы
Что такое выбросы?
Это запись, которая не соответствует тенденции или кластеру других записей данных. Например, если большинство баскетболистов в команде имеют рост выше 6 футов, два игрока ростом около 5 футов будут считаться исключениями.
Как найти выбросы в наборе данных?
Выбросы в наборе данных можно найти несколькими способами, например: сортировка, построение графика, расчет z-показателя, использование IQR для поиска верхнего и нижнего предела и т. д.