Разброс данных: обзор и примеры

Что такое разброс данных?

Набор данных — это совокупность информации. Данные могут быть получены в результате опросов, измерений, наблюдений и т. д. Когда данные касаются только одной переменной, их называют одномерными данными. Примерами одномерных данных могут быть баллы SAT, рост или зарплата. Когда набор данных небольшой, их легче понять; Когда имеется большой набор данных, чтобы лучше понять данные, необходимо провести анализ, чтобы сделать некоторые выводы из данных.

Одномерные наборы данных можно анализировать двумя разными способами:

Центр данных — это сводка всего набора; среднее и медиана — это меры, представляющие центр данных. Среднее значение набора данных находится путем сложения всех значений в наборе и деления на количество точек данных, а медиана — это среднее значение, когда набор данных упорядочен от наименьшего к наибольшему.

Разброс данных (также известный как вариация, колебание, дисперсия и т. д.) — это мера того, насколько далеко данные отстоят от центра данных (среднего значения или медианы). Диапазон, межквартильный размах, среднее отклонение и стандартное отклонение являются мерами разброса данных.

Как найти разброс данных

Центральная тенденция описывает центр данных. На рисунке 1 два набора данных x1 и x2 имеют одинаковое среднее значение, равное 9. Однако, если вы посмотрите на разброс данных, оно совершенно другое. В то время как x1 имеет десять точек данных с 8 и одну 19, x2 имеет довольно равномерный разброс в диапазоне от 4 до 14. Если бы эти два набора сравнивались, используя только среднее значение, можно было бы предположить, что они примерно одинаковы, когда на самом деле они разные.

Наборы данных x1 и x2 имеют одинаковое среднее значение

Рисунок 1. Наборы данных x1 и x2 имеют одинаковое среднее значение, но их разброс сильно различается.

Рассмотрим годовую зарплату сотрудников компании А, приведенную ниже:

20 000 долларов, 20 000 долларов, 20 000 долларов, 20 000 долларов, 400 000 долларов.

Среднее значение этого набора данных составляет 96 000 долларов США, что означает, что средняя годовая зарплата в этой компании составляет 96 000 долларов США. Это, очевидно, вводит в заблуждение.

данные искажены

Рисунок 2. Если данные искажены, основные тенденции могут ввести в заблуждение.

Теперь рассмотрим компанию Б, опять же с 5 сотрудниками, чьи зарплаты указаны ниже:

10 000 долларов, 11 000 долларов, 50 000 долларов, 50 500 долларов, 50 600 долларов

Медиана этого набора данных составляет 50 000 долларов США, но еще раз сказать, что медианная зарплата в этой компании составляет 50 000 долларов в год, — это заблуждение.

Оба показателя, среднее и медиана, представляют собой только центр данных и поэтому могут привести к ошибочным выводам. Среднее значение особенно чувствительно к экстремальным значениям данных, как это видно на примере компании А. Меры разброса могут помочь лучше понять данные и сделать правильные выводы.

Диапазон

Диапазон — это разница между максимальным и минимальным значением набора данных.

Диапазон =maximum — minimum

Пример: рассмотрим годовую зарплату компании А:

20 000 долларов, 20 000 долларов, 20 000 долларов, 400 000 долларов.

Диапазон заработной платы в этой компании будет Диапазон = 400 000 — 20 000  =380 000

Межквартильный диапазон

Наборы данных можно проанализировать, разделив набор данных на четыре равных подмножества, называемых квартилями. Медиана представляет середину данных, и ее также называют вторым квартилем Q2, поскольку она делит данные на две равные части.

Межквартильный диапазон или IQR — это распределение средней половины набора данных. Это разница между третьим квартилем и первым квартилем набора данных.

IQR = Q3 — Q1

Рассмотрим результаты SAT 11 студентов: 600, 720, 640, 450, 710, 640, 780, 550, 640, 730, 670.

Чтобы найти межквартильный размах:

  • Организуйте данные от меньшего к большему: 450, 550, 600, 640, 640, 640, 670, 710, 720, 730 780.
  • Есть n=11 точки данных, поэтому медиана = (n+1)/2 = (11+1)/2=6, что означает, что 6-е число в наборе будет медианным. Q2=640
  • Чтобы найти первый квартиль, используйте Q1 = (n+1)/4 = (11+1)/4=3, это означает, что третье число — это первый квартиль или нижний квартиль
  • Чтобы найти третий квартиль, используйте Q3 = 3* (n+1)/4 = 3* (11+1)/4=9, это означает, что 9-е число — это третий квартиль Q3 = 720
  • Найдите разницу между третьим квартилем и первым квартилем. IQR = Q3 — Q1 = 720=600 =120

Это означает, что средняя половина набора данных имеет диапазон 120.

Рисунок 3 md на наборе данных x2

Среднее отклонение

Среднее отклонение или абсолютное среднее отклонение — это среднее значение абсолютных разностей (отклонений) значений данных от среднего значения набора данных. Его также можно определить как среднее расстояние до среднего значения. Для размера выборки n среднее отклонение рассчитывается по формуле:

md=1n1n|xix¯|

n: количество значений данных в наборе

xi: значения данных в наборе

x¯: среднее значение набора данных

В частности, это квадратный корень из среднего значения квадратных отклонений от среднего значения набора данных. Когда стандартное отклонение возводится в квадрат, это называется дисперсией набора данных, которая является средним значением квадратных отклонений от среднего значения.

Рассмотрим набор данных

Рассмотрим набор данных x1: 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5; x1¯=9

sd=i=111(xi9)211=(109)2+(89)2+(139)2+(119)2+(149)2+(69)2+(49)2+(129)2+(79)2+(59)211=10=3.16

Следовательно, дисперсия этого набора данных равна (10)2=10

Краткие итоги урока

Наборы данных анализируются для обнаружения информации. В то время как центральные тенденции дают информацию о центре данных, анализ разброса данных может показать, как распределяются точки данных. Диапазон — это разница между максимальным и минимальным значениями набора данных. Межквартильный диапазон или IQR показывает, как данные распределяются вокруг медианы. IQR — это разница между третьим и первым квартилем набора данных. Среднее отклонение и стандартное отклонение дают нам информацию о том, как данные распределяются вокруг среднего значения. Среднее отклонение — это среднее абсолютных отклонений от среднего значения. Стандартное отклонение — это квадратный корень из среднего значения квадратных отклонений от среднего значения, а дисперсия — это квадрат стандартного отклонения.

Часто задаваемые вопросы

Что называется разбросом данных?

Существуют четыре разных показателя распространения данных. Диапазон: разница между максимальным и минимальным значениями данных. Межквартильный диапазон или IQR: разница между верхним и нижним квартилем. Среднее отклонение: среднее значение отклонений от среднего значения набора данных. Стандартное отклонение: величина отклонения или дисперсии от среднего значения данных.

Как вы описываете разброс?

Насколько далеки значения данных от среднего значения или медианы набора данных, называется разбросом данных.

Что означает высокий разброс данных?

Это означает, насколько распространены данные. Существуют четыре разных показателя распространения данных:

Диапазон: разница между максимальным и минимальным значениями данных. Межквартильный диапазон или IQR: разница между верхним и нижним квартилем. Среднее отклонение: среднее значение отклонений от среднего значения набора данных. Стандартное отклонение: величина отклонения или дисперсии от среднего значения данных.

Поделитесь материалом
Автор статьи: Наталья Венедиктова
Наталья Венедиктова
Историк-исскусствовед, специалист в области истории, географии и искусства. Много путешествовала, изучала эволюцию художественных стилей, культурные контексты произведений и влияние искусства на общественные и исторические процессы.
Наталья Венедиктова опубликовал статей: 315

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *