Что такое популяционная дисперсия?
Наборы данных могут характеризоваться их центральной тенденцией, то есть средним расположением точек данных, и их дисперсией, степенью разброса или разброса точек данных вокруг центрального среднего значения. Во многих ситуациях знания среднего значения набора данных просто недостаточно, чтобы сделать практические выводы. Например, машина может быть предназначена для наполнения банок газировкой средним объемом 330 мл. Однако если отклонение внутри залитого объема составляет в среднем 50 мл, машина вообще не работает должным образом. При такой степени дисперсии многие банки сильно пере- или недостаточно наполнены. Машина должна быть откалибрована для заполнения правильного среднего объема с очень низкой дисперсией.
Популяция представляет собой набор всех возможных особей или наблюдений, а дисперсию внутри этого набора можно измерить с помощью популяционной дисперсии, обозначаемой σ2. Она рассчитывается, как среднее квадратическое отклонение между каждой точкой данных и центральным средним значением набора данных. Это лишь одна из нескольких мер дисперсии, но она и связанная с ней мера, известная как стандартное отклонение, особенно важны на практике.
Эти нормальные распределения имеют разные дисперсии. Чем она больше, тем более разбросано распределение значений.
Формула популяционной дисперсии
Учитывая совокупность ценностей, x1,x2,…..xn, среднее значение численности населения определяется путем суммирования всех значений и деления на численность населения N.
Дисперсия генеральной совокупности рассчитывается аналогичным образом путем усреднения квадратов отклонений между каждой точкой данных и средним значением:
Формула стандартного отклонения населения
Стандартное отклонение генеральной совокупности σ это просто квадратный корень из дисперсии совокупности σ2:
Стандартное отклонение и дисперсия являются мерами дисперсии: чем больше каждое значение, тем больше разброс между значениями в наборе данных. Однако стандартное отклонение имеет более конкретную и практическую интерпретацию: оно представляет собой типичную разницу между одной точкой данных и средним значением.
Например, для населения с µ = 100 и σ = 10, можно ожидать, что большинство точек данных будут находиться в пределах примерно 10 единиц из 100, то есть между 90–110. При этом дисперсия σ = 100 не описывает напрямую типичный диапазон значений. В частности, стандартное отклонение измеряется в тех же единицах, что и исходные данные, а дисперсия — нет.
Каждая числовая линия иллюстрирует различную популяцию. Популяции имеют одинаковое среднее значение, но разные стандартные отклонения. В каждом случае большинство значений находятся в пределах одного отклонения от среднего.
Использование формул
Теперь мы обсудим, как рассчитать дисперсию совокупности с помощью формулы. Используя уравнение дисперсии генеральной совокупности, просто примените следующие шаги:
- Сначала вычислите среднее значение µ
- Вычесть µ из каждой точки данных в популяции.
- Возведите в квадрат отклонения, рассчитанные на предыдущем шаге.
- Сложите квадраты значений и разделите их на размер популяции, чтобы вычислить популяционную дисперсию .
Организация этих расчетов в таблице очень полезна при определении дисперсии генеральной совокупности вручную. Точки данных, отклонения и квадратичные отклонения могут быть записаны в разных столбцах, как показано в следующих примерах.
Пример 1
Какова дисперсия и стандартное отклонение роста пяти братьев и сестер, если их рост составляет 150, 190, 200, 160 и 170 см? Средний рост братьев и сестер составляет
Пять измерений можно свести в таблицу, затем вычислить их отклонения от среднего значения, а затем квадратичные отклонения:
Тогда генеральная дисперсия представляет собой среднее значение квадратов отклонений в третьем столбце:
Стандартное отклонение представляет собой квадрат дисперсии:
Рост большинства братьев и сестер должен находиться в пределах 19 см от среднего значения в 174 см, и фактически 3 из 5 точек данных действительно попадают в этот диапазон.
Пример 2
Концентрация ртути в воде шести озер составила 0,01, 0,05, 0,15, 0,42, 0,07, 0,18 мкг/л. Какова дисперсия и стандартное отклонение этих данных?
Табличные расчеты таковы:
Дисперсия популяции и стандартное отклонение равны
Популяционная против выборочной дисперсии
Статистические совокупности часто очень велики, слишком велики, чтобы изучать каждого члена совокупности в отдельности. Вместо этого популяции изучаются косвенно путем наблюдения за выборками — процесса случайного выбора небольшой популяции из более крупной, чтобы облегчить наблюдение. Среднее значение и дисперсию выборки можно использовать для оценки соответствующих параметров генеральной совокупности в целом. Среднее значение выборки рассчитывается так же, как и генеральная совокупность:
Обратите внимание, как разные символы используются для обозначения среднего значения и размера выборки, чтобы отличить их от аналогичных параметров совокупности. Выборочная дисперсия обозначается s2 и рассчитывается немного иначе, чем генеральная дисперсия σ2:
Эта формула для выборочной дисперсии со знаменателем n-1 вместо n обеспечивает наиболее точную и объективную оценку неизвестной генеральной дисперсии.
Пример 3
В ходе исследования результатов образования были опрошены пять недавних выпускников, которые сообщили, что их начальная зарплата составляет 35 000, 48 000, 42 000, 51 000 и 39 000 долларов. Какова дисперсия и стандартное отклонение выборки?
Выборочная рассчитывается с использованием той же процедуры, что и генеральная дисперсия, с единственным изменением, происходящим на последнем этапе. Выборочное среднее значение:
Табличные расчеты таковы:
Выборочная дисперсия представляет собой сумму квадратов отклонений, деленную на 1 меньше размера выборки:
Дисперсия действительно измеряет дисперсию внутри выборки, но очень большое числовое значение трудно интерпретировать. Более практичным является стандартное отклонение выборки, которое, опять же, является просто квадратным корнем:
Типичная начальная зарплата составляет около 6500 долларов от среднего значения.
Краткое содержание урока
Величина разброса между значениями в наборе данных известна, как дисперсия. Если набор данных представляет собой популяцию, то есть содержит всех возможных особей определенного типа, дисперсию можно измерить, используя дисперсию популяции, которая представляет собой среднее квадратическое отклонение между точками данных и центральным средним значением. Символом дисперсии совокупности является σ2. Вычисление может быть выполнено с использованием таблицы для записи точек данных, их отклонений от среднего значения и квадратов отклонений.
Большие популяции обычно изучаются косвенно с помощью выборок, представляющих собой меньшие популяции, которые случайным образом отбираются из более крупной популяции для изучения. Вычисление очень похоже на ее вычисление для совокупности, но формула имеет другой знаменатель. Символом дисперсии выборки является s2. Квадратный корень из дисперсии называется стандартным отклонением. Его можно рассчитать как для совокупности, так и для выборки. Стандартное отклонение представляет собой типичную разницу между отдельной точкой данных и средним значением, в то время как значение дисперсии не имеет такой практической интерпретации.
Часто задаваемые вопросы
Что такое популяционная и выборочная дисперсия?
Дисперсия — это мера дисперсии внутри набора данных, будь то генеральная совокупность или выборка. Она рассчитывается путем суммирования квадратов отклонений между каждой точкой данных и средним значением, а затем деления либо на размер совокупности, либо на размер выборки минус 1.
Как рассчитать популяционную дисперсию и стандартное отклонение?
Дисперсия генеральной совокупности представляет собой среднее квадратичное отклонение между точками данных и средним значением. Для расчета необходимо сначала найти среднее значение, затем вычесть среднее значение из каждой точки данных, возвести в квадрат эти отклонения и найти их среднее значение. Стандартное отклонение генеральной совокупности представляет собой квадратный корень дисперсии.