Описательная статистика против логической статистики

Статистика: описательная статистика против статистики, основанной на выводах

Предположим, вы медицинский работник и хотите определить, насколько эффективно новое лекарство при лечении какого-либо заболевания. Или предположим, что вы инженер-эколог и хотите выяснить, какая из трех различных программ переработки приводит к получению наибольшего количества переработанных материалов? Что, если вы планируете открыть пекарню, но вам нужно определить, в каком из двух мест мимо витрины магазина будет проходить больше всего людей?

Статистика — это наука об анализе данных, как числовых, так и нечисловых. Статистика используется каждый день для решения проблем, ответов на вопросы и улучшения качества и производительности.

Одним из важных понятий, которые необходимо понимать в статистике, является разница между генеральной совокупностью и выборкой. Популяция — это вся группа, из которой вы, возможно, захотите собрать данные и о которой вы сделаете выводы. Однако не всегда возможно собрать данные обо всей популяции. Что, если бы вы опрашивали людей о том, за кого они планируют голосовать на президентских выборах? Вы не сможете опросить десятки миллионов людей, которые будут голосовать. Итак, вы случайным образом выбираете подмножество населения, выборку. Если выборка репрезентативна для большей части населения, вы можете сделать разумные выводы на основе ответов выборки.

Если вы используете статистику для решения проблем, вы можете рассмотреть возможность использования описательной статистики в сравнении с индуктивной статистикой. Давайте рассмотрим различия между этими категориями и рассмотрим примеры описательной и индуктивной статистики.

Две категории статистики

Существует две категории статистики: описательная и умозаключительная. Описательная статистика используется для описания характеристик набора данных. Описательную статистику в повседневной жизни можно увидеть в диаграммах и графиках, например, в диаграмме, показывающей уровень трудоустройства новых выпускников колледжей за последние пять лет, или в графиках месяцев рождения учащихся в классе детского сада. Инференциальная статистика дает возможность делать выводы и прогнозы о популяции на основе данных, предоставленных выборкой изучаемой популяции.

Описательная статистика

Описательная статистика используется для обобщения набора данных. Предположим, вы преподаете в классе из 25 учеников и хотите знать, каков средний балл за тест, который вы только что дали. Вы бы использовали описательную статистику; вы заинтересованы в успеваемости этой конкретной группы студентов. Одним из ограничений описательной статистики является то, что она не позволяет нам делать какие-либо выводы о населении в целом. Этот тип статистики просто описывает собранный набор данных.

Инструменты описательной статистики

Для описания набора данных можно использовать несколько инструментов или мер. Первый способ описания данных — это рассмотрение отношения данных к их центру: меры центральной тенденции. К ним относятся среднее значение, медиана и мода.

Среднее значение – это среднее арифметическое. Чтобы вычислить среднее значение, сложите все точки данных, а затем разделите их на количество имеющихся точек данных.

Пример набора данных: 5, 8, 8, 10, 13.

5 + 8 + 8 + 10 + 13 = 44

44/5 = 8,8.

Среднее значение этого набора данных составляет 8,8.

Медиана — это центральное число в наборе данных; половина точек данных находится ниже медианы, а половина точек данных — выше медианы. Чтобы найти медиану, перечислите все точки данных в числовом порядке. Если имеется нечетное количество точек данных, медианой является число ровно посередине. Если имеется четное количество точек данных, найдите медиану двух чисел, находящихся в середине перечисленных точек данных.

Пример набора данных: 5, 8, 8, 10, 13.

Медианой является число в середине списка: 8.

Мода — это число, которое чаще всего встречается в наборе данных . Чтобы найти режим, просмотрите набор данных и определите, какое число встречается чаще других. Если есть одно число, имеющее наибольшую частоту, набор данных имеет один режим, он унимодальный. Если есть два числа, которые имеют наибольшую частоту, набор данных имеет два режима, он является бимодальным. Если имеется более двух чисел с наибольшей частотой, набор данных называется мультимодальным.

Пример набора данных: 5, 8, 8, 10, 13.

Режим этого набора данных — 8, так как это число встречается чаще всего.

Описательная статистика также исследует, насколько различаются данные и насколько разбросан набор данных. Двумя распространенными мерами дисперсии являются диапазон и стандартное отклонение.

Диапазон — это разница между самым высоким и самым низким значением в наборе данных. Чтобы вычислить диапазон, вычтите самое низкое значение из самого высокого значения.

Пример набора данных: 5, 8, 8, 10, 13.

13-5=8. Диапазон набора данных — 8.

Стандартное отклонение измеряет расстояние, на котором значения набора данных находятся от среднего значения; проще говоря, средний уровень изменчивости в наборе данных. Низкое стандартное отклонение указывает на то, что значения набора данных близки к среднему значению, а высокое стандартное отклонение показывает, что значения набора данных находятся дальше от среднего значения в более широком диапазоне. На изображении ниже показано нормальное распределение со средним значением и тремя стандартными отклонениями от среднего значения. По мере увеличения расстояния от среднего значения частота точек данных уменьшается, поэтому нормальное распределение приобретает форму колоколообразной кривой.

Кривая нормального распределения

Кривая нормального распределения, показывающая стандартные отклонения от среднего значения

Стандартное отклонение для выборки можно рассчитать, найдя квадратный корень из суммы квадратов каждого значения в наборе данных выборки минус выборочное среднее значение, разделенное на количество значений в выборке минус 1. В Интернете есть калькуляторы стандартных отклонений. что делает этот расчет простым.

Данные можно описать двумя другими способами: асимметрией и эксцессом. Асимметрия показывает, насколько асимметричны значения набора данных — насколько далеко от нормальной кривой показан график данных. Если график данных симметричен (в виде нормальной кривой), асимметрия равна нулю (или очень близка к нему). Если хвост графика длиннее вправо, данные положительно асимметричны.

Положительная асимметрия

Положительная асимметрия

Если хвост графика длиннее влево, данные отрицательно искажены.

 Отрицательная асимметрия

Отрицательная асимметрия

Куртозис указывает, есть ли на графике выбросы или присутствуют выбросы. Количество выбросов в данных влияет на форму графика так же, как и на асимметрию. Однако форма графика меняется по вертикали; мы можем увидеть эксцесс на графике, если он короче и шире или выше и тоньше нормального распределения.

Описательная статистика, по-видимому, охватывает множество способов объяснения данных, так что же такое статистика, основанная на выводах? Определение логической статистики — это статистика, которая используется для того, чтобы сделать выводы (или сделать выводы) о совокупности на основе выборки данных, собранных из совокупности. Инференциальная статистика позволяет нам делать выводы за пределами набора данных, собранных из выборки, предполагая, что выборка является репрезентативной для населения.

В повседневной жизни существует множество примеров статистических выводов, очень часто в медицине, бизнесе и исследовательских областях. Предположим, вы изучали, какая из двух диет наиболее эффективна для снижения веса у людей от 40 до 60 лет. В вашем исследовании может участвовать 300 человек: 100 соблюдают диету «План А», 100 — «План диеты Б» и 100 — не соблюдают какую-либо конкретную диету (контрольная группа). Через определенное время вы можете подсчитать результаты по снижению веса для каждой группы, чтобы увидеть, какая из них (если таковая имеется) была более эффективной.

Инструменты логической статистики

В логической статистике используется множество инструментов. Одним из наиболее часто используемых инструментов является проверка гипотез. Проверка гипотез включает в себя создание гипотез об изучаемой переменной, а затем проведение статистической проверки, чтобы определить, может ли гипотеза быть подтверждена. При проверке гипотез исследователи создают нулевую гипотезу, которая указывает на отсутствие разницы в переменной, и альтернативную гипотезу, которая указывает на то, что разница будет. Рассмотрим пример диеты, приведенный выше.

Нулевая гипотеза (H0): нет статистической разницы между потерей веса участниками, придерживающимися диеты А, и участниками, придерживающимися диеты Б.

Альтернативная гипотеза (H1): Существует статистическая разница между потерей веса участниками, придерживающимися диеты А, и участниками, придерживающимися диеты Б.

Статистическая оценка также может использоваться с индуктивной статистикой. Оценки используются, чтобы помочь нам сделать выводы о совокупности на основе небольшой выборки. Точечная оценка (значение, взятое на основе выборки для оценки или прогнозирования одних и тех же характеристик генеральной совокупности) и интервальная оценка (более широкий диапазон значений, взятых из выборки, который, как мы можем предположить, одинаков для генеральной совокупности) являются методами уменьшение ошибок в статистических выводах.

Еще один инструмент, используемый в статистическом выводе, — это доверительный интервал. Проще говоря, доверительный интервал — это способ измерить, насколько хорошо выборка отражает изучаемую совокупность. Общий доверительный интервал, используемый в статистике вывода, составляет 95%; это означает, что мы можем быть на 95% уверены, что в определенном диапазоне расчетных значений мы сможем найти истинное среднее значение для исследуемой популяции.

Корреляция в статистике вывода означает линейную связь между двумя переменными. Некоторые переменные положительно коррелируют, то есть при увеличении одной переменной увеличивается и другая переменная. Примером положительной корреляции является то, что чем больше человек занимается йогой, тем более гибким он становится. Некоторые переменные отрицательно коррелируют; по мере увеличения одной переменной другая переменная уменьшается. Пример отрицательной корреляции касается взаимосвязи между скоростью и временем. По мере увеличения скорости движения в поездке время, необходимое для того, чтобы добраться до пункта назначения, уменьшается. В статистической корреляции идеальная положительная корреляция равна 1,0, а идеальная отрицательная корреляция равна -1,0. Следовательно, при расчете корреляции, чем ближе корреляция к 1,0, тем сильнее связь между переменными; чем ближе к -1,0 корреляция, тем слабее связь между переменными.

Чтобы более глубоко изучить влияние одной переменной на другую, можно провести регрессионный анализ . В исследованиях часто существует множество переменных, влияющих на измеряемую переменную. Проведение регрессионного анализа позволяет исследователям контролировать переменные и оценивать влияние одной переменной на другую.

Давайте рассмотрим более ранний пример диеты: наблюдалась ли большая потеря веса среди людей, соблюдающих диету «План А», «План диеты Б» или не соблюдавших какую-либо конкретную диету. Можно провести корреляцию, чтобы увидеть, существует ли связь между тем, насколько точно участники следовали каждому плану диеты, и степенью потери веса. Однако это может не рассказать нам всей истории. Возможно, когда некоторые люди «наводят порядок» в своем рационе и участвуют в исследовании, связанном с потерей веса, они также повышают уровень своей активности. Регрессионный анализ позволил бы исследователю выделить роль, которую большую активность оказала на изучаемую переменную (потеря веса за счет определенной диеты).

Наряду с корреляционным и регрессионным анализом существуют и другие статистические тесты, которые можно использовать для анализа набора данных с использованием статистических выводов, в том числе:

  • Т-тест (тест статистической значимости)
  • ANOVA (дисперсионный анализ)
  • ANCOVA (ковариационный анализ)

 Итог урока

Статистика используется каждый день, чтобы помочь нам в профессиональной жизни, как потребителям продуктов и информации, а также в простой повседневной жизни. Иногда описательная статистика используется для описания особенностей определенного набора данных. Однако, когда цель состоит в том, чтобы сделать прогнозы или сделать выводы о популяции на основе выборочного набора данных, используется статистика вывода.

В описательной статистике используются меры центра, такие как среднее значение, медиана и мода. Меры дисперсии также являются частью описательной статистики в форме диапазона и стандартного отклонения. Описательная статистика часто изображается в виде графика; многое можно определить по форме отображаемых на графике данных, в том числе по тому, искажены ли они тем или иным образом или влияют ли выбросы на форму графика (эксцесс).

Зачастую невозможно собрать данные обо всей популяции. В этом случае случайная выборка, репрезентативная для населения, может быть использована для того, чтобы сделать выводы об исследуемой популяции. Инференциальная статистика использует такие инструменты, как проверка гипотез, доверительные интервалы, корреляция, регрессия и другие статистические тесты, чтобы сделать выводы о совокупности.

Поделитесь материалом
Автор статьи: Наталья Венедиктова
Наталья Венедиктова
Историк-исскусствовед, специалист в области истории, географии и искусства. Много путешествовала, изучала эволюцию художественных стилей, культурные контексты произведений и влияние искусства на общественные и исторические процессы.
Наталья Венедиктова опубликовал статей: 315

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *