Что такое систематическая ошибка в статистике и как ее можно определить?

Определение смещения в статистике

Предвзятость в статистике возникает довольно часто. Систематическая ошибка может возникнуть на любом этапе исследования.

Преднамеренная предвзятость в статистике возникает, когда исследователь(и) намеренно влияет на собранные данные, чтобы исказить результаты. Примером этого могут быть студенты, пытающиеся доказать, что собаки — лучшие домашние животные, чем кошки. Если бы ученики опросили других учеников школы, у которых есть только собака, и спросили: «Какое домашнее животное самое лучшее?»; они намеренно создают искажения в данных. Поскольку студенты, у которых есть собаки, чаще говорят, что собака — лучшее домашнее животное, данные не отражают всестороннюю совокупность.

Непреднамеренная предвзятость в статистике по-прежнему дает ложное представление о населении, но сознательно не используется при сборе и анализе данных. Примером непреднамеренной предвзятости может служить группа учащихся, проводящих опрос с целью определить, какое домашнее животное предпочитается в их школе. Если студенты опрашивают случайных студентов, но у всех этих студентов есть собаки, то непреднамеренная предвзятость исказила данные. Хотя непреднамеренное смещение не происходит намеренно, его важно учитывать при анализе результатов данных.

Как определить смещение в статистике?

Не всегда легко определить, есть ли предвзятость в статистическом исследовании; провести исследование с нулевой погрешностью довольно сложно. Исследователь(и) должен активно пытаться устранить предвзятость, в то время как человек, изучающий результаты исследования, должен учитывать, как предвзятость могла повлиять на какие-либо выводы. Чтобы рассчитать статистическую погрешность, необходимо найти разницу между ожидаемым значением и истинным значением совокупности.

Если мы посмотрим на ту же группу учеников, которые пытаются определить, какое домашнее животное предпочитают ученики в их школе:

  • Исследователи должны посмотреть на население, которое они опрашивают, и выбрать опрос каждого учащегося в своей школе, или одного класса учащихся на каждом уровне, чтобы получить более разнообразное мнение. Учащиеся, проводящие исследование, также могут добавить в свой опрос вопрос о том, есть ли у каждого учащегося домашнее животное, и если да, то какого типа.
  • Любые учащиеся, читающие результаты, должны учитывать, что школьники могут не представлять собой необходимое разнообразие. Читатель также должен обратить внимание на любые корреляции между учащимися, у которых есть домашнее животное, типом домашнего животного, которым владеет учащийся, и типом домашнего животного, которое учащийся предпочитает.

Типы систематических ошибок в статистике

В статистике существуют различные типы систематических ошибок, которые классифицируются в зависимости от того, как они генерируются.

Смещение выборки в статистике

Смещение выборки возникает, когда одна часть населения имеет более высокую вероятность быть использованной в выборке или меньшую вероятность быть использованной.

  • Пример: если Джереми решит провести исследование с участием студентов трех колледжей рядом с ним, но во всех трех колледжах женское население значительно выше, чем мужское, то, скорее всего, произойдет смещение выборки. В конечном итоге в выборке Джереми будет больше женщин, чем мужчин. Хотя получить данные, отражающие всю совокупность, может оказаться затруднительно, важно избегать нерепрезентативной выборки, чтобы данные не характеризовали исключительно группу выборки.

Смещение из-за отсутствия ответов в статистике

Ошибка отсутствия ответов возникает, когда люди, не отвечающие на опрос, отличаются от людей, ответивших на опрос. Например, лица, выбранные для участия в опросе, могут решить не участвовать в опросе или не смогут принять участие в опросе.

  • Пример: Ария решает сделать свой опрос доступным, используя QR-код вместо ссылки, бумаги, карандаша и т. д. Люди, отвечающие на опрос, могут представлять собой только более молодую часть выборки, поскольку они будут лучше знакомы с QR-кодами. Тогда опрос будет отражать характеристики только респондентской группы, а не всего населения. Иногда предвзятость в связи с отсутствием ответов невозможно контролировать. Однако исследователь может принять меры для проведения более инклюзивного опроса. Создание чувства доверия при объяснении цели опроса может помочь устранить подозрения и снизить вероятность того, что участники не ответят.

Смещение из-за пропуска переменных

Смещение из-за пропуска переменных возникает, когда одна или несколько важных переменных не учитываются в исследовании.

  • Пример: Джереми проводит опрос, чтобы определить самый популярный музыкальный жанр среди учеников его возраста. Он опрашивает каждого ученика с помощью онлайн-опроса, но не упоминает, что посещает мужскую школу. Это было бы важно, поскольку в выборочную совокупность не включены женщины. Эта переменная будет необходима для создания четкой картины результатов. Джереми также необходимо будет упомянуть дополнительные демографические данные своей школы, такие как раса, социально-экономический статус и возраст, что может исказить результаты.

Добровольная предвзятость в статистике

Добровольная предвзятость возникает, когда обследуемые люди резко отличаются от населения в целом.

  • Пример: допустим, члены политической партии разослали опрос. В опросе просят ответить на спорные темы. Группа, вероятно, получит больше ответов от людей, зарегистрированных в их политической партии, чем от людей, которые идентифицируют себя с другой политической группой. Эти люди решают участвовать в опросе добровольно. Поскольку эти люди, вероятно, будут разделять схожие убеждения, результаты будут отличаться от результатов, полученных при опросе населения в целом.

Смещение ответов в статистике

Предвзятость ответов возникает в статистике, когда опрашиваемый человек или люди не отвечают на вопросы правдиво.

Смещение ответов может произойти из-за использования наводящих вопросов в опросе. Наводящий вопрос – это вопрос, формулировка которого побуждает получить желаемый ответ.

  • Пример: наводящий вопрос может звучать так: «Доказано, что слишком много времени перед экраном имеет негативные последствия для детей. Считаете ли вы, что родителям следует следить за тем, сколько ребенок проводит времени перед экраном?» Первоначальное утверждение о том, что слишком много экранного времени негативно сказывается на детях, повлияло на ответ на вопрос.

Предвзятость ответа также может возникнуть из-за социальной желательности. Социальная желательность может привести к тому, что участники ответят так, как, по их мнению, они должны отвечать, а не правду.

  • Пример: выборку людей спрашивают об их весе и привычках заниматься спортом. Они выдумывают свой вес и частоту тренировок, потому что им неудобно говорить правду. Поскольку участники чувствуют, что им следует заниматься спортом, они указывают, что они часто занимаются спортом, хотя обычно они этого не делают. Из-за социальной желательности произошла предвзятость ответов.

Примеры смещенной статистики

Статистическая погрешность является обычным явлением, поскольку данные собираются и анализируются людьми, у которых есть свои собственные предвзятости. Следовательно, задача исследователя — попытаться устранить как можно больше ошибок при сборе данных. Будь то преднамеренная или непреднамеренная, статистическая погрешность может нанести вред и негативно повлиять на группы людей, входящие в состав населения.

Некоторые примеры предвзятой статистики

Расовая дискриминация в технологии распознавания лиц. Технология распознавания лиц оказалась менее точной, чем другие биологические измерения, используемые для идентификации людей, особенно чернокожих женщин в возрасте от 18 до 30 лет, из-за ошибок в алгоритмах, вызванных предвзятостью. IBM и Microsoft начали исправлять эту предвзятость, собирая больше данных о целевых и недостаточно представленных демографических группах.

Amazon Recruiting Machine: машина была разработана для быстрой сортировки и ранжирования резюме в целях привлечения талантов. Поскольку в технологических отраслях исторически доминировали мужчины, машина непреднамеренно отдает предпочтение кандидатам-женщинам. В результате рекрутинговая машина начала оценивать резюме, в которых были указаны колледжи с женским участием и другие виды деятельности, ориентированные на женщин, с меньшей желательностью.

Предвзятость в эпидемиологии

Эпидемиология относится к изучению медицины, занимающейся контролем болезней и других факторов, связанных со здоровьем. Предвзятость в эпидемиологии может возникнуть, как и в любой другой области статистических исследований. Прекрасный пример можно найти в исследовании развития мозга. Исследование, проведенное врачами Калифорнийского университета в Сан-Франциско, пришло к выводу, что ранее существовавшие представления о развитии мозга были неточными из-за предвзятого сбора данных. Врачи определили, что данные выборки не отражают большую часть населения Соединенных Штатов. Большая часть собранных данных была получена исключительно от белых, богатых и образованных людей, которые не представляют основную часть населения Соединенных Штатов.

Предвзятость в исследованиях

Есть много способов обнаружить предвзятость в исследованиях. Фальсификация данных и устранение выбросов — это два способа, с помощью которых исследование может продемонстрировать предвзятость. Под фальсификацией данных понимаются случаи, когда в поддержку исследования сообщаются несуществующие данные. Исследователи также могут устранять выбросы в данных, пытаясь получить более четкие результаты. Выбросы — это фрагменты данных, которые не соответствуют общей тенденции. Обе практики создают систематическую ошибку в данных и неточно отражают совокупность выборки.

Итоги урока

Статистическая погрешность является важнейшим компонентом, который необходимо учитывать в любом исследовании. Предвзятость в статистике возникает, когда данные намеренно или непреднамеренно представляют население и результаты исследований.

Не всегда легко определить, есть ли предвзятость в статистическом исследовании; провести исследование с нулевой погрешностью довольно сложно. Исследователь(и) должен активно пытаться устранить предвзятость, в то время как человек, изучающий результаты исследования, должен учитывать, как предвзятость могла повлиять на какие-либо выводы.

Исследовательская ошибка включает в себя ошибку выборки, ошибку отсутствия ответа, ошибку из-за пропущенных переменных, добровольную ошибку и ошибку ответа:

  • Смещение выборки возникает, когда одна часть населения имеет более высокий шанс быть использованной в выборке или имеет более низкую вероятность быть использованной в выборке. Хотя получить данные, отражающие всю совокупность, может быть сложно, важно избегать нерепрезентативной выборки, чтобы данные не характеризовали исключительно группу выборки.
  • Ошибка отсутствия ответов возникает, когда люди, не отвечающие на опрос, каким-то образом отличаются от людей, ответивших на опрос. Например, лица, выбранные для участия в опросе, могут решить не участвовать в опросе или не смогут принять участие в опросе. Иногда предвзятость в связи с отсутствием ответов невозможно контролировать. Однако исследователь может принять меры для проведения более инклюзивного опроса. Например, создание чувства доверия при объяснении цели опроса может помочь устранить подозрения и снизить вероятность того, что участники не ответят.
  • Смещение из-за пропуска переменных возникает, когда одна или несколько важных переменных не учитываются в исследовании.
  • Добровольная предвзятость возникает, когда опрошенные люди каким-то критическим образом отличаются от населения в целом. Ответившие участники делают это добровольно и выбираются самостоятельно.
  • Предвзятость ответов возникает, когда опрашиваемый человек или люди не отвечают на вопросы правдиво. Два типа предвзятости ответов — это наводящие вопросы и социальная желательность.

Статистическая погрешность является обычным явлением, поскольку данные собираются и анализируются людьми, у которых есть свои собственные предвзятости. Будь то преднамеренная или непреднамеренная, статистическая погрешность может нанести вред и негативно повлиять на группы людей, входящие в состав населения. Кроме того, статистическая предвзятость в эпидемиологии и научных исследованиях может создать ложную информацию для заинтересованных сторон. Поэтому каждое статистическое исследование должно быть проверено на предмет потенциальной систематической ошибки, прежде чем рассматривать факты.

Часто задаваемые вопросы

Что такое предвзятость в статистике?

Предвзятость в статистике – это когда данные намеренно или непреднамеренно неверно отражают данные населения и результаты исследований. Систематическая ошибка может возникнуть на любом этапе исследования.

Каковы три типа систематических ошибок в статистике?

Тремя основными типами систематических ошибок в статистике являются выборка, информация и искажение. Эти предубеждения могут быть преднамеренными или непреднамеренными.

Как обнаружить предвзятость в статистике?

Первоначально систематическая ошибка может быть обнаружена путем внимательного изучения методов исследования и анализа данных в исследовании, чтобы определить, отражают ли данные и результаты население. Чтобы рассчитать статистическую погрешность, необходимо найти разницу между ожидаемым значением и истинным значением совокупности.

Поделитесь материалом
Автор статьи: Наталья Венедиктова
Наталья Венедиктова
Историк-исскусствовед, специалист в области истории, географии и искусства. Много путешествовала, изучала эволюцию художественных стилей, культурные контексты произведений и влияние искусства на общественные и исторические процессы.
Наталья Венедиктова опубликовал статей: 315

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *