Что говорит нам корреляция?
Если один фактор в научном исследовании связан с воспринимаемым изменением другого, так что зависимая переменная кажется изменяющейся в ответ на контролируемую переменную (независимую переменную), эта связь называется корреляцией (связь, зависимость). Иногда корреляционные исследования просто наблюдают за двумя неконтролируемыми переменными, чтобы увидеть, есть ли между ними какая-либо связь.
Корреляционные исследования
Но что говорит нам корреляция и для чего она используется? Корреляционное исследование — это способ статистически определить, существует ли правдоподобная связь между двумя переменными. Это достигается путем расчета коэффициентов, также известных как коэффициент корреляции Пирсона.
Коэффициенты корреляции
Коэффициенты корреляции количественно определяют любую потенциальную линейную связь между двумя изучаемыми факторами. Цель коэффициентов — присвоить числовое значение для количественной оценки связи между двумя переменными.
Интерпретация коэффициентов корреляции будет либо отсутствием, либо положительной, либо отрицательной связью. Когда одна переменная увеличивается или уменьшается, а другая изменяется в противоположном направлении, связь называется отрицательной корреляцией. Когда одна переменная увеличивается и другая увеличивается, или одна переменная уменьшается и другая уменьшается, связь называется положительной корреляцией.
Плюсы и минусы корреляционного исследования
Корреляционная интерпретация не доказывает, что одна переменная вызвала некоторые изменения в другой, но может указывать на наличие связи между двумя переменными. Она ищет линейные связи между переменными и не может определить, может ли третья неучтенная переменная влиять на результаты. Однако предварительное исследование, обнаруживающее сильную зависимость между двумя факторами, поддержит запрос на более глубокое исследование, которое сможет дополнительно изучить любую потенциальную причинно-следственную связь между двумя коррелирующими факторами.
Как читать корреляционную матрицу (диаграммы рассеяния)
После сбора данных в ходе корреляционного исследования первым шагом является построение значений независимых и зависимых переменных на диаграмме рассеяния. Диаграмма рассеяния — это просто график, который визуально отображает информацию о каждой точке данных, установленной для значений распределения независимых и зависимых переменных. Каждая точка данных на графике включает одно значение для каждого x на горизонтальной оси и одно значение для y на вертикальной оси графика (x,y). Диаграммы рассеяния часто состоят из множества точек данных.
Пример диаграммы рассеяния. На этом графике значения углекислого газа показаны на оси X, а температура — на оси Y. Каждая точка данных состоит из одного значения x и одного значения y, отображенных на графике как (x,y).
Цель построения диаграммы рассеяния состоит в том, чтобы можно было рассчитать коэффициент корреляции по линии регрессии. Линия регрессии — это линия тренда, которая отображает взаимосвязь между двумя переменными в нескольких точках данных. Статистические программы, такие как JMP, SAS и R, рассчитывают линии регрессии и коэффициенты корреляции на основе данных диаграммы рассеяния.
Коэффициенты корреляции («r») представляют собой числовое значение в диапазоне от -1 до 1, которое представляет направленность, а также силу или слабость линейной связи между двумя измеримыми переменными.
- Когда r равно 0: связи нет.
- Когда r равен 1: сильная положительная связь или одинаковое направление движения.
- Когда r равен -1: сильная отрицательная связь или обратное направление движения.
После получения коэффициентов корреляции данные диаграммы рассеяния можно представить в виде корреляционной матрицы. Матрица корреляции — это просто таблица, которая позволяет исследователю численно сравнивать и сопоставлять отношения между несколькими комбинациями переменных на основе их коэффициентов корреляции. Пример корреляционной матрицы или корреляционной таблицы приведен в таблице 1.
Таблица 1: Сравнение взаимосвязей между переменными A, B и C.
Переменная A | Переменная B | Переменная C | ||
Переменная А | 1 | 0,09 | 0,97 | |
|
0,09 | 1 | 0,02 | |
Переменная C | 0,97 | 0,02 | 1 |
Понять, как читать корреляционную таблицу, несложно. Вот ее ключевые элементы: в крайнем левом столбце и верхней строке таблицы указаны все переменные, протестированные в исследовании. Числа между ними являются коэффициентами корреляции. Если бы изучались две переменные или двадцать изучаемых переменных, то матрица расширялась или сжималась, чтобы содержать соответствующее количество строк и столбцов. Корреляционная матрица может представлять собой простой блок, подобный Таблице 1, или причудливую таблицу с разными цветами и рисунками. В примере этого урока изучались три переменные.
Число в каждом поле представляет собой взаимосвязь между двумя переменными, которые пересекают его траекторию, выраженную в виде рассчитанного коэффициента корреляции. Вот как читается таблица:
- Коэффициент корреляции переменных A и A равен 1, A и B — 0,09, A и C — 0,97.
- Коэффициент корреляции переменных B и A равен 0,09, B и B равен 1, а B и C равен 0,02.
- Коэффициент корреляции переменных C и A равен 0,97, C и B — 0,02, C и C — 1.
A и A, B и B, а также C и C имеют коэффициент корреляции 1, поскольку они являются одной и той же переменной и, следовательно, всегда полностью взаимосвязаны друг с другом. Эти очевидные сравнения перечислены, потому что они являются обязательными частями набора данных корреляционной матрицы, создавая линию, называемую диагональю. Рассматривая матрицу, обратите внимание, что числа выше и ниже диагонали являются зеркальным отражением друг друга. Иногда в корреляционной таблице не указывается часть зеркального отображения, а указываются только числа ниже или выше диагонали. В любом случае данные, интересующие исследователя, представляют собой сравнения различных переменных.
Ранее было разъяснено, что коэффициенты корреляции, близкие к 0, указывают на отсутствие зависимости, а коэффициенты корреляции, близкие к 1, указывают на положительную корреляцию. В таблице предыдущего примера A и B, а также B и C имеют коэффициенты корреляции 0,09 и 0,02 соответственно. Поскольку эти значения очень близки к нулю, взаимосвязь между этими переменными очень слабая или отсутствует. Однако переменные A и C имеют коэффициент корреляции 0,97, что указывает на сильную положительную зависимость. Термин «положительная корреляция» означает, что А и С имеют положительную линейную зависимость: когда А увеличивается — С увеличивается, а когда А уменьшается — С уменьшается.
Как интерпретировать корреляцию
Интерпретация зависимости предполагает понимание того, что означает r. Существует два основных аспекта корреляции:
- Направление объясняет, как коррелирующие переменные движутся вместе. Если значение r положительное, две переменные всегда будут двигаться в одном направлении. Если значение r отрицательно, две переменные всегда будут двигаться в противоположных направлениях.
- Величина объясняет силу связи между двумя переменными. Чем ближе r к положительному или отрицательному 1, тем сильнее влияние. Близость к 0 означает наличие слабой зависимости или ее отсутствие.
В таблице 2 показан еще один пример корреляционной таблицы, на этот раз с отрицательной корреляцией. Обратите внимание, что в этой таблице, в отличие от предыдущего примера, не показано зеркальное отображение коэффициентов корреляции над диагональю.
Таблица 2: Сравнение взаимосвязей между переменными D, E и F.
Переменная D | Переменная E | Переменная F | ||
Переменная D | 1 | |||
|
-0,86 | 1 | ||
Переменная F | -0,23 | 0,91 | 1 |
Вот как читается таблица:
- Коэффициент корреляции переменных D и D равен 1, D и E равен -0,86, а D и F равен -0,23. D и E имеют сильную отрицательную корреляцию. D и F имеют слабую отрицательную корреляцию.
- Коэффициент корреляции E и E равен 1, а E и F — 0,91. E и F имеют сильную положительную корреляцию.
- Коэффициент корреляции переменных F и F равен 1.
Термин «отрицательная корреляция» означает, что D и E, а также D и F имеют противоположные линейные отношения. На следующем изображении показано, как выглядят различные типы диаграмм рассеяния в зависимости от значений их распределения и того, коррелируют ли они положительно или отрицательно, на что указывает их коэффициент корреляции.
Изображение различных диаграмм рассеяния и способы распознать, какие данные, скорее всего, появятся на основе визуального представления.
Ограничения корреляций
Интерпретация зависимостей ограничена, поскольку она фокусируется на линейных отношениях и не доказывает наличие причинно-следственной связи между двумя переменными. Он поддерживает возможность такой связи, но не может доказать причинно-следственную связь.
Еще одним ограничением является существование неучтенной третьей переменной, называемой посторонней или мешающей переменной, которая изменяет изучаемые переменные. Если этот сценарий произойдет, может возникнуть ложная корреляция, когда исследователь может подумать, что X и Y связаны, хотя на самом деле это не так. Вместо этого некий третий фактор Q связан с X и влияет на Y, создавая впечатление, будто X меняет Y, тогда как на самом деле Q меняет Y. Если искажающая переменная влияет на результаты исследования, она подрывает внутреннюю достоверность, а именно, насколько достоверна и верна взаимосвязь между наблюдаемыми переменными находится в научном исследовании.
Способы избежать влияния посторонних переменных:
- Учитывайте и удаляйте из эксперимента все посторонние переменные.
- Если посторонние переменные невозможно удалить, убедитесь, что они одинаковы для каждого эксперимента.
- Стратифицируйте эксперимент на основе третьих переменных. Например, в исследовании на мышах пол является третьей переменной, которая может повлиять на результаты. Таким образом, эксперимент должен быть стратифицирован, чтобы провести отдельные исследования с использованием одних и тех же переменных на мышах мужского и женского пола.
- Рандомизируйте эксперимент, выбирая участников или единицы случайным образом.
Краткие итоги урока
Корреляции — это наблюдаемые отношения между двумя изучаемыми факторами или переменными, которые могут быть, а могут и не быть связаны друг с другом. Коэффициенты корреляции обеспечивают математический способ количественной оценки взаимосвязей между переменными. Диаграмма рассеяния — это график, на котором отображаются точки данных переменных и который используется для расчета коэффициента корреляции. На основе данных диаграммы рассеяния создается корреляционная матрица или таблица, которая сопоставляет коэффициенты корреляции между данными сравниваемых переменных. Отрицательная корреляция определяется как взаимосвязь между двумя переменными, при которой при увеличении одной из них другая уменьшается (противоположная направленность). Положительная корреляция определяется как связь между двумя переменными, при которой, когда одна увеличивается, другая также увеличивается, или когда одна уменьшается, другая также уменьшается (та же направленность).
Коэффициенты корреляции обозначаются буквой «r» и представляют собой числовые значения в диапазоне от -1 до 1. Они также дают информацию о направленности и величине или силе связи между двумя переменными. Величина определяется тем, насколько коэффициент близок к 1, тогда как направление определяется тем, является ли коэффициент отрицательным или положительным числом. Отрицательное число указывает на отрицательную корреляцию, тогда как положительное число указывает на положительную корреляцию. Аналогично, коэффициент корреляции ближе к положительному или отрицательному 1 является более сильным, а коэффициент корреляции ближе к 0 — слабее. Например, если коэффициент корреляции для A и B равен -0,83, B и C равен 0,72, A и C равен 0,01, а A и D равен 0,23, можно сказать, что A и B имеют сильную отрицательную корреляцию, B и B имеют сильную отрицательную корреляцию. C имеет сильную положительную корреляцию, A и C, вероятно, не имеют корреляции, а A и D имеют слабую положительную корреляцию.
Часто задаваемые вопросы
Как интерпретировать корреляционную матрицу?
Матрицы корреляции — это таблицы, в которых отображаются коэффициенты корреляции (r), позволяющие сравнивать и сопоставлять отношения между переменными. Матрица считывается путем просмотра переменных в верхней строке и крайнем левом столбце и поиска корреляционной переменной в точке пересечения каждой из них. Если число ближе к 1, оно имеет сильную зависимость, а если оно ближе к 0, оно имеет более слабую корреляцию. Если коэффициент отрицательный, связь является связью отрицательной корреляции, если он положителен, связь является связью положительной корреляции.
О чем говорит значение корреляции?
Значение корреляции дает информацию о том, насколько сильна связь между двумя переменными (величина) и какой тип связи имеют две переменные друг с другом (направленность). Если две переменные имеют положительную корреляцию, они движутся друг против друга в одном направлении, тогда как при отрицательной корреляции они движутся друг против друга в разных направлениях.
Какова цель корреляций?
Когда исследователь хочет лучше понять, могут ли две переменные быть связаны друг с другом, проводится корреляционное исследование. Цель состоит в том, чтобы выявить взаимосвязи, чтобы можно было провести более глубокие исследования. Тот факт, что одна переменная коррелирует с другой, не означает, что они имеют причинно-следственную связь.