grad-green grad-gray grad-blue grad-red grad-pink grad-purple grad-yellow
Нести помощь людям

Вход на сайт

Корреляция и её смысл

Краткое описание: 
Библиографическая ссылка для цитирования: Сазонов В.Ф. Корреляция и её смысл [Электронный ресурс] // Кинезиолог, 2009-2022: [сайт]. Дата обновления: 04.07.2022. URL: https://kineziolog.su/content/korrelyatsiya-i-ee-smysl (дата обращения: __.__.20__). ________________________________Понятие корреляции, определение корреляционной связи, коэффициент корреляции Пирсона хи-квадрат.

Критерий корреляции Пирсона (=коэффициент корреляции Пирсона хи-квадрат) – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как rxy или Rxy или r.

Для чего он нужен?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь. Например, при помощи коэффициента корреляции Пирсона можно ответить на вопрос о наличии связи между ростом и весом (массой тела) людей, т.е. изменяется ли в среднем вес людей при изменении их роста.

Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа.
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа.
  4. Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение каждой из сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Как интерпретировать (=истолковать) значение коэффициента корреляции Пирсона?

Следует исходить из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение rxy – тем больше теснота связи между двумя величинами. rxy = 0 говорит о полном отсутствии связи. rxy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения rxy < 0,3 свидетельствуют о слабой связи, значения rxy от 0,3 до 0,7 - о связи средней тесноты, значения rxy > 0,7 - о сильной связи.

Более точную и развёрнутую оценку силы корреляционной связи можно получить по таблице Чеддока:

Абсолютное значение rxyТеснота (сила) корреляционной связи
менее 0.3слабая
от 0.3 до 0.5умеренная
от 0.5 до 0.7заметная
от 0.7 до 0.9высокая
более 0.9весьма высокая

Вычисление коэффициента корреляции Пирсона онлайн Перейти

Пример вычисления коэффициента корреляции хи-квадрат Пирсона Перейти

Однако, недостаточно всего лишь рассчитать коэффициент корреляции Пирсона хи-квадрат. Надо к нему ещё и указать силу выявленной связи. Но и это ещё не всё. Надо также оценить статистическую значимость полученного коэффициента, т.е. насколько можно ему доверять.

Оценка статистической значимости (т.е. степени доверия) коэффициента корреляции rxy осуществляется отдельно дополнительно при помощи t-критерия, рассчитываемого по приведённой ниже формуле:

Полученное значение tr сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если tr превышает tкрит, то делается вывод о статистической значимости выявленной корреляционной связи.

 

Понятие корреляции

Корреля́ция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение , либо коэффициент корреляции (или rxy). В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века [4].
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.
Ключевым понятием, описывающим связи между переменными, является корреляция (от английского correlation — согласование, связь, взаимосвязь, соотношение, взаимозависимость); термин впервые введен Гальтоном (Gallon) в 1888 г.
 
Корреляция между парой переменных (парная корреляция).
 
Если имеется пара переменных, Тогда корреляция между ними — это мера связи (зависимости) именно между этими переменными.
Например, известно, что ежегодные расходы на рекламу в США очень тесно коррелируют с валовым внутренним продуктом, коэффициент корреляции между этими величинами (с 1956 по 1977 гг.) равен 0,9699. Число посещений сайта торговой компании тесно связано с объемами продаж и т. д.
Также тесно коррелировано число хостов и число хитов на сайте (см. графики ниже).
Тесно связаны между собой такие, например, переменные, как температура воздуха и объем продажи пива, среднемесячная температура в данном месте текущего и предыдущего года, расходы на рекламу за предыдущий месяц и объем торговли в текущем месяце и т. д.
 
 
Корреляция между парой переменных называется парной корреляцией. Статистики предпочитают говорить о коэффициенте парной корреляции, который изменяется в пределах от -1 до +1.
В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции.
Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале, наиболее подходящим коэффициентом будет коэффициент корреляции Пирсона г (Pearson, 1896), называемый также линейной корреляцией, так как он отражает степень линейных связей между переменными. Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона.
Итак, коэффициент парной корреляции изменяется в пределах от -1 до +1. Крайние значения имеют особенный смысл. Значение -1 означает полную отрицательную зависимость, значение +1 означает полную положительную зависимость, иными словами, между наблюдаемыми переменными имеется точная линейная зависимость с отрицательным или положительным коэффициентом.
Значение 0,00 интерпретируется как отсутствие корреляции.
Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу. Это можно проследить, анализируя графики (см. ниже).
На графике в левом верхнем углу значения парного коэффициента корреляции равно 0,0, на графике в правом верхнем углу коэффициент корреляции постепенно увеличивается и становится равным 0,3.
На нижних графиках коэффициент корреляции увеличивается и становится равным 0,6 и 0,9. Обратите внимание на то, как меняется наклон прямой линии и как группируются точки вокруг этой прямой.
 
 
Заметим, что чем ближе коэффициент корреляции к крайнему значению 1, тем теснее группируются данные вокруг прямой. Та же картина наблюдалась бы и при отрицательных значениях корреляции, только наклон прямой, вокруг которой группируются значения переменных, был бы отрицательным.
При значении коэффициента корреляции, равном ±1, точки точно легли бы на прямую линию, а это означает, что между данными имеется точная линейная зависимость.
Внимательно посмотрим на эти графики. Корреляция — важное понятие, постараемся привыкнуть к нему и научиться визуально определять по расположению данных, насколько тесно они коррелированы.
Говорят, что две переменные положительно коррелированы, если при увеличении значений одной переменной увеличиваются значения другой переменной.
Две переменные отрицательно коррелированны, если при увеличении одной переменной другая переменная уменьшается (см. рисунки выше).
Говорят, что корреляция высокая, если на графике зависимость между переменными можно с большой точностью представить прямой линией (с положительным или отрицательным наклоном).
Если коэффициент корреляции равен 0, то отсутствует отчетливая тенденция в совместном поведении двух переменных, точки располагаются хаотически вокруг прямой линии (см. график в левом верхнем углу).
Важно, что коэффициент корреляции — безразмерная величина и не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же независимо от того, проводились ли измерения в дюймах и футах или в сантиметрах и килограммах.
Проведенная прямая (см. графики), вокруг которой группируются значения переменных, называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси Y) от наблюдаемых точек до прямой действительно является минимальной из всех возможных.
Формально коэффициент корреляции Пирсона вычисляется следующим образом:
 
r12 = [S(Yi1 - Y_1) x (Yi2 - Y_2)] / [S (Yi1 - Y_1)2 x S(Yi2 - Y_2)2]1/2,

 

Y_1 — среднее переменной Y1
 
Y_2 — среднее переменной Y2
 
Если переменные измерены в интервальной шкале, то используются ранговые корреляции, которые будут рассмотрены ниже.
Для анализа зависимостей категориальных переменных обычно используют таблицы сопряженности и соответствующие статистики, например, хи-квадрат, V-квадрат, точный критерий Фишера, статистика фи-квадрат (альтернатива корреляции) и др.
Если требуется измерить связи между списками переменных, используются следующие типы корреляции:
множественная корреляции: измерение зависимости между одной переменной и несколькими переменными;
каноническая корреляция: измерение зависимостей между двумя множествами переменных;
частные корреляции.
Если вычисляется корреляция между значениями одной переменной, сдвинутыми на некоторый лаг, то говорят об автокорреляции.
Ранговые корреляции. Эти корреляции используются в тех ситуациях, когда наблюдаемые данные ранжированы.
Статистика Спирмена R. Статистика R Спирмена предполагает, что рассматриваемые переменные измерены как минимум в порядковой шкале, иными словами — индивидуальные наблюдения ранжированы.
Статистика Кендалла тay. Статистика тay Кендалла эквивалентна R Спирмена при выполнении некоторых основных предположений. Критерии, основанные на этих статистиках, также сравнимы по мощности. Однако обычно значения R Спирмена и тay Кендалла различны, потому что они существенно отличаются как по своей внутренней логике, так и по способу вычисления. Имеется следующее соотношение между этими статистиками:
 
-1 _< 3 x тау Кендалла и 2 x R Спирмена < 1
 
Более важно, что тay Кендалла и R Спирмена по-разному интерпретируются. R Спирмена можно мыслить как прямой аналог г Пирсона, вычисленный по рангам (а не по исходным наблюдениям), тогда как тay Кендалла представляет вероятность, точнее, вероятность того, что значения двух переменных располагаются в одном и том же порядке, минус вероятность того, что значения переменных располагаются в различном порядке (или вероятность того, что ранги двух переменных совпадают, минус вероятность того, что они различны).
Гамма. Гамма-статистика предпочтительнее статистики R Спирмена или тay Кендалла в тех случаях, когда в данных имеется много совпадающих значений. С точки зрения основных предположений, статистика гамма эквивалентна R Спирмена или тay Кендалла. Её интерпретация и вычисление более похожи на тay Кендалла, чем на R Спирмена. Гамма также представляет собой вероятность; более точно — вероятность того, что ранговый порядок двух переменных совпадает, минус вероятность того, что не совпадает, деленная на выражение 1 минус вероятность совпадений. Таким образом, статистика гамма в основном эквивалентна тay Кендалла за исключением того, что совпадения рангов явно принимаются во внимание.
Нелинейные зависимости между переменными. Корреляция Пирсона г хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет «истинные» и очень тесные зависимости между переменными. Поэтому хорошим тоном после вычисления корреляций является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь.
Например, показанная ниже высокая корреляция плохо описывается линейной функцией.
 
 
 
Однако, как видно на графике ниже, полином пятого порядка достаточно хорошо описывает зависимость.
 
 
 
 
Ложные корреляции
Нужно иметь в виду, что на свете существуют ложные корреляции, и это нарушает идиллическую картину корреляционного анализа.
Другими словами, если вы нашли переменные с высокими значениями коэффициентов корреляции, то отсюда еще не следует, что между ними действительно существует причинная связь; нужна уверенность, что на исследуемые переменные не влияют другие переменные.
Лучше всего понять ложные корреляции на следующем шутливом примере.
Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших его. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньшее число пожарных.
Задумавшись над полученным результатом, вы будете искать и найдете причину высокой корреляции: причина состоит в том, что имеется третья переменная (величина пожара), которая влияет как на причиненный ущерб, так и на число вызванных пожарных. Если вы будете «контролировать» эту переменную (например, рассматривать только пожары определенной величины), то исходная корреляция (между ущербом и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак.
В реальной жизни проводить такие рассуждения и находить «причинные» переменные, конечно, гораздо сложнее.
Основная проблема ложной корреляции состоит в том, что вы не знаете, чем она вызвана или, фигурально выражаясь, кто является её агентом. Тем не менее, если вы знаете, где искать, то можно воспользоваться частными корреляциями, чтобы контролировать (частично исключенное) влияние определенных переменных.
 
Источники:
Учебник по STATISTICA: Глава 2.
Прикрепленный файлРазмер
PDF icon Корреляционный анализ, теория и расчёты631.8 КБ
Ваша оценка: 
4.105265
Средняя: 4.1 (19 проголосовавших)