1.08. Очистка переменных. Частный . коэффициент корреляции
Возникновение паразитной линейной связи между двумя переменными часто можно объяснить тем, что хотя эти переменные и не связаны друг с другом причинным образом, изменение каждой из них достаточно хорошо объясняется изменением значений некоей третьей переменной, «координирующей» динамику изменения первых двух переменных. Проиллюстрируем это на примере данных, использованных в примере 4 из предыдущего раздела.
При рассмотрении указанного примера мы подобрали модель линейной связи между значениями суммарного производства электроэнергии в США (E) и мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (H). Коэффициент детерминации для этой модели оказался весьма высоким, равным 0.900.
Поскольку динамика изменения этих двух показателей на периоде наблюдений обнаруживает видимый положительный тренд, попытаемся приблизить каждый из них линейной функцией от времени. Подбор методом наименьших квадратов приводит к моделям:
Где T Обозначает T-Й год на периоде наблюдений. При этом, в первом случае коэффициент детерминации равен 0.9812, а во втором коэффициент детерминации равен 0.8705. Иначе говоря, наблюдаемая изменчивость переменных E И H Достаточно хорошо «объясняется» изменением переменной T, Фактически являющейся здесь выразителем «технического и спортивного прогресса».
Чтобы найти «объективную» связь между показателями E и H, «очищенную» от влияния на эти показатели фактора времени, естественно поступить следующим образом.
Возьмем ряд остатков
Получаемых при подборе первой модели, и ряд остатков
Получаемых при подборе второй модели. Тогда переменные и , принимающие значения и Соответственно, , можно интерпретировать, как результат «очистки» переменных E И H От линейного тренда во времени. Соответственно, «истинная» линейная связь между переменными E И H, если таковая имеется, должна, скорее всего, измеряться коэффициентом корреляции между «очищенными» переменными и .
Подобранная линейная связь между и имеет вид
При этом получаем значение
Против значения в модели с «неочищенными» переменными. Kоэффициент корреляции между «очищенными» переменными и
Почти вдвое меньше коэффициента корреляции между «неочищенными» переменными E И H.
Коэффициент корреляции между «очищенными» переменными и называется Частным коэфициентом корреляции между переменными E И H При исключении влияния на них переменной .
В дальнейшем мы покажем, что значение при «слишком мало» для того, чтобы можно было отвергнуть гипотезу о том, что коэффициент при в линейной модели связи
В действительности равен нулю.
< Предыдущая | Следующая > |
---|