1.29. Корреляционная зависимость случайных величин. Корреляционный момент (ковариация) и коэффициент линейной корреляции. Корреляционное отношение

Пусть X и Y – любые две случайные величины (дискретные или непрерывные – неважно). Нас будет интересовать связь между ними. Относительно этой связи имеется, в принципе, три возможности.


1) Первая возможность: величины X и Y независимы друг от друга. Это значит, что каждая из этих величин принимает свои значения независимо от значений, принимаемых другой случайной величиной.

2) Вторая возможность - обратная первой: величины Х и Y связаны жесткой (функциональной) зависимостью, т. е. зависимостью вида Y=. В этом случае каждому возможному значению величины Y соответствуют вполне определенное значение Y= величины Y. То есть возможные значения величины Y Жестко привязаны к возможным значениям величины X. Этому случаю был посвящен предыдущий параграф.

3) Третья возможность - промежуточная между первыми двумя: Х и Y в принципе связаны между собой (независимыми они не являются), но эта связь не жёсткая (размытая). Это значит, что каждому возможному значению Х величины Х могут соответствовать различные значения (У; у; ... ) величины Y, причём набор этих значений и (или) их вероятности меняются с изменением значения Х. Такого рода связь между случайными величинами называются Статистической (или Вероятностной) связью. Статистическая связь между случайными величинами X и Y означает, что изменение значения одной из них ведет к изменению Внешних условий Для реализации другой величины. Например, меняющаяся среднесуточная температура статистически влияет на плотность сельскохозяйственных вредителей на засеянном поле; объем денежной массы у покупателей статистически влияет на объем закупаемых ими товаров, и т. д.

Если при статистической связи между случайными величинами X и Y при изменении значения Х величины X еще и меняется Среднее значение величины Y, то говорят, что Y Корреляционно (в среднем) зависит от X. Аналогично понимается корреляционная зависимость X от Y. В частности, очевидно, что между температурой X воздуха и количеством Y вредителей имеет место не просто статистическая, а корреляционная зависимость, ибо с изменением температуры изменяется и среднее количество сельскохозяйственных вредителей. Аналогично между количеством X денег у покупателей и их тратами Y на покупку товаров тоже имеется, очевидно, корреляционная зависимость, ибо чем больше денег у покупателей, тем больше в среднем они покупают. Корреляционно (в среднем) связаны также урожайность различных культур с количеством внесенных под них удобрений, производительность труда рабочих с их квалификацией, и т. д.

Рассмотрим корреляционную связь между случайными величинами X и Y подробнее. Пусть - среднее значение тех значений У Величины Y, которые соответствуют данному значению X величины X. Оно же - условное математическое ожидание величины Y при X=X:

(6.1)

Так как каждому возможному значению X величины X будет соответствовать единственное значение , то это значение является функцией от X:

(6.2)

Если меняется с изменением X, то есть если , то между X и Y Имеется корреляционная связь – Y корреляционно (в среднем) зависит от X. А если , то Y корреляционно от X не зависит. В последнем случае Y либо вообще не зависит от X, либо зависит, но лишь сугубо статистически.

Функциональная зависимость (6.2) называется Уравнением регрессии Y на X, А график этой зависимости – Линией регрессии Y на X (рис 2.22):

Линия регрессии Y на X наглядно показывает, как В среднем меняется случайная величинаY при изменении случайной величины X. Точки вокруг линии регрессии символизируют разброс возможных значений Y величины Y вокруг линии регрессии . Именно из этих значений Y для каждого X Должно быть найдено их среднее значение .

Аналогично зависимость вида называется Уравнением регрессии X на Y, а ее график – Линией регрессии X на Y (рис 2.23).

Линия регрессии X на Y показывает, как В среднем меняется X при изменении Y.

Самой простой случай (и наиболее часто встречающийся на практике) – это когда функция или линейна, то есть когда её график – прямая линия. В этом случае корреляционная зависимость Y от X и соответственно корреляционная зависимость X от Y Называется Линейной, в противном случае – Нелинейной.

В теории корреляции решаются Две основные задачи:

Первая задача теории корреляции - нахождение Уравнения регрессии, то есть нахождение зависимости между значениями одной случайной величины и соответствующими им средними значениями другой случайной величины.

Вторая задача теории корреляции – оценка Тесноты изучаемой корреляционной зависимости. В частности, теснота корреляционной зависимости Y от Х оценивается по степени рассеяния значений (У; у; ....) величины Y (рис. 2.22) вокруг линии регрессии . Большое рассеяние свидетельствует о слабой корреляционной зависимости Y от Х. Наоборот, малое рассеяние указывает на наличие достаточно сильной (тесной) корреляционной зависимости. Возможно даже, что Y зависит от Х функционально, то есть жёстко, но из-за второстепенных случайных факторов или просто из-за погрешностей измерений эта зависимость оказалась несколько размытой.

Те же задачи, естественно, стоят, если исследуется корреляционная зависимость X от Y.

Наиболее просто решаются обе эти задачи при наличии линейной корреляционной зависимости одной случайной величины от другой. И здесь важную роль играет так называемый Корреляционный момент Или, что одно и то же, Ковариация случайных величин Х и Y, которые определяются как математическое ожидание произведения отклонений Х и Y От их математических ожиданий:

(6.4)

Их можно преобразовать к виду (проделайте это самостоятельно):

(6.5)

Как известно, у независимых случайных величин Х И Y, как у дискретных, так и у непрерывных, . А значит, для независимых случайных величин

(6.6)

Поэтому если , то это автоматически указывает на зависимость случайных величин Х и Y друг от друга.

Отметим, что обратное, вообще говоря, неверно: из того, что корреляционный момент , ещё нельзя сделать вывод, что Х И Y независимы. Они могут быть зависимы, причём даже функционально. Например, если распределение величины Х симметрично относительно точки Х=0,так что автоматически и , а - функция от Х, то на основании (6.5) получаем:

И это несмотря на то, что Х и Y связаны функциональной зависимостью

Случайные величины, для которых , называются Линейно некоррелированными. Независимые величины всегда линейно некоррелированы. Но линейно некоррелированные величины могут быть, как мы только что видели, как зависимыми, так и независимыми. Линейно коррелированные же величины (для них ) всегда зависимы.

Кстати, если случайные величины X И Y распределены нормально, то можно доказать (на этом не останавливаемся), что Их линейная некоррелированность равнозначна их независимости. Для других же величин Х и Y это не обязательно одно и тоже.

Отметим, что корреляционный момент обладает одним существенным недостатком: он зависит от единиц измерения величин X И Y. Поэтому на практике вместо него часто используется безразмерная величина

(6.7)

Которая называется Коэффициентом линейной корреляции. Он играет, как мы увидим ниже, большую роль при решении обеих задач теории корреляции в случае линейной корреляционной зависимости между случайными величинами.

Корреляционный момент и коэффициент линейной корреляции равны или не равны нулю одновременно. Поэтому линейную коррелированность и линейную некоррелированность случайных величин X и Y можно устанавливать и по равенству или неравенству нулю коэффициента линейной корреляции .

Так как, согласно (6.5), , то и

= (6.8)

Коэффициент линейной корреляции обладает еще одним важным свойством: он не изменится, если от X и Y перейти к безразмерным нормированным случайным величинам

(6.9)

То есть

= (6.10)

Нормированными случайными величинами и называются потому, что их математические ожидания равны нулю, а средние квадратические отклонения равны единице:

()= ()= (6.11)

Равенства (6.11) легко доказываются с помощью свойств (3.17) – (3.23) математического ожидания и дисперсии, которые справедливы как для непрерывных, так и для дискретных случайных величин (проделайте это самостоятельно). Ну, а то, что=, уже вытекает из (6.4), (6.5), (6.7), (6.9) и (6.11):

Для дальнейшего рассмотрения свойств коэффициента линейной корреляции случайных величин X и Y найдем дисперсию их суммы X+Y и разности X-Y. Если величина X и Y независимы, то такая формула уже получена (см. (3.22)):

(6.12)

Причем эта формула верна как для дискретных, так и для непрерывных случайных величин. А если X и Y зависимы (функционально или статистически), то соответствующая формула имеет вид:

(6.13)

Действительно:

В частности, для нормированных случайных величин формула (6.13) примет вид:

(6.14)

А так как, по смыслу дисперсии, , то из (6.14) получаем:

(6.15)

И так как, согласно (6.10), ) = , то для любых случайных величин Х и Y получаем следующий вывод:

(6,16)

Если коэффициент линейной корреляции , то он характеризует не только Наличие зависимости (связи) между Х и Y. Своей величиной, как мы это сейчас увидим, он характеризует И тесноту этой связи. Однако не любой, а Лишь линейной корреляционной связи между Х и Y. Отсюда и его название – коэффициент Линейной корреляции. Максимальная теснота этой связи соответствует случаям, когда = . При этом между Х и Y имеет место жёсткая функциональная связь, причём связь непременно линейная: .

Действительно, при = и )=, а тогда из (6.14) вытекает, что имеет место одно из двух равенств: или , или . Но дисперсия случайной величины равна нулю, если только эта случайная величина является константой. То есть или , или . Заметим, что в обоих случаях константа , ибо на основании (6.11) получаем:

Итак, при = либо , либо . А отсюда уже, согласно связи (6.9) с , следует подтверждение того, что в обоих случаях величины Х и Y связаны линейной функциональной зависимостью вида .

Верно и обратное: если случайные величины Х и Y связаны линейной функциональной зависимостью , то их коэффициент линейной корреляции Равен либо 1, либо -1.

Докажем это. Действительно, если , то согласно (6.9) и свойств математического ожидания и дисперсии получаем:

; =

=.

А тогда

Таким образом, коэффициент линейной корреляции есть показатель того, насколько зависимость между случайными величинами X и Y близка к строгой линейной зависимости . Его малость (удаленность от может означать одно из двух: или малую тесноту (большое рассеяние) линейной корреляционной связи между X и Y, или существенную нелинейность этой связи, которая, кстати, может быть весьма тесной.

Сформулируем это утверждение более определенно. Найдем такие числовые коэффициенты K и B, чтобы линейная функция КX+B случайной величины X наилучшим образом приближала случайную величину Y. Для этого представим Y в виде

YX+B+Z (6.17) Случайную величину Z можно рассматривать как ошибку приближения величины Y линейной функцией YX+B. Эту ошибку естественно считать минимальной, если потребовать, чтобы математическое ожидание и дисперсия была минимальной. Первое из этих требований дает:

(6.18)

С учетом найденного значения B и (6.17) ошибка Z примет вид:

Теперь вычислим – дисперсию величины Z:

=

Первое из полученных слагаемых неотрицательно и не зависит от параметра K. Таким образом, дисперсия ошибки Z будет минимальной при том значении K, которое обеспечит обращение в нуль второго слагаемого. То есть при

(6.19)

При этом дисперсия (её минимальное значение) примет вид:

(6.20)

Итак, вывод: наилучшее приближение случайной величины Y линейной функцией КX+B случайной величины Х будет иметь место при значениях K и B, определяемых формулами (6.19) и (6.18). То есть такое приближение будет иметь вид:

(6.21)

Ошибка Z Этого линейного приближения величины Y имеет математическое ожидание (среднее значение), равное нулю. А дисперсия этой ошибки определяется формулой (6.20).

Если , то дисперсия ошибки . А это, с учетом равенства означает, что . То есть при в равенстве (6.21) ошибки нет и оно является точным. Но чем больше удален коэффициент линейной корреляции От , то есть чем ближе он к нулю, тем больше становится дисперсия ошибки Z, а вместе с ней тем больше становится и сама ошибка Z приближения (6.21). При Эта ошибка становится максимально возможной, а само приближение (6.21) принимает вид и перестаёт, таким образом, зависеть от X. То есть при =0 линейная зависимость Y от X отсутствует. Это значит, что или между случайными величинами X и Y вообще нет никакой связи, или они связаны, но какой-то нелинейной связью (функциональной или статистической).

Кстати, так как наилучшим приближением случайной величины Y при X=X является, очевидно, условная средняя , то из (6.21) сразу вытекает Наилучшее линейное приближение уравнения регрессии величины Y на величину X. Для его получения нужно в (6.21) заменить X На X и Y на . В итоге получим:

(6.22)

Здесь

(6.23)

Полученное простое линейное уравнение (6.22) используют на практике для приближенной замены истинного уравнения регрессии , если линия регрессии близка к прямой. Если же она сильно отличается от прямой (как на рис. 2.22), то его тоже можно использовать, только не на всем интервале (А; B) возможных значений величины X, а на коротких частях этого интервала, на которых линию регрессии можно приближенно считать прямой.

При приближенное линейное уравнение (6.22) становится точным. То есть становится истинным уравнением регрессии Y на X. Более того, при этом Превращается просто в Y – в единственное значение Y при X=X. Это происходит потому, что при становится точным равенство (6.21). А это значит, что каждому значению X величины X будет соответствовать единственное значение Y величины Y. И, таким образом, будет . Линия регрессии (см. рис. 2.22) станет прямой, и никакого разброса вокруг неё точек, изображающих возможные значения величины Y, не будет – все они окажутся на этой прямой.

Но если , то по мере удаления его значения от 1 истинная линия регрессии или искривляется, или остается прямой, но вокруг нее появляется облако точек, причем тем более широкое, чем ближе к нулю. Или одновременно и линия регрессии искривляется, и облако точек вокруг нее расширяется. При близком к нулю или тем более равном нулю нельзя даже приближено считать величины X И Y Связанными линейной корреляционной зависимостью. Связь между этими линейно некоррелированными (или слабо линейно коррелированными) случайными величинами будет или отсутствовать вообще, или будет существенно нелинейной. То есть в этом случае полученные выше формулы (6.21) и (6.22) приближенного линейного выражения одной величины (Y) через другую величину (Х) применять нельзя - они могут давать слишком грубое приближение. Тут требуется дополнительное исследование характера связи между такого рода слабо линейно коррелированными случайными величинами X и Y, которое мы проведем ниже.

Перейдем к этому исследованию. То есть поставим вопрос об оценке тесноты Любой, А не только линейной, корреляционной связи между случайными величинами X и Y.

Итак, допустим, что корреляционная связь между случайными величинами X и Y есть, и эта связь заведомо нелинейная (квадратичная, экспоненциальная, логарифмическая, и т. д.). Это значит, что уравнение Регрессии Y на Х таково, что и при этом . То есть линия регрессии Y На Х – кривая линия (рис. 2.22). Для оценки тесноты такой криволинейной корреляционной связи между X и Y коэффициент линейной корреляции , который будет близок к нулю, не годится. В этом случае указанною тесноту оценивают с помощью так называемого Корреляционного отношения.

Чтобы ввести это понятие, рассмотрим случайною величину , которая является функцией величины Х и которая при Х = х Принимает среднее значение величины Y. Математическое ожидание величины Совпадает с математическим ожиданием (средним значением ) величины Y:

(6.24)

А дисперсия Величины составляет лишь часть дисперсии величины Y:

(6.25)

При доказательстве равенств (6.24) и (6.25) ограничимся случаем, когда X и Y – дискретные случайные величины.

Итак, пусть X и Y – зависимые дискретные случайные величины, а таблица (6.26) – закон их совместного распределения:

X

Y

Х

Х

............

Х

Q

(6.26)

Y

P

P

............

P

Q

Y

P

P

............

P

Q

.......

.......

.......

............

.......

.......

Y

P

P

............

P

Q

Pi

P

P

............

P

1

Здесь (X, X,… X) и (Y, Y,…Y) – возможные значения величин X и Y соответственно, а - вероятности того, что в результате испытания парой случайных величинБудет принята пара значений . Кстати, сумма всех вероятностей , как сумма вероятностей событий, составляющих полную группу событий, должна равняться единице:

(6.27)

Действительно, события, состоящие в том, что , являются несовместными. Причем одно из них обязательно произойдет. То есть эти события действительно образуют полную группу событий.

В последней строке таблицы (6.26) просуммированы вероятности по строкам (внутри каждого столбца). А в последнем столбце этой таблицы просуммированы вероятности по столбцам (внутри каждой строки):

(6.28)

Вероятности - это, очевидно, вероятности значений величины X, а вероятности - это вероятности значений величины Y. То есть на базе закона совместного распределения случайных величин X и Y можно записать и законы распределения каждой из этих величин в отдельности:

(6.29)

Среднее значение Величины Y для каждого возможного значения величины Y следует находить по формуле:

(6.30)

Действительно, согласно (6.1)

(6.31)

То есть - это условное математическое ожидание величины Y при X=. А следовательно, оно должно быть найдено как сумма произведений значений величины Y на соответствующее им вероятности этих значений при условии, что X=. То есть

(6.32)

А условные вероятности можно найти из формулы вероятности произведения двух зависимых событий (формула (4.5) главы 1):

(6.33)

Из формул (6.32) и (6.33) и следует формула (6.30).

Подсчитав значения , можем составить и закон распределения случайной величины :

(6.34)

(вероятности значений величины те же, что и вероятности значений величины X).

Ну, а теперь можем перейти к доказательству равенств (6.24) и (6.25). Сначала докажем (6.24):

(6.35)

Равенство (6.24) доказано.

Для доказательства равенства (6.25) образует случайную величину и запишем закон её распределения:

(6.36)

Математическое ожидание этой случайной величины равно нулю - это следует из (6.24). Покажем ещё, что

(6.37)

Закон распределения случайной величины Имеет вид:

(6.38)

Отсюда следует:

=

= = . (6.39)

А теперь, опираясь на доказанные равенства (6.24) и (6.37), можно доказать и равенство (6.25):

Равенство (6.25) доказано. Это равенство дает разложение общей дисперсии зависимой от X случайной величины Y на сумму двух слагаемых: дисперсии функции и среднего квадрата отклонения Y от этой функции. Иначе говоря, общий разброс значений У Величины Y Вокруг её среднего значения складывается из разброса значений величины вокруг того же , и разброса значений У вокруг . То есть формула (6.25) раскладывает общий разброс всех возможных значений Y Величины Y вокруг её математического ожидания на разброс вокруг точек Кривой регрессии, и на разброс значений У (облака точек, изображающих значения Y) вокруг кривой регрессии

Введем теперь отношение

(6.40)

Которое будет называть Корреляционным отношением Y к X. Очевидно, что всегда

(6.41)

Из определения следует, что =0 при , то есть при условии, что =Const. Причем эта константа, естественно, равна . Но тогда уравнение регрессии Y на X имеет вид = и, следовательно, случайная величина Y не зависит корреляционно (в среднем) от величины X. А если , то в этом случае из (6.40) следует, что =0, откуда вытекает, что . То есть при случайные величины X и Y связаны жесткой функциональной зависимостью , причем Const.

Из сказанного следует, что чем ближе корреляционное отношение к единице, тем ближе корреляционная зависимость Y от X к функциональной зависимости. А это значит, тем эта корреляционная зависимость теснее. Наоборот, чем ближе к нулю, тем она слабее.

Таким образом, корреляционное отношение случайной величины Y К случайной величине X является мерой и наличия, и тесноты Любой (а не только линейной) корреляционной зависимости величины Y от величины X.

Естественно, можно ввести в рассмотрение и корреляционное отношение величины X к величине Y.

(6.42)

Которое оценивает наличие и тесноту корреляционной зависимости величины X от Y, где - уравнение регрессии X на Y.

Отметим, что в отличие от коэффициента линейной корреляции, которой симметричен относительно X и Y (), корреляционное отношение таким свойством, судя по (6.40) и (6.42), не обладает:

(6.43)

Можно еще доказать, что всегда

(6.44)

При этом в случае равенства

(6.45)

Имеет место Точная линейная корреляционная зависимость Y от X. Это значит, что при условии (6.45) приближенное уравнение регрессии (6.22) Y на X становится Точным.

Аналогично в случае

(6.46)

Становится точным соответствующее уравнение регрессии X на Y.

Пример. Дискретные случайные величины X и Y заданы следующим законом их совместного распределения:

X

Y

0

1

2

0

0,10

0,16

0,18

0,44

1

0,06

0,20

0,30

0,56

0,16

0,36

0,48

1

Требуется:

1) Найти коэффициент линейной корреляции .

2) Найти корреляционное отношение .

3) Построить линию регрессии величины Y на величину X.

Решение. Запишем сначала законы распределения величин X и Y по отдельности:

X

0

1

2

Y

0

1

Р

0,16

0,36

0,48

Р

0,44

0,56

Отсюда, в частности, следует (получите это самостоятельно):

;

Теперь найдем . Для этого, согласно (6.7), предварительно нужно найти корреляционный момент . Его найдем по формуле (6.5), используя совместный закон распределения (таблицу) величины Х и Y:

Тогда:

Величина . Таким образом, величины X и Y линейно коррелированы, а значит и зависимы. Вместе с тем величина Невелика (она гораздо ближе к нулю, чем к 1 или к -1). Поэтому корреляционная зависимость Y от Х или слабая, или существенно нелинейная, или то и другое вместе.

Чтобы лучше выяснить этот вопрос, подсчитаем корреляционное отношение величины Y к величине Х. Для этого сначала для каждого значения Х величины Х подсчитаем среднее значение величины Y. Используя формулы (6.30), получим:

Полученные данные позволяют записать таблицу вида (6.34) - закон распределения функции Случайной величины Х:

0,375

0,556

0,625

Р

0,16

0,36

0,48

Из этой таблицы находим:

=.

Величина оказалась большей, чем - так и должно, согласно (6.44), быть. Однако и она невелика, что свидетельствует о малой тесноте корреляционной зависимости Y и X. А так как различие между и Незначительное, то корреляционная зависимость Y от X близка к линейной.

Этот вывод должна подтвердить линия регрессии . Ее следует строить по трем точкам:

0

1

2

0,375

0,556

0,625

Как легко убедиться, ломаная, соединяющая эти три точки, действительна близка к прямой линии.

© 2011-2024 Контрольные работы по математике и другим предметам!