5.6. Корреляционная зависимость

Как мы уже отмечали, понятие функции является одним из самых важных в математике, физике и естест­венных науках. Следующий пример показывает, что по­нятия функции недостаточно, чтобы описать всевозмож­ные причинные связи, с которыми жизнь нас сталкива­ет повседневно.

Совершенно ясно, что между ростом и весом челове­ка существует определенная зависимость. Но столь же ясно, что существует сколько угодно людей с одинако­вым ростом, но разным весом. Следовательно, Зависи­мость веса от роста не является функциональной, т. к. функции обладают тем свойством, что по заданному значению независимого переменного Х можно найти Единственное значение зависимой переменной У. Таким образом не может быть такой формулы, по которой, зная точный рост, мы находили бы точный вес.

Ага, скажет наш догадливый читатель! Вес зависит не только от роста, но и от размера талии! Несомненно так, ответим мы, но в то же время можно найти сколько угодно людей с одинаковым ростом и одинаковой та­лией, у которых, тем не менее, вес различный. Следова­тельно, вес не является функцией только двух перемен­ных — роста и размера талии. Все ясно, скажет чита­тель: вес зависит от роста, размера талии, объема груди, размера обуви и т. д. и т. п. Вот тут-то мы и подошли к важному выводу: если искомая функциональная зави­симость и существует (а пока еще она никем не обнару­жена), то она должна быть исключительно сложной. А поскольку нельзя пользоваться тем, чего нет, то про­ще описывать эту сложную причинную связь между ве­сом, ростом и другими параметрами человека как-то по иному, минуя классическое определение функции.

Вес и рост человека определяются практически од­ними и теми же факторами, число которых довольно велико (возраст, наследственность, физиологические особенности, социальные условия, экологическая среда и пр.). Поэтому можно считать, что вес человека зави­сит от ряда случайных величин, среди которых рост яв­ляется одной из основных. Эту зависимость описывают с помощью понятия вероятности. Например, имеет смысл говорить о вероятности того, что вес молодого человека с ростом 175 см равен 75 кг или заключен в пределах от 70 до 80 кг. Зависимости такого рода называются стоха­стическими, вероятностными или статистическими. Они существуют между биологическими параметрами чело­века, животного, растения; между способностями сту­дента и его успехами в учебе; между отношением сооб­щества к образованию и уровнем преступности; между внешним видом солдат и боеспособностью полка. По­добных примеров можно привести сколько угодно. Важнейшим видом стохастической зависимости являет­ся Корреляционная зависимость. Покажем на примере, как описать корреляционную зависимость по результа­там наблюдений.

В таблице приведены данные измерения веса и роста двадцати курсантов школы МВД:

Эти результаты можно представить графически, построив точки с соответствующими координатами:

Полученные точки лежат внутри некоторой области или «облака», которое обозначено пунктирной линией. Хорошо заметно, что облако вытянуто вдоль какой-то наклонной прямой. Этот факт означает, что величины Х И Y хорошо скоррелированы, т. е. при увеличении роста вес, как правило, тоже увеличивается. Мы видим, что на некоторых вертикальных прямых внутри облака на­ходится по нескольку точек: 1, 6 и 13; 2 и 20; 4, 14 и 16; 9 и 18; 10 и 12. Для точек 1, 6 и 13 средний вес бу­дет (72 + 79 + 77) : 3 = 76; для точек 2 и 20 средний вес будет 68,5 и т. д. Если на вертикальной прямой находится одна точка, то ее вес и есть средний. Соединив сред­ние точки отрезками, получим ломаную линию, которая называется Эмпирической линией регрессии. С ее помо­щью можно приближенно находить средний вес по за­данному росту в пределах от 159 см до 198 см. Напри­мер, при росте 185 см получаем вес 83,4 кг. Если бы мы провели не 20, а 200 измерений, то точек внутри облака оказалось бы больше, соответствующая линия регрессии была бы по форме ближе к прямой и давала бы более точный средний вес при заданном росте.

Теоретически, каждую точку внутри облака можно считать результатом измерения. При этом допущении линия регрессии, как показывает теория, является пря­мой. Эта прямая будет графиком некоторой линейной функции, которая называется Регрессией. Доказано, что Регрессия является наилучшим решением задачи, о ко­торой шла речь в начале этого параграфа — прибли­женно выразить вес как функцию роста.*

* Наилучшим в смысле метода наименьших квадратов.

Если бы линия регрессии была нам известна, мы смогли бы ее продолжить за пределы облака и вычис­лить с ее помощью средний вес человека с ростом, на­пример, 195 см. Однако мы можем с достаточной степе­нью точности решить эту задачу, имея в своем распоря­жении эмпирическую линию регрессии — ломаную, изображенную на рис. 25. Для этого заменим ее прямой, используя приведенный выше метод наименьших квад­ратов. Уравнение искомой прямой имеет вид

У = Kx + b,

Где

, .

Здесь и средние значения роста, веса и их попарных произведений, Dx — дисперсия роста. Приме­няя формулы из второй главы, получаем:

Подставляя в предыдущие формулы, находим K и B:

Итак, получим следующее уравнение искомой прямой:

У = 0,87Х 78,20. (24)

Она называется Эмпирической прямой регрессии. Подставляя в последнее уравнение Х = 195, найдем средний вес курсанта с таким ростом — 91 кг.

Теперь мы можем найти вероятность P(H) того, что вес курсанта с ростом Х заключен в пределах от У - H до У + H. Здесь У — средний рост, найденный по формуле (24). Вероятность P(H) вычисляют с помощью функ­ции Лапласа Ф, определенной в гл. VI, по формулам:

P(H) = 2Ф(A), (25)

, (26)

, (27)

Где N = 20 — число наблюдений. Величины , и Dx уже найдены выше; вычислим Sx, Sy и R:

Теперь можно находить P(H). Пусть, например, H = 5. Тогда

Значение Ф(0,5) находим по таблице, данной в Приложении на с. 219: Ф(0,5) = 0,1915. Подставляя в формулу (25), получаем Р(5) = 0,383 » 0,38.

Таким образом, вероятность того, что вес курсанта отличается от среднего веса не больше чем на 5 кг, рав­на 0,38. Например, при росте 195 см средний вес кур­санта будет 91 кг, следовательно, 38% курсантов с рос­том 195 см имеют вес в пределах от 86 до 96 кг. Заме­тим, что формула (26) применяется для таких Х, кото­рые удовлетворяют условию: .

Величина R, определенная формулой (27), называется Коэффициентом корреляции между величинами Х и Y. Коэффициент корреляции играет важную роль в вопро­сах математической статистики. Он обладает следую­щими свойствами:

1. .

2. Если величины X и Y независимы, то коэффици­ент корреляции между ними равен нулю.

3. Если величины Х и Y связаны линейной зависимостью, то коэффициент корреляции равен 1 или –1. Обратно, если коэффициент корреляции равен 1 или –1, то величины Х и Y связаны линейной зависимостью.

При совместном изучении двух случайных величин Х и Y прежде всего находят коэффицент корреляции, и если он оказывается близким к единице (по крайней мере большим 0,5), то имеет смысл описывать корреля­ционную связь тем способом, который мы только что рассмотрели. Проведенные нами расчеты являются при­ближенными, и их точность зависит от того, насколько близка эмпирическая линия регрессии к теоретической линии регрессии. Точность повышается при увеличени­ем числа наблюдений, т. е. объема выборки.

УПРАЖНЕНИЕ

16. Майор Зимин решил сравнить среднее число книг, прочитанных среднестатистическим восьмиклас­сником за год, с количеством правонарушений, совер­шенных подростками в его микрорайоне в течение года. Проанализировав данные за 10 лет, он получил следую­щую таблицу:

Здесь Х — среднее число книг прочитанных одним вось­миклассником за год, Y — число правонарушений в те­чение года.

Изобразите данные графически, найдите коэффициент корреляции, постройте эмпирическую ломаную регрессии, определите параметры эмпирической линейной регрес­сии, найдите вероятность того, что при Х = 41 число пра­вонарушений отличается от среднего не более чем на 2.

Мечта майора Зимина — найти число N С таким волшебным свойством: всякий недоросль, прочитавший N Книг, становится потенциально образцовым граждани­ном. Согласно его расчетам, при этом значении N среднее значение У должно равняться нулю, т. е. N = 50. Но будь­те снисходительны к майору Зимину — он идеализировал математические методы из самых лучших побуждений!

© 2011-2024 Контрольные работы по математике и другим предметам!