24. Функциональная и корреляционная зависимости
Изучение разнообразных явлений сопровождается выяснением закономерностей, которым подчиняются характерные для данных явлений количественные соотношения или связи. При этом оказывается, что только для тех явлений, происхождение которых связывается с четко учтенными факторами, количественные соотношения или связи имеют вполне точный и определенный характер. Для таких явлений, изучаемых, например, в физике, химии, механике, астрономии, действуют функциональные связи между количественными признаками. Характеристика этих связей в виде уравнения, графика или таблицы подчиняется принципу строго определенного Срответствия, Составляющего сущность функциональной зависимости.
Вместе с тем для самых разнообразных явлений массового характера нельзя установить закономерность в количественных соотношениях между рассматриваемыми показателями, которая удовлетворяла бы принципу строгого соответствия. Нарушение этого принципа связано с тем, что изменение одного показателя определяется не только изменением другого основного показателя, но и влиянием ряда сопутствующих второстепенных факторов.
Так, при установлении взаимосвязи между показателями Использования основных средств и уровня производительности труда на заводе выясняется, что на уровень производительности труда, помимО Объема затрачиваемых основных средств, влияют еще и Другие факТоры (рационализация производственного процесса, Организация труда И др.). Взаимосвязи между количеством осадков и показателями Урожайности, толщиной покрова снега И показателями стока воды, пока Зателями содержания марганца в стали и степенью ее Прокаливаемости Начальной прочностью бетона и прочностью его через 28 дней и т. Д Также не удовлетворяют условию определенного соответстВИя.
Во всех таких примерах мы сталкиваемся с невозможностью учетА Влияния всех факторов на интересующие нас количественные СоотНошения между двумя основными величинами (показателями). ПоэтомУ Характеристика каждой такой взаимосвязи по данным отдельных НАБлюдений носит случайный характер и может выявить Некоторые Закономерности лишь по данным большого числа наблюдений.
Характерная особенность взаимосвязей в массовых явлениях СоСтоИт в том, что каждому значению одной величины Х соответствует распределение значений У (т. Е. несколько значений У С различными вероятностями каждого из них), меняющееся с изменением Х. Такое же соответствие имеет место между каждым значением величины Y и связанными с ним значениями Х.
В отличие от функциональной зависимости связь такогО характера между двумя величинами называется Статистической. Степень рассеяния возможных значений У, соответствующих каждому значению X, характеризует большую илИ меньшую тесноту связи между этими величинами. Это значит, что если влИЯние неучтенных факторов на изучаемую связь между величинами Х и У незначительно, то степень рассеяния значений У мала, а связь между Х и У имеет большую тесноту. Если же влияние неучтенных факторов значительно, то степень рассеяния значений У велика, а теснота связи между Х и У мала.
Для выяснения математической сущности связей такого вида на конкретном примере обратимся к данным табл. 1 распределения 100 растений житняка по общему весу Х и по весу семян У каждого растения.
ПрИ составлении таблицы растения житняка сгруппированы в отдельные классы по общему весу и по весу семян, а затем определены середины классов, т. е. средние значения этих весов по каждому классу. Середины классов растений по общему весу обозначены переменной Х, а середины классов по весу семян — переменной У. Так, обозначает середину класса растеНИй с общим весом от 20 до 30 Г, — середину класса от 30 до 40 Г И т. д., — середину класса растений с весом семян от 10,5 до 15,5 Г, — середину класса от 15,5 до 20,5 г и т. д.
Символом обоЗНачена численность класса (частота) растений с соответственным общим весом Х, а символом — частота растений с соответственным весом семян У. Так, число 19 в крайнем справа столбце () означает количество растений с общим весом (в среднем) 45 Г (Т. е. от 40 до 50 г), а число 20 в нижней строке () — количество растений с весом семян в (среднем) 23 Г (т. е. от 20,5 до 25,5 г).
Числами во внутренних клетках обозначены частоты соответственных комбинаций растений с некоторым общим весом Х и с некоторым ВЕсом семян У. Так, число 8 означает количество растений с общим весом 55 Г (от 50 до 60 г) и с весом семян 33 Г (от 30,5 до 35,5 Г); число 4 в третьем (внутреннем) столбце — количество растений с общим весом (в среднем) 35 Г и с весом семян (в среднем) 23 Г, а число 4 в третьей снизу (внутренней) строке — количество растений с общим ВЕсом 105 Г и с весом семян 58 Г.
В обобщенных обозначениях для чисел во внутренних клетках применяется символ П с двойным индексом . Так, приведенное выше число 8 следовало бы обозначить символом , ибо оно указывает на количество растений с общим весом и с весом семян . По этим признакам число 4 из третьего столбца следовало бы обозначить символом , а число 4 из третьей снизу Строки — символом .
Рассмотренная структура таблицы распределения растений житняка по общему весу и по весу семян отдельных растений раскрывает на этом частном примере общую структуру так называемой Корреляционной таблицы, связывающей значения изучаемых показателей Х и Y.
Суммы чисел П, расположенных во внутренних клетках, по строкам дают частоты соответственных значений переменной Х. Так,
Суммы чисел по столбцам дают частоты соответственных значений переменной У.
Так,
Суммирование всех чисел можно представить в виде последовательного суммирования сначала по каждой строке, а затем по крайнему правому столбцу или в виде суммирования сначала по каждому столбцу, а затем по нижней строке .
Совпадение результатов суммирования, выполненного в одном или в другом порядке, подтверждает правильность составления корреляционной таблицы:
.
Если совпадение результатов нарушено, то ошибка может быть устранена проверкой результатов суммирования по каждой строке и по каждому столбцу.
В частных случаях числа располагаются рядами, заполняющими не все клетки строк и столбцов. При этом совокупность чисел в каждой строке — это Ряд распределения значений у, соответствующих данному значению X, а совокупность чисел в столбце — ряд распределения значений Х, соответствующих данному значению У. По корреляционной таблице 1, составленной для растений житняка, можно, например, отметить, что значению соответствует значений У со следующим рядом распреДЕления этих значений:
Значения У 23 33 38 43
их частоты 1 4 4 2
Распределение значений У, соответствующих значению , состоит из одного значения .
Значению соответствует 19 значений У со следующим распределением:
значения У 18 23 28
их частоты 1 13 5
Так же элементарно можно охарактеризовать распределения значений X, соответствующие тем или другим значениям У.
Корреляционная таблица, составленная на основании результатов наблюдения за значениями переменных Х и У, позволяет после некоторой математической обработки ее данных подойти к разрешению двух основных задач корреляционного анализа: установлению формы корреляционной связи между переменными Х и У И определению тесноты этой связи.
Рассмотрение в корреляционной таблице рядов распределения значений У, соответствующих последовательным значениям Х, Может Выявить некоторые закономерности в смещении этих рядов.
Простейшие случаи, характерные для формы таких смещений, позволяют убедиться в том, что с возрастанием значений Х в среднем растут или в среднем убывают значения У, что с возрастаниеМ Значений Х значения У в среднем сначала возрастают, а затем убывают, или наоборот. К этим характеристикам связей между значениями Х и Y приводит внешний вид расположения рядов распределения значений У, соответствующих последовательным значениям Х.
Так, по данным корреляционной таблицы 1 распределения растений житняка смещение рядов распределения значений У показывает, что с возрастанием Х (общего веса растения) возрастаЯ В среднем и У (вес семян растения). Но эта связь выразится более отчетливо, если каждому значению Х будет поставлено в соответствиЯ Частное среднее значение У, которое обозначим символом .
Вычисляя эти частные средние по правилу определения среднеЙ Взвешенной, будем иметь:
С помощью таких средних, вычисленных для всех значений Х Исходная табл. 1 приводится к форме, отражающей Связь меЖДУ Значениями х и соответствующими частными средними :
Графическое отображение данных табл. 3 в виде точек, соответствующих парам значений Х и , с последовательным соединением этих точек отрезками прямых приводит к ломаной, которая называется ЭМпирической линией регрессии у по Х. По этой линии, или вернее по взаимному расположению точек (вершин ломаной), можно наметить форму линии, около которой группируются точки С наименьшими отклонениями. Такую линию называют теоретической линией регрессии, или просто линией регрессии У по Х. Зависимость , соответствующая линии регрессии, называется уравнением регрессии у по х, или корреляционной зависимостью между у и Х.
Отыскание уравнения этой линии дает разрешение первой основной задачи корреляционного анализа, — Установления формы корреляционной связи между переменными х и У.
Если точкИ располагаются около некоторой прямой, Ти Линия регрессии называется прямой регрессии У по Х, и соответствующая операция «выравнивания» ломаной сводится к аналитическому определению параметров линейной функцИИ
Т. Е. к линейной корреляции.
К этому типу корреляционной зависимости между У и Х приводит, в частности, рассматриваемый пример распределения растений житняка по общему весу и по весу семян (рис. 13).
Если же расположение точек, соответствующих парам значений X И , приводит к выравниванию ломаной с помощью какой-либо кривой (в простейших случаях — с помощью параболы или гиперболы), то соответствующее уравнение обозначает Криволинейнук КорреляцИОННую зависимость между У и Х.
Здесь мы выяснили, таким образом, возможность установитЬ Наличие корреляционной связи между значениями Х и СоответствующимИ частными средними значениями У. Но та же корреляционнаЯ Таблица позволяет поставИТЬ вопрос о корреляционной связи между значениями У и соответствующими им частными средними значениями Х.
Действуя аналогично предыдущему, следует найти для каждого значения У соответственную частную среднюю и по парам значений построить ломаную, являющуюся эмпирической линиеЙ Регрессии Х по У.
Если взаимное расположение вершин этой ломаной, соответствующих парам значений У и , может дать приближенное представление о некоторой линии, то операция выравнивания приведет к уравнению
,
Выражающему Корреляционную зависимость между Х и У.
Корреляционные уравнения и называются также уравнениями регрессии. Первое уравнение называется уравнением регрессии У По х, а второе — уравнением регрессии Х по У. Соответственно геометрические образы этих уравнений называются линиями регрессии У по Х и Х по У.
Термин «регрессия», принятый для обозначения корреляционного характера связи между изучаемыми показателями и для графического отображения этой связи в виде некоторой линии, отражает тенденцию смещения рядов распределения значений У С изменением соответственных значений X. Так, в табл. 1 с увеличением значений Х соответствующие ряды распределений У смещаются в сторону больших значений У. Контуры фигуры, образуемой скоплением данных распределения в таблице, позволяют приближенно представить форму связи между изучаемыми показателями в виде линии регрессии, выравнивающей обнаруженное в таблице смещение.
При составлении эмпирической линии регрессии У по Х может оказаться, что все точки лежат на прямой или на кривой, уравнение которой выражается в виде
.
В таких случаях говорят, что между Х и У существует точная корреляционная зависимость (линейная, если эта линия — прямая, и криволинейная — в общем случае). Эти результаты в отношении эмпирической линии регрессии могут иметь место и при малой, и при большой степени рассеяния значений У относительно линии регрессии. Такое различие в степени рассеяния характеризует тесноту изучаемой корреляционной зависимости — при малом рассеянии теснота считается большой, и наоборот.
То же может иметь место и при составлении эмпирической линии регрессии Х по У.
Признаком наличия точной линейной корреляции является обращение в тождество соответствующего уравнения регрессии при подстановке в него любой пары значений или .
Бывает и так, что значения оказываются одинаковыми для всех значений Х. Это свидетельствует об отсутствии корреляционной связи У по Х.
То же имеет место и в отношении связи Х по У.
Заключительной стадией отыскания формы связи является операция выравнивания. Она состоит в определении аналитическими методами параметров корреляционного уравнения, которому приближенно удовлетворяют значения Х и или У и , характеризующие количественные признаки изучаемых явлений. При этом возможно, что одно из рассматриваемых явлений непосредственно воздействует на другое (например, интенсивность орошения и урожайность культуры или рост выработки продукции и доля накладных расходов в общей сумме затрат предприятия), а также, что оба явления, связь между которыми требуется установить, находятся под влиянием какого-либо третьего общего явления (например, показатели урожайности двух различных культур, находящихся в одних и тех же климатических условиях).
Соотношения между показателями, характерные для корреляционной зависимости, имеют не точный, а приближенный характер, ибо, как выше указывалось, при изучении этих соотношений остаются неучтенными различные дополнительные факторы, которые рассеивают воздействие одного из основных показателей на другой. Поэтому Второй задачей теории корреляции является измерение тесноты корреляционной связи. Такая связь в виде корреляционного уравнения будет тем теснеЕ (ближе к данным наблюдения над значениями изучаемых показателей), чем слабее рассеяние связи между этими показателями под влиянием дополнительных неучтенных факторов.
Практическое значение теории корреляции состоит в том, что она позволяет, используя опытные данные и известные сведения о значениях той или иной величины, определять границы, в которых должна заключаться другая величина, с ней связанная.
< Предыдущая | Следующая > |
---|