2.04. Нормальные линейные модели с . несколькими объясняющими переменными

Начиная с этого момента, мы будем предполагать, что

(1) Модель наблюдений имеет вид

Где - значение объясняемой переменной в -м наблюдении;

- известное значение-ой объясняющей переменной в -м наблюдении;

- неизвестный коэффициент при-ой объясняющей переменной;

- случайная составляющая (“ошибка“) в -м наблюдении.

(2) - Случайные величины, Независимые в совокупности, имеющие Одинаковое нормальное распределение N (0,S2) с нулевым математическим ожиданием и дисперсией

(3) Если не оговорено противное, то в число объясняющих переменных Включается переменная, тождественно равная единице, которая объявляется первой Объясняющей переменной, так что

При сделанных предположениях являются Наблюдаемыми значениями Нормально распределенных случайных величин , Которые Независимы в совокупности и для которых

Так что

В отличие от , Случайные величины имеют распределения, Отличающиеся сдвигами.

Определенную указанным образом модель наблюдений мы будем называть Нормальной линейной моделью С P Объясняющими переменными. Иначе ее еще называют Нормальной линейной моделью множественной регрессии переменной y на переменные x1, ... , Xp . Термин “множественная” указывает на использование в правой части модели наблюдений Двух и более объясняющих переменных, отличных от постоянной. Термин “регрессия” имеет определенные исторические корни и используется лишь в силу традиции.

Оценивание Неизвестных коэффициентов модели методом наименьших квадратов Состоит в минимизации по всем возможным значениям суммы квадратов

Минимум этой суммы достигается при некотором наборе значений коэффициентов

Так что

Это минимальное значение мы опять обозначаем RSS , так что

И называем Остаточной суммой квадратов.

Коэффициент детерминации R2 Определяется как

Где

Обозначая

(Подобранные - fitted- значения объясняющей переменной по оцененной линейной модели связи), и определяя остаток (Residual) От i-го наблюдения как

Мы получаем:

Обозначая

- Объясненная моделью (Explained) сумма квадратов, Или Регрессионная сумма квадратов, мы так же, как и в случае Простой линейной регрессии с , имеем разложение

Так что

И опять, это разложение справедливо только При наличии постоянной составляющей в модели линейной связи. При этом, также, здесь

Т. е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции между переменными и . Последний называется Множественным коэффициентом корреляции (Multiple-R).

Для поиска значений , Минимизирующих сумму

Следует приравнять нулю частные производные этой суммы (как функции от ) По каждому из аргументов . В результате получаем Систему нормальных уравнений

Или

Это система линейных уравнений с неизвестными . Ее можно решать или методом подстановки или по правилу Крамера с использованием соответствующих определителей. В векторно-матричной форме эта система имеет вид

Где

- матрица значений объясняющих переменных в наблюдениях;

- транспонированная матрица;

Соответственно, вектор-столбец значений объясняемой переменной в наблюдениях и вектор-столбец оценок неизвестных коэффициентов. Система нормальных уравнений Имеет единственное решение, если выполнено условие

(4) Матрица XTX невырождена, Т. е. ее Определитель отличен от нуля:

Которое можно заменить условием

(4’) Столбцы матрицы X линейно независимы.

При выполнении этого условия матрица (размера ) имеет обратную к ней матрицу . Умножая в таком случае обе части последнего уравнения слева на матрицу , находим искомое решение системы нормальных уравнений:

Введем дополнительные обозначения

, , , .

Тогда модель наблюдений

Можно представить в матрично-векторной форме

Вектор подобранных значений имеет вид

И вектор остатков равен

Определяющим для всего последующего является то обстоятельство, что в нормальной линейной модели с несколькими объясняющими переменными Оценки Коэффициентов как случайные величины имеют Нормальные распределения (хотя эти случайные величины уже не являются независимыми в совокупности).

Действительно, поскольку , то оценки являются Линейными комбинациями значений , Т. е. имеют вид

Где - коэффициенты, определяемые значениями объясняющих переменных. Поскольку же у нас - Наблюдаемые значения случайных величин , то является Наблюдаемым значением случайной величины которую мы также будем обозначать :

Ранее мы выяснили, что при наших предположениях

Поэтому случайные величины также будут нормальными как линейные комбинации независимых нормально распределенных случайных величин.

Можно показать, что математическое ожидание случайной величины равно

( является Несмещенной оценкой Истинного значения коэффициента ), а дисперсия этой случайной величины равна -му диагональному элементу матрицы :