2.08. Проверка значимости параметров . линейной регрессии и подбор модели с использованием f-критериев
Приводимая ниже таблица содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.):
Y — Объем импорта товаров и услуг во Францию;
X2 — Валовой национальный продукт;
X3 — Потребление семей;
Obs |
Y |
X2 |
X3 |
X4 |
Obs |
Y |
X2 |
X3 |
X4 |
1949 |
15.9 |
149.3 |
4.2 |
108.1 |
1955 |
22.7 |
202.1 |
2.1 |
146.0 |
1950 |
16.4 |
161.2 |
4.1 |
114.8 |
1956 |
26.5 |
212.4 |
5.6 |
154.1 |
1951 |
19.0 |
171.5 |
3.1 |
123.2 |
1957 |
28.1 |
226.1 |
5.0 |
162.3 |
1952 |
19.1 |
175.5 |
3.1 |
126.9 |
1958 |
27.6 |
231.9 |
5.1 |
164.3 |
1953 |
18.8 |
180.8 |
1.1 |
132.1 |
1959 |
26.3 |
239 |
0.7 |
167.6 |
1954 |
20.4 |
190.7 |
2.2 |
137.7 |
1960 |
31.1 |
258 |
5.6 |
176.8 |
Выберем модель наблюдений в виде
Где — значение показателя
в I-М наблюдении (I-Му наблюдению соответствует
год, и
(значения «переменной»
, тождественно равной единице). Будем, как обычно, предполагать что
~ I. i. d.
и что значение
Нам не известно. Регрессионный анализ дает следующие результаты:
и
Переменная |
Коэф-т |
Ст. ошибка |
T-статист. |
P-знач. |
X1 |
–8.570 |
2.869 |
-2.988 |
0.0153 |
X2 |
0.029 |
0.110 |
0.267 |
0.7953 |
X3 |
0.177 |
0.166 |
1.067 |
0.3136 |
Обращают на себя внимание выделенные - Значения. В соответствии с ними, проверка каждой Отдельной гипотезы
,
(даже при уровне значимости
) приводит к решению о ее неотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр
Или
признается Статистически незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации.
По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы
Конкретизирующей значения не какого-то одного, а Сразу двух коэффициентов.
И вообще, как проверить гипотезу
(гипотеза Значимости регрессии) в рамках нормальной линейной модели множественной регрессии
C ?
Соответствующий статистический критерий основывается на так называемой F-статистике
Здесь — остаточная сумма квадратов, получаемая при оценивании Полной модели (с
объясняющими переменными, включая тождественную единицу), а
— остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой
ограничениями на параметры. Но последняя (Редуцированная) модель имеет вид
И применение к ней метода наименьших квадратов приводит к оценке
Так что
Следовательно,
В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты — Mean Squares).
Если ~ I. i. d.
, то указанная
-Статистика, Рассматриваемая как случайная величина, имеет При гипотезе H0 (т. е. Когда действительно Q 2 = ¼= Q p= 0) стандартное распределение
, называемое F-распределением Фишера с (p-1) и (n-p) степенями свободы.
Чем больше отношение , Тем больше есть оснований Говорить о том, что совокупность переменных
Действительно помогает в объяснении изменчивости объясняемой переменной
.
В соответствии с этим, гипотеза
Отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня распределения
, обозначаемая символом
.
Итак, Гипотеза Н0 Отвергается, если выполняется неравенство
При этом, Вероятность ошибочного отвержения гипотезы равна
.
Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также Значение Указанной
-Статистики и соответствующее ему P-значение (P-value), т. е. вероятность
В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию Вычисленное (наблюдаемое) значение -Статистики равно
, в то время как критическое значение
Соответственно, -Значение крайне мало — в распечатке результатов приведено значение
. Значит, здесь нет Практически никаких оснований принимать Составную гипотезу
, хотя каждая из Частных гипотез
и
,
Рассматриваемая Сама по себе, в отрыве от второй, Не отвергается.
Подобное положение встречается не так уж и редко и связано с проблемой Мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание.
Что касается рассмотренных до этого примеров, то для них результаты использования -Статистики таковы.
Пример. Анализ данных об уровнях безработицы среди белого и цветного населения США приводит к следующим результатам:
,
,
-Значение =
, так что при выборе
гипотеза
Не отвергается, а при выборе
Отвергается.
Пример. Анализ зависимости спроса на куриные яйца от цены приводит к значениям
,
,
-Значение =
, так что гипотеза
Отвергается, а регрессия признается Статистически значимой.
Пример. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом:
,
,
-Значение =
, регрессия признается Статистически значимой.
Пример. Потребление свинины в США в зависимости от оптовых цен:
,
,
-Значение =
, так что гипотеза
Не отвергается даже при выборе
.
Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели Простой (парной) линейной регрессии (p=2) Вычисленные -Значения
-Статистик Совпадают с
-Значениями
-Статистик, используемых для проверки гипотезы
. Факт такого совпадения отнюдь Не случаен и может быть доказан с использованием преобразований, приведенных, например, в книге Доугерти (параграф 3.11).
Применение критериев, основанных на статистиках, имеющих при нулевой гипотезе -распределение Фишера (F-критерии), отнюдь не ограничивается только что рассмотренным анализом статистической значимости регрессии. Такие критерии широко применяются в процессе Подбора модели.
Пусть мы находимся в рамках множественной линейной модели регрессии
C объясняющими переменными, и гипотеза
Состоит в том, что в модели
Последние
Коэффициентов равны нулю, т. е.
Тогда При гипотезе (т. е. в случае, когда она верна) мы имеем Редуцированную модель
Уже с объясняющими переменными.
Пусть - остаточная сумма квадратов в полной модели
, а
— остаточная сумма квадратов в редуцированной модели
. Если гипотеза
Верна и выполнены стандартные предположения о модели (в частности,
~ I. i. d.
), то тогда F-Статистика
Рассматриваемая как случайная величина, имеет При гипотезе H0 (т. е. Когда действительно Q p = Q p-1 = ¼= Q p-q+1= 0) F-распределение Фишера F (q, n-p) с q и (n-p) степенями свободы.
В рассмотренном ранее случае проверки Значимости регрессии в целом Мы имели , и при этом там имело равенство
которое Не выполняется в общем случае.
Пусть
— сумма квадратов, объясняемая Полной Моделью
,
— сумма квадратов, объясняемая Редуцированной моделью
.
Тогда
Так что -Статистику можно записать в виде
Из которого следует, что F-статистика измеряет, в соответствующем масштабе, Возрастание объясненной суммы квадратов вследствие включения в модель дополнительного количества объясняющих переменных.
Естественно считать, что включение дополнительных переменных Существенно, если указанное возрастание объясненной суммы квадратов Достаточно велико. Это приводит нас к Критерию проверки гипотезы
Основанному на F-статистике
И Отвергающему гипотезу , когда Наблюдаемое значение
этой статистики удовлетворяет неравенству
Где — выбранный уровень значимости критерия (вероятность ошибки 1-го рода).
Пример. В следующей таблице приведены данные по США о следующих макроэкономических показателях:
— Годовой совокупный располагаемый личный доход;
— Годовые совокупные потребительские расходы;
— Финансовые активы населения на начало календарного года
(все показатели указаны в млрд. долларов, в ценах 1982 г.).
Obs |
C82 |
DPI82 |
A82 |
1971 |
1540.3 |
1730.1 |
1902.8 |
1966 |
1300.5 |
1433.0 |
1641.6 |
1972 |
1622.3 |
1797.9 |
2011.4 |
1967 |
1339.4 |
1494.9 |
1675.2 |
1973 |
1687.9 |
1914.9 |
2190.6 |
1968 |
1405.9 |
1551.1 |
1772.6 |
1974 |
1672.4 |
1894.9 |
2301.8 |
1969 |
1458.3 |
1601.7 |
1854.7 |
1975 |
1710.8 |
1930.4 |
2279.6 |
1970 |
1491.8 |
1668.1 |
1862.2 |
1976 |
1804.0 |
2001.0 |
2308.4 |
Рассмотрим модель наблюдений
Где индексу соответствует
год. Это модель с 4 объясняющими переменными:
Символ обозначает переменную, значения которой Запаздывают на одну единицу времени Относительно значений переменной,
. Оценивание этой модели дает следующие результаты:
— статистика критерия Проверки значимости регрессии в целом
Регрессия имеет очень высокую статистическую значимость. Вместе с тем, каждый из коэффициентов при двух последних переменных Статистически незначим, так что, в частности, Не следует придавать особого значения отрицательности оценок этих коэффициентов.
Используя — критерий, мы могли бы попробовать Удалить из модели какую-нибудь одну из двух последних переменных, и если оставшиеся переменные окажутся значимыми, то остановиться на модели с 3 объясняющими переменными; если же и в новой модели окажутся статистически незначимые переменные, то произвести еще одну редукцию модели.
Рассмотрим, в этой связи, модель
С удаленной переменной . Для нее получаем:
F-Статистика критерия Проверки значимости регрессии в этой модели
Поскольку эдесь остается статистически незначимым коэффициент при переменной , можно произвести дальнейшую редукцию, переходя к модели
Для этой модели
-Статистика критерия Проверки значимости регрессии в этой модели
И эту модель В данном контексте можно принять за Окончательную.
С другой стороны, обнаружив при анализе модели (посредством применения T-критериев) статистическую незначимость коэффициентов при двух последних переменных, мы можем попробовать выяснить возможность Одновременного исключения из этой модели указанных объясняющих переменных, опираясь на использование соответствующего F-критерия.
Исключение двух последних переменных из модели соответствует гипотезе
При которой модель редуцируется Сразу К модели
. Критерий проверки гипотезы
основывается на статистике
Где — остаточная сумма квадратов в модели
,
— остаточная сумма квадратов в модели
,
— количество зануляемых параметров,
.
Для наших данных получаем значение
Которое следует сравнить с критическим значением Поскольку
, мы Не отвергаем гипотезу
и можем Сразу перейти от модели
к модели
.
Замечание. В рассмотренном примере мы действовали двумя способами:
Дважды использовали -Критерии, сначала приняв (не отвергнув) гипотезу
в рамках модели
, а затем приняв гипотезу
в рамках модели
.
Однократно использовали F-Критерий, приняв гипотезу в рамках модели
.
Выводы при этих двух альтернативных подходах оказались одинаковыми. Однако, из выбора модели в подобной последовательной процедуре, вообще говоря, не следует что такой же выбор будет обязательно сделан и при применении
-Критерия, сравнивающего первую и последнюю модели.
< Предыдущая | Следующая > |
---|