10. Выбор вида регрессионной модели и оценка ее параметров
На данном этапе устанавливается однофакторная или многофакторная будет строиться модель и вид модели (линейный или нелинейный).
Обоснование вида модели состоит в выборе вида функции (некоторого аналитического выражения), с помощью которого можно будет описать изменение исследуемого показателя под воздействием факторов.
К обоснованию вида функции идут двумя путями: Теоретическим (анализируя экономическую природу и , выдвигается гипотеза о характере изменения показателя под действием фактора) И эмпирическим (закон изменения результативного показателя под действием фактора устанавливается путем анализа совокупности фактических данных по полям корреляции).
Наиболее употребительными выражениями при описании связи одного фактора и исследуемого показателя являются:
- - Уравнение прямой - - Уравнение параболы - - Уравнение гиперболы -
После обоснования парных взаимосвязей переходят к записи многофакторных моделей. В экономических исследованиях чаще всего применяется линейная многофакторная модель -
В качестве нелинейных моделей применяются
- Мультипликативная модель - или
Для оценки значений параметров регрессионной модели чаще всего используется Метод наименьших квадратов (МНК).Этот метод можно применить как для линейных моделей, так и для нелинейных, допускающих преобразование их к линейному виду путем замены переменных или дифференцированием.
При использовании МНК делаются определенные предпосылки относительно случайной составляющей ε. В модели случайная составляющая ε представляет собой ненаблюдаемую величину. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений , т. е. остаточных величин.
Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.
Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей . Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям: быть Несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.
Коэффициенты регрессии, найденные из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, т. к. только в этом случае они могут иметь практическую значимость.
Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Оценки считаются Эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. Состоятельность оценок характеризует увеличение их точности с увеличением объема выработки.
Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков ().
Исследование остатков предполагают проверку наличия следующих пяти предпосылок МНК:
- - случайный характер остатков; - нулевая средняя величина остатков, не зависящая от ; - гомоскедастичность – дисперсия каждого отклонение одинакова для всех значений х; - отсутствие автокорреляции остатков, т. е. значения остатков - остатки подчиняются нормальному распределению.
С цель проверки случайного характера остатков строится график зависимости остатков от теоретических значений результативного признака .
Если на графике нет направленности в расположении точек , то остатки представляют собой случайные величины и МНК оправдан. Также возможны следующие случаи: если зависит от теоретического значения, то:
Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для обеспечения несмещенности оценок коэффициентов регрессии, полученных МНК, необходимо выполнение условий независимости случайных остатков и переменных х, что исследуется в рамках соблюдения второй предпосылки МНК. С целью проверки выполнение этой предпосылки строится график зависимости случайных остатков ε от факторов, включенных в регрессию . Если расположение остатков на графике не имеет направленности, то они независимы от значений . Если же график показывает наличие зависимости и , то модель неадекватна.
Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t и F. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т. е. при нарушении пятой предпосылки метода наименьших квадратов.
В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Используя трехмерной изображение, рассмотрим отличие гомо - и гетероскедастичности.
Наличие гетероскедастичности будет сказываться на уменьшении эффективности оценок , в частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии, предполагающей единую дисперсию остатков для любых значений фактора.
Наличие гетероскедастичности в остатках регрессии можно проверить с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки коррелированы со значениями фактора . Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:
, (1.35)
Где ρ – абсолютная разность между рангами значений и .
Статистическую значимость ρ можно определить с помощью t-критерия:
. (1.36)
Принято считать, что если , то корреляция между и статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гетероскедастичности остатков.
При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК – отсутствие автокорреляции остатков, т. е. распределения остатков и независимы. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Находится коэффициент корреляции между и , и если он окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F(ε) зависит от j-ой точки наблюдения и от распределения значений остатков в других точках наблюдения.
Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Для того, чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные необходимо преобразовать в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными.
Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:
- - регрессия строится для каждой качественно отличной группы единиц совокупности, т. е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности; - общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т. е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных.
Качественный фактор может иметь только два состояния, которым будут соответствовать 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.
Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. На основе t-критерия Стьюдента делается вывод о значимости влияния фиктивной переменной, существенности расхождения между категориями.
< Предыдущая | Следующая > |
---|