2.01. Вероятностное моделирование ошибок
Мы уже неоднократно сталкивались с вопросом о том, сколь существенно величина коэффициента корреляции (детерминации) должна отличаться от нуля, чтобы можно было говорить о действительно существующей линейной связи между исследуемыми переменными.
Если Оцененное значение эластичности потребления некоторого товара оказалось несколько больше единицы, то возникает вопрос о том, сколь надежным является заключение о том, что потребление этого товара эластично по ценам.
Если мы будем использовать подобранную прямую
Для прогнозирования значений для Новых наблюдений
, t= n+1,...,N +K, то сколь надежными будут такие прогнозы?
Если у нас нет Теоретических (экономических) оснований для выбора между моделью в уровнях переменных и моделью в логарифмах уровней, то как выбрать одну из этих моделей на основании одних только наблюдений?
Ответы на эти и другие подобные вопросы невозможны, если мы не сделаем некоторых более или менее подробных Предположений о структуре последовательности ошибок , участвующих в определении модели наблюдений
Базовая, и наиболее простая модель для последовательности предполагает, что
— Независимые случайные величины, имеющие одинаковое распределение (I. i. d. — independent, identically distributed random variables).
Для нас (Пока!) достаточно представлять случайную величину как переменную величину, такую, что До наблюдения ее значения Невозможно предсказать это значение абсолютно точно, и, в то же время, Для любого
,
, определена Вероятность
Того, что Наблюдаемое значение переменной Не превзойдет
;
. Функция
, называется Функцией распределения случайной величины
(C. d. f. — Cumulative distribution function).
Говоря об ошибках как О случайных величинах, мы, соответственно, понимаем указанную линейную модель наблюдений таким образом, что
А) Существует (теоретическая, объективная или в виде тенденции) линейная зависимость значений переменной от значений переменной
с вполне определенными, хотя обычно и не известными исследователю, значениями параметров
и
;
Б) эта линейная связь для реальных статистических данных Не является строгой: наблюдаемые значения переменной
Отклоняются от значений
, указываемых моделью линейной связи
В) при Заданных (известных) значениях Конкретные значения отклонений
Не могут быть точно предсказаны до наблюдения значений даже если значения параметров
и
известны точно;
Г) для каждого , определена вероятность
того, что Наблюдаемое значение отклонения
Не превзойдет
, причем эта вероятность Не зависит от номера наблюдения;
Д) вероятность того, что наблюдаемое значение отклонения в I-М наблюдении не превзойдет
, Не зависит от того, какие именно значения принимают отклонения в остальных
наблюдениях.
В дальнейшем, говоря о той или иной случайной величине , мы Будем предполагать существование функции
, принимающей только Неотрицательные значения и такой, что
1) площадь под кривой
В прямоугольной системе координат (точнее, площадь, ограниченная сверху этой кривой и снизу — горизонтальной осью
) Равна
,
2) для любой пары значений с
, вероятность
Численно равна Площади, ограниченной снизу осью , сверху — кривой
, слева — вертикальной прямой
, справа — вертикальной прямой
(т. е. равна Части площади Под кривой
, расположенной Между точками
и
).
3) для любого , вероятность
того, что наблюдаемое значение
Не превзойдет
, равна площади, ограниченной снизу осью
, сверху — кривой
и справа — вертикальной прямой
, т. е. равна Части площади под кривой
, расположенной Левее точки
.
Заметим, что при этом выполняется следующее важное соотношение:
(Действительно, вероятность численно равна части площади под кривой
, расположенной Левее точки
, а эта часть складывается из части площади под кривой, расположенной Левее точки.
. и части площади под кривой, расположенной Между точками
И
, так что
Откуда и следует заявленное соотношение.) Кроме того,
(Действительно,
Поскольку слева складываются части площади под кривой , расположенные, соответственно, Левее и Правее точки
, так что в сумме они составляют Всю площадь под этой кривой, а вся площадь под кривой
как раз и равна 1.)
Функция связана с функцией распределения случайной величины
соотношениями
И называется Функцией плотности вероятности случайной величины (P. d.f. — Probability density function). Для краткости, мы часто будем говорить о функции
как о Функции плотности или о Плотности распределения случайной величины
.
Возьмем два непересекающихся интервала значений переменной :
и
. Рассмотрим два варианта распределения вероятности случайной величины
: Равномерное распределение на отрезке
и Треугольное распределение на том же отрезке. Графики функций плотности для этих двух вариантов имеют следующий вид:
Площади заштрихованных прямоугольников на Первом графике численно равны вероятностям того, что случайная величина , имеющая Равномерное распределение на отрезке
, примет значения в пределах
и
, соответственно. Поскольку основания и высоты этих прямоугольников равны, то равны и их площади, т. е. равны указанные вероятности.
Площади заштрихованных трапеций на Втором графике численно равны вероятностям того, что случайная величина , имеющая Треугольное распределение на отрезке
, примет значения в пределах
и
, соответственно. Высоты этих трапеций равны, однако стороны трапеции, расположенной правее, больше сторон трапеции, расположенной левее. Поэтому и площадь трапеции, расположенной правее, больше площади трапеции, расположенной левее. А это означает, в свою очередь, что вероятность того, что случайная величина
, имеющая треугольное распределение на отрезке
, примет значения в пределах
, Больше вероятности того, что эта случайная величина
примет значения в пределах
.
Таким образом, функция плотности указывает на Более вероятные и Менее вероятные интервалы значений случайной величины. Если случайная величина имеет Равномерное распределение на отрезке
, то для нее Все интервалы значений, имеющие одинаковую длину и расположенные Целиком в пределах отрезка
, имеют Одинаковые вероятности (т. е. вероятности попадания значений случайной величины на эти интервалы одинаковы). Если же случайная величина
имеет Треугольное распределение на отрезке
, то для нее интервалы значений, имеющие одинаковую длину и расположенные Целиком в пределах отрезка
, имеют, вообще говоря, Различные вероятности: вероятность того, что случайная величина примет значение в интервале, расположенном ближе к центральному значению
, Больше вероятности того, что случайная величина примет значение в интервале, расположенном ближе к одному из концов отрезка
.
Обсудим несколько более точно вопрос о том, что мы понимаем под Независимостью нескольких случайных величин. Пусть мы имеем случайных величин
, имеющих Одинаковую функцию распределения
. Мы говорим, что эти случайные величины Независимы в совокупности, Если Для любого набора пар
,
,...,
, где
И
Могут быть равны также
и
,
При таком предположении Условная вероятность того, что, например, , При условии, что
,
,
, Равна Безусловной вероятности того, что
, т. е. вероятности, вычисляемой Без задания указанногоусловия:
(Вертикальная черта в этой формуле указывает на то, что первая вероятность — Условная; справа от вертикальной черты записано Условие, при котором вычисляется эта вероятность.) Иначе говоря, на распределение вероятности случайной величины Не влияет информация о значениях случайных величин
. И вообще, на распределение вероятностей случайной величины
Не влияет информация о значениях случайных величин
с
.
Если случайные величины имеют Одинаковое распределение
(заданное или функцией распределения или функцией плотности) и Независимы в совокупности, то часто это обозначают в записи следующим образом:
~
.
Возвращаясь к модели наблюдений
И предполагая, что — Независимые случайные величины, имеющие одинаковое распределение (I. i. d), Мы должны теперь сделать еще и предположение о том, Каким именно является это одинаковое для всех
распределение.
< Предыдущая | Следующая > |
---|