2.09. Проверка гипотезы о нормальности распределения случайной величины (критерий Пирсона)
При исследовании различных признаков объектов генеральной совокупности обычно заведомо предполагается, что исследуемый признак Х является случайной величиной, распределенной нормально. Но это можно подтвердить (или отвергнуть) с помощью выборки значений величины Х.
Итак, выдвигается нулевая гипотеза H0: исследуемый признак Х объектов генеральной совокупности распределен нормально. Альтернативная гипотеза Н1: это не так. Принимается некоторый уровень значимости α. Требуется указать критерий, по которому можно было бы решить, принимать или отвергать гипотезу H0.
Такой критерий, в частности, разработал американский математик Э. Пирсон. Чтобы воспользоваться этим критерием, сначала, естественно, нужно из генеральной совокупности сделать некоторую выборку. Причем выборку достаточно большую, по крайней мере объемом не менее 50. Полученное статистическое распределение выборки вида (1.1) или (1.3) затем несколько изменяют, приводя его к виду с равноотстоящими вариантами Хί И достаточно большими частотами Ni (Ni≥5, кроме разве что крайних частот). Для этого полученные в выборке варианты, если они неравноотстоящие, несколько сдвигают, а близлежащие малочисленные варианты объединяют в одну с объединением их частот. В дальнейшем будем считать, что такая предварительная работа проделана, так что статистическое распределение выборки
Xi |
X1 |
X2 |
… |
Xm |
(N1+n2+…+nm=n) (3.28) |
Ni |
N1 |
N2 |
… |
Nm |
Уже удовлетворяет указанным выше требованиям. Будем также считать, что из (3.28) найдены и .
Пусть, в соответствии с гипотезой Н0, признак Х (случайная величина Х) распределена нормально с некоторыми неизвестными параметрами и . В качестве значений этих параметров примем их известные точечные оценки ≈ и ≈. Далее, разобьем ось Ох с нанесенными на нее M равноотстоящими с шагом H вариантами Хί (I=1, 2,…M) на M интервалов , окружающими эти варианты – так, как показано на рис. 3.6.
Если мы найдем вероятности РI Попадания значения исследуемой величины Х в интервалы , окружающие варианты Хί , и умножим эти вероятности на объем N выборки, то получим частоты , являющиеся математическими ожиданиями экспериментальных частот . То есть получим теоретические частоты Вариант Хί:
Xi |
X1 |
X2 |
… |
Xm |
() (3.29) |
|
|
|
… |
|
Незначительное расхождение экспериментальных и теоретических частот и будет свидетельствовать в пользу принятия гипотезы H0. А если же они будут сильно различаться, то это будет означать, что гипотеза H0, скорее всего, неверна.
В качестве критерия близости (согласия) частот и Пирсоном было предложено использовать величину
(3.30)
Эта величина – случайная, так как ее значения от выборки к выборке меняются. Ясно, что все ее значения неотрицательны, и чем ближе она к нулю, тем ближе между собой и , а значит, тем в большей мере подтверждается гипотеза H0.
Доказано, что при N→ ∞ закон распределения случайной величины χ2, определенной равенством (3.30), стремится к закону распределения χ2 (хи-квадрат, см. часть I, главу 2, §4) с K=M-3 степенями свободы. Причем даже независимо от того, по какому закону распределен признак Х в генеральной совокупности. Поэтому случайная величина (3.30) и обозначена символом χ2. А сам критерий Пирсона называется еще «критерием «хи-квадрат».
Область принятия и критическую область проверяемой гипотезы H0 о нормальности распределения случайной величины Х Определяют следующим образом. По заданному уровню значимости α И числу K=M-3 с помощью таблицы критических точек распределения «хи-квадрат» (таблица 3 Приложения) находят такое критическое значение χ2кр(α; K) величины χ2, чтобы (см. рис.3.7)
(3.31)
И если χ2эксп, вычисленное по формуле (3.30), окажется больше χ2кр(α; K), то гипотезу H0 о нормальности распределения случайной величины Х отвергают. А если окажется, что χ2эксп< χ2кр(α; K), то гипотезу H0 принимают.
Нам осталось лишь указать, как найти вероятность РI попадания значений нормально распределенной случайной величины Х С параметрами и в интервалы , окружающие на рис. 3.6 варианты Хί (I=1,2,…M), ибо через эти вероятности РI по формуле Ni* = Npi находятся теоретические частоты Ni* (I=1,2,…M). Для нахождения указанных вероятностей следует применить формулу (4.10) (часть I, глава 2) для нормально распределенных случайных величин, согласно которой получаем:
(3.32)
Здесь, как это следует из рис. 3.6,
(3.33)
Пример5. При исследовании некоторого признака Х объектов генеральной совокупности выборочным путем обследовано 100 объектов. Данные выборки представлены в таблице:
Хί |
Ni |
Хί |
Ni |
Хί |
Ni |
1,00 |
1 |
1,19 |
2 |
1,37 |
6 |
1,03 |
3 |
1,20 |
4 |
1,38 |
2 |
1,05 |
6 |
1,23 |
4 |
1,39 |
1 |
1,06 |
4 |
1,25 |
8 |
1,40 |
2 |
1,08 |
2 |
1,26 |
4 |
1,44 |
3 |
1,10 |
4 |
1,29 |
4 |
1,45 |
3 |
1,12 |
3 |
1,30 |
6 |
1,46 |
2 |
1,15 |
6 |
1,32 |
4 |
1,49 |
4 |
1,16 |
5 |
1,33 |
5 |
1,50 |
2 |
При уровне значимости α=0,05 проверить гипотезу Н0 О нормальности распределения признака Х В генеральной совокупности.
Решение. Варианты нашей выборки не равностоящие, причем малочисленные. Сведем их к небольшому числу равноотстоящих вариант с достаточно большими частотами. Для этого предварительно оформим данное статистическое распределение выборки в интервальном виде, чтобы затем принять середины получавшихся интервалов за новые равноотстоящие варианты.
Сначала определим минимальную и максимальную варианты исходного статистического распределения выборки:
Xmin=1,00; Xmax=1,50
Таким образом, размах вариации
∆= Xmax- Xmin=0,50
При этом N=100–количество вариант (объем выборки). А теперь разобьем промежуток вариации [Xmin; Xmax]=[1,00; 1,50] точками Хί* на несколько (M) промежутков одинаковой ширины H – Так, как показано на рис. 3.8. Для выбора оптимального (не слишком большого и не слишком малого) шага разбиения H применим Формулу Стэрджеса:
(3.34)
В нашем примере эта формула дает:
Теперь, в соответствии с рис. 3.8, добавляя к размаху вариации ∆ один шаг H (по полшага с обеих сторон), находим (округляя по недостатку до целого) оптимальное количество M интервалов, на которые мы разобьем интервал вариации:
А теперь, исходя из выбранного значения M=8 количества интервалов, получим и окончательное значение длины H каждого интервала:
(окончательное значение H для борьбы с накоплением погрешностей взято с двумя дополнительными десятичными знаками по сравнению с исходными вариантами, то есть в нашей задаче – до десятичных).
После того, как количество интервалов M=8 и шаг разбиения H=0,0714 определены, запишем и сами интервалы (I=1,2,…8):
(Х1* х2*)=(Xmin-H/2; Xmin+ H/2)=(1,00-0,0714/2; 1,00+0,0714/2)=(0,9643; 1,0357);
(Х2*; х3*)=(1,0357; 1,0357+H)=(1,0357; 1,1071);
(Х3*; х4*)=(1,1071; 1,1071+H)=(1,1071; 1,1785);
(Х4*; х5*)=(1,1785; 1,1785+H)=(1,1785; 1,2499);
(Х5*; х6*)=(1,2499; 1,2499+H)=(1,2499; 1,3213);
(Х6*; х7*)=(1,3213; 1,3213+H)=(1,3213; 1,3927);
(Х7*; х8*)=(1,3927; 1,3927+H)=(1,3927; 1,4641);
(Х8*; х9*)=(1,4641; 1,4641+H)=(1,4641; 1,5355).
В каждом из полученных восьми интервалов проведем подсчет количества вариант исходного распределения выборки, попавших в эти интервалы. Это будут новые частоты для новых вариант Хί – середин получившихся интервалов. Таким образом, приходим к следующей таблице:
№ интервала |
Интервалы |
Середины интервалов (новые варианты Хί ) |
Частоты Ni |
1 |
0,9643 – 1,0357 |
1,0000 |
4 |
2 |
1,0357 – 1,1071 |
1,0714 |
16 |
3 |
1,1071 – 1,1785 |
1,1428 |
14 |
4 |
1,1785 – 1,2499 |
1,2142 |
10 |
5 |
1,2499 – 1,3213 |
1,2856 |
26 |
6 |
1,3213 – 1,3927 |
1,3570 |
14 |
7 |
1,3927 – 1,4641 |
1,4284 |
10 |
8 |
1,4641 – 1,5355 |
1,4998 |
6 |
Данные этой таблицы можно, для наглядности, представить и в виде гистограммы частот, и в виде полигона частот (рис.3.9 и ломаная на рис.3.10):
И на гистограмме, и на полигоне частот обнаружился провал частот в их средней части, которого не должно быть, если исследуемый признак Х распределен нормально. То есть этот провал является доводом против выдвинутой гипотезы H0 о том, что признак Х Распределен нормально. Но этот провал мог образоваться и случайно – в силу случайности самой выборки. Так что пока неясно, принимать или отвергать гипотезу H0. Обоснованный вывод мы сделаем, если наряду с найденными экспериментальными частотами Ni вариант Хί найдем и их теоретические частоты Ni*, которые следуют из гипотезы H0, а затем сравним те и другие частоты по критерию Пирсона.
Для этого сначала по новым вариантам Хί и их частотам Ni найдем и – выборочную среднюю и исправленное выборочное среднее квадратическое отклонение:
Если исследуемая случайная величина Х распределена нормально, то заменяя ее неизвестные параметры и их точечными оценками и , получим:
Теперь, в соответствии с рис. 3.6, найдем по формулам (3.33) числа Zi (I=0, 1, 2,…8):
Zo = - ∞; Z1 = X1 + H/2 = 1,0000 + 0,0714/2 = 1,0357;
Z2 = X2 + H/2 = 1,0714 + 0,0714/2 = 1,1071; Z3 = 1,1785;
Z4 = 1,2499; Z5 = 1,3213; Z6 = 1,3927; Z7 = 1,4641; z8 = + ∞
После этого по формуле (3.32) подсчитаем вероятности Pi попадания значений величины Х в интервалы (I=1, 2,…8), а по ним по формулам Ni*=Npi (I=1, 2,…M) подсчитаем теоретические частоты Ni* наших новых вариант Хί (I=1, 2,…8). Подсчет этих теоретических частот оформим в виде таблицы, округляя, для точности, итоговые частоты Ni* до десятых, то есть до одного лишнего десятичного знака:
I |
Pi |
Ni*=npi =100 Pi | ||||||
1 |
- ∞ |
1,0357 |
- ∞ |
-1,580 |
-0,5 |
-0,443 |
0,057 |
5,7 |
2 |
1,0357 |
1,1071 |
-1,580 |
-1,054 |
-0,443 |
-0,354 |
0,089 |
8,9 |
3 |
1,1071 |
1,1785 |
-1,054 |
-0,527 |
-0,354 |
-0,201 |
0,153 |
15,3 |
4 |
1,1785 |
1,2499 |
-0,527 |
0 |
-0,201 |
0 |
0,201 |
20,1 |
5 |
1,2499 |
1,3213 |
0 |
0,526 |
0 |
0,201 |
0,201 |
20,1 |
6 |
1,3213 |
1,3927 |
0,526 |
1,052 |
0,201 |
0,354 |
1,153 |
15,3 |
7 |
1,3927 |
1,4641 |
1,052 |
1,579 |
0,354 |
0,443 |
0,089 |
8,9 |
8 |
1,4641 |
+∞ |
1,579 |
+∞ |
0,443 |
0,5 |
0,057 |
5,7 |
∑ |
∑Ni*= 100,0 |
Полученные Для одних и тех же вариант Хί теоретические частоты Ni* и экспериментальные частоты Ni можем теперь сравнить. Сначала сделаем это визуально:
Ni |
4 |
16 |
14 |
10 |
26 |
14 |
10 |
6 |
Ni* |
5,7 |
8,9 |
15,3 |
20,1 |
20,1 |
15,3 |
8,9 |
5,7 |
Как видим, есть и небольшие расхождения, и существенные (особенно в паре 10 и 20,1) Особенно наглядно видны эти расхождения, если наряду с полигоном реальных частот Ni (ломаной) построить и полигон теоретических частот Ni* - плавную кривую нормального распределения (см. рис. 3.10).
Сравним, однако, частоты Ni И Ni* на согласованность с помощью критерия Пирсона. Так как условие «все частоты Ni должны быть не менее 5, кроме разве что крайних» у нас выполняется, то объединять частоты не будем. В соответствии с формулой (3.30) подсчитаем экспериментальное значение величины χ2:
χ2= χ2эксп=13,35
А теперь по таблице критических точек распределения «хи-квадрат» (таблица 3 Приложения) для уровня значимости α=0,05 и числа степеней свободы K=M-3=8-3=5 найдем критическое значение величины χ2:
Сравнивая χ2эксп И χ2кр видим, что χ2эксп> χ2кр. Таким образом, гипотезу H0 о нормальности исследуемого признака Х отвергаем – она не подтверждается экспериментальными данными. То есть расхождения между реальными и теоретическими частотами являются слишком существенными, чтобы, при справедливости гипотезы H0 , Их можно было отнести лишь на счет случайности самой выборки.
Впрочем, мы можем и ошибаться - гипотеза H0 О нормальности распределения признака Х объектов генеральной совокупности на самом деле может быть верна. В таком случае, отвергая ее, мы совершаем ошибку 1-го рода. И вероятность этой ошибки – это принятый нами уровень значимости α=0,05.
Упражнения
1. Станок-автомат должен изготовлять детали массой 20г. Известно, что средняя квадратичная ошибка в работе станка равна 0,1г. Из продукции станка наудачу отобрано 10 деталей. Средняя масса одной детали оказалась равной 20,08г. При уровне значимости а) α=0,05 и б) α=0,01 проверить гипотезу H0 о том, что станок настроен правильно при альтернативной гипотезе Н1, что станок настроен неправильно (производит в целом увеличенные или уменьшенные детали).
Ответ: а) гипотеза H0 отвергается; б) гипотеза H0 принимается.
2. Решить предыдущую задачу по проверке гипотезы H0 при альтернативной гипотезе H1, состоящей в том, что станок производит в целом увеличенные по массе детали.
Ответ: И в варианте а), и в варианте б) гипотеза H0 Отвергается.
3. Исследовались ошибки Х И Y двух однотипных приборов. Экспериментальные данные о допущенных ошибках измерений на этих приборах (они выявлены с помощью более точных приборов) таковы:
Xi |
0,05 |
1,50 |
-1,35 |
-1,12 |
-0,52 |
Ni |
1 |
1 |
1 |
1 |
1 |
Yi |
1,82 |
0,10 |
-0,56 |
0,24 |
0,17 |
0,23 |
-0,31 |
Ni |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
При уровне значимости α=0,05 проверить гипотезу H0 О равной точности обоих приборов при альтернативной гипотезе Н1 О более высокой точности второго прибора.
Ответ: гипотеза H0 принимается.
4. В результате двух серий измерений с количеством измерений N1=25 и N2=50 получены следующие средние значения измеряемых величин А И B Соответственно: и . При уровне значимости α=0,01 проверить нулевую гипотезу H0 О равенстве А и B при альтернативной гипотезе Н1 о неравенстве А и B, если известно, что оба измерения равноточны со средним квадратическим отклонением σ = 0,30.
Ответ: гипотеза H0 отвергается.
5. Рассмотреть упражнение 3 с теми же данными, но при неизвестном σ. Взамен использовать исправленные выборочные дисперсии =0,28 и =0,33 указанных двух серий измерений.
Ответ: гипотеза H0 принимается.
6. Уровень исполнительского мастерства участников конкурса оценивался двумя судьями в баллах. Известны результаты оценки пяти первых участников конкурса:
Оценки первого судьи (Xi) |
6 |
7 |
8 |
5 |
7 |
Оценки второго судьи (Yi) |
7 |
6 |
8 |
7 |
8 |
При уровне значимости α=0,05 установить, значимо или незначимо различаются результаты оценок судей.
Ответ: оценки судей различаются незначимо.
Указание. Разность Z=X-Y оценок судей в силу большого числа факторов, влияющих на эту разность, можно, очевидно, считать случайной величиной, распределенной нормально. Если оценки судей различаются незначимо, то математическое ожидание величины Z равно нулю. А если значимо, то M(Z)≠0. Поэтому задача состоит в том, чтобы при уровне значимости α=0,05 проверить гипотезу о том, что M(Z)= А = 0 при альтернативной гипотезе Н1 о том, что M(Z)= а ≠ 0 при объеме выборки N=5.
7. Решить предыдущую задачу 6 по проверке гипотезы H0 о незначимости различия в оценках двух судей при альтернативной гипотезе Н1, Состоящей в том, что второй судья ставит в целом более высокие оценки, чем первый.
Ответ: гипотеза H0 принимается.
8. Для исследования массы Х клубней кормовой свеклы из урожая случайным образом отобрано 100 клубней. Статистическое распределение выборки оказалось таковым:
Xi(Кг) |
0 - 1,0 |
1,0 – 2,0 |
2,0 – 3,0 |
3,0 – 4,0 |
4,0 – 5,0 |
5,0 – 6,0 |
Ni |
20 |
20 |
28 |
22 |
12 |
8 |
Выдвинув гипотезу H0 О нормальном распределении массы Х клубней, найти соответствующие этой гипотезе теоретические частоты Ni* (I=1,2,…6) для указанной выше выборки. С помощью критерия Пирсона при уровне значимости а) α=0,05 и б) α=0,01 подтвердить или отвергнуть гипотезу H0.
Ответ:
Ni |
20 |
20 |
28 |
22 |
12 |
8 |
Ni* |
8 |
18 |
29 |
26 |
14 |
5 |
Гипотеза H0 Отклоняется при обоих уровнях значимости.
< Предыдущая | Следующая > |
---|