32. Проверка статистических гипотез (общие положения)
В этом пункте мы рассмотрим основные теоретические понятия и подходы, используемые при проверке статистических гипотез. Этот материал весьма важен, но непрост в освоении. Поэтому при каких-либо затруднениях при чтении данного параграфа целесообразно заглянуть чуть вперед в п. 3 — там показано, как описываемые понятия и подходы возникают в практических задачах.
Статистические гипотезы. В обычном языке слово «гипотеза» означает предположение. В том же смысле оно употребляется и в научном языке, Используясь в основном для предположений, вызывающих сомнения. В математической статистике термин «гипотеза» означает предположение, которое не только вызывает сомнения, но и которое Мы Собираемся в данный момент проверить.
При построении статистической модели приходится делать мнОго Различных допущений и предположений, и далеко не все из них мы собираемся или можем проверить. Эти предположения относятся как к выборочному пространству, так и к распределению вероятностей На нем.
Вопросов о выборочном пространстве обычно не возникает. Вопросы и сомнения относятся к распределению вероятностей. Cpeди Них бывают и такие: обладает ли определенным свойством? (Это Свойство выражает в статистической форме вопрос, Интересующий Исследователя с содержательных позиций.) Вопрос можно поставитЬ В форме проверки предположения: сначала высказать гипотезу «Распределение вероятностей обладает таким-то свойством», а затем спросиТь, Верно ли это. Предположение может быть как о конкретном Законе Распределения (например: «данные являются выборкой из нормальнО Закона с заданными параметрами»), так и о частных характеристикАх Распределения, таких как симметрия, принадлежность к определенноМу Типу, о значениях параметров и т. д. Соответственно различают простЫе И составные (сложные) гипотезы:
• Простая гипотеза полностью задает распределение Вероятностей;
• Сложная гипотеза указывает не одно распределение, а НекотОрое множество распределений. Обычно это множество РаспреДелений, обладающих определенным свойством (свойствами).
Статистическая проверка гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимся (наблюдаемым) Результатом случайного выбора. Надо, следовательно, решить, совместимо Ли С наблюдением Х определенное множество распределений вероятностей , соответствующих данной гипотезе. Как итог обсуждения можно высказать следующее определение.
Определение. Статистическая гипотеза — это предположение о распределении вероятностей, которое мы хотим проверить по имеющимся данным.
Остается выяснить, как это можно сделать.
Проверка гипотез. Поговорим прежде о проверке гипотез вообще. Лучше всего, если гипотезу можно проверить непосредственно, тогда не возникает никаких методических проблем. Но если прямого способа проверки у нас нет, приходится прибегать к проверкам косвенным. Это значит, что приходится довольствоваться проверкой некоторых следствий, которые логически вытекают из содержания гипотезы. Если некоторое явление логически неизбежно следует из гипотезы, но в природе не наблюдается, то это значит, что гипотеза неверна. С другой стороны, если происходит то, что при гипотезе происходить не должно, это тоже означает ложность гипотезы. Заметим, что подтверждение следствия еще не означает справедливости гипотезы, поскольку правильное заключение может вытекать и из неверной предпосылки. Поэтому, строго говоря, косвенным образом Доказать гипотезу нельзя, хотя Опровергнуть — можно.
Впрочем, когда косвенных подтверждений накапливается много, общество зачастую расценивает их как убедительное доказательство в пользу гипотезы. В языке это отражается так, что бывшую гипотезу начинают именовать законом.
Скажем, когда Ньютон выдвинул для объяснения движения небесных тел свой закон всемирного тяготения, он выглядел как некое предположение. По отношению к планетам он давал не больше сведений, чем законы Кеплера. Ньютону нужны были новые объекты, на которых он мог бы проверить действие своего открытия. Таким небесным телом могла бы быть Луна. Мы знаем сейчас, что на ее движение оказывают влияние своим притяжением не только Земля, но и Солнце, а также другие планеты. Поэтому ее движение не является в точности эллиптическим, а из-за близости Луны к Земле мы можем наблюдать эти отклонения. Ньютону удалось объяснить многие особенности движения Луны, но полностью удовлетворен он не был. Может быть, именно поэтому он так долго медлил с опубликованием своего открытия. Для решения этой и других задач небесной механики понадобились усилия лучших ученых следующего, восемнадцатого века.
Однако впоследствии на основании формулы Ньютона были объяснены не только движение Луны, но и траектории комет, открыты планеты Уран, Нептун и Плутон. Поэтому предположение Ньютона стало считаться уже не гипотезой, а законом природы, в справедливости которого никто не сомневается. Лишь во второй половине XX века, когда стало возможным измерять координаты небесных тел (в частности, искусственных спутников Земли) с точностью до сантиметров, их траектории стало необходимо рассчитывать не по закону Ньютона, а по более точным формулам общей теории относительности Эйнштейна.
Для проверки естественнонаучных гипотез часто применяется такой принцип: гипотезу отвергают, если происходит то, что при ее справедливости происходить не должно. Проверка статистических гипотез происходит так же, но с оговоркой: место невозможных событий занимают события практически невозможные. Причина этого проста: пригодных для проверки невозможных событий, как правило, просто нет.
Альтернативы. Повторим вышесказанное чуть более формально точно. Итак, пусть Н — статистическая гипотеза, т. е. предположенИе О распределении вероятностей на выборочном пространстве. Будем далее говорить о вероятностях событий, вычисленных в предположении, что Н справедлива, или, коротко — о вероятностях при Н, обозначая их . Если Н — простая гипотеза, то для всякого события А (А — множество в выборочном пространстве) его вероятность определена однозначно. Если гипотеза Н сложная (состоит из многих простых), то обозначает все возможные при Н значениЯ Вероятности события А.
Выберем уровень вероятности E, E > 0. Условимся считать событие практически невозможным, если его вероятность меньше E. Когда Речь Идет о проверке гипотез, число E называют Уровнем значИМости.
Выберем событие А, вероятность которого при гипотезе меньше E, т. е. . (Если Н — сложная гипотеза, то меньше E Должны быть все возможные при Н значения вероятности А.) ПравилО Проверки Н теперь таково:
На основании эксперимента мы отвергаем гипотезу Н на уровне значимости E, если в этом эксперименте произошло собыТИе А.
Таким образом, уровень значимости есть вероятность ошибочнО Отвергнуть гипотезу, когда она верна.
Определение. Событие А называется критическим для гипотезы Н, или критерием Для Н. Если , то E называюТ Гарантированным уровнем значимости Критерия А для Н.
Теперь обсудим вопрос о том, как следует выбирать критическое событие. Далеко не всякое маловероятное при гипотезе событие целесообразно использовать для ее проверки. Например, если это событие имеет одну и ту же вероятность и при соблюдении, и при несоблюдении гипотезы, то информация о том, произошло событие или нет, не дасТ Нам ровно никаких сведений о гипотезе. Поэтому при выборе события А следует принимать во внимание вероятность этого события не только при соблюдении гипотезы, но и при ее несоблюдении!
На практике нас, однако, обычно интересуют не все возможные «несоблюдения» гипотезы Н, а лишь некоторые. Во-первых, обычно у наблюдаемого явления Х имеются или предполагаются некоторые СвойСтва, которые выполняются и при соблюдении, и при несоблюдении Н, что ограничивает круг возможных распределений при НесоблюдеНии H. Во-вторых, нас могут интересовать некоторые специфичЕСкие (например, наиболее часто встречающиеся) нарушения Н, и мы мОЖем захотеть построить правило проверки Н, «чувствительное» именно к этим видам отклонений. Поэтому при проверке статистических гиПОтез рассматривают не только множество распределений на X, допустИМых при выполнении Н, но и указывают множество Н' распределений на X, Которые мы рассматриваем в качестве «альтернативы» гипотезе Н.
ОпрЕДеление. Распределения, с которыми мы можем встретиться в случае нарушения Н, называют альтернативными распределениями, Или альтернативами. (Иногда говорят также о конкурирующих распределениях и о конкурирующих гипотезах.)
Ниже мы увидим, что обычно «специализированные», т. е. рассчитанные на более узкий круг альтернатив, способы проверки статистических гипотез, являются (для этих альтернатив!) более «мощными», чем «универсальные», т. е. рассчитанные на широкий круг альтернатив.
Выбор критического события. Теперь вернемся к вопросу выбора критического события А. Идеальным было бы найти для проверки Н Такое событие, которое не может произойти при гипотезе и обязательно происходит при альтернативе: появление (непоявление) такого события было бы наилучшим индикатором для Н. Прекрасно подошло бы и такое критическое событие, вероятность которого близка к 0 при гипотезе и близка к 1 при альтернативе. Однако существование такого события возможно не всегда. Например, при проверке гипотезы о том, что некоторый параметр распределения равен А, против альтернативы о том, что он не равен А, такого события указать нельзя, поскОЛьку при приближении параметра распределения к А вероятность лЮБого события будет приближаться к тому значению, которое она имела БЫ при параметре, равном А. В подобных случаях приходится довольствовАТься меньшим: в качестве критического выбирают событие, вероятНОсть (вероятности — если гипотеза сложная) которого (малая при Гипотезе) Увеличивается по мере удаления распределения от гипотетического (гипотетических).
В некоторых случаях эту мысль удается осуществить в виде выбора оптимального критического множества заданного уровня значимости. Именно так обстоит дело для многих широко используемых статистических моделей. Например, в схеме Бернулли для некоторых практически важных гипотез и альтернатив существуют наилучшие (наиболее МОщные) критерии. Но в целом такие удачи редки. Теоретиками предлагались многие идеи, как рационально выбирать критические множества. Но удовлетворительного общего решения этой проблемы нет.
Статистики критериев. Обычно для построения критического Множества используется следующий подход. Пусть Т — некоторая функция на множестве X, принимающая числовые значения. Мы будем называть Т статистикой критерия. Как правило, статистику T выбирают таким образом, чтобы ее распределения при гипотезе и при альтернативе как можно более различались (в случае, если множества распределений Н и Н' «касаются» друг друга — чтобы различие в распределениях Т Было как можно большим по мере удаления истинного распределения наблюдений от гипотетического). При таком выборе статистики Т обычно некоторые значения Т (например, слишком большие или слишком малые) являются нетипичными при гипотезе и типичными при альтернативе. Поэтому для построения критического множества А выбирают некоторое множество вещественных чисел А' (множество «нетипичных» при гипотезе значений статистики T), и полагают множество А как
.
Это множество будет критическим для гипотезы на уровне . Поскольку множество А полностью определяется по А', множество А' тоже называют Критическим.
Читатель может подумать, что мы не продвинулись ни на шаг вперед: вместо выбора критического множества А надо выбирать критическое множество А'. Но дело в том, что обычно множество А' устроено очень просто. Например, если статистика критерия Т выбрана так,; Что она принимает небольшие значения при гипотезе и большие — при альтернативе, то множество А' следует выбирать как , где а — некоторое число. При другом поведении статистики Т множество А' может быть устроено по-другому, например или . Разумеется, следует выбирать множество А' так, чтобы , где E — уровень значимости критерия. С конкретными примерами применения данного подхода можно познакомиться ниже в этом разделе.
Ошибки первого и второго рода. При проверке статистических гипотез возможны ошибочные заключения двух типов:
• отвержение гипотезы в случае, когда она на самом деле верна;
• неотвержение (принятие) гипотезы, если она на самом деле неверна.
Эти возможности называются соответственно Ошибками первого рода и Ошибками второго рода.
Из-за различного подхода к гипотезе и альтернативе, наше отношение к ошибками первого и второго рода также неодинаково. При построении статистических критериев мы фиксируем максимальную допустимую вероятность ошибки первого рода (то есть уровень значимости критерия), и стремимся выбрать критическое множество таким образом, чтобы минимизировать вероятность ошибки второго рода (или хотя бы сделать так, чтобы эта вероятность была как можно меньше по мере удаления истинного распределения от гипотетического или гипотетических).
Мощность критерия. Обозначим через B вероятность ошибки второго рода статистического критерия. Если альтернативная гипотеза является сложной, то эта вероятность, естественно, зависит от выбора конкретного альтернативного распределения. Если мы рассматриваем альтЕРнативы из какого-либо параметрического семейства распределений , значение B также можно считать функцией от q.
Величину 1 - B обычно называют Мощностью критерия. Ясно, что мощность критерия может принимать любые значения от 0 до 1. Чем ближе мощность критерия к единице, тем более эффективен (более «мощен») критерий. Многие известные статистические критерии получены путем нахождения наиболее мощного критерия при заданных предположениях о гипотезе и альтернативе.
< Предыдущая | Следующая > |
---|