RSS    

   Математическая статистика - (лекции)

p>В этом случае вместо “z –критерия” используется т. н. “t–критерий” или критерий Стьюдента , {5–5} в котором используется значение “несмещенной” оценки для дисперсии s2 (Sx)2 = S (Xi – Mx)2 · ni . {5–6} Далее используется доказанное в теории положение – случайная величина t имеет специальное распределение Стьюдента с m=N–1 степенями свободы. Существуют таблицы для этого распределения по которым можно найти вероятность ошибки первого рода или, что более удобно, – граничное значение этой величины при заданных заранее a и m. Таким образом, если вычисленное нами значение ЅtЅі t(a, m), то Њ0 отвергается, если же это не так – Њ0 принимается. Конечно, при большом количестве наблюдений (N>100…120) различие между z– и t–критериями несущественно. Значения критерия Стьюдента для a=0. 05 при разных количествах наблюдений составляют: Таблица 5–3

    m
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    20
    30
    40
    120
    t
    12. 7
    4. 30
    3. 18
    2. 78
    2. 57
    2. 45
    2. 36
    2. 31
    2. 26
    2. 23
    2. 09
    2. 04
    2. 02
    1. 98
    Оценка параметров дискретных распределений

В ряде случаев работы с некоторой дискретной СВ нам удается построить вероятностную схему событий, приводящих к изменению значений данной величины. Иными словами– закон распределения нам известен, но неизвестны его параметры. И наша задача – научиться оценивать эти параметры по данным наблюдений. Начнем с наиболее простого случая. Пусть у нас есть основания считать, что случайная величинаX может принимать целочисленные значения на интервале [0…k…n] с вероятностями P(X=k)=pk(1– p)n-k,

т. е. распределена по биномиальному закону. Так вот, – единственный параметр p этого распределения нас как раз и интересует. Примером подобной задачи является чисто практический вопрос о контроле качества товара.

Пусть мы решили оценить качество одной игральной кости из партии, закупленной для казино. Проведяn=200 бросаний мы обнаружили появлений цифры 6 в X = 25 случаях. Выдвинем нулевую гипотезу Њ0: кость симметрична, то есть p= 1/6. Вроде бы по наблюдениям частота выпадения цифры 6, составившая 25/200 не совпадает с гипотетическим значением вероятности 1/6. Но это чисто умозрительное, дилетантское заключение. Теория прикладной статистики рекомендует вычислить значение непрерывной СВ , {5–7} т. е. использовать z–критерий (см. {5–3}). В нашем примере наблюдаемое значение Z составит около –1. 58. Следовательно, при пороговой вероятности в 5% условие ЅZЅ< 1. 96выполняется и у нас нет оснований отбрасывать нулевую гипотезу о симметрии игральной кости.

Отметим, что z–критерий позволяет решать еще одну важную задачу – о достаточном числе испытаний. Пусть нам требуется проверить качество товара –некоторых изделий, каждое из которых может быть годным или негодным (бракованным). Пусть допустимый процент брака составляет p=5%. Ясно, что чем больше испытаний мы проведем, тем надежнее будет наш статистический вывод– браковать партию товара (например, – 10000 штук) или считать её пригодной. Если мы провели n=500 проверок и обнаружили X=30 бракованных изделий, то выдвинув гипотезу Њ0: p=5% , мы найдем выборочное значение критерия по {5–7}. Оно составит около 1. 03, что меньше “контрольного” 1. 96 . Значит, у нас нет оснований браковать всю партию.

Но возникает вопрос – сколько проверок достаточно для принятия решения с уровнем значимости в 5%? Для этого достаточно учесть допустимый процент брака (т. е. задать p), указать допустимое расхождение между ним и наблюдаемым процентом брака в выборке(d= p–X/n) и воспользоваться выражением

    {5–8}

Если мы примем d=±0. 02, то получим ответ – вполне достаточно 456 проверок, чтобы убедиться в том, что реальный процент брака отличается от допустимого не более чем на2%.

    Выборочные распределения на шкале Nom

Напомним, что случайная величина X, принимающая одно из n допустимых значений A, B, Cи т. д. имеет номинальную шкалу тогда, когда для любой пары этих значений применимы только понятия “равно” или “неравно”.

Для подобных СВ не существует понятий математического ожидания, как и других моментов распределения. Но понятие закона распределения имеет смысл– это ряд вероятностей PA = P(X=A) для каждого из допустимых значений. Соответственно, итоги наблюдения над такой СВ дадут нам частотыfA. Если у нас имеется всего Nнаблюдений за такой величиной, то иногда имеется возможность выдвинуть и проверить гипотезы о природе такой случайной величины, ее законе распределения и параметрах этого закона. Ситуации, когда это возможно сделать, не так уж и редки–всё зависит от понимания нами природы, сути случайных событий, от многозначности случайной величины и, конечно же, от количества наблюдений. Случай двухзначной случайной величины, N

Пусть нам крайне важно оценить "симметричность" некоторой случайной величины на номинальной двухпозиционной шкале со значениями "+" и "–" по наблюдениям за этой величиной. Если таких наблюдений было N+ =15 и N– = 25соответственно, то это вся информация, которая у нас есть. Что же можно узнать из нее? Оказывается– достаточно много и иногда … даже надёжно! В конце концов, мы можем полагать вероятность значения "+" на данной номинальной шкале равнойp и тогда q = (1 – p) даст нам вероятность положения "–" на этой же шкале. Таким образом, мы уже построили закон распределения и дело остается за оценкой его единственного параметра p.

По сути дела у нас есть одна дискретная случайная величина – число появлений X на "первой" позиции своей номинальной шкалы и это число составляет S = N+ . Но совершенно ясно, что новая случайная величина S имеет биномиальный закон распределения и вероятность наблюдения N+ =15 вполне можно вычислить, если знать или задаться значением p. Выдвинем вначале нулевую гипотезу о симметрии распределения X и альтернативную ненаправленную гипотезу – Њ0: p=q= 0. 5; Њ1: p#q# 0. 5.

Как обычно, оценим вероятность имеющегося наблюдения при верной нулевой гипотезе. Используя формулы расчета вероятностиP(SЈ15) или специальные таблицы биномиального распределения находим для 5%–го уровня значимости, что критическое значение S составляет 27, т. е. заметно больше наблюдаемого N+ =15. Следовательно, наши наблюдения статистически значимы – можно отвергнуть гипотезу Њ0, рискуя при этом ошибиться только в пяти случаях из 100. Рассмотрим теперь несколько иной пример. Пусть нам необходимо проверить партию изделий в 50 штук при следующем правиле – вся партия бракуется, если доля бракованных изделий превышает 10%. Выдвигаем гипотезы

    Њ0: p Ј 0. 10 и q і 0. 90; Њ1: q Ј 0. 90 и p і 0. 10.

Можно сразу решить вопрос о количестве проверок N, достаточном для обоснованном решении об отбрасывании нулевой гипотезы. Поскольку мы имеем биномиальное распределение числа бракованных изделий в выборке изN наблюдений, то нам надо, прежде всего, установить порог значимости наблюдений – примем его традиционно, равным 0. 05. Теперь можно начинать наблюдения, накапливая результаты и по мере роста числа наблюдений контролировать их значимость. Покажем, как это делать в ситуации, когдаN=48, а число бракованных изделий к этому времени составило 4. По сути дела, нам надо вычислить вероятность появления 4 отрицательных исходов и всех еще менее вероятных в серии из 48 испытаний. Правда сделать это вручную слишком сложно – придется работать с биномом 48степени. Поэтому при отсутствии компьютерной программы можно использовать специальные таблицы биномиального распределения.

В них можно найти значение числа событий с вероятностью 0. 10каждое, достаточное для отбрасывании нулевой гипотезы с вероятностью ошибки первого рода в5%. В наших условиях это число равно 9, значит при наблюдаемом меньшем числе бракованных изделий (всего 4) гипотезу Њ0 следует принять и всю партию не браковать.

    Случай двухзначной случайной величины, N>50

При достаточно больших выборках можно поступать и иначе. В качестве правила проверки гипотез используют так называемый критерий "хи–квадрат” c2 = е. {6–1} Эта непрерывная случайная величина была предложена видным статистиком Р. Фишером для проверки гипотез о соответствии выборочного распределения некоторому заданному закону. Для этого используются экспериментальные частостиNE и вычисленные в соответствии Њ0 “теоретические” NH . Разумеется, суммирование ведется по всем допустимым значениям СВ. В нашем примере у нее всего лишь два значения (изделие годно или бракованное), поэтому в числителе надо иметь т. н. поправку на непрерывность. Она корректирует влияние природы распределений: дискретное у наблюдаемой величины и непрерывное у критерия Фишера.

Изменим условия предыдущего примера – пусть N= 100, число бракованных изделий составило NE–=12. Нетрудно определить NE+=88, но что касается "гипотетических" частостей NH– и NH+, то эти величины зависят от того, как мы сформулируем гипотезы. Если их оставить без изменения, то эти частости составятNH+ = 90 и NH– = 10. Вычисление выборочного значения c2–критерия не вызывает проблем, важнее знать –как использовать результат расчета. В нашем примере расчетное значение критерия составит0. 25. Кроме конкретного значения критерия надо учесть так называемое число степеней свободы. В нашем случае это 1, а в общем случае надо уменьшить число допустимых значенийnна единицу. Ну, а далее требуется взять стандартные статистические таблицы, учесть пороговое значение ошибки первого рода– и получить ответ. Для примера приведем часть такой таблицы при a=0. 05 Таблица 6–1

    Степеней свободы
    1
    2
    3
    4
    5
    6
    7
    8
    9
    Критическое c2
    3. 84
    5. 99
    7. 82
    9. 49
    11. 1
    12. 6
    14. 1
    15. 5
    16. 9

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.