RSS    

   Математическая статистика - (лекции)

p>Простое рассмотрение табл. 2–2 или соответствующих гистограмм рис. 2–2 приводит к выводу о равенстве M(X) = M(Y) = 0. 5 , но вместе с тем столь же очевидно, что величина X является заметно “менее случайной”, чем Y. Приходится признать, что математическое ожидание является удобным, легко вычислимым, но весьма неполным способом описания закона распределения. И поэтому требуется еще как–то использовать полную информацию о случайной величине, свернуть эту информацию каким–то иным способом.

Обратим внимание, что большие отклонения от M(X) у величины X маловероятны, а у величины Y –наоборот. Но при вычислении математического ожидания мы, по сути дела “усредняем” именно отклонения от среднего, с учетом их знаков. Стоит только “погасить” компенсацию отклонений разных знаков и сразу же первая СВ действительно будет иметь показатель разброса данных меньше, чем у второй. Именно такую компенсацию мы получим, усредняя не сами отклонения от среднего, а квадраты этих отклонений.

    Соответствующую величину

D(X) = S (X i – M(X))2 · P(X i); {2–4} принято называть дисперсией распределения дискретной СВ. Ясно, что для величин, имеющих единицу измерения, размерность математического ожидания и дисперсии оказываются разными. Поэтому намного удобнее оценивать отклонения СВ от центра распределения не дисперсией, а квадратным корнем из нее– так называемым среднеквадратичным отклонением s, т. е. полагать s2 = D(X). {2–5}

Теперь оба параметра распределения (его центр и мера разброса) имеют одну размерность, что весьма удобно для анализа.

Отметим также, что формулу {2–3} часто заменяют более удобной D(X) = S (X i)2 ·P(X i) – M(X)2. {2–6} Весьма полезно будет рассмотреть вопрос о предельных значениях дисперсии. Подобный вопрос был бы неуместен по отношению к математическому ожиданию – мало ли какие значения может иметь дискретная СВ, да еще и со шкалой Int или Rel. Но дословный перевод с латыни слова “дисперсия” означает “рассеяние”, “разброс” и поэтому можно попытаться выяснить–чему равна дисперсия наиболее или наименее “разбросанной” СВ? Скорее всего, наибольший разброс значений (относительно среднего) будет иметь дискретная случайная величинаX, у которой все n допустимых значений имеют одну и ту же вероятность 1/n. Примем для удобства Xmin и Xmax (пределы изменения данной величины), равными 1 и n соответственно. Математическое ожидание такой, равномерно распределенной случайной величины составит M(X) = (n+1)/2 и остается вычислить дисперсию, которая оказывается равной D(X) = S (Xi)2/n – (n+1)2/4 = (n2–1)/ 12. Можно доказать, что это наибольшее значение дисперсии для дискретной СВ со шкалой Int или Rel .

Последнее выражение позволяет легко убедиться, что при n =1 дисперсия оказывается равной нулю –ничего удивительного: в этом случае мы имеем дело с детерминированной, неслучайной величиной.

Дисперсия, как и среднеквадратичное отклонение для конкретного закона распределения являются просто числами, в полном смысле показателями этого закона.

Полезно познакомиться с соотношениями математических ожиданий и дисперсий для упомянутых ранее стандартных распределений:

    Таблица 2–3
    Тип
    распределения
    Математическое ожидание
    Дисперсия
    Коэффициент
    вариации
    Биномиальное
    np
    npq
    Sqrt(q/n·p)
    Паскаля
    kq/p
    kq/p2
    Sqrt(1/ kq)
    Геометрическое
    q/p
    q/p2
    Sqrt(1/q)
    Пуассона
    l
    l
    Sqrt(1/l)

Можно ли предложить ещё один или несколько показателей – сжатых описаний распределения дискретной СВ? Разумеется, можно. Первый показатель (математическое ожидание) и второй (дисперсия) чаще всего называютмоментами распределения. Это связано со способами вычисления этих параметров по известному закону распределения– через усреднение значений самой СВ или усреднение квадратов ее значений. Конечно, можно усреднять и кубы значений, и их четвертые степени и т. д. , но что мы при этом получим? Поищем в теории ответ и на эти вопросы. Начальными моментами k-го порядка случайной величины X обычно называют суммы: nk = S(X i)k · P(X i); n0 = 0; {2–7} а центральными моментами – суммы:

mk= S (X i –n1)k · P(X i), {2–8} при вычислении которых усредняются отклонения от центра распределения – математического ожидания. Таким образом,

    · m1 = 0;
    · n1 = M(X) является параметром центра распределения;

· m2 = D(X) является параметром рассеяния; {2-9} · n3 и m3 – описывают асимметрию распределения; .

· n4 и m4 – описывают т. н. эксцесс (выброс) распределения и т. д.

Иногда используют еще один показатель степени разброса СВ – коэффициент вариации V= s/ M(X), имеющий смысл при ненулевом значении математического ожидания.

    Распределения непрерывных случайных величин

До этого момента мы ограничивались только одной “разновидностью” СВ –дискретными, т. е. принимающими конечные, заранее оговоренные значения на любой из шкалNom, Ord, Int или Rel .

Но теория и практика статистики требуют использовать понятие непрерывной СВ – допускающей любые числовые значения на шкале типа Int или Rel. И дело здесь вовсе не в том, что физические величины теоретически могут принимать любые значения–в конце концов, мы всегда ограничены точностью приборов их измерения. Причина в другом…

Математическое ожидание, дисперсия и другие параметры любых СВ практически всегда вычисляются по формулам, вытекающим из закона распределения. Это всего лишь числа и далеко не всегда целые.

Так обстоит дело в теории. На практике же, мы имеем только одно – ряд наблюдений над случайной (будем далее полагать –всегда дискретной) величиной. По этим наблюдениям можно строить таблицы или гистограммы, используя значения соответствующих частот (вместо вероятностей). Такие распределения принято называтьвыборочными, а сам набор данных наблюдений – выборкой. Пусть мы имеем такое выборочное распределение некоторой случайной величины X –т. е. для ряда ее значений (вполне возможно неполного, с “пропусками" некоторых допустимых) у нас есть рассчитанные нами же частоты f i .

В большинстве случаев нам неизвестен закон распределения СВ или о его природе у нас имеются догадки, предположения, гипотезы, но значения параметров и моментов (а это неслучайные величины! ) нам неизвестны.

Разумеется, частоты fi суть непрерывные СВ и, кроме первой проблемы – оценки распределения X, мы имеем ещё одну – проблему оценки распределения частот. Существование закона больших чисел, доказанность центральной предельной теоремы поможет нам мало:

·во-первых, надо иметь достаточно много наблюдений (чтобы частоты “совпали” с вероятностями), а это всегда дорого;

·во-вторых, чаще всего у нас нет никаких гарантий в том, что условия наблюдения остаются неизменными, т. е. мы наблюдаем занезависимой случайной величиной. Теория статистики дает ключ к решению подобных проблем, предлагает методы “работы” со случайными величинами. Большинство этих методов появилось на свет как раз благодаря теоретическим исследованиям распределений непрерывных величин.

    Нормальное распределение

Первым, фундаментальным по значимости, является т. н. нормальный закон распределения непрерывной случайной величины X, для которой допустимым является любое действительное числовое значение. Доказано, что такой закон распределения имеет величина, значение которой обусловлено достаточно большим количеством факторов (причин). Для вычисления вероятности того, что X лежит в заранее заданном диапазоне, получено выражение, которое называют интегралом вероятности:

    P(a Ј X Ј b) =

Обратим внимание на то, что в это выражение входят две константы (параметра) m и s. Как и для любой (не обязательно дискретной) СВ, здесь также имеют смысл понятия моментов распределения и оказывается, что

M(X) = m , а D(x) = s2 . {2–10} Для непрерывно распределенных величин не существует понятия вероятности конкретного значения. Вопрос– “какова вероятность достижения температурой воздуха значения 14 градусов? ” –некорректен. Все зависит от прибора измерения, его чувствительности, ошибок измерения. Но вместе с тем функция под интегралом вероятности существует, она однозначно определена:

    j(X) = ,
    ее график (аналог гистограммы) имеет вид:

а площадь под кривой на заданном интервале X определяет вероятность попадания в этот интервал. Чаще всего закон нормального распределения используется для нормированной случайной величины Z = (X – m) /s, {2–11} у которой M(Z)=0; D(Z)=1. {2–12} Отметим ряд других особенностей этого распределения, полагая его нормированным.

·Доказано, что целый ряд “классических” распределений (как дискретных, так и непрерывных) стремятся к нормальному при непрерывном изменении их внутренних параметров.

·Симметрия нормального распределения позволяет достаточно просто оценивать вероятность “попадания” случайной нормированной величины в заданный диапазон. Очень часто в прикладной статистике приходится использовать понятие “маловероятного” значения. Для нормированной величины с нормальным распределением вероятность попадания в диапазон± 3s составляет 0. 9973 (правило “трех сигм”). ·Особую роль играет нормальное распределение при решении вопросов о “представительности” наблюдений. Оказывается, что работа с выборочными распределениями в большинстве случаев позволяет решить проблему оценки наших предварительных выводов, предположений, гипотез–с использованием разработанных и теоретически обоснованных приемов на базе нормального закона.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.