Что такое статистическая оценка. Анализ подобия распределений. Точечная оценка параметров распределения

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности по нормальному закону, то необходимо оценить математическое ожидание и среднеквадратическое отклонение, т. к. эти два параметра полностью определяют нормальное распределение. Если имеются основания считать, что признак имеет распределение Пуассона, то необходимо оценить параметр , которым это распределение определяется. Обычно имеются лишь данные выборки, полученные в результате наблюдений: , , ... , . Через эти данные и выражают оцениваемый параметр. Рассматривая , , ... , как значения независимых случайных величин , , ... , , можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин. Статистическая оценка неизвестного параметра генеральной совокупности одним числом называется точечной . Ниже рассматриваются следующие точечные оценки: смещенные и несмещенные, эффективные и состоятельные.

Для того, чтобы статистические оценки давали хорошие приближения оцениваемых параметров, они должны удовлетворять определенным требованиям. Укажем эти требования. Пусть есть статистическая оценка неизвестного параметра теоретического распределения. Допустим, что по выборке объема найдена оценка . Повторим опыт, т. е. извлечем их генеральной совокупности другую выборку того же объема и по ее данным найдем оценку и т. д. Получим числа , , ... , , которые будут различны между собой. Таким образом, оценку можно рассматривать как случайную величину, а числа , , ... , - как ее возможные значения.

Если оценка дает приближенное значение с избытком, тогда найденное по данным выборок число () будет больше истинного значения . Следовательно, и математическое ожидание (среднее значение) случайной величины будет больше, чем , т. е. . Если дает приближенное значение с недостатком, то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим ошибкам. Поэтому нужно потребовать, чтобы математическое ожидание оценки было равно оцениваемому параметру. Соблюдение требования устраняет систематические ошибки.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру , т. е. .

Смещенной называют статистическую оценку , математическое ожидание которой не равно оцениваемому параметру.

Однако ошибочно считать, что несмещенная оценка всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т. е. дисперсия величины может быть значительной. В этом случае найденная по данным одной выборки оценка, например, , может оказаться весьма удаленной от своего среднего значения , а значит, и от самого оцениваемого параметра . Приняв в качестве приближенного значения , мы допустили бы большую ошибку. Если потребовать, чтобы дисперсия величины была малой, то возможность допустить большую ошибку будет исключена. Поэтому к статистической оценке предъявляются требования эффективности.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки ) имеет наименьшую возможную дисперсию. При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при стремится к нулю, то такая оценка оказывается и состоятельной.

Рассмотрим вопрос о том, какие выборочные характеристики лучше всего в смысле несмещенности, эффективности и состоятельности оценивают генеральную стреднюю и дисперсию.

Пусть изучается дискретная генеральная совокупность относительно количественного признака. Генеральной средней называется среднее арифметическое значений признака генеральной совокупности. Она может быть вычислена по формулам или , где - значения признака генеральной совокупности объема , - соответствующие частоты, причем .

Пусть из генеральной совокупности в результате независимых наблюдений над количественным признаком извлечена выборка объема со значениями признака . Выборочной средней называют среднее арифметическое выборочной совокупности. Она может быть вычислена по формулам или , где - значения признака в выброчной совокупности объема , - соответствующие частоты, причем .

Если генеральная средняя неизвестна и требуется оценить ее по данным выборки, то в качестве оценки генеральной средней принимают выборочную среднюю, которая является несмещенной и состоятельной оценкой. Отсюда следует, что если по нескольким выборкам достаточно большого объема из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближенно равны между собой. В этом состоит свойство устойчивости выборочных средних .

Заметим, что если дисперсии двух совокупностей одинаковы, то близость выборочных средних к генеральным не зависит от отношения объема выборки к объему генеральной совокупности. Она зависит от объема выборки: чем объем выборки больше, тем меньше выборочная средняя отличается от генеральной.

Для того, чтобы охарактеризовать рассеяние значений количественного признака генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику - генеральную дисперсию. Генеральной дисперсией называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения , которая вычисляется по формулам: , или .

Для того, чтобы охарактеризовать рассеяние наблюденных значений количественного признака выборки вокруг своего среднего значения , вводят сводную характеристику - выброрчную дисперсию. Выборочной дисперсией называют среднее арифметическое квадратов отклонений наблюденных значений признака от их среднего значения , которая вычисляется по формулам: , или .

Кроме дисперсии, для характеристики рассеяния значений признака генеральной (выборочной) совокупности вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением. Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии: . Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:

Пусть из генеральной совокупности в результате независимых наблюдений над количественным признаком извлечена выборка объема . Требуется по данным выборки оценить неизвестную генеральную дисперсию . Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка будет приводить к систематическим ошибкам, давая заниженное значение генеральной дисперсии. Объясняется это тем, что выборочная дисперсия является смещенной оценкой ; другими словами, математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно .

Легко исправить выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии. Достаточно для этого умножить на дробь . В результате получим исправленную дисперсию, которую обычно обозначают через . Исправленная дисперсия будет несмещенной оценкой генеральной дисперсии: .

2. Интервальные оценки .

Наряду с точечным оцениванием статистическая теория оценивания параметров занимается вопросами интервального оценивания. Задачу интервального оценивания можно сформулировать следующим образом: по данным выборки построить числовой нитервал, относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится оцениваемый параметр. Интервальное оценивание особенно необходимо при малом числе наблюдений, когда точечная оценка в значительной мере случайна, следовательно, мало надежна.

Доверительным интервалом для параметра называется такой интервал, относительно которого можно с заранее выбранной вероятностью , близкой к единице, утверждать, что он содержит неизвестное значение параметра , т. е. . Чем меньше для выбранной вероятности число , тем точнее оценка неизвестного параметра . И наоборот, если это число велико, то оценка, произведенная с помощью данного интервала, мало пригодна для практики. Так как концы доверительного интервала зависят от элементов выборки, то значения и могут меняться от выборки к выборке. Вероятность принято называть доверительной вероятностью (надежностью). Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Выбор доверительной вероятности не является математической задачей, а определяется конкретной решаемой проблемой. Наиболее часто задают надежность, равную ; ; .

Приведем без вывода доверительный интервал для генеральной средней при известном значении среднего квадратического отклонения при условии, что случайная величина (количественный признак ) распределена нормально:

где - наперед заданное число, близкое к единице, а значения функции приведены в приложении 2.

Смысл этого соотношения заключается в следующем: с надежностью можно утверждать, что доверительный интервал () покрывает неизвестный параметр , точность оценки равна . Число определяется из равенства , или . По таблице (приложение2) находят аргумент , которому соответствует значение функции Лапласа, равное .

Пример 1 . Случайная величина имеет нормальное распределение с известным средним квадратическим отклонением . Найти доверительные интервалы для оценки неизвестной генеральной средней по выборочным средним, если объем выборок и задана надежность оценки .

Решение. Найдем . Из соотношения получим, что . По таблице (приложение 2) находим . Найдем точность оценки . Доверительные интервалы будут таковы: . Например, если , то доверительный интервал имеет следующие доверительные границы: ; . Таким образом, значения неизвестного параметра , согласующиеся с данными выборки, удовлетворяют неравенству .

Доверительный интервал для генеральной средней нормального распределения признака при неизвестном значении среднего квадратического отклонения задается выражением .

Отсюда следует, что с надежностью можно утверждать, что доверительный интервал покрывает неизвестный параметр .

Имеются готовые таблицы (приложение 4), пользуясь которыми, по заданным и находят вероятность , и обратно, по заданным и можно найти .

Пример 2 . Количественный признак генеральной совокупности распределен нормально. По выборке объема найдена выборочная средняя и исправленное среднеквадратическое отклонение . Оценить неизвестную генеральную среднюю при помощи доверительного интервала с надежностью .

Решение. Найдем . Пользуясь таблицей (приложение 4) по и находим: . Найдем доверительные границы:

Итак, с надежностью неизвестный параметр заключен в доверительном интервале .

3. Понятие статистической гипотезы. Общая постановка задачи проверки гипотез .

Проверка статистических гипотез тесно связана с теорией оценивания параметров. В естествознании, технике, экономике часто для выяснения того или иного случайного факта прибегают к высказыванию гипотез, которые можно проверить статистически, т. е. опираясь на результаты наблюдений в случайной выборке. Под статистическими гипотезами подразумеваются такие гипотезы, которые относятся или к виду, или к отдельным параметрам распределения случайной величины. Так, например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых условиях, имеет нормальный закон распределения. Статистической будет также гипотеза о том, что средние размеры деталей, производимые на однотипных, параллельно работающих станках, не различаются между собой.

Статистическая гипотеза называется простой , если она однозначно определяет распределение случайной величины , в противном случае гипотеза называется сложной. Например, простой гипотезой является предположение о том, что случайная величина распределена по нормальному закону с математическим ожиданием, равным нулю, и дисперсией, равной единице. Если высказывается предположение, что случайная величина имеет нормальное распределение с дисперсией, равной единице, а математическое ожидание - число из отрезка , то это сложная гипотеза. Другим примером cложной гипотезы является предположение о том, что непрерывная случайная величина с вероятностью принимает значение из интервала , в этом случае распределение случайной величины может быть любым из класса непрерывных распределений.

Часто распределение величины известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы называются параметрическими .

Проверяемая гипотеза называется нулевой гипотезой и обозначается . Наряду с гипотезой рассматривают одну из альтернативных (конкурирующих) гипотез . Например, если проверяется гипотеза о равенстве параметра некоторому заданному значению , т. е. : , то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: : ; : ; : ; : , где - заданное значение, . Выбор альтернативной гтпотезы определяется конкретной формулировкой задачи.

Правило, по которому принимается решение принять или отклонить гипотезу , называется критерием . Так как решение принимается на основе выборки наблюдений случайной величины , необходимо выбрать подходящую статистику, называемую в этом случае статистикой критерия . При проверке простой параметрической гипотезы : в качестве статистики критерия выбирают ту же статистику, что и для оценки параметра .

Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, а события, имеющие большую вероятность, считяются достоверными. Этот принцип можно реализовать следующим образом. Перед анализом выборки фиксируется некоторая малая вероятность , называемая уровнем значимости . Пусть - множество значений статистики , а - такое подмножество, что при условии истинности гипотезы вероятность попадания статистики критерия в равна , т. е. .

Обозначим через выборочное значение статистики , вычисленное по выборке наблюдений. Критерий формулируется следующим образом: отклонить гипотезу , если ; принять гипотезу , если . Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости . Множество всех значений статистики критерия , при которых принимается решение отклонить гипотезу , называется критической областью ; область называется областью принятия гипотезы .

Уровень значимости определяет размер критической области . Положение критической области на множестве значений статистики зависит от формулировки альтернативной гипотезы . Например, если проверяется гипотеза : , а альтернативная гипотеза форимулируется как : (), то критическая область размещается на правом (левом) “хвосте” распределения статистики , т. е. имеет вид неравенства: (), где и - те значения статистики , которые принимаются с вероятностями соответственно и при условии, что верна гипотеза . В этом случае критерий называется односторонним , соответственно правосторонним и левосторонним. Если альтернативная гипотеза формулируется как : , то критическая область размещается на обоих “хвостах” распределения , т. е. определяется совокупностью неравенств и ; в этом случае критерий называется двухсторонним .

На рис. 30 показано расположение критической области для различных альтернативных гипотез. Здесь - плотность распределеиня статистики критерия при условии, что верна гипотеза , - область принятия гипотезы, .

Таким образом, проверка параметрической статистической гипотезы при помощи критерия значимости может быть разбита на следующие этапы:

1) сформулировать проверяемую () и альтернативную () гипотезы;

2) назначить уровень значимости ; как не согласующуюся с результатами наблюдений; если , то принять гипотезу , т. е. считать, что гипотеза не противоречит результатам наблюдений.

Обычно при выполнении п. п. 4 - 7 используют статистику, квантили которых табулированы: статистику с нормальным распределением, статистику Стьюдента, статистику Фишера.

Пример 3 . По паспортным данным автомобильного двигателя расход топлива на 100 км пробега составляет 10 л . В результате изменения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки проводятся испытания 25 случайно отобранных автомобилей с модернизированным двигателем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило 9,3 л . Предположим, что выборка расходов топлива получена из нормально распределенной генеральной совокупности с средним и дисперсией. При условии, что верна гипотеза критической области для исходной статистики, т. е. равна уровню значимости. Найти вероятности ошибок первого и второго рода для критерия с такой критической областью. имеет нормальное распределение с математическим ожиданием, равным и дисперсией, равной . Вероятность ошибки второго рода найдем по формуле (11.2):

Следовательно, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход топлива 10 л .

4. Теоретические и эмпирические частоты. Критерии согласия.

Эмпирические частоты - частоты, полученные в результате опыта (наблюдения). Теоретические частоты расcчитываются по формулам. Для нормального закона распределения их можно найти следующим образом:

, (11.3)

План лекции:

    Понятие оценки

    Свойства статистических оценок

    Методы нахождения точечных оценок

    Интервальное оценивание параметров

    Доверительный интервал для математического ожидании при известной дисперсии нормально распределённой генеральной совокупности.

    Распределение хи-квадрат и распределение Стьюдента.

    Доверительный интервал для математического ожидании случайные величины, имеющей нормальное распределение при неизвестной дисперсии.

    Доверительный интервал для среднего квадратического отклонения нормального распределения.

Список литературы:

    Вентцель, Е.С. Теория вероятностей [Текст] / Е.С. Вентцель. – М.: Высшая школа, 2006. – 575 с.

    Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст] / В.Е. Гмурман. - М.: Высшая школа, 2007. - 480 с.

    Кремер, Н.Ш. Теория вероятностей и математическая статистика [Текст] / Н.Ш. Кремер - М: ЮНИТИ, 2002. – 543 с.

П.1. Понятие оценки

Такие распределения, как биномиальное, показательное, нормальное, являются семействами распределений, зависящими от одного или нескольких параметров. Например, показательное распределение с плотностью вероятностей , зависит от одного параметра λ, нормальное распределение
- от двух параметровm и σ. Из условий исследуемой задачи, как правило, ясно, о каком семействе распределений идёт речь. Однако остаются неизвестными конкретные значения параметров этого распределения, входящие в выражения интересующих нас характеристик распределения. Поэтому необходимо знать хотя бы приближённое значение этих величин.

Пусть закон распределения генеральной совокупности определён с точностью до значений входящих в его распределение параметров
, часть из которых может быть известна. Одной из задач математической статистики является нахождение оценок неизвестных параметров по выборке наблюдений
из генеральной совокупности. Оценка неизвестных параметров заключается в построении функции
от случайной выборки, такой, что значение этой функции приближённо равно оцениваемому неизвестному параметруθ . Функция называетсястатистикой параметра θ .

Статистической оценкой (в дальнейшем просто оценкой ) параметраθ теоретического распределения называется его приближённое значение, зависящего от данных выбора.

Оценка является случайной величиной, т.к. является функцией независимых случайных величин
; если произвести другую выборку, то функция примет, вообще говоря, другое значение.

Существует два вида оценок – точечные и интервальные.

Точечной называется оценка, определяемая одним числом. При малом числе наблюдений эти оценки могут приводить к грубым ошибкам. Чтобы избежать их, используют интервальные оценки.

Интервальной называется оценка, которая определяется двумя числами – концами интервала, в котором с заданной вероятностью заключена оцениваемая величина θ .

П. 2 Свойства статистических оценок

Величину
называютточностью оценки . Чем меньше
, тем лучше, точнее определён неизвестный параметр.

К оценке любого параметра предъявляется ряд требований, которым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т.е. быть в каком-то смысле «доброкачественной» оценкой. Качество оценки определяют, проверяя, обладает ли она свойствами несмещённости, эффективности и состоятельности.

Оценка параметраθ называется несмещённой (без систематических ошибок), если математическое ожидание оценки совпадает с истинным значением θ :

. (1)

Если равенство (1) не имеет места, то оценка называетсясмещённой (с систематическими ошибками). Это смещение может быть связано с ошибками измерения, счёта или неслучайным характером выборки. Систематические ошибки приводят к завышению или занижению оценки.

Для некоторых задач математической статистики может существовать несколько несмещённых оценок. Обычно предпочтение отдают той, которая обладает наименьшим рассеянием (дисперсией).

Оценка называетсяэффективной , если она имеет наименьшую дисперсию среди всех возможных несмещённых оценок параметра θ .

Пусть D () – минимальная дисперсия, а
– дисперсия любой другой несмещённой оценкипараметраθ . Тогда эффективность оценки равна

. (2)

Ясно, что
. Чем ближе
к 1, тем эффективнее оценка. Если
при
, то оценка называетсяасимптотически эффективной .

Замечание : Если оценка смещённая, то малости её дисперсии ещё не говорит о малости её погрешности. Взяв, например, в качестве оценки параметраθ некоторое число , получим оценку даже с нулевой дисперсией. Однако в этом случае ошибка (погрешность)
может быть сколь угодно большой.

Оценка называетсясостоятельной , если с увеличением объема выборки (
) оценка сходится по вероятности к точному значению параметраθ , т.е. если для любого

. (3)

Состоятельность оценки параметраθ означает, что с ростом n объема выборки качество оценки улучшается.

Теорема 1. Выборочная средняя является несмещённой и состоятельной оценкой математического ожидания.

Теорема 2. Исправленная выборочная дисперсия является несмещённой и состоятельной оценкой дисперсии.

Теорема 3. Эмпирическая функция распределения выборки является несмещённой и состоятельной оценкой функции распределения случайной величины.

Пусть требуется изучить, к примеру, количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно, возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание а и среднее квадратическое отклонение s, так как эти два параметра полностью определяют нормальное распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, например, значения количественного признака х 1 , х 2 , …, х n , полученные в результате n наблюдений. Через эти данные и выражают оцениваемый параметр .

Пусть q * - статистическая оценка неизвестного параметра q теоретического распределения. Различают несмещённую и смещённую оценки.

Несмещённой называют статистическую оценку q * , математическое ожидание которой равно оцениваемому параметру q при любом объеме выборки, то есть

В противном случае, то есть если М(q *) ¹ q, оценка называется смещённой .

Требование несмещённости означает, что не должно быть систематического отклонения в одну и ту же сторону наблюдаемых значений от q.

К статистической оценке предъявляется также требование эффективности , что подразумевает (при заданном объеме выборки) наименьшую возможную дисперсию, а в случае большого объема выборки и требование состоятельности , то есть практическое совпадение наблюдаемых значений случайной величины с оцениваемым параметром.

Если статистический материал представлен в виде вариационного ряда, то последующий его анализ осуществляется, как правило, с помощью некоторых постоянных величин, достаточно полно отражающих присущие изучаемой генеральной совокупности закономерности.

К таким постоянным относятся средние величины, среди которых наиболее значимой является средняя арифметическая - она проще других и по смыслу, и по свойствам, и по способу получения.

Так как при исследовании генеральной совокупности осуществляется выборка, то постоянная величина, характеризующая выборку, называется выборочной средней и обозначается .

Можно показать, что есть несмещённая оценка среднего арифметического значения признака генеральной совокупности , то есть

Пусть некоторая совокупность разбита на части - группы , не обязательно одинаковые по объему. Тогда средние арифметические распределения членов групп называют групповыми средними , а среднюю арифметическую распределения по тому же признаку всей совокупности - общей средней . Группы называются непересекающимися , если каждый член совокупности принадлежит только одной группе.

Общая средняя равна средней арифметической групповых средних всех непересекающихся групп.

Пример. Вычислить среднюю заработную плату рабочих предприятия по данным таблицы

Решение. По определению общая средняя равна

. (*)

n 1 = 40, n 2 = 50, n 3 = 60

Средняя заработная плата рабочих цеха № 1. Для её нахождения мы составили среднюю арифметическую зарплату по всему цеху: 75, 85, 95 и 105 (у.е.) Для удобства эти значения можно уменьшить в пять раз (это их наибольший общий делитель): 15, 17, 19, 21. Остальное понятно из формулы.

Проделав аналогичные операции, найдем , .

Подставив полученные значения в (*), получим

Средние - это постоянные величины, которые определенным образом характеризуют распределения. О некоторых распределениях судят только по средним. Например, для сравнения уровней заработной платы в различных отраслях промышленности достаточно сравнить средние заработные платы в них. Однако по средним нельзя судить ни о различиях между уровнями заработной платы наиболее высоко- и низкооплачиваемых работников, ни о том, какие отклонения от средней заработной платы имеют место.

В статистике наибольший интерес представляет разброс значений признака около их средней арифметической. На практике и в теоретических исследованиях рассеяние признака чаще характеризуется дисперсией и средним квадратическим отклонением.

Выборочной дисперсией D В называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х 1 , х 2 , … х n признака выборки объема n различны, то

. (3)

Если же значения признака х 1 , х 2 , … х k имеют соответственно частоты n 1 , n 2 , … n k , причём n 1 + n 2 + … + n k = n, то

. (4)

Если есть необходимость, чтобы показатель рассеяния выражался в тех же единицах, что и значения признака, то можно пользоваться сводной характеристикой - средним квадратическим отклонением

Для вычисления дисперсии обычно используется формула

Если совокупность разбита на непересекающиеся группы, то для их характеристики можно ввести понятия групповой, внутригрупповой, межгрупповой и общей дисперсии.

Групповой дисперсией называется дисперсия распределения членов j-ой группы относительно их средней - групповой средней , то есть

где n i - частота значения x i , - объем группы j.

Внутригрупповой дисперсией называется средняя арифметическая групповых дисперсий

где N j (j = 1, 2, …, m) - объемы непересекающихся групп.

Межгрупповой дисперсией называется средняя арифметическая квадратов отклонений групповых средних всех непересекающихся групп от общей средней , то есть

.

Общей дисперсией называют дисперсию значений признака всей совокупности относительно общей средней

,

где n i - частота значения x i ; - общая средняя; n - объем всей совокупности.

Можно показать, что общая дисперсия D равна сумме , то есть

Пример. Найти общую дисперсию совокупности, состоящей из следующих двух групп

Первая группа Вторая группа
x i n i x i n i

Решение. Найдем групповые средние

Найдем групповые дисперсии

Найдем общую среднюю

Искомая общая дисперсия

Рассмотренные выше оценки принято называть точечными , так как эти оценки определяются одним числом . В случае небольшого объема выборки используется интервальная оценка, определяемая двумя числами , называемыми концами интервала.

Интервальные оценки позволяют установить точность и надежность оценок. Поясним смысл этих понятий. Пусть найденная по данным выборки статистическая характеристика q * служит оценкой неизвестного параметра q. Ясно, что q * тем точнее будет определять параметр q, чем меньше абсолютная величина . Иными словами, если d > 0 и , то чем меньше d, тем оценка точнее.

Таким образом, число d > 0 характеризует точность оценки. Но с другой стороны статистические методы не позволяют категорически утверждать, что оценка q * удовлетворяет неравенству . Здесь можно говорить только о вероятности g , с которой это неравенство осуществляется. Эту вероятность g и называют надежностью (доверительной вероятностью) оценки q по q * .

Таким образом, из сказанного следует, что

Соотношение (*) следует понимать так: вероятность того, что интервал (q * - d, q * + d) заключает в себе (покрывает) неизвестный параметр q, равна g. Интервал (q * - d, q * + d), покрывающий неизвестный параметр с заданной надежностью g, называют доверительным.

Пример. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением s = 3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним , если объем выборки n = 36 и задана надежность оценки g = 0,95.

Решение. Заметим, что если случайная величина Х распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально, а параметры распределения таковы: , (см. стр. 54).

Потребуем выполнения соотношения

.

Пользуясь формулой (**) (см. стр. 43), заменив в ней Х на и s на , получим

статистическая оценка распределение выборка

Оценка - это приближение значений искомой величины, полученное на основании результатов выборочного наблюдения. Оценки являются случайными величинами. Они обеспечивают возможность формирования обоснованного суждения о неизвестных параметрах генеральной совокупности. Примером оценки генеральной средней является выборочная средняя генеральной дисперсии - выборочная дисперсия и т.д.

Для того чтобы оценить насколько «хорошо» оценка отвечает соответствующей генеральной характеристике разработаны 4 критерия: состоятельность, несмещенность, эффективность и достаточность. Этот подход основывается на том, что качество оценки определяется не по ее отдельным значениям, а по характеристикам ее распределения как случайной величины.

Основываясь на положениях теории вероятностей, можно доказать, что из таких выборочных характеристик, как средняя арифметическая, мода и медиана, только средняя арифметическая представляет собой состоятельную, несмещенную, эффективную и достаточную оценку генеральной средней. Этим и обуславливается предпочтение, отдаваемое средней арифметической в ряду остальных выборочных характеристик.

Несмещенность оценки проявляется в том, что ее математическое ожидание при любом объеме выборки равно значению оцениваемого параметра в генеральной совокупности. Если это требование не выполняется, то оценка является смещенной .

Условие несмещенности оценки направлено на устранение систематических ошибок оценивания.

При решении задач оценивания применяют также асимптотически несмещенные оценки , для которых при увеличении объема выборки математическое ожидание стремится к оцениваемому параметру генеральной совокупности.

Состоятельность статистических оценок проявляется в том, что с увеличением объема выборки оценка все больше и больше приближается к истинному значению оцениваемого параметра или, как говорят, оценка сходится по вероятности к искомому параметру, или стремится к своему математическому ожиданию. Лишь состоятельные оценки имеют практическую значимость.

Это такая оценка несмещенного параметра, которая обладает наименьшей дисперсией при данном объеме выборки. На практике дисперсия оценки обычно отождествляется с ошибкой оценки.

В качестве меры эффективности оценки принимают отношение минимально возможной дисперсии к дисперсии другой оценки.

Оценка, обеспечивающая полноту использования всей содержащейся в выборке информации о неизвестной характеристике генеральной совокупности, называется достаточной (исчерпывающей).

Соблюдение рассмотренных выше свойств статистических оценок дает возможность считать выборочные характеристики для оценки параметров генеральной совокупности лучшими из возможных.

Важнейшая задача математической статистики состоит в том, чтобы по выборочным данным получить наиболее рациональные, «правдивые» статистические оценки искомых параметров генеральной совокупности. Различают два вида статистических выводов: статистическая оценка; проверка статистических гипотез.

Основная задача получения статистических оценок заключается в выборе и обосновании наилучших оценок, обеспечивающих возможность содержательной оценки неизвестных параметров генеральной совокупности.

Задача оценки неизвестных параметров может быть решена двумя способами:

  • 1. неизвестный параметр характеризуется одним числом (точкой) - используется метод точечной оценки;
  • 2. интервальная оценка, то есть определяется интервал, в котором с некоторой вероятностью может находиться искомый параметр.

Точечная оценка неизвестного параметра заключается в том, что конкретное числовое значение выборочной оценки принимается за наилучшее приближение к истинному параметру генеральной совокупности, то есть неизвестный параметр генеральной совокупности оценивается одним числом (точкой), определенным по выборке. При таком подходе всегда существует риск совершить ошибку, поэтому точечная оценка должна дополняться показателем возможной ошибки при определенном уровне вероятности.

В качестве средней ошибки оценки принимается ее среднее квадратическое отклонение.

Тогда точечная оценка генеральной средней может быть представлена в виде интервала

где - выборочная средняя арифметическая.

При точечной оценке применяют несколько методов получения оценок по выборочным данным:

  • 1. метод моментов, при котором моменты генеральной совокупности заменяются моментами выборочной совокупности;
  • 2. метод наименьших квадратов;
  • 3. метод максимального правдоподобия.

Во многих задачах требуется найти не только числовую оценку параметра генеральной совокупности, но и оценить ее точность и надежность. Особенно это важно для выборок относительно малого объема. Обобщением точечной оценки статистического параметра является его интервальная оценка - нахождение числового интервала, содержащего с определенной вероятностью оцениваемый параметр.

В связи с тем, что при определении генеральных характеристик по выборочным данным всегда присутствует некоторая ошибка, практичнее определить интервал с центром в найденной точечной оценке, внутри которого с некоторой заданной вероятностью находится истинное искомое значение оцениваемого параметра генеральной характеристики. Такой интервал называют доверительным.

Доверительный интервал - это числовой интервал, который с заданной вероятностью г накрывает оцениваемый параметр генеральной совокупности. Такую вероятность называют доверительной. Доверительная вероятность г - это вероятность, которую можно признать достаточной в рамках решаемой задачи для суждения о достоверности характеристик, полученных на основе выборочных наблюдений. Величину

вероятности допустить ошибку называют уровнем значимости .

Для выборочной (точечной) оценки И * (тета) параметра И генеральной совокупности с точностью (предельной ошибкой ) Д и доверительной вероятностью г доверительный интервал определяется равенством:

Доверительная вероятность г дает возможность установить доверительные границы случайного колебания изучаемого параметра И для данной выборки.

В качестве доверительной вероятности принимают зачастую следующие значения и соответствующие им уровни значимости

Таблица 1. - Наиболее употребительные доверительные вероятности и уровни значимости

Например, 5-процентный уровень значимости означает следующее: в 5-ти случаях из 100 существует риск совершить ошибку при выявлении характеристик генеральной совокупности по выборочным данным. Или, другими словами, в 95 случаях из 100 генеральная характеристика, выявленная на основе выборки будет лежать в пределах доверительного интервала.

Распределение случайной величины (распределение генеральной совокупности) характеризуется обычно рядом числовых характеристик:

  • для нормального распределения N(a, σ) - это математическое ожидание a и среднее квадратическое отклонение σ ;
  • для равномерного распределения R(a,b) - это границы интервала , в котором наблюдаются значения этой случайной величины.
Такие числовые характеристики, как правило, неизвестные, называются параметрами генеральной совокупности . Оценка параметра - соответствующая числовая характеристика, рассчитанная по выборке. Оценки параметров генеральной совокупности делятся на два класса: точечные и интервальные .

Когда оценка определяется одним числом, она называется точечной оценкой . Точечная оценка, как функция от выборки, является случайной величиной и меняется от выборки к выборке при повторном эксперименте.
К точечным оценкам предъявляют требования, которым они должны удовлетворять, чтобы хоть в каком-то смысле быть «доброкачественными». Это несмещённость , эффективность и состоятельность .

Интервальные оценки определяются двумя числами – концами интервала, который накрывает оцениваемый параметр. В отличие от точечных оценок, которые не дают представления о том, как далеко от них может находиться оцениваемый параметр, интервальные оценки позволяют установить точность и надёжность оценок.

В качестве точечных оценок математического ожидания, дисперсии и среднего квадратического отклонения используют выборочные характеристики соответственно выборочное среднее, выборочная дисперсия и выборочное среднее квадратическое отклонение.

Свойство несмещенности оценки .
Желательным требованием к оценке является отсутствие систематической ошибки, т.е. при многократном использовании вместо параметра θ его оценки среднее значение ошибки приближения равно нулю - это свойство несмещенности оценки .

Определение . Оценка называется несмещенной , если ее математическое ожидание равно истинному значению оцениваемого параметра:

Выборочное среднее арифметическое является несмещенной оценкой математического ожидания, а выборочная дисперсия - смещенная оценка генеральной дисперсии D . Несмещенной оценкой генеральной дисперсии является оценка

Свойство состоятельности оценки .
Второе требование к оценке - ее состоятельность - означает улучшение оценки с увеличением объема выборки.

Определение . Оценка называется состоятельной , если она сходится по вероятности к оцениваемому параметру θ при n→∞.


Сходимость по вероятности означает, что при большом объеме выборки вероятность больших отклонений оценки от истинного значения мала.

Свойство эффективной оценки .
Третье требование позволяет выбрать лучшую оценку из нескольких оценок одного и того же параметра.

Определение . Несмещенная оценка является эффективной , если она имеет наименьшую среди всех несмещенных оценок дисперсию.

Это означает, что эффективная оценка обладает минимальным рассеиванием относительно истинного значения параметра. Заметим, что эффективная оценка существует не всегда, но из двух оценок обычно можно выбрать более эффективную, т.е. с меньшей дисперсией. Например, для неизвестного параметра a нормальной генеральной совокупности N(a,σ) в качестве несмещенной оценки можно взять и выборочное среднее арифметическое, и выборочную медиану. Но дисперсия выборочной медианы примерно в 1.6 раза больше, чем дисперсия среднего арифметического. Поэтому более эффективной оценкой является выборочное среднее арифметическое.

Пример №1 . Найдите несмещенную оценку дисперсии измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 13,15,17.
Решение. Таблица для расчета показателей.

x |x - x ср | (x - x ср) 2
13 2 4
15 0 0
17 2 4
45 4 8

Простая средняя арифметическая (несмещенная оценка математического ожидания)


Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего - смещенная оценка).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии (исправленная дисперсия).

Пример №2 . Найдите несмещенную оценку математического ожидания измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 4,5,8,9,11.
Решение. m = (4+5+8+9+11)/5 = 7.4

Пример №3 . Найдите исправленную дисперсию S 2 для выборки объема n=10, если выборочная диспресия равна D = 180.
Решение. S 2 = n*D/(n-1) = 10*180/(10-1) = 200