Какими свойствами или свойством не обладает выборочная дисперсия
Пусть наблюдаемая случайная величина имеет математическое ожидание и дисперсию .
I. Свойства выборочного среднего , как точечной оценки неизвестного математического ожидания.
1. Выборочное среднее является несмещенной оценкой неизвестного математического ожидания .
.
2. Выборочное среднее является состоятельной оценкой неизвестного математического ожидания .
Рассмотрим два способа доказательства этого свойства.
а) Последовательность независимых одинаково распределенных случайных величин , имеющих конечные математическое ожидание и дисперсиюподчиняется закону больших чисел, в соответствии с которым
.
б) Поскольку выборочное среднее является несмещенной оценкой неизвестного математического ожидания , то для доказательства состоятельности достаточно показать, что . А это следует из свойства аддитивности дисперсии для независимых случайных величин имеем:
.
3. Если закон распределения наблюдаемой случайной величины является нормальным с параметрами (то есть с неизвестным математическим ожиданием и известной дисперсией ), то выборочное среднее является эффективной оценкой параметра .
Покажем, что выборочное среднее обращает неравенство Рао-Крамера в равенство.
Для этого вычислим информацию Фишера о параметре , содержащуюся в одном наблюдении над случайной величиной :
.
Плотность вероятностей наблюдаемой случайной величины имеет вид:
,
а ее логарифм . Дифференцируя по , получаем:
.
Подставляя вместо аргумента случайную величину , для информации Фишера получаем выражение:
.
Следовательно,
.
Свойство 3 остается справедливым и в общей нормальной модели , когда неизвестны и математическое ожидание, и дисперсия.
II. Свойства выборочной дисперсии , как точечной оценки неизвестной дисперсии.
1. Выборочная дисперсия не является несмещенной оценкой неизвестной дисперсии . Она является асимптотически несмещенной оценкой .
Найдем математическое ожидание :
(поскольку при в силу независимости случайных величин )
.
Таким образом, выборочная дисперсия не является несмещенной оценкой дисперсии . Ее смещение . Поскольку , то выборочная дисперсия является асимптотически несмещенной оценкой дисперсии .
Несмещенную оценку дисперсии можно получить, умножив на коэффициент , компенсирующий ее смещение.
Несмещенная оценка дисперсии
называется исправленной выборочной дисперсией.
На практике исправленную выборочную дисперсию , как точечную оценку неизвестной дисперсии , используют чаще, чем просто выборочную дисперсию . Однако при больших оценки и отличаются крайне незначительно.
2. Выборочная дисперсия и исправленная выборочная дисперсия являются состоятельными оценками неизвестной дисперсии .
Как отмечалось ранее
.
В силу закона больших чисел , а . Поэтому
.
Поскольку при больших , то состоятельной оценкой дисперсии является и исправленная выборочная дисперсия .
3. Если закон распределения наблюдаемой случайной величины является нормальным с неизвестными параметрами , то исправленная выборочная дисперсия является асимптотически эффективной оценкой неизвестной дисперсии , то есть
,
где – эффективная оценка неизвестной дисперсии (без доказательства).
Поскольку при больших , то асимптотически эффективной оценкой дисперсии является и выборочная дисперсия .
Источник
На предыдущем уроке по математической статистике мы изучили центральные показатели статистической совокупности, а именно моду, медиану, среднюю, и теперь переходим к показателям вариации. Они показывают, КАК варьируются статистические данные, а именно – насколько далеко «разбросаны» варианты относительно средних значений, да и просто друг от друга. В данной статье будут рассмотрены самые популярные показатели, и для опытных читателей сразу оглавление:
- Размах вариации
- Среднее линейное (абсолютное) отклонение
- Генеральная и выборочная дисперсия, тут же исправленная выборочная дисперсия
и, чтобы не «лепить» километровую простыню, разделю материал на две веб страницы:
- Во второй части будет формула для вычисления дисперсии, среднее квадратическое (стандартное) отклонение и коэффициент вариации.
Итак, прямо сейчас мы сформулируем определения этих показателей, узнаем соответствующие формулы и, конечно, потренируемся в конкретных вычислениях. Да не просто в конкретных, а в рациональных.
Но прежде систематизируем информацию о том, какие статистические данные могут оказаться в нашем распоряжении:
– они могут быть первичными (не обработанными), грубо говоря – это неупорядоченный список чисел, либо вторичными – это уже сформированный дискретный (Урок 2) или интервальный вариационный ряд (Урок 3).
– рассматриваемая статистическая совокупность может быть генеральной либо выборочной, и чаще, конечно, перед нами выборка.
…что-то не понятно по терминам? Срочно изучать основы предмета (Урок 1)! – это быстро и интересно, ну а я, сколько нужно, вас тут подожду 🙂
Размах вариации
Он уже встречался. Это разность между самым большим и самым малым значением статической совокупности:
при этом не имеет значения, генеральная ли нам дана совокупность или выборочная, сгруппированы ли данные или нет.
Очевидно, что все варианты исследуемой совокупности (той или иной) заключены в отрезке , а размах – есть не что иное, как его длина.
Такой вот простой, надёжный и понятный показатель. Но, несмотря на его элементарность, рассмотрим технику вычисления, и, конечно, это отличный повод размяться:
Пример 12
Дана статистическая совокупность
15, 17, 13, 10, 21, 17, 23, 9, 14, 19
Найти размах вариации
Решить задачу можно несколькими способами.
Способ первый, суровый – продолжаю вас готовить к борьбе с киборгами :)) Это когда под рукой нет вычислительной техники. Или когда она есть, но вы сами понимаете, как важно «прокачать» свои человеческие способности.
Если чисел не так много (наш случай), то максимальное и минимальное значения легко углядеть устно: и размах равен: единиц.
Если чисел больше (20-30 и даже больше), то надёжен следующий алгоритм:
1) Ищем минимальное значение. Сначала самым маленьким будет первое число: 15. Второе число (17) больше, и поэтому его пропускаем. Третье число (13) меньше, чем 15, и теперь 13 – самое малое число. И так далее, пока не закончится список.
2) Ищем максимальное значение. Сначала самым большим будет первое число: 15. Второе число (17) больше и теперь оно становится самым большим. И так далее – до конца списка.
Способ второй, более быстрый (обычно). Использование программного обеспечения, при этом числа можно просто отсортировать (по возрастанию либо убыванию) или использовать специальные функции:
Задание 6
Найти минимальное и минимальное значения в Экселе – данные уже там, данные вас ждут!
…отлично, молодцы!
Запишем ответ ед. и с нетерпением перейдём к другим показателям, которые характеризуют степень рассеяния вариант относительно центра совокупности, прежде всего, относительно средней.
О смысле и важности этих показателей я рассказал в курсе теории вероятностей (статья о дисперсии дискретной случайной величины), но коротко повторю и сейчас. Рассмотрим двух студентов, каждый из которых в среднем учится на 3,5 балла. Но есть один нюанс. Один стабильно получает тройки-четвёрки, а другой то пятёрки, то двойки. И поэтому важно знать меру рассеяния оценок относительно средней величины. Чем она меньше – тем стабильнее учится студент.
Эту меру можно оценить следующим образом: из каждой оценки (пусть их будет штук) вычитаем среднее значение . Величина называется отклонением (значения ) от средней.
Теперь эти отклонения нужно просуммировать, но тут появляется проблема: среди разностей есть как положительные, так и отрицательные, и при их суммировании будет происходить взаимоуничтожение отклонений. Более того, итоговая сумма равна нулю: , и мы не получаем желаемого результата.
Вопрос можно решить с помощью модуля, который уничтожает минусы: , после чего осталось разделить сумму на объём совокупности и получить:
среднее линейное отклонение
– есть среднее арифметическое абсолютных отклонений всех значений статистической совокупности от средней. Это формула для несгруппированных статистических данных.
Если же в нашем распоряжении есть сформированный дискретный либо интервальный вариационный ряд, то формула будет такой:
, где – варианты (для дискретного ряда) либо середины частичных интервалов (для интервального ряда), а – соответствующие частоты.
Напоминаю, что маленькая буква обычно используется для выборочной совокупности, а большая – для генеральной: – объём ген. совокупности, – частоты.
И начнём мы с малого:
Пример 13
В результате 10 независимых измерений некоторой величины, выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице
Требуется вычислить среднее линейное отклонение
Решение: очевидно, что перед нами первичные данные и выборочная совокупность (теоретически измерений можно провести бесконечно много). На первом шаге вычислим выборочную среднюю:
Теперь находим модули отклонений от средней:
…
и так далее до:
Вычисления удобно проводить на калькуляторе или в Экселе, а результаты заносить в таблицу:
На завершающем этапе рассчитываем сумму модулей:
и среднее линейное отклонение:
ед. – оно означает, что измеренные значения в среднем отличаются от примерно на 0,6 ед.
Но помимо этого, для оценки рассеяния вариант относительно средней существует более совершенный и распространённый подход. Он состоит в том, чтобы использовать не модули, а возведение отклонений в квадрат: (чтобы ликвидировать встречающиеся отрицательные значения).
Генеральная и выборочная дисперсия
Дисперсия с латыни так и переводится – рассеяние.
…не сломать бы язык 🙂 …так… Выборочная дисперсия – это среднее арифметическое квадратов отклонений всех вариант выборки от её средней:
– для несгруппированных данных, и:
– для сформированного вариационного ряда, где – кратные (одинаковые по значению) варианты в дискретном случае либо середины частичных интервалов– в интервальном, и – соответствующие частоты.
Еще раз не спеша и ОСМЫСЛЕННО прочитайте определение и выполните
Задание:
Сформулировать и записать (на бумагу!) определение генеральной дисперсии и соответствующие формулы.
Свериться можно, как обычно, в конце урока.
После чего следует
продолжение Примера 13
По тем же исходным данным вычислить выборочную дисперсию
Без проблем. Вместо модулей рассчитываем квадраты отклонений:
заполняем табличку:
и порядок:
квадратных (!) единиц – коль скоро, мы возводили в квадрат. И, чтобы вернуться в размерность задачи, из дисперсии следует извлечь корень. Но мы не будем торопить события, лучше посмотрим, как выполнять вычисления в Экселе:
Ответ:
Разобранная задача де-факто встречается в лабораторных работах по физике (да и не только) – когда некоторая величина замеряется раз 10 и затем рассчитывается среднее значение.
А теперь представьте, что вся ваша группа выполняет лабу по физике, и каждый провёл по 10 испытаний в схожих условиях. Очевидно, что у всех получились несколько разные выборочные значения , но все они без какой-либо закономерности (в общем случае) будут варьироваться вокруг истинного значения показателя (роль генеральной средней может играть некий теоретический эталон). Это свойство (отсутствие закономерности) называется несмещённостью оценки генеральной средней, и справедливо оно, как мы увидим ниже, не для всех показателей.
Теперь пару ласковых об отклонениях. В чём их смысл? Всё просто: у кого эти показатели ниже, тот качественнее проводит опыты (плавнее выполняет действия, точнее снимает показания с приборов, засекает время и т.п.). В идеале эти отклонения равны нулю, но это только в идеале – сам эмпиризм ситуации порождает генеральное линейное отклонение и генеральную дисперсию, которые обусловлены человеческим фактором, погрешностью приборов и так далее – вплоть до магнитных бурь.
В случае с полученными линейными отклонениями – всё то же самое, они будут безо всякой закономерности варьироваться вокруг генерального значения . Но вот с дисперсией всё не так. Полученные значения выборочной дисперсии будут давать систематически заниженную оценку генеральной дисперсии . И поэтому выборочную дисперсию следует «поправить» по формуле:
– желающие могут найти обоснование этого факта и этой формулы в специализированной литературе по математической статистике.
Показатель так и называется – исправленная выборочная дисперсия, и вот она уже является несмещённой оценкой генеральной дисперсии.
Таким образом, каждый студент должен поправить свою дисперсию, в частности, для Примера 13:
Следует отметить, что для большой выборки (от 100 и даже от 30 вариант) этой поправкой можно пренебречь, так как при дробь стремится к единице и .
И иногда дисперсию можно вовсе не поправлять. Так, в разобранном примере от нас требовалось просто вычислить выборочную дисперсию и всё. А если хочется что-то додумать, то пусть этого захочет преподаватель 🙂 Но вот если дисперсия будет «участвовать» в дальнейших действиях, то, конечно, приводим её к виду .
Более того, встречаются задачи, где вообще не понятно – выборочная ли дана совокупность или генеральная, и тогда разумно проявить аккуратность и использовать обозначения без подстрочных индексов, в частности, и .
Теперь случай, когда дан готовый вариационный ряд. У меня опять есть подходящая советская задача про телефонную станцию, но я скорректирую условие в соответствии с современными реалиями:
Пример 14
В результате выборочного исследования звонков, статистик МТС получил следующие данные (за некоторый временной промежуток):
…у ОпСоСов, как известно, своя статистика – с округлением до ближайшей целой минуты :), впрочем, это тоже устареет…, как метко заметил современник, дети дружно играли во дворе – каждый в своём смартфоне(
Найти размах вариации, среднее линейное отклонение и выборочную дисперсию. Дать несмещённую оценку генеральной дисперсии и пояснить, что это означает.
Задание 7
Решить данную задачу в Экселе (данные и гайд уже там) либо на бумаге с помощью калькулятора.
Краткое решение и ответ совсем близко, поскольку 1-я часть урока подошла к концу, и я жду вас во 2-й части, где мы рассмотрим формулу для вычисления дисперсии, среднее квадратическое отклонение и коэффициент вариации.
Решения и ответы:
Задание. Генеральная дисперсия – это среднее арифметическое квадратов отклонений всех вариант генеральной совокупности от её средней:
, где – объём генеральной совокупности.
Для сформированного вариационного ряда формула принимает вид:
, где – либо варианты дискретного ряда, либо середины частичных интервалов интервального ряда, а – соответствующие частоты.
Пример 14. Решение: найдём размах вариации: мин.
Вычислим объём совокупности , произведения , их сумму и выборочную среднюю мин.
Рассчитаем , произведения и их суммы:
Среднее линейное отклонение:
мин.
Выборочная дисперсия:
мин. в квадрате.
Несмещённой оценкой генеральной дисперсии является исправленная выборочная дисперсия:
мин. в квадрате.
Несмещённость означает, что если в схожих условиях проводить аналогичные выборки, то полученные значения будут безо всякой закономерности варьироваться вокруг генерального значения .
Ответ:
Автор: Емелин Александр
Высшая математика для заочников и не только >>>
(Переход на главную страницу)
Как можно отблагодарить автора?
Профессиональная помощь по любому предмету – Zaochnik.com
Источник
19. Выборочная
средняя, её свойства.
Вы́борочное
(эмпири́ческое) сре́днее —
это приближение теоретического среднего
распределения, основанное на выборке
из него.
Определение:
Пусть —выборкаизраспределения
вероятности, определённая на
некоторомвероятностном
пространстве.
Тогда её выборочным средним
называетсяслучайная
величина.
Свойства
выборочного среднего :
Пусть —выборочная
функция распределенияданной
выборки. Тогда для любого
фиксированногофункцияявляется
(неслучайной)функциейдискретного
распределения. Тогдаматематическое
ожиданиеэтого распределения
равно
Выборочное
среднее — несмещённая
оценкатеоретического среднего:
.
Выборочное
среднее — сильно
состоятельная оценкатеоретического
среднего:
почти
наверноепри.
Выборочное
среднее — асимптотически
нормальная оценка. Пустьдисперсияслучайных
величинконечна
и ненулевая, то есть.
Тогда
по
распределениюпри,
где —нормальное
распределениесо средними
дисперсией.
Выборочное
среднее из нормальной выборки — эффективная
оценкаеё среднего
Выборочная
дисперсия в математической
статистике —
это оценка теоретической дисперсии
распределения на основе выборки.
Различают выборочную дисперсию и
несмещённую, или исправленную, выборочные
дисперсии.
Определения
Пусть —выборкаизраспределения
вероятности. Тогда
Выборочная
дисперсия — это случайная
величина
,
где
символ обозначаетвыборочное
среднее.
Несмещённая
(исправленная) дисперсия — это случайная
величина
.
Замечание
Очевидно,
.
Свойства
выборочных дисперсий
Выборочная
дисперсия является
теоретической дисперсиейвыборочного
распределения. Более точно,
пусть—выборочная
функция распределенияданной
выборки. Тогда для любого
фиксированногофункцияявляется
(неслучайной)функциейдискретного
распределения. Дисперсия этого
распределения равна.
Обе
выборочные дисперсии являются состоятельными
оценкамитеоретической дисперсии.
Если,
то
И,
где обозначаетсходимость
по вероятности.
Выборочная
дисперсия является смещённой
оценкойтеоретической дисперсии,
а исправленная выборочная дисперсия
несмещённой:
,
И
.
Выборочная
дисперсия нормального
распределенияимеетраспределение
хи-квадрат. Пусть.
Тогда
21. Статистические оценки: несмещенные, эффективные, состоятельные
Состоятельной
называют такую точечную статистическую
оценку, которая при n стрем к бесконечн
стремится по вероятности к оцениваемому
параметру. В частности, если дисперсия
несмещенной оценки при n стр к беск
стремится к нулю, то такая оценка
оказывается и состоятельной.
Рассмотрим
оценку θn числового
параметра θ, определенную при n =
1, 2, … Оценка θnназывается состоятельной,
если она сходится по вероятности к
значению оцениваемого параметра θ при
безграничном возрастании объема выборки.
Выразим сказанное более подробно.
Статистика θn является
состоятельной оценкой параметра θ тогда
и только тогда, когда для любого
положительного числа ε справедливо
предельное соотношение
Пример
3. Из
закона больших чисел следует, что
θn = является
состоятельной оценкой θ = М(Х) (в
приведенной выше теореме Чебышёва
предполагалось существование
дисперсии D(X); однако,
как доказал А.Я. Хинчин [6], достаточно
выполнения более слабого условия –
существования математического
ожидания М(Х)).
Пример
4. Все
указанные выше оценки параметров
нормального распределения являются
состоятельными.
Вообще,
все (за редчайшими исключениями) оценки
параметров, используемые в
вероятностно-статистических методах
принятия решений, являются состоятельными.
Пример
5.
Так, согласно теореме В.И. Гливенко,
эмпирическая функция распределенияFn(x) является
состоятельной оценкой функции
распределения результатов наблюденийF(x)
Несмещенной
называют такую точечную статистическую
оценку Q*математическое
ожидание которой равно оцениваемому
параметру: M(Q*)=Q
Второе
важное свойство оценок – несмещенность.
Несмещенная оценка θn –
это оценка параметра θ, математическое
ожидание которой равно значению
оцениваемого параметра: М(θn)
= θ.
Пример
6. Из
приведенных выше результатов следует,
что и являются
несмещенными оценками
параметров m и σ2 нормального
распределения. Поскольку М()
= М(m**)
= m,
то выборочная медиана и
полусумма крайних членов вариационного
ряда m** –
также несмещенные оценки математического
ожидания mнормального
распределения. Однако
поэтому
оценки s2 и
(σ2)**
не являются состоятельными оценками
дисперсии σ2нормального
распределения.
Оценки,
для которых соотношение М(θn)
= θ неверно, называются смещенными. При
этом разность между математическим
ожиданием оценки θn и
оцениваемым параметром θ, т.е. М(θn)
– θ, называется смещением оценки.
Пример
7. Для
оценки s2,
как следует из сказанного выше, смещение
равно
М(s2)
– σ2 =
– σ2/n.
Смещение
оценки s2 стремится
к 0 при n →
∞.
Оценка,
для которой смещение стремится к 0, когда
объем выборки стремится к бесконечности,
называется асимптотически
несмещенной.
В примере 7 показано, что оценка s2 является
асимптотически несмещенной.
Практически
все оценки параметров, используемые в
вероятностно-статистических методах
принятия решений, являются либо
несмещенными, либо асимптотически
несмещенными. Для несмещенных оценок
показателем точности оценки служит
дисперсия – чем дисперсия меньше, тем
оценка лучше. Для смещенных оценок
показателем точности служит математическое
ожидание квадрата оценки М(θn –
θ)2.
Как следует из основных свойств
математического ожидания и дисперсии,
(3)
т.е.
математическое ожидание квадрата ошибки
складывается из дисперсии оценки и
квадрата ее смещения.
Для
подавляющего большинства оценок
параметров, используемых в
вероятностно-статистических методах
принятия решений, дисперсия имеет
порядок 1/n,
а смещение – не более чем 1/n,
где n –
объем выборки. Для таких оценок при
больших n второе
слагаемое в правой части (3) пренебрежимо
мало по сравнению с первым, и для них
справедливо приближенное равенство
(4)
где с –
число, определяемое методом вычисления
оценок θn и
истинным значением оцениваемого
параметра θ.
Эффективной
называют такую точечную статистическую
оценку, которая при фиксированном n
имеет наименьшую дисперсию.
С
дисперсией оценки связано третье важное
свойство метода оценивания –эффективность.
Эффективная оценка – это несмещенная
оценка, имеющая наименьшую дисперсию
из всех возможных несмещенных оценок
данного параметра.
Доказано
[11], что и являются
эффективными оценками
параметров m и σ2нормального
распределения. В то же время для выборочной
медианы справедливо
предельное соотношение
Другими
словами, эффективность выборочной
медианы, т.е. отношение дисперсии
эффективной оценки параметра m к
дисперсии несмещенной оценки этого
параметра при больших n близка к 0,637.
Именно из-за сравнительно низкой
эффективности выборочной медианы в
качестве оценки математического ожидания
нормального распределения обычно
используют выборочное среднее
арифметическое.
Понятие
эффективности вводится для несмещенных
оценок, для которых М(θn)
= θ для всех возможных значений параметра
θ. Если не требовать несмещенности, то
можно указать оценки, при некоторых θ
имеющие меньшую дисперсию и средний
квадрат ошибки, чем эффективные.
Пример
8. Рассмотрим
«оценку» математического ожидания m1 ≡
0. Тогда D(m1) =
0, т.е. всегда меньше дисперсии D()
эффективной оценки .
Математическое ожидание среднего
квадрата ошибки dn(m1)
= m2,
т.е. при имеем dn(m1)
< dn().
Ясно, однако, что статистику m1 ≡
0 бессмысленно рассматривать в качестве
оценки математического ожидания m.
Пример
9. Более
интересный пример рассмотрен американским
математиком Дж. Ходжесом:
Ясно,
что Tn –
состоятельная, асимптотически несмещенная
оценка математического ожидания m,
при этом, как нетрудно вычислить,
Последняя
формула показывает, что при m ≠
0 оценка Tn не
хуже (при
сравнении по среднему квадрату ошибки dn),
а при m =
0 – в четыре раза лучше.
Подавляющее
большинство оценок θn,
используемых в вероятностно-статистических
методах, являются асимптотически
нормальными, т.е. для них справедливы
предельные соотношения:
для
любого х,
где Ф(х) –
функция стандартного нормального
распределения с математическим ожиданием
0 и дисперсией 1. Это означает, что для
больших объемов выборок (практически
– несколько десятков или сотен наблюдений)
распределения оценок полностью
описываются их математическими ожиданиями
и дисперсиями, а качество оценок –
значениями средних квадратов ошибок dn(θn).
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Источник