Статистическая оценка параметров распределений
План лекции:
Актуальность темы
Статистическая функция распределения
Теорема Гливенко-Кантелли
Свойства выборочных характеристик
Свойства выборочных характеристик
Свойства выборочных характеристик
Свойства выборочных характеристик
Методы оценки точечных параметров распределения
Метод моментов для точечной оценки параметров распределения
Пример:
Пример:
Метод максимального правдоподобия (Р. Фишер, 1912 г.)
Метод максимального правдоподобия
Пример:
Распределение хи-квадрат (χ2)
Плотность распределения:
Распределение Стьюдента
Дифференциальная функция распределения Стьюдента:
Распределение Стьюдента
Распределение Фишера (Фишера –Снедекора)
Плотность распределения:
График плотности распределения:
Квантили распределений
Заключение
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА:
БЛАГОДАРЮ ЗА ВНИМАНИЕ

Статистическая оценка параметров распределений

1. Статистическая оценка параметров распределений

Кафедра медицинской и биологической физики
Статистическая оценка
параметров
распределений
Лекция №2
для студентов 2 курса,
обучающихся по специальности 060609 –
Медицинская кибернетика
доц. Шапиро Л.А.
Красноярск, 2015 г.

2. План лекции:

1. Свойства выборочных характеристик.
2. Точечная оценка параметров
распределения. Метод моментов.
3. Метод максимального правдоподобия.
4. Основные статистические
распределения. Распределение 2.
5. Распределение Стьюдента.
6. Распределение Фишера –Снедекора.

3. Актуальность темы

Вычисление статистических оценок
параметров распределений
является одной из наиболее важных
задач математической статистики

4.

Сходимость эмпирических
характеристик к теоретическим
Пусть плотность распределения
элементов выборки является
непрерывной функцией. Если количество
интервалов группировки стремится к
бесконечности таким образом, что
(k/n) 0, то имеет место сходимость по
вероятности гистограммы к плотности в
каждой точке y.

5. Статистическая функция распределения

При увеличении числа опытов n,
согласно теореме Бернулли, при любом
x частота события X x приближается
(сходится по вероятности) к вероятности
этого события. Следовательно, при
увеличении n статистическая функция
распределения F*(x) приближается
(сходится по вероятности) к подлинной
функции распределения F(x) случайной
величины X.

6. Теорема Гливенко-Кантелли

Верен и более общий результат,
показывающий, что сходимость эмпирической
функции распределения к теоретической
имеет равномерный характер
p
Fn ( x) F ( x ) 0 при n
Если F - непрерывна, то скорость сходимости
к нулю имеет порядок
1
n

7. Свойства выборочных характеристик

Пусть есть выборка наблюдений случайной
величины X - х1,…,хn и пусть Θn(х1,…,хn)
есть статистика, оценка неизвестного параметра
Θ, зависящая от наблюдений выборки: Θ
Θn.
(Θn-случайная величина, меняющаяся
от выборки к выборке).
Для правильной аппроксимации параметра
генеральной совокупности Θ выборочная оценка
Θn по правилам математической статистики
должна быть состоятельной, эффективной и
несмещенной.

8. Свойства выборочных характеристик

Оценка Θn(х1,…,хn) называется состоятельной
оценкой параметра Θ, если она сходится по
вероятности к оцениваемому параметру Θ при
n→∞.
lim
n
n
то есть вероятность отклонения оценки от истинного
значения параметра можно сделать сколь угодно
малой, увеличивая объем выборки.
Если 0 – точное значение параметра генеральной
совокупности, α – точечная оценка этого
параметра, то требование состоятельности
оценки математически записывается в виде:
0
n

9. Свойства выборочных характеристик

Оценка Θn называется несмещенной
оценкой параметра Θ, если при любом n:
М(Θn) = Θ или Mα = 0
Это означает, что отклонение Θn от Θ не
содержит систематической ошибки.
В противном случае оценка называется
смещенной.
Величина М(Θn(х1,…,хn) – Θ) называется
смещением оценки Θ.

10.

Эффективной называют
статистическую оценку, которая при
заданном объеме выборки n имеет
наименьшую дисперсию.
Dα → min
т.о. для того, чтобы оценка Θn(х1,…,хn) была
состоятельной оценкой неизвестного
параметра Θ достаточно, чтобы ее
математическое ожидание стремилось к Θ, а
дисперсия стремилось к нулю при n→∞.

11. Свойства выборочных характеристик

Оценка Θn(х1,…,хn) называется
асимптотически несмещенной,
если ее смещение
(МΘn(х1,…,хn) – Θ) →0 при n→∞.
Оценка Θn(х1,…,хn) называется
сходящейся в среднеквадратическом к
оцениваемому параметру Θ,
если М(Θn(х1,…,хn) – Θ)2→0 при n→∞.
(из сходимости в среднеквадратическом следует
сходимость по вероятности).
Несмещенные оценки не всегда дают хорошее приближение для
оцениваемого параметра. Например, наблюдаемая по одной выборке
Θ1 оценка может быть сильно удалено от среднего значения
выборки, а следовательно, и от оцениваемого параметра.

12.

Свойства выборочных моментов
•Выборочное среднее является несмещенной,
сходится в среднеквадратическом (следовательно
является состоятельной) и асимптотически
нормальной оценкой для теоретического среднего
(математического ожидания).
•Выборочные дисперсии σ2 и s2 являются
состоятельными оценками для истинной дисперсии:
Величина σ2 - смещенная, а s2 - несмещенная
оценка дисперсии D(X)

13.

Смещенная выборочная дисперсия (n<30):
Математическое ожидание выборочной
дисперсии не равно оцениваемой генеральной
дисперсии
n 1
M [ Dn ]
n
Dn
n
2
(
x
x
)
i
D( x) 2
i 1
n
Несмещенная (исправленная) оценка дисперсии D(X)
n
n
2
s
n 1
2
n ( xi x )
i 1
( n 1)n
n
2
(x
i 1
i
x)
n 1
2

14.

Выборочные начальные моменты С.В. Х
являются состоятельными и несмещенными
оценками соответствующих начальных
моментов.
Выборочные центральные моменты С.В. Х
являются состоятельными но смещенными
оценками.
(Величина смещения 1/n при n )

15. Методы оценки точечных параметров распределения

Точечная оценка предполагает нахождение
единственной числовой величины, которая и
принимается за значение параметра.
Такую оценку целесообразно определять в тех случаях, когда
объем выборки достаточно велик. Причем не существует
единого понятия о достаточном объеме выборки, его значение
зависит от вида оцениваемого параметра, а предварительно
будем считать достаточной выборку, содержащую не менее чем
10 значений). При малом объеме выборки точечные оценки
могут значительно отличаться от истинных значений
параметров, что делает их непригодными для использования.

16.

Задача точечной оценки параметров в
типовом варианте постановки состоит в
следующем:
Имеется: выборка наблюдений (x1, x2, …, xn)
за случайной величиной Х. Объем выборки n
фиксирован.
Известен вид закона распределения
величины Х, например, в форме плотности
распределения f(x, Θ), где Θ – неизвестный (в
общем случае векторный) параметр
распределения. Параметр Θ является
неслучайной величиной.
Требуется найти оценку Θn параметра Θ
закона распределения.

17.

Существует несколько методов
решения задачи точечной оценки
параметров, наиболее часто
применяются методы моментов и
максимального (наибольшего)
правдоподобия

18. Метод моментов для точечной оценки параметров распределения

Состоит в приравнивании теоретических моментов
рассматриваемого распределения соответствующим
эмпирическим моментам того же порядка (К. Пирсон,
1894 г. )
1. Оценка одного параметра
Пусть задан вид плотности распределения вероятности
f(x, Θ), определяемый одним неизвестным
параметром Θ.
1 M ( x) x
M ( x)
xf ( x; )dx f ( )
-уравнение с одним неизвестным Θ. Решив его,
найдем точечную оценку Θn, которая является
функцией от выборочной средней, следовательно, и
от вариант выборки:
Θn= (х1,…,хn)

19. Пример:

Найти методом моментов по выборке (х1,…,хn)
точечную оценку неизвестного параметра λ
показательного распределения:
f(x)= λe- λx (x 0)
Решение: Приравниваем начальный теоретический
момент 1 порядка эмпирическому начальному
моменту 1 порядка:
1 M ( x ) x
1
Отсюда
1
n
x
Точечная оценка параметра λ показательного
распределения равна величине, обратной выборочной
средней

20.

Пример:
Проведено четыре измерения некоторой
случайной величины (в мм): 3; 4; 5; 8. Найти
методом моментов точечную оценку
неизвестного параметра . Записать функции
f(x) и F(x).
3 4 5 8
X
5
4
Решение:
=1/5=0,2
f(x)= 0,2e- 0,2x F(x)=1- e- 0,2x

21.

2. Оценка двух параметров
Задана функция плотности распределения, определяемая
двумя неизвестными параметрами f(x, Θ1, Θ2).
Необходимо составить два уравнения относительно
этих параметров. Приравняем начальный
теоретический момент 1 порядка эмпирическому
начальному моменту 1 порядка и центральный
теоретический момент 2 порядка центральному
эмпирическому моменту 2 порядка:
1=M(x)
μ2=m2=D(x)
M ( x) x
D ( x ) Dв

22.

M(x) и D(X) – функции от Θ1, Θ2. Поэтому
получили систему с двумя неизвестными.
Решив эту систему получим точечные оценки
Θ1т, Θ2т, являющиеся функциями вариант
выборки:
Θ1n= 1(х1,…,хn)
Θ2n= 2(х1,…,хn)

23. Пример:

Найти методом моментов по выборке (х1,…,хn)
точечную оценку неизвестных параметров a и
нормального распределения: 2
f ( x)
1
2
( x a)
2
e 2
M ( x) x a
2 Dв
Точечные оценки параметров нормального
распределения:
an x , n Dв

24.

Метод моментов позволяет получить
состоятельные оценки, они при довольно
общих условиях распределены
асимптотически нормально. Смещение
удается устранить введением поправок.
Эффективность оценок невысокая, т.е. даже
при больших объемах выборок дисперсия
оценок относительно велика (за
исключением нормального распределения,
для которого метод моментов дает
эффективные оценки).
Метод целесообразно применять для оценки
не более чем четырех параметров, так как
точность выборочных моментов резко падает
с увеличением их порядка.

25.

26. Метод максимального правдоподобия (Р. Фишер, 1912 г.)

Состоит в том, что в качестве «наиболее правдоподобного»
значения параметра берут значение Θ,
максимизирующее вероятность получить при n
опытах данную выборку (х1,…,хn)
Нахождение оценок максимального правдоподобия
включает следующие этапы:
1. построение функции правдоподобия (ее натурального
логарифма);
2. дифференцирование функции по искомым параметрам
и составление системы уравнений;
3. решение системы уравнений для нахождения оценок;
4. определение второй производной функции, проверку
ее знака в точке оптимума первой производной,
нахождение максимума;
5. формирование выводов.

27. Метод максимального правдоподобия

Пусть Х - С.В., которая в результате n испытаний
приняла значения (х1 ,…, хn).
Вид закона распределения Х задан, но неизвестен
параметр Θ, которым определяется этот закон.
Требуется найти его точечную оценку.
Обозначим вероятность того, что в результате
опыта Х примет значение xi (i=1, 2, 3,…,n)
p(xi; Θ).
Функцией правдоподобия ДСВ Х называют
функцию аргумента Θ:
L(х1 ,…, хn ; Θ)= p(x1; Θ) p(x2; Θ) … p(xn; Θ),
где (х1 ,…, хn) - фиксированные числа.

28.

Метод максимального правдоподобия
Функцией правдоподобия НСВ Х называют
совместную плотность вероятности
L(х1, х2 …, хn ; Θ) = f(х1, Θ) f(х2, Θ) … f(хn, Θ)
В качестве точечной оценки параметра Θ
принимают такое его значение Θn, при котором
функция правдоподобия достигает максимума.
Оценку Θn-называют оценкой максимального
правдоподобия.

29.

Функции L и ln L достигают максимума при
одном и том же значении Θ. Удобнее пользоваться
ln L – логарифмической функцией
правдоподобия.
Нахождение максимума функции:
d ln L
d
1.
Найти производную
2.
Приравнять производную к 0, найти корень
полученного уравнения (критическую точку)
3.
d 2 ln L
d 2
Найти вторую производную
. Если вторая
производная при Θ= Θn отрицательна, то Θn –
точка максимума.

30. Пример:

Найти методом наибольшего правдоподобия оценку
параметра λ распределения Пуассона:
Pm ( X xi )
x e
i
xi !
mi-число произведенных испытаний, хi-число
появления события в i-ом опыте (i=1,2,…,n). Опыт
состоит из m испытаний.
Решение: θ= λ. Составим функцию правдоподобия:
L=p(x1; λ) p(x2;;λ) , …, p(xn; λ)=
=
x1
e
x1!
x2
e
x2 !
...
e
xn
xn !
xi e
n
x1! x2!... xn !

31.

Найдем логарифмическую функцию правдоподобия:
Ln L=( xi) lnλ - n λ - ln(x1!x2!...xn!)
Найдем первую производную по λ:
d ln L xi
n
d
Запишем уравнение правдоподобия, приравняв первую
производную 0:
( xi/ λ) - n=0
Найдем критическую точку:

λ = ( xi/n) =
Найдем вторую производную по λ:
xi
d ln L
2
2
d
2

32.

При λ = xв вторая производная
отрицательна, следовательно λ-точка
максимума. В качестве оценки наибольшего
правдоподобия параметра λ распределения
Пуассона нужно принять выборочную
среднюю:
λ*= xв

33.

Достоинства метода:
Оценки наибольшего правдоподобия
состоятельны (м.б. смещенными),
распределены асимптотически нормально
(при больших n приближенно нормальны) и
имеют наименьшую дисперсию. Этот метод
наиболее полно использует данные выборки,
особенно полезен при малых выборках.
Недостаток – сложные вычисления.

34.

Основные статистические
распределения, связанные
с нормальным распределением

35. Распределение хи-квадрат (χ2)

Пусть Хi (i=1,2,…,n)-нормальные
независимые СВ, причем математическое
ожидание каждой из них равно 0, а среднее
квадратическое отклонение равно 1. Тогда
сумма квадратов этих величин:
n
2 X i2
i 1
Распределена по закону хи-квадрат с k=n
степенями свободы. Если эти величины
связаны линейным соотношением,
например: X i nX
то k=n-1

36. Плотность распределения:

0
при
x
0
x
1
2 ( k / 2 ) 1
f ( x) k
e x
при x 0
2 2 ( k / 2)
( x ) t x 1e t dt
где
Эйлера, х = χ2
гамма функция
0
например: Г(n+1)=n!
Распределение «хи-квадрат» определяется одним
параметром - числом степеней свободы k. При
увеличении числа степеней свободы распределение
медленно приближается к нормальному.

37.

Число степеней свободы k определяет
количество независимых слагаемых в
выражении для χ2. Функция плотности при k,
равном одному или двум, – монотонная, а
при k >2 – унимодальная, несимметричная
f( 2)
n=1
n=3
n=10
Плотность распределения хи-квадрат
2

38.

Математическое ожидание и дисперсия
величины χ2 равны соответственно k и 2k.
Распределение хи-квадрат является
частным случаем более общего гамма-
распределения, а величина, равная
корню квадратному из хи-квадрат с
двумя степенями свободы, подчиняется
распределению Рэлея.

39.

- распределение.
2
Уровни значимости
0,05 0,01
df
1
3,84
6,63
2
5,99
9,21
3
7,81 11,34
4
9,49 13,28
5
11,07 15,09
6
12,59 16,81
7
14,07 18,48
8
15,51 20,09
9
16,92 21,67
10
18,31 23,21
11 19,68 24,72
12
21,03 26,22
13
22,36 27,69
0,05
0,01
0,05
df
0,01
df
14
15
16
17
18
19
20
21
22
23
24
25
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
26 38,89 45,64
27
40,11 46,96
28
41,34 48,28
29
42,56 49,59
30
43,77 50,89
40
55,76 63,69
50
67,50 76,15
60
79,08 88,38
70
90,53 100,42
80 101,88 112,33
90 113,14 124,12
100 124,34 135,81

40. Распределение Стьюдента

t-распределение, предложено в 1908 г. английским
статистиком В. Госсетом, публиковавшим научные
труды под псевдонимом Student
Пусть X, X1 , X2 … Xk –нормальные
независимые СВ, причем математическое
ожидание каждой из них равно 0, а среднее
квадратическое отклонение равно 1. Тогда
X
X
величина:
t
1 k 2
Xi
k i 1
k2
k
имеет t-распределение Стьюдента с k степенями
свободы

41. Дифференциальная функция распределения Стьюдента:

k 1
k 1
2
2
t
2
1
f (t )
k
k
k
2
Распределение не зависит от в силу
безразмерности t. Распределение Стьюдента
быстрее, чем χ2 сходится к нормальному.
Величина k характеризует количество
степеней свободы.
Плотность распределения – унимодальная и
симметричная функция, похожая на
нормальное распределение

42. Распределение Стьюдента

f(t)
k=10
k=4
0
Область изменения аргумента t от – до + .
Математическое ожидание и дисперсия равны 0 и k/(k–2)
соответственно, при k>2.
По сравнению с нормальным распределение Стьюдента
более пологое, оно имеет большую дисперсию.

43.

Коэффициент нормированных отклонений
Стьюдента
df/Р
0,95
0,99
0,999
df/Р
0,95
0,99
0,999
1
12,706
63,657
636,619
18
2,103
2,878
3,922
2
4,303
9,925
31,598
19
2,093
2,861
3,883
3
3,182
5,841
12,941
20
2,086
2,845
3,850
4
2,781
4,602
8,610
21
2,080
2,831
3,819
5
2,571
4,032
6,859
22
2,074
2,819
3,792
6
2,447
3,707
5,959
23
2,069
2,807
3,767
7
2,365
3,499
5,405
24
2,064
2,797
3,745
8
2,306
3,355
5,041
25
2,060
2,787
3,725
9
2,262
3,250
4,781
26
2,056
2,779
3,707
10
2,228
3,169
4,578
27
2,052
2,771
3,690
11
2,201
3,106
4,487
28
2,048
2,769
3,674
12
2,179
3,055
4,318
29
2,045
2,756
3,659
13
2,160
3,012
4,221
30
2,042
2,750
3,646
14
2,145
2,977
4,140
40
2,021
2,704
3,551

44. Распределение Фишера (Фишера –Снедекора)

Распределение Фишера (Фишера –
Снедекора)
Пусть X1 , X2 … Xm и Y1 , Y2 … Yn –одинаково
распределенные по нормальному закону взаимно
независимые СВ, для которых математическое
ожидание равно 0, а среднее квадратическое
отклонение равно 1. Тогда величина:
m2
F ( m, n ) m2
n
n
имеет распределение Фишера (F-распределение) с k1=m
- числом степеней свободы числителя и k2=n числом степеней свободы знаменателя.

45. Плотность распределения:

Область изменения аргумента х от 0 до .
k1
f ( x)
k2
k1
2
k1 k 2
( k1 k 2 ) / 2
2 x ( k1 2 ) / 2 1 k1 x
k1 / 2 k 2 / 2
k
2
В этом выражении k1 обозначает число
степеней свободы величины Х с большей
дисперсией, k2 – число степеней свободы
величины Y с меньшей дисперсией.
Плотность распределения – унимодальная,
несимметричная.

46. График плотности распределения:

f(x)
k2=10
k1=20
k2=25
x
Математическое ожидание случайной величины х
равно k2/(k2–2)
При k1 > 30 и k2 > 30 величина х распределена
приближенно нормально

47.

Значения F при уровне значимости 0,05 (df1-число степеней
свободы для большей вариансы, которая берется числителем)
df1
1
2
3
4
5
6
7
8
1
161
200
216
225
230
234
237
239
2
18,51
19,00
19,16
19,25
19,30
19,33
19,35
19,37
3
10,13
9,55
9,28
9,12
9,01
8,94
8,89
8,85
4
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
5
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
6
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
7
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
8
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
9
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
12
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
13
4,67
3,80
3,41
3,18
3,02
2,92
2,83
2,77
14
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
15
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
df2

48. Квантили распределений

Пусть функция распределения F(x) некоторой СВ
непрерывна и строго возрастает (от 0 до 1) на
некотором промежутке. Тогда для любого числа
p (0,1) существует
единственное
решение х
уравнения F(x)=p,
которое называется
квантилью уровня
р распределения
F(x). Обозначается хр.

49.

FРАСПОБР(вероятность;степени_свободы1;степени_свобо
ды2)
Вероятность — это вероятность, связанная с Fраспределением.
Степени_свободы1 — это числитель степеней свободы.
Степени_свободы2 — это знаменатель степеней свободы.
СТЬЮДРАСПОБР(вероятность;степени_свободы)
Вероятность — вероятность, соответствующая двустороннему
распределению Стьюдента.
Степени_свободы — число степеней свободы,
характеризующее распределение.
ХИ2ОБР(вероятность;степени_свободы)
Вероятность — это вероятность, связанная с распределением
2 (хи-квадрат).
Степени свободы — это число степеней свободы.

50. Заключение

Нами рассмотрены:
1. Статистические оценки
параметров распределения;
2. Свойства выборочных
характеристик;
3. Методы нахождения точечных
оценок параметров
распределения.

51. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА:

Основная литература:
Попов А.М. Теория вероятней и
математическая статистика /А.М. Попов, В.Н.
Сотников. – М.: ЮРАЙТ, 2011. – 440 с.
Гмурман В. Е. Теория вероятностей и
математическая статистика: учебное пособие /
В.Е. Гмурман. – М. : Высш. шк., 2011. – 479с.
Балдин К. В. Основы теории вероятностей и
математической статистики : учебник / К. В.
Балдин. – М. : Флинта, 2010. – 488с.
Учебно–методические пособия:
Шапиро Л.А., Шилина Н.Г. Руководство к
практическим занятиям по медицинской и
биологической статистике Красноярск: ООО
«Поликом». – 2003.

52. БЛАГОДАРЮ ЗА ВНИМАНИЕ

English     Русский Rules