Similar presentations:
Математическая статистика 2
1.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА 2Основные темы
• Проверка статистических гипотез
•Критерии согласия:
• Критерий Пирсона (хи-квадрат),
• Критерий Колмогорова.
•Параметрические критерии:
•Критерий Фишера (сравнение дисперсий);
• Сравнение математических ожиданий
• при больших и малых объёмах выборок.
• Ранговые критерии
• Однофакторный дисперсионный анализ
• Элементы теории корреляции
2.
Проверка статистических гипотез§ Основные сведения
Статистической гипотезой называется любое
предположение о виде или параметрах неизвестного
закона распределения.
Проверяемую гипотезу называют нулевой (основной),
обозначают её Н0.
Конкурирующей (альтернативной) называют гипотезу, которая противоречит нулевой, обозначают её Н1.
Задача: проверить, верна ли нулевая гипотеза Н0 при
альтернативной гипотезе Н1?
3.
Гипотеза Н0Принимается
Отвергается
Верна
Правильное решение
Ошибка 1-го рода
Неверна
Ошибка 2-го рода
Правильное решение
Обозначим через – вероятность допустить ошибку
1-го рода, через – вероятность ошибки 2-го рода.
Вероятность допустить ошибку 1-го рода, то есть
отвергнуть верную гипотезу Н0, называют уровнем
значимости.
4.
1. Задаём уровень значимости .2. Строим случайную величину K, называемую статистическим критерием, для которой выполняются следующие условия:
1) она является функцией от выборочных данных:
K=K(x1,x2,…,xn);
2) её значения позволяют судить о «расхождении
выборки с гипотезой Н0», то есть о том, надо принимать или отвергать гипотезу H0;
3) распределение этой величины известно.
5.
3. Вычисляем значения критерия, подставляя в неговыборочные данные. Это число называют наблюдаемым значением критерия и обозначают Kнабл.
4. Находим критическую область данного критерия,
то есть совокупность значений критерия,
при которых нулевую гипотезу отвергают.
Все остальные значения критерия образуют область,
называемую областью принятия нулевой
гипотезы.
5. Если наблюдаемое значение критерия попадает в
критическую область, то нулевую гипотезу
отвергаем, в противном случае нулевую гипотезу
принимаем.
6.
Точки, которые отделяют критическую область отобласти принятия гипотезы, называют критическими
точками.
Чаще всего встречаются следующие виды критических
областей:
а) левосторонняя
K < kкр
kкр
б) правосторонняя
K > kкр
kкр
в) двусторонняя
K < kкр1
kкр1
kкр2
K > kкр2
7.
Критическую область W целесообразно находитьсогласно следующим требованиям:
1. p( K W )
2. вероятность ошибки 2-го рода – минимальная,
то есть вероятность (1 ) – максимальная
Вероятность (1 ) не допустить ошибку 2-го рода,
то есть отвергнуть гипотезу H0, когда она неверна,
называется мощностью критерия.
Мощность критерия – максимальная.
8.
• При разработке статистическогокритерия невозможно одновременно
минимизировать обе ошибки. Поэтому
поступают следующим образом: при
заданном числе испытаний n
устанавливается верхняя граница для
ошибки первого рода.
• Выбирается тот критерий, у которого
наименьшая ошибка второго рода.
9.
10. Пять шагов проверки гипотезы
1. Сформулировать нулевую H0 и альтернативную H1гипотезы.
2. Выбрать статистику критерия T(X) и уяснить её закон
распределения.
.
3. Задать уровень значимости критерия По таблицам
квантилей распределения статистики найти критические
точки и указать критическую область.
4. Подсчитать наблюдаемое значение статистики
критерия и проверить условие его попадания в
критическую область.
5. Сделать вывод о принятии нулевой или альтернативной
гипотезы.
11.
Критерии, с помощью которых проверяется гипотезао теоретическом законе распределения, называются
критериями согласия.
H0: генеральная совокупность имеет некоторое
определённое распределение
Параметрические критерии тестируют гипотезы
о параметрах некоторого распределения :
1. Генеральная совокупность имеет биномиальное
распределение с параметрами m = 10 и p = 0.4.
2. Генеральная совокупность распределена нормально
с математическим ожиданием, равным 5 и дисперсией,
равной 4.
12.
§ Критерий согласия КолмогороваНулевая гипотеза: исследуемая случайная величина
имеет заданный закон распределения.
F(x) – теоретическая функция распределения
Fn(x) – эмпирическая функция распределения
Обозначим D max Fn ( x) F ( x)
– статистика критерия Колмогорова
Критерий: D n
Критическая область W – правосторонняя:
кр
Из требования для критической области:
p ( W ) p ( кр ) p( D n кр )
13.
10.8
0.6
i
N
c no rm Xi 0.4
( )
0.2
0
Xi
13
14.
Можно доказать, что при np( D n кр ) p( кр ) 1
1
( 1)
2
2
2
k
k
кр
e
( 1)
2
2
2
k
k
кр
e
k
кр
k
0.4
0.3
0.2
0.1 0.05 0.025 0.01 0.005 0.001 0.0005
кр 0.89 0.97 1.07 1.22 1.36 1.48 1.63 1.73
1.95
2.03
15.
1516.
§ Критерий согласия Пирсона (хи-квадрат) 2Найдём теоретические частоты вариант.
1. Распределение дискретное p(x).
xi
x1
x2
…
xl-1
xl
pi p1=p(x1) p2=p(x2) … pl-1=p(xl-1) pl=1-p1-p2-…-pl-1
Теоретическая частота появления варианты xi – это npi.
2. Распределение непрерывное F(x).
xi
(x1, x2)
(x2, x3)
…
(xl-1, xl)
(xl, xl+1)
pi p1=p(X< x2) p2=p(x2<X<x3) … pl-1=p(xl-1<X<xl) pl=1-p1-p2…-pl-1
=F(x2)
=F(x3)- F(x2)
=F(xl)- F(xl-1)
Теоретическая частота попадания в интервал (xi, xi+1) –
это npi.
17.
Критерий:2
(
n
np
)
i
2 i
npi
i 1
l
ni – эмпирические частоты
npi – теоретические частоты
При n случайная величина 2 имеет распределение Пирсона с k степенями свободы, где
k = l – r –1,
l – число вариант (интервалов),
r – число параметров предполагаемого
распределения, оцениваемых по выборке.
18.
Критическая область W – правосторонняя:2
кр
Из требования для критической области:
p( 2 W )
2
p( 2 кр
)
2
2
p ( 2 кр
) 1 p( 2 кр
) 1
2
2
p ( 2 кр
) F ( кр
), F(x) – функция распределения 2
2
F ( кр
) 1
2
кр
F 1 (1 )
F(x) – функция распределения Пирсона с k= l – r –1
степенями свободы, l – число вариант (интервалов),
r – число параметров, оцениваемых по выборке.
19.
Для нахождения критической области необходимо позаданной вероятности ошибки первого рода (уровню
значимости критерия) найти квантиль хи-квадрат
распределения на уровне 1 - .
1
1-
Область
принятия
гипотезы
C
Критическая область
20.
Алгоритм применения критерия согласия ПирсонаПодсчитываем значение статистики критерия и сравниваем
его с критической точкой. Если статистика критерия
попадает в критическую область,
2
то нулевая гипотеза:
C
исследуемая случайная величина
имеет заданный закон распределения
отвергается.
В противном случае она принимается на уровне значимости
Критерий легко приспосабливается и для непрерывных
распределений путем их дискретизации.
Проверку гипотезы удобно совмещать с построением
гистограмм.
21.
§ Критерий ФишераДве генеральные совокупности X и Y распределены
нормально.
Проверить гипотезу: H 0 : D( X ) D(Y )
Обозначим nX – объём выборки из совокупности X,
nY – объём выборки из совокупности Y,
s2X и s2Y – исправленные выборочные дисперсии.
Критерий:
F
s 2X
sY2
F имеет распределение Фишера с (nX –1) и (nY –1)
степенями свободы
Критическая область строится в зависимости от вида
конкурирующей гипотезы.
22.
1. H1 : D( X ) D(Y )Критическая область W – правосторонняя:
0
fпр,кр
Так как s2X >0 и s2Y >0, то F >0 положительная часть
Из требования 1 для критической области:
p( F W ) p( F f пр ,кр )
p( F f пр,кр ) 1 p( F f пр,кр ) 1
p( F f пр,кр ) F ( f пр ,кр ), F(x) – функция распределения F
F ( f пр,кр ) 1
f пр ,кр F 1 (1 )
F(x) – функция распределения Фишера с (nX –1) и
(nY –1) степенями свободы
23.
2. H1 : D( X ) D(Y )Обозначим
1 sY2
F 2
F sX
H1 : D(Y ) D( X )
, F’ имеет распределение
Фишера с (nY –1) и (nX –1)
степенями свободы
предыдущий случай:
,кр F 1 (1 ), где F(x) –
f пр
0
функция распределения F’
f’пр,кр
,кр )
p( F f пр
,кр ) p(1 / F f пр
,кр ) p( F 1 / f пр
,кр )
p( F f пр
,кр )
p( F 1 / f пр
24.
,кр )p( F 1 / f пр
Обозначим
,кр 1 / f пр
,кр , тогда
f лев
p( F f лев ,кр )
Таким образом, критическая область для критерия F
имеет вид:
0
,кр
f лев
fлев,кр
1
1
, где F(x) – функция
1
,кр F (1 )
f пр
распределения Фишера
с (nY –1) и (nX –1)
степенями свободы
25.
3. H1 : D( X ) D(Y )Критическая область W – двусторонняя:
0
f1,кр
f2,кр
Пусть p( F f1,кр ) p( F f 2,кр ) / 2
Аналогично пунктам 1 и 2 получаем:
f 2,кр F1 1 (1 / 2)
где F1(x) – функция распределения Фишера с (nX –1) и
(nY –1) степенями свободы
f1,кр
1
1
1
f 2 ,кр F2 (1 / 2)
где F2(x) – функция распределения Фишера с (nY –1)
и (nX –1) степенями свободы
26.
§ Критерий Стьюдента (t-критерий)Генеральная совокупность распределена нормально.
Проверить гипотезу: H 0 : a a0
a0 – некоторое число
Критерий:
xв a
T
n
s
Т имеет распределение Стьюдента с (n-1) степенями
свободы
Критическая область строится в зависимости от вида
конкурирующей гипотезы.
27.
1. H1 : a a0Критическая область W – правосторонняя:
tпр,кр
Из требования 1 для критической области:
p(T tпр,кр )
p(T W )
p(T tпр,кр ) 1 p(T tпр,кр ) 1
p(T tпр,кр ) F (tпр ,кр ) , F(x) – функция распределения T
F (tпр,кр ) 1
tпр, кр F 1 (1 )
F(x) – функция распределения Стьюдента с (n-1)
степенями свободы
28.
2. H1 : a a0Критическая область W – левосторонняя:
tлев,кр
Из требования 1 для критической области:
p(T t лев ,кр )
p(T W )
p(T t лев ,кр ) F (t лев ,кр ) , F(x) – функция
распределения T
1
t
F
( ) , F(x) – функция распределения
лев , кр
Стьюдента с (n-1) степенями
свободы
29.
Плотность распределения Стьюдента – чётная функцияf(x)
p(T<-t) -t
p(T t ) p(T t )
t p(T>t)
Критическая точка tпр,кр находится из требования:
p(T tпр,кр )
p(T tпр,кр )
–tпр,кр является критической точкой для левосторонней
области:
t лев , кр tпр , кр
30.
3. H1 : a a0Критическая область W – двусторонняя:
t1,кр
Пусть
t2,кр
p(T t1, кр ) p(T t2, кр ) / 2
В силу чётности плотности распределения Стьюдента:
t1, кр t2, кр
Аналогично пунктам 1 и 2 получаем:
t2, кр F 1 (1 / 2), t1, кр t2, кр
t1, кр
или
F 1 ( / 2),
t2, кр t1, кр
31.
2. H1 : D( X ) D(Y )Обозначим
1 sY2
F 2
F sX
H1 : D(Y ) D( X )
, F’ имеет распределение
Фишера с (nY –1) и (nX –1)
степенями свободы
предыдущий случай:
,кр F 1 (1 ), где F(x) –
f пр
0
функция распределения F’
f’пр,кр
,кр )
p( F f пр
,кр ) p(1 / F f пр
,кр ) p( F 1 / f пр
,кр )
p( F f пр
,кр )
p( F 1 / f пр
32.
Однофакторный дисперсионный анализПример: выявить зависимость объёма выполненных
на стройке работ за смену от работающей бригады.
Номер бригады
Номер наблюдения
1
2
3
4
5
6
Средний объём
1
2
3
4
20
25
22
24
30
23
24
27
31
22
32
18
19
29
26
28
28
24
23
23
21
20
26
25
23
33.
X – случайная величинаF – фактор, воздействующий на случайную величину X
F1, F2, …, Fp – уровни фактора
a1, a2, …, ap – математические ожидания на уровнях
F1, F2, …, Fp соответственно
H0: a1 = a2 = … = ap
Дисперсионным анализом называется статистический
метод, предназначенный для выявления влияния
отдельных факторов на результат эксперимента, а
также для последующего планирования эксперимента.
34.
Критерий БартлеттаH0: D1(X) = D2(X) = … = Dp(X)
гипотеза о равенстве дисперсий на каждом уровне
q1, q2, …, qp – количество наблюдений на уровнях
F1, F2, …, Fp соответственно
s12, s22, …, sp2 – исправленные выборочные дисперсии
на уровнях F1, F2, …, Fp соответственно
p
s02
( qi 1) si2
i 1
p
( qi 1)
i 1
,
p
1
1
1
Q 1
p
3( p 1) i 1 qi 1
(
q
1
)
i
i 1
1
35.
Критерий:2
s
Q ( qi 1) ln 02
si
i 1
p
Если q1, q2, …, qp > 3, то критерий имеет распределение,
близкое к распределению Пирсона с (p-1) степенями
свободы.
Критическая область – правосторонняя.
p ( W ) p( кр )
F ( кр ) 1
p( кр ) 1
p( кр ) F ( кр )
кр F 1 (1 ) ,
где F(x) – функция распределения
Пирсона с (p–1) степенями свободы.
36.
Уровень фактора FНомер наблюдения
1
F1
F2
…
Fp
x11
x12
…
x1p
2
x21
x22
…
x2p
…
Число наблюдений
q1
q2
…
qp
Среднее значение
y1
y2
…
yp
H0: a1 = a2 = … = ap
Объём выборки: n = q1+ q2+…+ qp
37.
Уровень фактора FНомер наблюдения
1
F1
F2
…
Fp
x11
x12
…
x1p
2
x21
x22
…
x2p
…
Число наблюдений
q1
q2
…
qp
Среднее значение
y1
y2
…
yp
1-ая группа – уровень F1: x11, x21, … , xq11
2-ая группа – уровень F2: x21, x22, … , xq 2
2
…
p-ая группа – уровень Fp: x1p, x2p, … , xq p p
Dв= Dмежгр+Dвнгр
38.
1-ая группа – уровень F1: x11, x21, … , xq112-ая группа – уровень F2: x21, x22, … , xq 2
2
…
p-ая группа – уровень Fp: x1p, x2p, … , xq p p
p
1.
Dмежгр=
2
q
(
y
x
)
i i в
i 1
n
Факторная сумма:
p
Sфакт =
2
q
(
y
x
)
i i в
i 1
p
2.
Dвнгр=
qi Di г р
i 1
n
, где Diгр – дисперсия i–той группы
39.
i-тая группа: x1i, x2i, … , x qii , групповая средняя: yiqi
2
(
x
y
)
ji i
Diгр=
qi
qi
( x y )2 / q
q
i ji i i
i 1 j 1
n
p
p
Dвнгр=
j 1
qi Di г р
i 1
n
p qi
p qi
2
(
x
y
)
ji i
i 1 j 1
Остаточная сумма: Sост = ( x ji yi ) 2
i 1 j 1
n
40.
Факторная дисперсия:Остаточная дисперсия:
2
sфакт
2
sост
Sфакт
p 1
Sост
n p
2
D( x ) sост
– всегда
2
D( x ) sфакт
– если несущественно влияние фактора
H0: a1 = a2 = … = ap
2
2
H 0 : Sост
S факт
41.
22
H 0 : Sост
S факт
Критерий: F
2
sфакт
2
sост
имеет распределение Фишера с
(p–1) и (n–p) степенями свободы
2
2
H1 : S факт
Sост
Критическая область W – правосторонняя:
0
fпр,кр
Из требования 1 для критической области:
p( F W ) p( F f пр ,кр )
f пр ,кр F 1 (1 )
F(x) – функция распределения Фишера с (p–1) и (n –p)
степенями свободы
42.
Элементы теории корреляцииЗависимость величины Y от X называется функциональной, если каждому значению величины X соответствует единственное значение величины Y.
Зависимость величины Y от X называется статистической (вероятностной, стохастической),
если каждому значению величины X соответствует не
одно, а множество значений величины Y, причём
сказать заранее, какое именно значение примет
величина Y невозможно.
43.
Среднее значение, которое принимает величина Y приX=x, называется математическим ожиданием случайной величины Y, вычисленным при условии, что X=x,
или условным математическим ожиданием:
М(Y|X=x)
Если при изменении x условные математические
ожидания М(Y|X=x) изменяются, то говорят, что имеет
место корреляционная зависимость величины Y от X.
При этом функцию f (x)=М(Y|X=x) называют функцией
регрессии.
f (x)=М(Y|X=x) – ?
44.
f (x)=М(Y|X=x) – ?Условным средним y x называют среднее арифметическое наблюдавшихся значений Y, соответствующих
X=x.
Условное среднее является оценкой условного математического ожидания: М(Y|X=x) y x
Каждому x соответствует своё значение y x , следовательно, y x – есть функция от x:
y x f * ( x)
это уравнение называется выборочным уравнением
регрессии, а функция f*(x) – выборочной функцией
регрессии.
f ( x) f * ( x)
45.
f (x)=М(Y|X=x) – ?Если функция регрессии – линейная:
f (x) = М(Y|X=x) = ax+b,
то выборочное уравнение регрессии имеет вид:
n xy xy nx y
Y
x, y
– выборочy x y rв
( x x ) , где rв
X
n X Y
ный коэффициент корреляции
x, y – выборочные средние
X , Y – выборочные средние квадратические отклонения
nxy – частота пары вариант (x, y)
46.
Корреляционная таблицаX
10
20
30
40
nY
0.4
5
–
7
14
26
0.6
–
2
6
4
12
0.8
3
19
–
–
22
nX
8
21
13
18
n=60
Y