5.22M
Category: mathematicsmathematics

Анализ данных. Лекция 1. Основные понятия и определения теории вероятностей

1.

Анализ данных

2.

Анализ данных
Лекция 1
Основные понятия и определения теории
вероятностей

3.

Основные понятия и определения
Испытание.
Под испытанием
или
опытом
понимается
осуществление определенного комплекса действий или
условий.
Проведение этого испытания в каких-либо других
условиях считается уже другим опытом.

4.

Основные понятия и определения
Событие.
Каждое испытание заканчивается некоторым
результатом. Такие пезультаты будем называть
исходами или событиями.
Таким образом,
под событием понимается
явление, которое наступает в результате данного
испытания.

5.

Простейшие модели теории вероятностей
Первая модель: «Монета»
Подбрасываем монету один раз.
Решка
Орел
или

6.

Простейшие модели теории вероятностей
Вторая модель: «Кубик»
Подбрасываем один раз игральную кость.
События:
«нечетное»
1
3
«четное»
5
2
3
4
6
«составное»
«простое»
1
2
5
4
6

7.

Классификация событий
Достоверным
называют
обязательно произойдет
в
(Обозначается ).
событие,
которое
данном испытании.
Невозможным
называют
заведомо не произойдет в
(Обозначается ).
событие,
которое
данном испытании.
Случайным или возможным называют событие,
которое в данном испытании может произойти, либо не
произойти.
Случайные события обозначаются
латинскими буквами A, B, C, …
прописными

8.

Виды случайных событий
Если при каждом испытании, при котором
происходит событие А, происходит и событие В, то
говорят, что А влечет за собой событие В (входит в В)
или В включает событие А и обозначают А В .
Диаграмма Венна
B
A

9.

Виды случайных событий
Пример. Событие А – выпадение 3, В – выпадение
нечетного числа, то А В
А = 3 ,
В = 1, 3, 5 .
Так как 3 1, 3, 5 А В.

10.

Виды случайных событий
Определение. Если одновременно А В и В
А, то в этом случае события А и В называются
равносильными.
Записывают А=В
Пример.
Монета: Выпал орел
Не выпала решка
=
Кубик:
Выпала «6»
=
Выпало более 5

11.

Виды случайных событий
Определение. Собы. тия А и В называются
несовместными (несовместимыми), если в
результате данного испытания появление
одного из них исключает появление другого.
В
А
Пример. Студент сдает экзамен по математике. В
этом испытании можно выделить следующие события:
A – студент сдал экзамен на «отлично»;
B – студент сдал экзамен на «хорошо»;
C – студент сдал экзамен на «удовлетворительно»;
D – студент сдал экзамен на «неудов.».
Очевидно, что все события несовместны, так как на
экзамене можно получить только одну оценку.

12.

Виды случайных событий
Определение. События А и В называются
совместными, если
в
результате
данного
испытания появление одного из них не исключает
появление другого.
А
В
Пример. Студент сдает экзамен по математике и
информатике. В этом испытании можно рассмотреть
следующие события:
A – студент сдал экзамен по математике;
B – студент сдал экзамен по информатике.
Очевидно, что эти события будут совместными, так
как студент может сдать оба экзамена.

13.

Виды случайных событий
Определение.
Несколько
событий
называются единственно возможными, если
в результате испытания одно из них
обязательно должно произойти.
Пример. В примере со студентом события A, B, C и
D - единственно возможные.

14.

Виды случайных событий
Определение.
События
называются
равновозможными, если есть основания считать,
что ни одно из этих событий не является более
возможным, чем другие.
орел
1
2
решка
3
4
5
6

15.

Виды случайных событий
Определение. Совокупность единственно
возможных несовместных
событий данного
испытания называют полной группой.
орел
решка
Полная группа
четное
нечетное
Полная группа
четное
простое
совместны

16.

Виды случайных событий
Определение.
Два события называются
противополож ными, если они составляют
полную группу событий.
Обозначение:
А
AиA
A

17.

Виды случайных событий
Монета:
Орел
Кубик:
нечетное
2
Ω
Решка
четное
не выпала «2»

18.

Операции над событиями.
1. Сумма событий.
Определение. Суммой (или объединением ) двух
событий A и B называется событие C, которое состоит в
том, что в результате опыта произошло хотя бы одно из
событий: либо A, либо B, либо и то и другое.
Обозначение: C A B
или
В
А
C A B

19.

Операции над событиями.
1. Сумма событий.
Пример. Два студента сдают экзамен. Пусть
событие А – первый студент сдал экзамен, B – второй
студент сдал экзамен.
Сумма событий – хотя бы один студент сдал экзамен
Пример. Из колоды карт извлекают одну карту.
Пусть событие А – извлечена «дама», B – извлечена
карта пиковой масти.
Сумма событий – извлеченная карта будет либо
дамой, либо картой пиковой масти, либо дамой
пиковой масти

20.

Свойства операции объединения.
1.Если одно событие A содержится в другом событии B,
то их объединение равно большему событию B.
A B B, если A B.
2.Достоверное событие, объединенное с любым
возможным событием, – это достоверное событие.
A , если A возможное событие.

21.

Свойства операции объединения
3.Объединение противоположных событий – это
достоверное событие.
A A .
4.Объединение события A с самим собой равно этому же
событию A.
A A A.

22.

2. Произведение событий
Пересечением
Определение.
(или
событий A и B называется
произведением ) двух
событие C, которое состоит в том, что в результате
испытания наступает каждое из событий: и A, и B.
Обозначение:
C A B
В
А

23.

2. Произведение событий
Пример. Два студента сдают экзамен. Пусть
событие А – первый студент сдал экзамен, B – второй
студент сдал экзамен.
Произведение событий – оба студента сдали экзамен
Пример. Из колоды карт извлекают одну карту.
Пусть событие А – извлечена «дама», B – извлечена
карта пиковой масти.
Произведение событий – извлеченная карта будет
дамой пиковой масти.

24.

Свойства операции пересечения
1.Если одно событие A содержится в другом событии B,
то их пересечение равно меньшему событию A.
A B A, если A B.
2.Пересечение несовместных событий – это невозможное
событие или
A B 0 , если A и B несовместны.

25.

Свойства операции пересечения
3.Пересечение
противоположных
невозможное событие или
событий

это
A A 0 .
4.Пересечение
событию A.
события A с самим собой равно этому же
A A A.

26.

Свойства операции пересечения
5. Пересечение двух событий A и B содержится в их
объединении.
( A B) ( A B).

27.

Пространство элементарных исходов
Определение. Полную группу событий, в которой
ни одно из событий не может быть представлено как
объединение более простых событий, будем называть
пространством элементарных исходов.
Определение. Элементы пространства элементарных
исходов называются элементарными событиями
(элементарными исходами).
Обозначения: Ω ─ пространство элементарных исходов,
1 , 2 ,... ─ элементарные исходы.
Монета:
Орел
Кубик:
1
Решка
2
3
4
5
6

28.

Пространство элементарных исходов.
Свойства элементарных исходов.
1.
Элементарные
возможными.
исходы
являются
2.
Элементарные
несовместными.
исходы
являются
3.
Пространство
элементарных исходов в
каждом испытании единственное.
4.
Пространство элементарных исходов может
быть как конечным, так и бесконечным.

29.

Пространство элементарных исходов.
Определение. Случайное событие называется
сложным , если оно является объединением
нескольких элементарных исходов.
Кубик:
четное
=
2
+ 4 + 6

30.

Статистическое и классическое
определение вероятности события
Определение. Числовая характеристика,
показывающая
степень
объективной
возможности появления события называется
вероятностью данного события.
Вероятность
– это
наступления события.
мера
возможности

31.

Классическое определение вероятности
Классическое
определение
вероятности
дает
возможность теоретического вычисления вероятности без
проведения эксперимента.
Пусть рассматриваемый эксперимент может иметь
конечное число (N ) равновозможных исходов, которые
составляют полную группу.
При этом в NA исходах (NA N) может наступить
интересующее нас событие A (благоприятные событию А
исходы).
Вероятность равна отношению числа благоприятных
исходов к общему числу всех равновозможных исходов, т.е.
NA
P A
N

32.

Классическое определение
вероятности
Теорема. Вероятность сложного события равна
сумме вероятностей тех элементарных исходов, из
объединения которых оно состоит.
Кубик:
1
простое
2
3
5
P 1 P 2 P 3 P 5
P простое
1
6
1
6
1
6
1
6
1
6
4
6
2
3

33.

Свойства вероятностей
1. Вероятность любого события неотрицательна и
не превосходит 1, т.е.:
0 P A 1
Доказательство.
Очевидно, что:
N 0,
0 N A N.
Разделим неравенство на N:
следовательно,
0 P A 1.
0 NA
N
,
N
N
N

34.

Свойства вероятностей
2. Вероятность достоверного события равна 1.
P 1
Доказательство. N A N,
P( )
NA
N
N
1.
N
3. Вероятность невозможного события равна 0.
P 0
Доказательство. NA 0,
NA 0
P( ) 0.
N N

35.

Свойства вероятностей
4. Сумма вероятностей событий, составляющих полную
группу, равна 1, т.е.:
n
P A 1.
i
i 1
Следствие 1. Сумма вероятностей противоположных
событий равна 1 , т.е.:
P A P A 1
Следствие 2. Вероятность противоположного события
определяется соотношением:
P A 1 P A

36.

Статистическое определение
вероятности
Пусть произведена серия из N испытаний.
Предполагаем, что в NA испытаниях наступило
событие А.
Определение. Отношение числа появлений
события A к общему числу испытаний называется
относительной частотой или частостью события.
NA
w A
.
N

37.

Статистическое определение
вероятности
Определение. Вероятность события A равна
пределу частости появления события A при
неограниченном увеличении числа испытаний, т.е.:
P A lim w(A).
N

38.

Статистическое определение вероятности.
Условия применимости
1.Рассматриваемые события должны быть исходами
только
тех
испытаний,
которые
могут
быть
воспроизведены неограниченное число раз при одном
и том же комплексе условий.
2.События
должны
обладать
так
называемой
статистической устойчивостью, или устойчивостью
относительных частот.
3.Число испытаний, в результате которых появляется
событие А должно быть достаточно велико.
P( A) w( A)

39.

Геометрическое определение вероятности
Пусть фигура g составляет часть фигуры G.
На фигуру G наудачу бросается точка.
Вероятность попадания брошенной точки на фигуру g
будет равна отношению меры (площади) фигуры g к мере
(площади) фигуры G.
g
G
Sg
P A .
SG

40.

Геометрическое определение
вероятности
равна
Определение. Вероятность события A
отношению меры благоприятных исходов к мере общего
числа исходов.
mes A
P A
.
mes

41.

Геометрическое определение
вероятности
Пример. В квадрат со стороной равной a вписан круг.
Найти вероятность того, что точка, брошенная в квадрат,
попадет в круг
Площадь квадрата равна:
SG a 2
Площадь круга, вписанного в
квадрат, равна:
Sg R
2
Вероятность будет равна:
a2
4
P A
2
a
/4
Sg
SG
a
2
4
.

42.

Спасибо за внимание

43.

Анализ данных
Автор:
доцент департамента
«Анализа данных, принятия решений и финансовых технологий»
к.ф.-м.н.
Потемкин Александр Владимирович

44.

Анализ данных
Лекция 2
Основные теоремы теории
вероятностей

45.

Теорема сложения вероятностей
Для любых двух несовместных событий A и B
вероятность суммы определяется аксиоматически
как сумма вероятностей этих событий, то есть:
P A B P A P B .
Для совместных событий A и B вероятность
суммы определяется на основании следующей
теоремы.
Теорема. Для любых двух событий A и B
вероятность наступления хотя бы одного из них
равна сумме их вероятностей без вероятности их
совместного наступления.
P A B P A P B P AB

46.

47.

48.

11/20 = 0,55

49.

Теорема сложения вероятностей
Следствие. Вероятность суммы трех событий
определяется соотношением:
P A B C P A P B P C
P AB P AC P BC P ABC .

50.

Условная вероятность события
Определение.
Вероятность
события
В,
вычисленная в предположении, что событие А уже
наступило, называется условной вероятностью
события В.
Условная
соотношением:
вероятность
определяется
P AB
, P A 0.
PA B P B A
P A

51.

Условная вероятность
Свойства условных вероятностей
1) P B| P B .
2 ) Если A B, то P B| A 1.
3 ) P | A 0, если P A 0.

52.

Теорема умножения вероятностей
Теорема. Вероятность совместного появления
двух событий равна произведению вероятности одного
из них на условную вероятность другого, вычисленную
в предположении, что первое событие уже наступило:
P( AB) P( A) P(B A)

53.

Теорема умножения вероятностей
Следствие. Вероятность произведения нескольких
событий равна произведению вероятности одного из
этих событий на условные вероятности других; при
этом условная вероятность каждого последующего
события вычисляется в предположении, что все
предыдущие события произошли:
Например:
P( ABC) P( A) PA (B) PAB (C).

54.

Независимые события
Определение. События A и B называются
независимыми, если вероятность появления одного
из них не меняется при наступлении другого, т.е.
P A | B P A .
В противном случае события A и B называются
зависимыми.

55.

Независимые события.
Теорема умножения вероятностей для
независимых событий
Терема. Вероятность совместного наступления
двух независимых событий A и B равна произведению
их вероятностей, т.е.
P AB P A P(B).

56.

Свойства независимых событий
1. Если события А и В имеют ненулевые вероятности, то
если событие A не зависит от события B, то и событие
B не зависит от события A.
Доказательство. Пусть
P A | B P A ,
P AB
P AB P A P B .
P A
P B
P AB P A P B
P B .
Рассмотрим P B | A
P A
P A
тогда

57.

Свойства независимых событий
2. Если события A и B несовместны и их вероятности
отличны от нуля, то они зависимы.
Доказательство. P A 0 и P B 0.
События A и B несовместны, т.е.
Рассмотрим
P A| B
P AB 0.
P AB 0
P A ,
P B
следовательно, A и B зависимы.
Монета:
«Орел»
P(Орел) 0,5
«Решка»
P(Решка) 0,5
несовместны
зависимые

58.

Свойства независимых событий
3. Если события А и В имеют ненулевые вероятности и
независимы, то независимы и события:
A и B,
A и B,
A и B.

59.

Независимые события
Определение.
независимы ми в
События
называются
совокупности (или просто
независимыми),
если
наряду
с
их
попарной
независимостью наблюдается независимость любого из
них и произведения любого числа остальных событий.
В противном случае события называются
зависимыми.
Теорема. Вероятность
совместного появления
нескольких событий, независимых в совокупности,
равна произведению вероятностей этих событий, т.е.
P ABC P A P B P C

60.

Вероятность наступления хотя бы одного
события
Замечание. В случаях трех и более совместных
событий соответствующая формула для вероятности
суммы весьма громоздка и проще переходить к
противоположному событию
Теорема.
Вероятность
суммы
нескольких
совместных событий (вероятность появления хотя бы
одного из них) равна разности между единицей и
вероятностью
произведения
противоположных
событий:
Р А1 А2 ... Аn 1 Р А1А2...An

61.

62.

63.

Формула полной вероятности
Теорема. Если событие F может произойти
только при условии появления одного из событий
(гипотез) H1, H2, … , Hn , образующих полную группу, то
вероятность события F равна сумме произведений
вероятностей каждого из этих событий (гипотез) на
соответствующие условные вероятности события F, то
есть:
P(F) P(H1)PH (F) P(H2 )PH (F) ... P(Hn )PH (F)
1
2
n

64.

Вероятность гипотез. Формула Байеса
Следствием теоремы умножения и формулы
полной вероятности является формула Байеса. Она
применяется, когда событие F , которое может
появиться только с одной из гипотез H1, H2, … , Hn ,
образующих полную группу событий, произошло и
необходимо произвести количественную переоценку
априорных вероятностей гипотез, известных до
испытания, т.е. надо найти апостериорные условные
вероятности гипотез.
По теореме умножения имеем:
P(FHi ) P(Hi )PH(F)
i
Или
P(FHi ) P(F )PF(Hi)

65.

Вероятность гипотез. Формула Байеса
Отсюда, приравнивая правые части и разрешая
относительно условной вероятности, получим:
P(Hi | F )
P(F | Hi ) P(Hi )
P(F )
Полученная формула называется формулой
Байеса (по имени английского математика, который их
вывел). Формулы Байеса позволяют переоценить
вероятности гипотез после того, как становится
известным результат испытания, в итоге которого
появилась событие F.

66.

Повторные независимые испытания
n – общее число испытаний
A – событие, которое мы считаем «успехом»
p P A
q P A 1 p
m – число успехов в последовательности из n
испытаний

67.

Повторные независимые испытания
Теорема. Если вероятность р наступления события А в
каждом испытании постоянна, то вероятность того, что
событие А наступит ровно m раз в n независимых
испытаниях, равна:
Pn,m Pn m C p q
m
n
m
n m
.

68.

Повторные независимые испытания
Доказательство. 1) Рассмотрим один благоприятный
исход,
например,
независимые
A
A
A
A
.
.
A
A
A
A
A
A
. .AAp p ... p q q ... q p q
Его вероятность:
m
n m
m
n m
m
n m

69.

Повторные независимые испытания
2) Посчитаем количество благоприятных исходов.
Любой исход, в котором событие A встречается m раз,
является благоприятным:
AAAAA...AAA
Количество различных расстановок успехов
определяется числом сочетаний:
Таким образом,
C nm
Pn m C nm p m q n m .
Формула Бернулли
Ч.т.д.

70.

Применение формулы Бернулли при больших
значениях n затруднительно. Поэтому возникает
желание иметь более простые формулы для
вычисления вероятности при больших n. Такие
формулы называются асимптотическими.

71.

Если вероятность р наступления
события А в каждом испытании стремится к нулю
(р 0) при неограниченном увеличении числа
испытаний (n ), причем произведение np стремится
к постоянному числу (np ), то вероятность Pm,n
того, что событие А появится m раз в n независимых
испытаниях, приближенно равна
Теорема.
.
Pm ,n Pm ( )
m e
m!
Условия применимости формулы Пуассона:
р – малая постоянная величина, n – достаточно
велико и = np – незначительно ( = np 10).

72.

Если
вероятность р появления события А в каждом
испытании постоянна и отлична от нуля и единицы, то
вероятность Рm,n того, что событие А появится в n
независимых испытаниях ровно m раз, приближенно
равна
Локальная теорема Муавра-Лапласа.
Pm ,n
где
1
f(x) ,
npq
f(x)
x2
1
m np
2
.
e , x
npq
2

73.

Свойства функции Гаусса
1. Функция Гаусса определена на всей числовой оси.
2. Функция является четной, то есть f(-x ) = f( x ),
3.Функция монотонно убывает при положительных
значениях х, а предел ee при х стремящимся к
бесконечности равен нулю.
4. Если аргумент функции больше 5, то можно считать,
0,5
очень
что f(x)=0, так как уже при х=5 ее значение
маленькое: f(5)= 0.0000015.
0,25
5. График функции Гаусса
0
-1,8
-1,2
-0,6
0
0,6
1,2
1,8

74.

Интегральная
теорема
Муавра-Лапласа.
Если вероятность р появления события А в каждом
испытании постоянна и отлична от нуля и единицы,
то вероятность того, что число m наступления
события А в n независимых испытаниях заключено в
пределах от m1 до m2 (включительно),
при
достаточно большом числе n приближенно равна
Где
Лапласа,
Pn m1 m m2 Ф x2 Ф x1 ,
х
t2
1
2 dt
е
Ф( х )
2 0
функция
m np
x1 1
npq
m2 np
, x2
npq

75.

Свойства функции Лапласа
1. Функция Ф( х ) определена на всей числовой оси.
2.Функция Ф( х ) - нечетная, т.е. Ф( -х ) = - Ф( х ).
3.Функция Ф( х ) - монотонно возрастающая на всей
области определения.
Предел функции при
х
стремящемся к плюс бесконечности равен 0,5.
4. Для всех значений аргумента, больших 5, можно
считать, что Ф(х) приблизительно равна 0,5.

76.

Повторные независимые испытания
Следствие из интегральной теоремы МуавраЛапласа.
Если вероятность р наступления события А в
каждом испытании постоянна и отлична от 0 и 1, то
при достаточно большом числе n независимых
испытаний вероятность того, что:
а) число m наступлений события А отличается от
произведения np не более, чем на положительную
величину (по абсолютной величине) определяется
соотношением:
Pn m np 2 Ф
;
npq

77.

Повторные независимые испытания
Следствие из интегральной теоремы МуавраЛапласа.
б) частость m/n события А заключена в
пределах от до (включительно) определяется
соотношением:
m
Pn Ф z 2 Ф z1 ,
n
где
p
z
,
1
pq / n
p
z
.
2
pq / n

78.

Повторные независимые испытания
Следствие из интегральной теоремы МуавраЛапласа.
в) частость m/n события А отличается от его
вероятности р не более, чем на положительную
величину (по абсолютной величине), определяется
соотношением:
n
m
Pn p 2 Ф
.
n
pq

79.

случайная величина
Определение. Случайной величиной называется
переменная, которая в результате испытания принимает
то или иное числовое значение.
Пример. Число попаданий в мишень при выстрелах –
случайная величина.
Пример. Рост наудачу взятого человека – случайная
величина.

80.

Определение.
Случайная
величина
называется
дискретной, если число ее возможных значений конечно или
счетно.
(множество называется счетным, если его элементы
можно перенумеровать натуральными числами.)
Определение.
Случайная
величина
называется
непрерывной, если она принимает возможные значения из
конечного или бесконечного промежутка.
В этом смысле, число попаданий в мишень – пример
дискретной случайной величины. Рост человека –
непрерывная случайная величина.
Для
обозначения
случайных
величин
будем
использовать буквы греческого алфавита (возможно с
индексами), например, (кси), (эта), (дзета) и т.п.

81.

Определение. Законом распределения дискретной
случайной величины называется такая таблица, в которой
перечислены все возможные значения этой случайной
величины (без повторений) с соответствующими им
вероятностями.
В общем виде закон распределения для случайной
величины имеет вид:
где
x1
x2

xn
p
p1
p2

pn
pi P xi ,

82.

Закон распределения дискретной случайной
величины
основное свойство закона распределения
Из определения закона распределения следует, что
события ( = x1 ) ,
( = x2), … , ( = xn) образуют полную
систему, поэтому (см. следствие из теоремы сложения
вероятностей для несовместных событий ):
т.е.
P( x1) P( x2) ... P( xk) 1,
p 1 p 2 ... p k 1.

83.

Закон распределения дискретной случайной
величины
Пример. Два стрелка одновременно выстреливают в
мишень. Вероятность попадания для первого равна 0,6,
для второго – 0,8. Составить закон распределения
случайной величины – общего числа попаданий в
мишень.
Решение. Возможные значения данной случайной
величины : 0, 1, 2. Обозначим события, состоящие в
попадании в мишень первого и второго стрелков через В1
и В2, соответственно.
P( 0) P(B1B2) P(B1)P(B2) (1 0,6) (1 0,8) 0, 4 0, 2 0,08;
P( 1) P(B1B2 B1B2) P(B1)P(B2) P(B1)P(B2) 0,6 0,2 0,4 0,8 0,44,
P( 2) P(B1B2 ) P(B1)P(B2 ) 0,6 0,8 0,48.

84.

Закон распределения дискретной случайной величины
Окончательно,
величины имеет вид:
закон
распределения
0
1
2
p
0,08
0,44
0,48
1
случайной

85.

Спасибо за внимание

86.

Анализ данных
Лекция 3
Случайные величины, их законы
распределения.

87.

Арифметические операции над случайными
величинами
Пусть случайная величина и имеют следующие
законы распределения:
x1
x2

xn
y1
y2

ym
p
p1
p2

pn
p
p1
p2

pm

88.

Арифметические операции над случайными величинами
1. Произведение сл.в. на постоянную величину С -это новая сл.в. С , которая с теми же вероятностями, что и
сл.в. принимает значения, равные, произведениям реализаций
сл.в. на С.
Следовательно, ее закон распределения будет иметь вид:
С
Сx1
Сx2

Сxn
p
p1
p2

pn

89.

Арифметические операции над случайными величинами
2. Квадрат сл.в. , т.е. 2 - это новая сл.в., которая с
теми же вероятностями, что и принимает значения,
равные квадратам ее значений.
Ее закон распределения:
2
x1 2
x2 2

xn 2
p
p1
p2

pn

90.

Арифметические операции над случайными
величинами
3. Сумма сл.в. и - это новая сл.в., которая
принимает все значения вида xi+yj с вероятностями pij,
выражающими вероятность того, что сл.в. примет
значение xi, а - значение yj, т.е.
pij= P( =xi, =yj) = P( =xi)P( =yj| =xi).
Определение. Случайные величины и называются
независимыми, если для любых i
и j события ( = хi) и
( = yj )– независимы.
Если сл.в. и независимы, то
pij = P( =xi, =yj) = P( =xi)P( =yj)

91.

Числовые характеристики дискретной случайной
величины.
Математическое ожидание
Определение.
Математическим
ожиданием
дискретной случайной величины называется число М ,
вычисляемое по формуле
n
M xi pi x1 p1 x2 p2 ... xn pn .
i 1

92.

Свойства математического ожидания
Математическое ожидание случайной величины есть
число около которого группируются значения этой случайной
величины.
1.Математическое ожидание постоянной случайной
величины равно самой постоянной, т.е.
М(С)=С,
где С – некоторое число.
2. Постоянный множитель можно выносить за знак
математического ожидания, т.е.
где – произвольное число.
M ( ) M ( ),

93.

Математическое ожидание
Свойства математического ожидания
3.
Математическое
ожидание
суммы
(разности)
случайных величин равно сумме (разности) математических
ожиданий этих случайных величин, т.е.
M ( ) M ( ) M ( ).
4.
Математическое ожидание произведения независимых
случайных величин равно произведению их математических
ожиданий, т.е.
M ( ) M ( )M ( ).

94.

Дисперсия дискретной случайной
величины
Математическое
достаточной степени
величину.
ожидание
не
характеризовать
может
в
случайную
При одном и том же математическом ожидании
случайные величины могут существенно различаться.
Различие можно характеризовать степенью
отклонения
случайной
величины
от
ее
математического ожидания.
В
качестве
такой
характеристики
рассматривается дисперсия случайной величины.
Слово дисперсия означает "рассеяние".

95.

Дисперсия дискретной случайной
величины
Дисперсией D( ) случайной
величины Х называется математическое ожидание
квадрата ее отклонения от математического ожидания:
Определение.
D( ) M [ M ( )]2
Если случайная величина Х – дискретная с конечным
числом значений, то
n
D( ) (xi a) 2 pi .
i 1

96.

Дисперсия дискретной случайной
величины
Дисперсия D имеет размерность квадрата
случайной величины. Поэтому в качестве показателя
рассеяния используют также величину
D
Средним квадратическим
отклонением)
отклонением
(стандартным
случайной величины называется арифметическое
Определение.
значение корня квадратного из ее дисперсии:
D .

97.

Дисперсия дискретной случайной
величины. Свойства дисперсии.
1. Дисперсия постоянной величины равна нулю:
D( C ) 0.
Доказательство.
D( C ) M [ C M ( C )] 2 M ( C C )2 M ( 0 ) 0.
2.
Постоянный
множитель можно выносить за
знак дисперсии, возведя его при этом в квадрат:
D(k ) k 2 D
Доказательство.
D(k ) M [k M (k )]2 M (k kM )2
k 2 M ( M )2 k 2 D .

98.

Дисперсия дискретной случайной
величины. Свойства дисперсии.
Дисперсия случайной величины равна
разности между математическим ожиданием квадрата
случайной величины и квадратом ее математического
ожидания:
D M ( 2 ) [M ]2
3.
Доказательство.
Учитывая, что М – величина постоянная,
получим:
D M ( M ) 2 M ( 2 2 M M 2 )
M 2 2 M M M 2
M 2 M 2 .

99.

Дисперсия дискретной случайной
величины. Свойства дисперсии.
Дисперсия
суммы
(разности)
двух
независимых случайных величин равна суммеих
дисперсий: D( ) D( ) D( ) .
4.
Доказательство. По свойству 3:
D( ) M ( ) 2 [ M ( )] 2
величин
M ( 2 2 2 ) [ M M ]2
Учитывая, что для независимых случайных
получим:
M ( ) M M
D( ) M 2 2M M M 2
M 2 2 M M M 2
( M 2 M 2 ) ( M 2 M 2 ) D D .

100.

Основные законы распределения дискретной
случайной величины.
Биномиальный закон распределения
Случайная величина имеет
биномиальны й
закон
распределения
с
параметрами n и p, если она принимает значения 0,
1, 2, …, n c вероятностями Pm,n вычисляемыми по
формуле Бернулли:
Определение.
P
m ,n
C
m
n
m
p q
n m
,

101.

Биномиальный закон распределения
Математическое ожидание случайной
величины , распределенной по биномиальному закону,
Теорема.
а ее дисперсия
M np ,
D npq .
Доказательство. Представим случайную величину
– число m наступлений события А в n независимых
испытаниях

в
виде
суммы
n одинаково
распределенных независимых случайных величин к ,
где к =1,2, … , n, а к – случайная величина,
выражающая число наступлений события А в к-ом
испытании.
n
k
k 1

102.

Биномиальный закон распределения
Случайная величина к имеет следующий закон
распределения Бернулли:
i
0
1
pi
q
p
Найдем
числовые
х арактеристики
случайной
величины к :
M 0 q 1 p p ,
k
D k (0 p) 2 q (1 p) 2 p
p2 q q2 p pq( p q) pq ,

103.

Биномиальный закон распределения
Так как математическое ожидание и дисперсия
суммы независимых случайных величин равны сумме их
математических ожиданий и дисперсий, получим:
M M ( 1 2 ... n ) p p ... p np ,
D D( 1 2 ... n ) pq pq ... pq npq .

104.

Биномиальный закон распределения
Следствие. Математическое ожидание
частости
m/n наступления события A в n независимых
испытаниях, в каждом из которых оно может наступить
с одной и той же вероятность р, равно р, т.е.:
а ее дисперсия
m
M p ,
n
m pq
D
.
n n

105.

Биномиальный закон распределения
Доказательство. Частость события m/n есть
случайная величина вида /n, где – случайная
величина, распределенная по биномиальному закону.
Поэтому
m
1
1
M M M np p ,
n
n
n n
m
1
1
pq
D D 2 D 2 npq
.
n
n
n
n n

106.

Закон распределения Пуассона
В пределе при n и np = биномиальное
называемое
распределение
переходит
в
так
распределение Пуассона.
Определение. Говорят, что случайная величина
имеет распределение Пуассона с параметром ,
если она принимает значения
0, 1, 2, …
c
вероятностями
Pm
вычисляемыми по формуле
Пуассона:
m
Pm
e
m!
где m = 0, 1, 2, 3, … , – положительное
целое число.

107.

Закон распределения Пуассона
Убедимся в том, что для распределения Пуассона
выполняется основное свойство закона распределения:
Pm 1
Действительно, mи м0еем
2 3
e e e e ... 1 ... e e e 1
Pm
m 0
0!
1!
2!
3!
2! 3!
0 1 2 3
Теорема. Математическое ожидание и дисперсия
случайной величины , распределенной по закону
Пуассона, совпадают и равны параметру этого
закона, т.е.
M ,
D .

108.

Геометрическое распределение
Одно и тоже испытание проводится до первого
успеха. В каждом испытании вероятность наступления
успеха одинакова и равна р.
Определение. Случайная величина имеет
геометрический
закон
распределения
с
параметром p, если она принимает значения 1, 2, …,
c вероятностями, вычисляемыми по формуле:
P m pq m 1
Математическое ожидание и дисперсия :
1
M ,
p
q
D 2 .
p

109.

Случайный вектор
Очень часто результат испытания характеризуется
не одной случайной величиной, а некоторой системой
случайных величин 1, 2, …, n, которую называют
также многомерной (n-мерной) случайной величиной
или случайным вектором = ( 1, 2, …, n ).
Случайные величины, входящие в систему, могут
быть как дискретными, так и непрерывными.
Определение. Вектор = ( , ), компоненты и
которого являются случайными величинами,
называется случайным вектором или
двумерной случайной величиной.

110.

Закон распределения

111.

Закон распределения
Пример
1. Совместный закон
случайных величин и имеет вид:
Найти
законы
случайных величин.
распределения
распределения
одномерных

112.

Условные законы распределения
Определение. Закон распределения одной из
переменных при фиксированном значении другой
называется условны мраспределением.
Вероятности рj(xi) этого распределения будут
условными вероятностями события = хi, найденными
в предположении, что событие =yj произошло.

113.

Условные законы распределения
Пример
2. Найти условные распределения
случайных величин, совместный закон распределения
которых представлен в примере 1.

114.

Условные законы распределения
Аналогично можно определить условные
распределения для случайной величины .
законы
Используя соответствующие законы распределения,
для одномерных составляющих случайных величин и
можно определить числовые характеристики –
математические ожидания М , М и дисперсии D и D ,
а также условные математические ожидания М ,
М
и условные дисперсии D и D , которые
рассмотренным
находятся по обычным формулам,
ранее.

115.

Условные законы распределения
Определение.
Связь
между
переменными
называется
функциональной,
если
каждому
значению из области определения одной переменной
поставлено в соответствие однозначно определенное
значение другой переменной.
Определение. Функциональная связь между
значениями
одной
переменной
и
условными
математическими ожиданиями другой переменной
называется корреляционной.
Определение.
График
корреляционной
зависимости называется линией регрессии.
Корреляционные зависимости бывают двух видов y
по x и x по y в зависимости от того, которая из
переменных выполняет роль аргумента: x или y.
Соответственно, – точки корреляционной зависимости
y по x и – точки корреляционной зависимости x по y.

116.

Условные законы распределения
Пример 3. По совместному закону распределения
из предыдущего примера
зависимость y по x и x по y.
найти
xi
1
2
M x
23
47
M y
74
53
yj
0
1
i
j
корреляционную

117.

Ковариация и ее свойства
Ковариацией
корреляционны м
(или
моментом ) случайных величин и называется
математическое ожидание произведения отклонения
этих величин от своих математических ожиданий, т.е.

118.

Ковариация и ее свойства
Свойства ковариации:
1. Ковариация двух
величин равна нулю.
независимых
случайных

119.

Ковариация и ее свойства
2. Ковариация двух случайных величин равна
математическому ожиданию их произведения минус
произведение их математических ожиданий, т.е.

120.

Ковариация и ее свойства
Ковариация двух случайных величин по
абсолютной величине не превосходит произведения их
средних квадратических отклонений, т.е.
3.

121.

Ковариация и ее свойства
4. Дисперсия суммы (разности) двух случайных
величин равна сумме их дисперсий плюс (минус)
удвоенная ковариация:
D( ) D( ) D( ) 2 K , .

122.

Коэффициент корреляции и его
свойства
Определение. Коэффициентом корреляции
случайных величин и называется число,
определяемое равенством

123.

Коэффициент корреляции и его
свойства
1. Коэффициент
корреляции не превосходит по
абсолютной величине единицы, т.е.

124.

Коэффициент корреляции и его
свойства
2. Если случайные величины независимы, то их
коэффициент корреляции равен нулю, т.е.

125.

Коэффициент корреляции и его
свойства
3. Если модуль коэффициента корреляции двух
случайных величин равен 1, то между этими
случайными
величинами
существует
линейная
функциональная зависимость.

126.

Функция распределения случайной
величины.
В качестве
описания дискретной случайной
величины
ранее
рассматривали
закон
ее
распределения. Однако такое описание не является
единственным, а, главное, не универсально. Так, оно
неприменимо для описания непрерывной случайной
величины.
Для описания закона распределения случайной
величины возможен следующий подход: рассматривать
не вероятность события { =х} для разных значений х
(как это имеет место в законе распределения), а
вероятности события { <x} , где х – текущая
переменная. Вероятность P( <x), очевидно, зависит от
х, т.е. является некоторой функцией от х.

127.

Функция распределения случайной
величины.
Функцией распределения
случайной величины
называется функция F(x),
выражающая для каждого значения х вероятность того,
что случайная величина примет значение меньшее х:
Определение.
F (x) P( x) .
Геометрически
функция
распределения
интерпретируется как вероятность того, что случайная
точка попадет левее заданной точки х.
<x
0
x
x

128.

Свойства функции распределения
случайной величины.
1.Функция распределения случайной величины есть
неотрицательная функция, заключенная между нулем и
единицей:
0 F( x ) 1.
Это
утверждение следует из того, что функция
распределения – это вероятность.

129.

Свойства функции распределения
случайной величины.
2. Функция распределения случайной величины
есть неубывающая функция на всей числовой оси.
имеем:
По теореме сложения несовместных событий,
или
P( x 2) P( x 1) P(x 1 x )2
F (x2 ) F (x1) P(x1 x2 ).
Так как вероятность
P(x1 x2 ) 0,
то F(x2) F(x1) , т.е. F(x) -- неубывающая
функция.

130.

Свойства функции распределения случайной
величины.
3. На минус бесконечности функция распределения
равна нулю, а на плюс бесконечности равна единице,
т.е.
F ( ) xlim
F (x) 0 ,
Событие
следовательно,
<–
F ( ) lim F ( x ) 1 .
является
x
невозможным,
F( ) P(X ) 0.
Событие < + . Является достоверным событием,
следовательно,
F( ) P( X ) 1 .

131.

Свойства функции распределения случайной
величины.
4. Вероятность попадания случайной величины в
интервал [x1 , x2 ) равна приращению ее функции
распределения на этом интервале, т.е.
P(x1 x2 ) F (x2 ) F (x 1 ).
Это формула непосредственно следует из свойства
2. Действительно:
Отсюда,
F (x2 ) F (x1) P(x1 x2 ).
выражая
вероятность,
необходимое соотношение.
получим

132.

Непрерывные случайные величины.
Определение. Случайная величина называется
непрерывной, если ее функция распределения
непрерывна в любой точке и дифференцируема всюду,
кроме, быть может, отдельных точек.
Теорема. Вероятность любого отдельно взятого
значения непрерывной случайной величины равна
нулю, т.е.
P x1 0.
Покажем, что для любого значения х1 случайной
величины вероятность Р( =х1) = 0 . Представим
Р( =х1) в виде
P x1 lim P x1 x2
x2 x1

133.

Непрерывные случайные величины.
Применяя свойство 4 функции распределения
случайной величины и учитывая непрерывность F(x),
получим:
lim F x2 F x1 lim F x2 F x1
x2 x1
x2 x1
F x1 F x1 0.

134.

Непрерывные случайные величины.
Следствие. Если -- непрерывная случайная
величина, то вероятность попадания случайной
величины в интервал (х1, х2) не зависит от того,
является этот интервал открытым или закрытым, т.е.
P x1 x 2 P x1 x 2
P x 1 x 2 P x 1 x 2 .
Действительно,
согласно теореме о вероятности
суммы несовместных событий, имеем:
0
P x1 x 2 P x1
P x1 x 2 P x 2
0
P x1 x 2 .
Аналогично доказываются и другие равенства.

135.

Непрерывные случайные величины.
Плотность вероятности.
Плотностью
вероятности
(плотностью
распределения
или
просто
плотностью) (х) непрерывной случайной величины
Х называется производная ее функции распределения
Определение.
(x) F (x) .
График плотности вероятности называется кривой
распределения.

136.

Свойства плотности вероятности
1.
Плотность
функция, т.е.
вероятности

неотрицательная
( х ) 0 .
Доказательство.
По определению функция плотности вероятности
есть производная от монотонно неубывающей функции
распределения.
Следовательно,
ее
производная
неотрицательная.

137.

Свойства плотности вероятности
2. Вероятность попадания непрерывной случайной
величины в интервал [a;b] равна определенному
интегралу от ее плотности вероятности в пределах от а
b
до в, т.е.
P(a b) (x)dx .
a
Доказательство.
Согласно свойству 4 функции распределения
P(a b) F(b) F(a).
Так как функция F(x) есть первообразная для
функции плотности вероятности, то по формуле
Ньютона-Лейбница приращение первообразной на
отрезке [a;b] есть определенный интеграл от функции
плотности в пределах от а до в.

138.

Свойства плотности вероятности
Из последнего свойства следует геометрический
смысл функции плотности. Вероятность того, что
непрерывная случайная величина примет значение из
[a;b]
равна
площади
фигуры,
промежутка
ограниченной
сверху
кривой
распределения
и
опирающейся на отрезок [a;b].
(x)
S=P(a b)
0
a
b
x

139.

Свойства плотности вероятности
3. Функция распределения непрерывной случайной
величины может быть выражена через плотность
вероятности по формуле:
x
F ( x ) ( x )dx .
Эта формула получается из предыдущей (свойство
2) при а - , если верхний предел в заменить на
переменный предел х.

140.

Свойства плотности вероятности
Несобственный
интеграл в бесконечных
пределах от плотности вероятности непрерывной
случайной величины равен единице:
4.
( x )dx 1 .
Доказательство.
распределения
Согласно
свойству
функции
F ( ) 1 .
получим:
x
( x )dx lim ( x )dx lim F ( x )
x
F ( ) 1 .
x

141.

Математическое ожидание и дисперсия непрерывной
случайной величины.
M x (x)dx ,
D (x a) 2 (x)dx .
На практике обычно область значений случайной
величины, для которых (x) # 0, ограничена и
указанные интегралы сходятся, а значит, существуют
М и D .
Если функция плотности отлична от нуля только на
промежутке от а до в, то формулы принимают вид:
в
M x (x)dx ,
а
в
D (x a) 2 (x)dx .
а

142.

Математическое ожидание и дисперсия непрерывной
случайной величины.
Все
свойства
математического
ожидания
и
дисперсии, рассмотренные выше для дискретных
случайных величин, справедливы и для непрерывных
случайных величин.
В частности, для дисперсии справедлива терема:
или
D M 2 M 2 ,
D
x (x)dx M .
2
2

143.

Спасибо за внимание

144.

Анализ данных
Автор:
доцент департамента
«Анализа данных, принятия решений и финансовых технологий»
к.ф.-м.н.
Потемкин Александр Владимирович

145.

Анализ данных
Лекция 4
Непрерывные случайные величины

146.

Функция распределения случайной
величины.
Функцией распределения
случайной величины
называется функция F(x),
выражающая для каждого значения х вероятность того,
что случайная величина примет значение меньшее х:
Определение.
F (x) P( x) .
Геометрически
функция
распределения
интерпретируется как вероятность того, что случайная
точка попадет левее заданной точки х.
<x
0
x
x

147.

Свойства функции распределения
случайной величины.
1.Функция распределения случайной величины есть
неотрицательная функция, заключенная между нулем и
единицей:
0 F( x ) 1.
Это
утверждение следует из того, что функция
распределения – это вероятность.

148.

Свойства функции распределения
случайной величины.
2. Функция распределения случайной величины
есть неубывающая функция на всей числовой оси.
имеем:
По теореме сложения несовместных событий,
или
P( x 2) P( x 1) P(x 1 x )2
F (x2 ) F (x1) P(x1 x2 ).
Так как вероятность
P(x1 x2 ) 0,
то F(x2) F(x1) , т.е. F(x) -- неубывающая
функция.

149.

Свойства функции распределения случайной
величины.
3. На минус бесконечности функция распределения
равна нулю, а на плюс бесконечности равна единице,
т.е.
F ( ) xlim
F (x) 0 ,
Событие
следовательно,
<–
F ( ) lim F ( x ) 1 .
является
x
невозможным,
F( ) P(X ) 0.
Событие < + . Является достоверным событием,
следовательно,
F( ) P( ) 1.

150.

Свойства функции распределения случайной
величины.
4. Вероятность попадания случайной величины в
интервал [x1 , x2 ) равна приращению ее функции
распределения на этом интервале, т.е.
P(x1 x2 ) F (x2 ) F (x 1 ).
Это формула непосредственно следует из свойства
2. Действительно:
Отсюда,
F (x2 ) F (x1) P(x1 x2 ).
выражая
вероятность,
необходимое соотношение.
получим

151.

Непрерывные случайные величины.
Определение. Случайная величина называется
непреры вной, если ее функция распределения
непрерывна в любой точке и дифференцируема всюду,
кроме, быть может, отдельных точек.
Теорема. Вероятность любого отдельно взятого
значения непрерывной случайной величины равна
нулю.
P x1 lim P x1 x2 .
x2 x1
Покажем, что для любого значения х1 случайной
величины вероятность Р( =х1) = 0 . Представим
Р( =х1) в виде
P x1 lim P x1 x2
x2 x1

152.

Непрерывные случайные величины.
Применяя свойство 4 функции распределения
случайной величины и учитывая непрерывность F(x),
получим:
lim F x2 F x1 lim F x2 F x1
x2 x1
x2 x1
F x1 F x1 0.

153.

Непрерывные случайные величины.
Следствие. Если -- непрерывная случайная
величина, то вероятность попадания случайной
величины в интервал (х1, х2) не зависит от того,
является этот интервал открытым или закрытым, т.е.
P x1 x 2 P x1 x 2
P x 1 x 2 P x 1 x 2 .
Действительно,
согласно теореме о вероятности
суммы несовместных событий, имеем:
0
P x1 x 2 P x1
P x1 x 2 P x 2
0
P x1 x 2 .
Аналогично доказываются и другие равенства.

154.

Непрерывные случайные величины.
Плотность вероятности.
Плотностью
вероятности
(плотностью
распределения
или
просто
плотностью ) (х ) непрерывной случайной величины
называется производная ее функции распределения
Определение.
(x) F (x) .
График плотности вероятности называется кривой
распределения.

155.

Свойства плотности вероятности
1.
Плотность
функция, т.е.
вероятности

неотрицательная
( х ) 0 .
Доказательство.
По определению функция плотности вероятности
есть производная от монотонно неубывающей функции
распределения.
Следовательно,
ее
производная
неотрицательная.

156.

Свойства плотности вероятности
2. Вероятность попадания непрерывной случайной
величины в интервал [a;b] равна определенному
интегралу от ее плотности вероятности в пределах от а
b
до в, т.е.
P(a b) (x)dx .
a
Доказательство.
Согласно свойству 4 функции распределения
P(a b) F(b) F(a).
Так как функция F(x) есть первообразная для
функции плотности вероятности, то по формуле
Ньютона-Лейбница приращение первообразной на
отрезке [a;b] есть определенный интеграл от функции
плотности в пределах от а до в.

157.

Свойства плотности вероятности
Из последнего свойства следует геометрический
смысл функции плотности. Вероятность того, что
непрерывная случайная величина примет значение из
[a;b]
равна
площади
фигуры,
промежутка
ограниченной
сверху
кривой
распределения
и
опирающейся на отрезок [a;b].
(x)
S=P(a X b)
0
a
b
x

158.

Свойства плотности вероятности
3. Функция распределения непрерывной случайной
величины может быть выражена через плотность
вероятности по формуле:
x
F ( x ) ( x )dx .
Эта формула получается из предыдущей (свойство
2) при а - , если верхний предел в заменить на
переменный предел х.

159.

Свойства плотности вероятности
Несобственный
интеграл в бесконечных
пределах от плотности вероятности непрерывной
случайной величины равен единице:
4.
( x )dx 1 .
Доказательство.
распределения
Согласно
свойству
функции
F ( ) 1 .
получим:
x
( x )dx lim ( x )dx lim F ( x )
x
F ( ) 1 .
x

160.

Математическое ожидание и дисперсия непрерывной
случайной величины.
M x (x)dx ,
D (x a) 2 (x)dx .
На практике обычно область значений случайной
(x)≠0, ограничена и
величины, для которых
указанные интегралы сходятся, а значит, существуют
М и D .
Если функция плотности отлична от нуля только на
промежутке от а до в, то формулы принимают вид:
в
M x (x)dx ,
а
в
D (x a) 2 (x)dx .
а

161.

Математическое ожидание и дисперсия непрерывной
случайной величины.
Все
свойства
математического
ожидания
и
дисперсии, рассмотренные выше для дискретных
случайных величин, справедливы и для непрерывных
случайных величин.
В частности, для дисперсии справедлива терема:
или
D M 2 M 2 ,
D
x (x)dx M .
2
2

162.

Равномерный закон распределения.
Определение. Непрерывная случайная величина
имеет равномерны й закон распределения на
отрезке [a , b ], если ее плотность вероятности (х)
постоянна на этом отрезке и равна нулю вне его, т.е.
1
a x b,
( х ) b a при
0
при x a, x b.
у
1/(b-a)
S=1
0
a
b
х

163.

Равномерный закон распределения.
Функция распределения случайной
величины , распределенной по равномерному закону,
при x a,
0
есть
Теорема.
x a
F( x )
при a x b,
b a
при x b.
a b
1
M
ее математическое ожидание
2
2
(b
a)
дисперсия D
.
12 у
,
1
0
a
b
х

164.

Равномерный закон распределения
Пример.
Плотность
величины имеет вид:
0
1
(x)
04
при
вероятности
случайной
x 1,
при 1 x b,
при
x b.
Найти: а) параметр b;
б) математическое ожидание и дисперсию
в) функцию распределения F(x) и построить ее
график.

165.

Равномерный закон распределения
0
1
(x)
04
при
x 1,
у
при 1 x b, 1/4
при
x b.
S=1
1
S b 1 1,
4
b 5.
1
b
х
5
5
2 5
1
1
1 2 2
1 x
M x x dx x dx xdx
5 1 3.
4
41
8
4 21
1
D M ( 2 ) [M ]2 5
3
5
5
1
124 31
x
1
1 2
3
3
2
2
2 1
5 1
M x x dx x dx x dx
12
3
4 3 1 12
4
41
1
31
31 27 4
D 32
1,333. D 4 2 1,155.
3
3
3
3
3
0

166.

Равномерный закон распределения
Функция распределения
непрерывной случайной
x
величины
F x t dt.
x 1:
x
x
F x t dt 0dt 0 ;
x
1
x
1
1
1
1 x 5:
F x t dt 0dt dt t x 1 ;
4 1 54
4
1 4
x
5
x
1
1
x 5 : F x t dt 0dt dt 0dt 1 t 1 5 1 1.
4
4 1 4
5
4
у1
0, при x 1,
1
1
F x x 1 , при 1 x 5,
4
1, при x 5.
0
x
1
b
х

167.

Показательный или экспоненциальный закон
распределения
Определение. Непрерывная случайная величина
имеет показательны й или экспоненциальны й
закон распределения с параметром , если ее
функция распределения и плотность распределения
имеют вид:
при x 0,
при x 0,
0,
0,
F( x )
( x ) x
x
, при x 0.
e
,
при
x
0.
1
e
M D
1
.

168.

Показательный или экспоненциальный закон
распределения
Пример. Электронное устройство выходит из строя
после 10000 часов работы с вероятностью 0,4. Считая,
что время непрерывной работы распределено по
показательному
закону,
определить
параметр
распределения, записать функции распределения и
плотности распределения, вычислить математическое
P x F( x )
ожидание и дисперсию.
P 10000 1 P 10000
Решение.
1 F (10000 ) 1 1 e 10000 e 10000 0,4.
10000 lne ln0,4.
lne 10000 ln0,4.
10000 0,916. 0,916 0,0000916.
1 10000 1
M D
10917.
0,0000916
D 109172 119180889.

169.

0,
при x 0,
0 ,0000916 x
, при x 0.
0,0000916e
( x )
при x 0,
0,
F( x )
0 ,0000916 x
, при x 0.
1 e
Определить вероятность того, что выбранное
электронное устройство проработает:
А) не более 5000 час.;
Б) от 4000 до 8000час.
P x F( x )
P 5000 F( 5000 ) 1 e 0 ,0000916 5000
1 e 0 ,458 1 0,633 0,367.
P x1 x2 F( x2 ) F( x1 )
P 4000 8000 F( 8000 ) F( 4000 )
1 e 0 ,0000916 8000 1 e 0 ,0000916 8000
1 e 0 ,7328 1 e 0 ,3664 0,6932 0,4806 0,2126.

170.

Спасибо за внимание

171.

Анализ данных
Лекция 5
Нормальный закон распределения.
Предельные теоремы теории вероятностей.
Закон больших чисел.

172.

Нормальный закон распределения
Определение. Непрерывная случайная величина
имеет нормальны й закон распределения (закон
Гаусса) с параметрами a и 2, если ее плотность
распределения имеет вид:
1
e
N ( x)
2
( x a )2
2 2
.

173.

Нормальный закон распределения
Кривую
нормального
закона
распределения
называют нормальной или гауссовой кривой.
(x)
0
a
x
Нормальная кривая симметрична относительно
прямой х = a , имеет максимум в точке х = a.

174.

Нормальный закон распределения
Математическое ожидание случайной
величины , распределенной по нормальному закону,
равно параметру a этого закона, т.е.
Теорема.
M a,
а ее дисперсия – параметру 2 , т.е.
D 2.

175.

Нормальный закон распределения
Доказательство.
случайной величины :
Математическое
1
M x N (x)dx x
e
2
( x a) 2
2 2
dx.
t
x a
.
2
меняются
и,
Произведем замену переменной, положив
Тогда
x a 2t
dx 2dt.
Пределы
интегрирования
следовательно,
не
ожидание

176.

Нормальный закон распределения
1 (a 2t)e 2dt
M
2
t
2
a
2 t
t
te
dt
e
dt
2
2
Первый интеграл равен нулю как интеграл от
нечетной функции по симметричному относительно
начала координат промежутку, а второй интеграл –
интеграл Эйлера-Пуассона равен
Таким образом:
0
a
a.

177.

Нормальный закон распределения
Выясним, как будет меняться нормальная кривая
при изменении параметров a и 2 . Если = const, и
меняется
параметр
a,
т.е.
центр
симметрии
распределения, то нормальная кривая будет смещаться
вдоль оси абсцисс, не меняя формы.
(х)
0
а 1 < a 2 < a3
а1
а2
а3
х

178.

Если a = const, и меняется параметр 2, то меняется
ордината максимума. При увеличении ордината
максимума кривой уменьшается, но так как площадь под
любой кривой распределения должна оставаться равной
единице, то кривая становится более плоской ,
растягиваясь вдоль оси абсцисс; при уменьшении ,
напротив, нормальная кривая вытягивается вверх,
одновременно сжимаясь с боков.

)
1
1 < 2 < 3
2
3
0
а
х

179.

Нормальный закон распределения
Таким
образом,
параметр
a
характеризует
положение, а параметр 2 – форму нормальной кривой.
Нормальный закон распределения случайной
величины с параметрами a = 0, 2 = 1 , т.е. N(0,1),
называется стандартным или нормированным, а
соответствующая нормальная кривая – стандартной или
нормированной.

180.

Функция распределения нормальной случайной
величины
Функция распределения случайной
величины , распределенной по нормальному закону,
выражается через функцию Лапласа Ф(х) по формуле:
1
x a
FN (х) Ф
.
22
где
Теорема.
x
t
1
2 dt
Ф(х)
e
2 0
-- функция Лапласа,
рассмотрены ранее.
свойства
которой
были

181.

Свойства случайной величины, распределенной по
нормальному закону.
1. Вероятность попадания случайной величины,
распределенной по нормальному закону, в интервал
[x1 , x2 ], равна
P(x1 x2 ) Ф(t2 ) Ф(t1),
где
t1
x1 a
,
t2
x2 a
.

182.

Свойства случайной величины, распределенной по
нормальному закону.
2. Вероятность того, что отклонение
случайной
величины , распределенной по нормальному закону,
от математического ожидания а не превысит величину
> 0 (по абсолютной величине), равна
где
P( a ) 2Ф(t),
t
.

183.

Свойства случайной величины, распределенной по
нормальному закону.
Вычислим по последней формуле
вероятности при различных значениях .
некоторые
P( a ) Ф(1) 0,6827;
2
P( a 2 ) Ф(2) 0,9545;
3
P( a 3 ) Ф(3) 0,9973.
Отсюда вытекает "правило трех сигм":
Если случайная величина имеет нормальный
закон распределения с параметрами a и 2,
т.е. N(a , 2 ), то практически достоверно, что ее
значения заключены в инте рвале
а 3 , а 3 .

184.

Неравенство Маркова (лемма Чебы шева)
Если случайная величина принимает только
неотрицательные значения и имеет математическое ожидание, то для
любого положительного числа А верны неравенства:
Теорема.
M ( )
P A
,
A
M ( )
P A 1
.
A

:
х1 < х2 < … < хk ≤ A < хk+1 < … < хn
x1 х2

xk
А xk+1 … xn
x

185.

Неравенство Маркова (лемма Чебы шева)
Запишем выражение для математического ожидания
x1 p1 x2 p2 ... xk pk xk 1 pk 1 ... xn pn M ( ),
где
pi P( xi ),
i 1, 2, ..., n.
xkk 1 pkk 1 ... xn pn M( ).
А pk 1 ... pn M ( ),
или
MM(( ))
pp ..... pp
..
k 1 nn
А
P( A)

186.

Неравенство Чебы шева
Теорема. Для любой случайной величины, имеющей
математическое
ожидание
и
дисперсию,
справедливо
неравенство
P a 1
где а=М( ), ε >0.
D
2
,
M ( )
P A 1
.
A

1=( –а)2,
P a
2
2
1
M a
2
2
.
a2 равносильно неравенству
M a D( ),т.е. представляет дисперсию ,
Так как неравенство
a ,а
A= ε2
2
2
то получим доказываемое неравенство.

187.

Частны е случаи неравенства Чебы шева
а)
случайная
распределения
величина,
имеет
биномиальный
закон
a M np, D npq
npq
P m np ε 1 2 .
ε
m,
б) случайная величина – частость события в n независимых
испытаниях, в каждом из которых оно может произойти с
pq
m
вероятностью р,
n , M p, D
n
m
pq
P p ε 1 2 .

т
Замечание. Если M( )>A, или D( )>ε2, то неравенства Маркова
и Чебышева могут привести к тривиальным результатам типа P >–a
(a >0) или P< b (b >1), которые очевидны и без использования
данных неравенств.

188.

Теорема Чебы шева
Теорема. Если дисперсии n независимых случайных величин 1, 2,
…, n ограничены одной и той же постоянной, то при n→∞ средняя
арифметическая случайных величин сходится по вероятности к
средней арифметической их математических ожиданий a1, a2, …, an,
т.е.
1 .... n a1 .... an
lim P
1,
n
n
n
или
n
i
i 1
n
a
a
i
Р
i 1
.
n
n

189.

Теорема Чебы шева
□ Применим неравенство Чебышева к случайной величине
1 ... n
.
n
Найдем
1 ... n 1
a1 ...an
M M
M
...
M
,
1
n
n
n
n
... n
D D 1
n
1
D ... D n
2 1
n
nC C
11
C
...
C 2 .
2 C
...
C
n
n
n n раз
(учли, что все дисперсии D( i)≤ C (C– постоянная), и случайные
величины i – независимые, что позволяет дисперсию суммы
случайных величин представить в виде суммы дисперсий).

190.

Теорема Чебы шева
Теперь неравенство Чебышева для случайной величины
1 ... n
примет вид:
n
.... n a1 .... an
D
P 1
1
.
n
n
n
C то
n ,
D
С/n
C
1
1
1
2
2
n 2
Так как по доказанному D
и от неравенства перейдем к более сильному неравенству
1 .... n a1 .... an
С
P
1 2 .
n
n
n

191.

Теорема Чебы шева
С
0,
В пределе при
n
2
n
и получаем доказываемую формулу
1 .... n a1 .... an
lim P
1,
n
n
n

Замечание. Неравенство Чебышева для средней арифметической
случайных величин
.... n a1 .... an
С
P 1
1 2 .
n
n
n
имеет самостоятельное значение и может быть использовано для
решения задач.

192.

Теорема Чебы шева
Смысл теоремы Чебышева состоит в том, что при большом числе
случайных величин их средняя – величина случайнnая как угодно
мало (≤ ε) отличается от неслучайной величины
,
ai / n
т.е.
i 1
практически перестает быть случайной с вероятностью, как угодно
близкой к 1.
Выясним смысл формулировки «сходимостьn по вероятaности»,
записываемой в виде.
a
Понятие предела переменной величины
i 1
n
i
i
Р
i 1 .
n
n
lim a , или a при n
n
или ее сходимость, означает, что начиная с некоторого момента ее
изменения, для любого (даже сколько угодно малого) ε >0 будет
верно неравенство |x–a|<ε.

193.

Теорема Чебы шева
Сходимость по вероятности
a ,
Р
n
означает, что неравенство |x–a|<ε, начиная с некоторого момента
изменения переменной , будет выполняться не в любом случае, но
почти всегда, в подавляющем числе случаев, т.е. с вероятностью,
сколь угодно близкой к 1 при n .

194.

Теорема Чебы шева
Теорема Чебышева имеет большое практическое значение.
Например, деятельность страховых компаний, расчеты страховых
взносов и премий основаны на том, что известные средние убытки
застрахованных лиц за прошедший период в силу закона больших
чисел практически не изменятся за период страхования.
В финансовом анализе дисперсия случайной величины –
доходности некоторого актива (акции, ценной бумаги) характеризует
его риск. Действие закона больших чисел проявляется в уменьшении
дисперсии средней случайных величин с ростом n.
Поэтому, например, увеличение числа ценных бумаг разного вида
приводит к снижению риска составленного из этих бумаг
инвестиционного портфеля. Отсюда следует один из принципов
работы
на
финансовом
рынке,
известный
как
принцип
диверсификации (разнообразия) и вполне согласующийся с
народной мудростью: «не клади все яйца в одну корзину».

195.

Теорема Бернулли
Теорема. Частость события в n повторных независимых
испытаниях, в каждом из которых оно может произойти с одной и
той же вероятностью р, при n
сходится по вероятности к
вероятности р этого события в отдельном испытании:
или

m
lim p 1,
n
n
m
Р
p.
n
n
Заключение
теоремы
непосредственно
неравенства Чебышева для частости событий при
m
pq
P p ε 1 2 .

т
вытекает
n .

из

196.

Теорема Бернулли
Смысл теоремы Бернулли состоит в том, что частость m/n –
величина случайная при большом n как угодно мало отличается от
вероятности p – величины неслучайной, т.е. практически перестает
быть случайной с вероятностью, как угодно близкой к 1 при n .
Теорема
Бернулли,
являющаяся
следствием
теоремы
Чебышева, дает теоретическое обоснование замены неизвестной
вероятности
события
его
частостью,
или
статистической
вероятностью. Например, неизвестную вероятность рождения
мальчика в соответствии с этой теоремой можно заменить его
частостью, которая по многолетним данным составляет приближенно
0,515.

197.

Центральная предельная теорема – теорема
Ляпунова
Теорема. Если случайная величина представляет
собой сумму очень большого числа взаимно независимых
случайных величин i, i=1,2,3,...,n, имеющих конечные
математические ожидания и дисперсии, влияние каждой из
которых на всю сумму ничтожно мало, т.е. ни одна из
величин по своему значению резко не отличается от
остальных. то при неограниченном увеличении n
распределение
нормальному с
приближается к
ожиданием,
математическим
равным
сумме
математических ожиданий и дисперсией, равной сумме
дисперсий..
N M , D

198.

Центральная предельная теорема – теорема
Ляпунова
Согласно теореме Ляпунова, при решении многих
практических задач, связанных со случайной величиной ,
являющейся
средним
арифметическим
наблюдаемых
значений случайной величины , можно утверждать, что
среднеарифметическое значение сл.в. распределено по
нормальному закону:
N a, 2 / n

199.

Спасибо за внимание

200.

Анализ данных
Лекция
Генеральная совокупность и выборка.
Вариационные ряды и их графическое
представление

201.

Анализ данных
Автор:
доцент департамента
«Анализа данных, принятия решений и финансовых технологий»
к.ф.-м.н.
Потемкин Александр Владимирович
Лекция 6

202.

Генеральная совокупность и
выборка
Анализ данных – дисциплина, опирающаяся на
методы и модели, изучаемые в математической
статистике.
Математическая статистика – раздел математики,
тесно связанный с теорией вероятностей.
Статистика изучает методы сбора и анализа
результатов наблюдений массовых случайных явлений с
целью выявления существующих закономерностей.

203.

Генеральная совокупность и
выборка
Различие
между
теорией
вероятности
и
математической статистикой заключается в том, что
типичная задача теории вероятности – по известным
вероятностям простых случайных событий вычислить
вероятность более сложного события.
Типичная задача математической статистики – на
основании результатов наблюдений оценить вероятность
случайного события или характеристики случайной
величины.
Для
осуществления
последнего
широко
используются выборочные методы.

204.

Генеральная совокупность и
выборка
Выборочные методы анализа данных являются
одной из составных частей математической статистики,
предметом которой является изучение совокупности
однородных
объектов
относительно
некоторого
качественного
или
количественного
признака,
характеризующего
эти
объекты
по
результатам
наблюдений.
совокупностью
Определение.
Генеральной
называют совокупность всех мысленно возможных
объектов данного вида,
над которыми проводятся
наблюдения.

205.

Генеральная совокупность и
выборка
В практике статистических обследований различают
два вида наблюдений:
сплошное, когда изучаются все объекты генеральной
совокупности относительно некоторого признака;
не сплошное (или выборочное), когда изучается только
часть объектов (выборочный метод) генеральной
совокупности.
Определение. Выборочной совокупностью, или
просто выборкой, называют совокупность случайно
отобранных объектов из генеральной совокупности.

206.

Генеральная совокупность и
выборка
Объемом
совокупности
(выборочной
генеральной)
называют
число
объектов
совокупности:
N – объем генеральной совокупности;
n – объем выборочной совокупности.
Предполагается, что N>n.
или
этой
Генеральная совокупность может
конечной, так и бесконечной ( N ).
как
быть

207.

Генеральная совокупность и
выборка
Суть выборочного метода состоит в том, чтобы
по некоторой части генеральной совокупности
(выборке) выносить суждения о ее свойствах в целом.
Для того, чтобы по выборке можно было
достаточно уверенно судить об изучаемой случайной
величине, выборка должна быть репрезентативной
(или представительной).
Репрезентативность
выборки
означает,
что
объекты выборки достаточно хорошо представляют
генеральную совокупность.

208.

Генеральная совокупность и
выборка
Репрезентативность
выборки
обеспечивается
выполнением трех требований:
1. Случайность отбора объектов выборки из
генеральной
совокупности,
т.е.
любой
объект
генеральной совокупности может быть отобран для
исследования.
При этом все объекты генеральной совокупности
имеют одинаковую вероятность попасть в выборку.
2. Независимость исследования каждого отдельного
объекта выборки от результатов,
полученных для
других объектов.
3. Достаточный объем выборки.

209.

Генеральная совокупность и
выборка
Возможны
два способа образования выборки:
повторный и бесповторный отбор.
Определение. Повторной называют выборку, при
которой
отобранный
объект
(перед
отбором
следующего)
возвращается
в
генеральную
совокупность.
Определение. Бесповторной называют выборку,
при которой отобранный объект в генеральную
совокупность не возвращается.

210.

Статистические и вариационные
ряды
Любой
исследуемый
признак
объектов
генеральной совокупности, независимо от наших
знаний о нем, имеет некоторое статистическое
распределение
и
может
рассматриваться
как
случайная величина .
Тогда,
значение исследуемого признака у
конкретного объекта выборки – это реализация
случайной величины
, а результаты наблюдений,
полученные для всех объектов выборки представляют
собой
множество расположенных
в беспорядке
реализаций случайной величины :
X 1 , X 2 ,..., X n

211.

Вариационные ряды
Определение. Ранжирование – это упорядочение
полученных данных в порядке возрастания (или
убывания).
проведения
операции
ранжирования
После
получим:
X 1 X 2 ... X n ,
где элемент
– называется k –ой
X k
порядковой статистикой.

212.

Вариационные ряды
Если изучаемая случайная величина является
дискретной,
то
после
проведения
операции
ранжирования опытные данные как правило нетрудно
объединить в группы так, что в каждой отдельной
группе возможные значения случайной величины будут
одинаковыми.
Определение. Различные возможные значения
случайной величины , соответствующие отдельной
группе сгруппированного ряда наблюдаемых данных,
называются вариантами и обозначаются
x1, x2 ,..., xm
При этом
x1 x2 ... xm .

213.

Вариационные ряды
Для
каждой
группы
сгруппированного
ряда
определяется ее численность, т.е. число, которое
показывает, сколько раз встречается соответствующий
вариант в ряде наблюдений.
Определение. Численность отдельной группы
сгруппированного
ряда
наблюдаемых
данных
называется частотой или весом соответствующего ей
варианта и обозначается ni (i=1,2,…,m), где i – номер
варианта.

214.

Вариационные ряды
Определение.
Отношение
частоты
данного
варианта к объему выборки называется частостью или
долей этого варианта и обозначается wi , т.е.:
Очевидно, что:
ni
wi
m n
n ni
i 1

215.

Вариационные ряды
Определение.
Сгруппированным
дискретным
вариационным рядом называется ранжированный в
порядке возрастания (или убывания) ряд вариантов с
соответствующими им частотами или частостями,
который представляют в виде таблицы:
варианты, xi
частоты, ni
частости, wi
x1
n1
w1
x2
n2
w2



xm
nm
wm
n
1

216.

Вариационные ряды
Пример 1. Изучается успеваемость студентов
некоторого вуза по математике. По схеме собственнослучайной бесповторной выборки из 500 студентов
вуза было отобрано 50. Результаты опроса студентов
представляют собой следующий набор чисел:
3;4;5;4;2;3;3;3;5;4;3;5;5; 2;3;5;3;5;3;5;4; 4;3;3;4;
3;3;3;4;3;4;3;5;3;4;4;3;5;3;3;5;
4;2;5;3;4; 2;3;5;4.
n 50
Построить дискретный вариационный ряд.

217.

Вариационные ряды
3;4;5;4;2;3;3;3;5;4;3;5;5; 2;3;5;3;5;3;5;4; 4;3;3;4;
3;3;3;4;3;4;3;5;3;4;4;3;5;3;3;5;
4;2;5;3;4; 2;3;5;4.
n 50
варианты, xi
частоты, ni
n
частость, w i
i
n
2
4
3
21
4
13
5
12
50
0,08
0,42
0,26
0,24
1

218.

Вариационные ряды
Накопленная частота определяется как сумма
частот вариант, не превышающих данного варианта,
т.е.
i
nx n1 n2 ... ni n j
i
j 1
Поделив
накопленную
выборочной совокупности,
частость
частоту
получим
на
объем
накопленную
i
n
n
...
n
1
i
1 2
nj
wx
n
n
n j 1
nx
i
i

219.

Вариационные ряды

220.

Вариационные ряды
Если изучаемая случайная величина является
непрерывной,
то
ранжирование
и
группировка
наблюдаемых значений, как правило, не позволяет
выделить характерные черты их варьирования.
В подобных случаях
вариационный ряд.
строится
интервальный
Для этого также проводят группировку, разбивая
весь интервал варьирования от xmin до xmax на отдельные
интервалы, так чтобы каждое возможное значение
принадлежало только одному из интервалов разбиения.

221.

Вариационные ряды
Число возможных значений изучаемой случайной
величины, принадлежащих i-му интервалу будем также
обозначать ni (частота попадания в i-ый интервал).
Число интервалов m следует брать не очень
большим, чтобы после группировки ряд не был
громоздким, и не очень малым, чтобыне потерять
особенности распределения признака.
Рекомендуемое число интервалов
согласно формуле Стерджеса:
m 1 3,322 lg n .
выбирается

222.

Вариационные ряды
Длины интервалов можно брать как равными, так и
различными.
Будем предполагать, что длины интервалов
одинаковые, величина которых (ширина интервала)
определяется соотношением:
xmax xmin
h
m

223.

Вариационные ряды
Границы интервалов рассчитываются по правилу:
a0 xmin , a1 a0 h, a2 a1 h, ...
Формирование интервалов заканчивается, как
только для правой границы
очередного интервала
выполняется условие:
am xmax

224.

Вариационные ряды
Сгруппированным интервальным
упорядоченная
вариационным
рядом
называется
совокупность
интервалов
варьирования
значений
случайной величины с соответствующими частотами или
частостями попаданий в каждый из них значений
величины.
Определение.
Очень часто интервальный ряд для простоты
исследований условно заменяют дискретным. В этом
случае в качестве вариант хi такого
ряда берутся
серединные значения интервалов разбиения, т.е.
ai 1 ai
xi
,
2
i 1,m
а соответствующую интервальную частоту ni – за частоту
этого варианта.
25

225.

Вариационные ряды
Пример 2. Для исследования доходов работников
предприятия, численность которого составляет 1600
человек, по схеме собственно-случайной бесповторной
выборки было отобрано 160 человек. Получены
следующие данные о месячном доходе (у.е.):
14; 25; 27; ; 32; 10.
160 значений
Находим минимальное хmin= 5, и максимальное
значения xmax= 45.
Разобьем полученные данные по отдельным
интервалам, т.е. проведем группировку.
26

226.

Вариационные ряды
Определяем число интервалов разбиения и их
длину:
m 1 3,322 lg160 8
h
45 5
5.
8
Интервалы
5-10
10-15 15-20 20-25 25-30 30-35 35-40 40-45 итого
частоты
7
15
26
40
32
21
14
5
160

227.

Вариационные ряды
Таким образом, в нашем примере с заработной
платой, получается следующий ряд:
Интервалы
5-10
10-15
15-20
20-25
25-30
30-35
35-40
40-45
сред.
знач.
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты
7
15
26
40
32
21
14
5
итог
о
160

228.

Вариационные ряды
Для каждого интервала
частоты и частости.
определяем накопленные
интервалы
5-10
10-15 15-20 20-25 25-30 30-35 35-40 40-45
варианты, хi
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты, ni
7
15
26
40
32
21
14
5
накопленная
частота, nx i
7
22
48
88
120
141
155
160
накопленная
частость,
0,044
0,138 0,300 0,550 0,750 0,881 0,969
1,0
wx
i
160

229.

Графическое представление
дискретных вариационных рядов
Графической
иллюстрацией
дискретных
вариационных рядов является полигон
частот или
относительных частот.
Полигон частот (или относительных частот) –
ломаная на плоскости, состоящая из отрезков прямых,
соединяющих точки с координатами (хi, ni) или (хi, wi), i
= 1, 2, …, m.

230.

Графическое представление
дискретных вариационных рядов
Для рассмотренного в примере 1 ряда полигон
частот будет следующим:
варианты, xi
частоты, ni
n
частость, w i
i
n
2
4
3
21
4
13
5
12
50
0,08
0,42
0,26
0,24
1
5
х
ni
wi
25
0,5
20
0,4
15
0,3
10
0,2
5
0,1
0
2
3
4

231.

Графическое представление
дискретных вариационных рядов
Эмпирической
называется функция
функцией
распределения
F (x) ,
*
nx
n
где
nx - число вариант, строго меньших х, а n –
объем выборки.

232.

Графическое представление
дискретных вариационных рядов
Для сгруппированного дискретного вариационного
ряда
для
распределения
любого
х
эмпирическая
представляет
собой
функция
накопленную
частость предшествующей варианты, т.е.
0, x x1,
nx
*
,
F (x) wx
n
1, x xn .
i 1
i 1
xi 1 x xi , i 2,3,...,n

233.

Графическое представление
дискретных вариационных рядов
Эмпирическая функция распределения для ряда
варианты, xi
частоты, ni
n
частость, w i
i
n
накопленная
частота, nx
2
4
3
21
4
13
5
12
50
0,08
4
0,42
25
0,26
38
0,24
50
1
0,08
0,5
0,76
1
i
накопленная
частость, wx
i
0, если x 2,
0, 08 если 2 x 3,
*
F (x) 0,5 если 3 x 4
0, 76 если 4 x 5,
1, если x 5.

234.

Графическое представление
дискретных вариационных рядов
Кумулятивной
кривой
называется
кривая
накопленных частот (или накопленных частостей).
Для
дискретного
вариационного
ряда
кумулятивная кривая представляет собой ломаную
линию, состоящую из отрезков прямых, соединяющих
точки (xi , nxi ) или
(xi , wxi ) ,
где nx – число вариант не превышающих
xi ,
i
а
x – накопленная частость .
w
i

235.

Графическое представление
дискретных вариационных рядов
Пример 4. Построить график
функции распределения. На том
изобразить кумулятивную кривую.
эмпирической
же графике
50 1,0
40 0,8
30 0,6
20 0,4
10 0,2
0
2
3
4
5
х

236.

Графическое представление
непрерывных вариационных рядов
Для графического изображения интервальных
вариационных рядов также
служит гистограмма,
представляющая
собой
ступенчатую
фигуру,
составленную из прямоугольников с основаниями,
равными интерваламзначений
признака длины k и
высотами, равными частотам ni или частостям wi
вариантов данных интервалов.
Если соединить середины верхних оснований
прямоугольников отрезками прямых, то можно получить
полигон того же распределения.

237.

Графическое представление
непрерывных вариационных рядов
Площадь гистограммы будет численно равна
произведению длины интервала k на объем выборки n,
т.е.
S h n,
а если в качестве высот брать
частости, то
площадь будет равна длине интервала разбиения, т.е.
S h

238.

Графическое представление
непрерывных вариационных рядов
Если же при построении гистограммы в качестве
высот прямоугольников взять отношение частости к
длине интервалов разбиения, то получим график
эмпирической функции плотности распределения f * (x)
Очевидно, что площадь под
функции будет равна единице.
графиком такой

239.

Графическое представление
непрерывных вариационных рядов
Построим гистограмму (эмпирическую функцию
плотности
распределения),
полигон
частот
и
кумулятивную
кривую
(эмпирическую
функцию
распределения) для ряда в примере 2.
интервалы
5-10
10-15 15-20 20-25 25-30 30-35 35-40 40-45
варианты, хi
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты, ni
7
15
26
40
32
21
14
5
накопленная
частота, nx i
7
22
48
88
120
141
155
160
накопленная
частость,
0,044
0,138 0,300 0,550 0,750 0,881 0,969
1,0
wx
i
160

240.

Графическое представление
непрерывных вариационных рядов
ni
50
40
30
20
10
0
10
20
30
40
50
х

241.

Графическое представление
непрерывных вариационных рядов
При
построении
эмпирической
функции
распределения для интервального вариационного ряда
будем учитывать, что мы имеем лишь значения этой
функции только на концах интервалов (накопленные
частости – последняя строка таблицы ).
Поэтому для ее графического изображения
целесообразно доопределить функцию, соединив
точки графика, соответствующие концам интервалов,
отрезками прямой.
Такое
определение
эмпирической
функции
распределения приводит к тому, что полученная
ломаная будет совпадать с кумулятивной кривой.

242.

Графическое представление
непрерывных вариационных рядов
nx
wx
160
1,0
128 0,8
96
0,6
64
0,4
32
0,2
0
10
20
30
40
50
х

243.

Спасибо за внимание

244.

Анализ данных
Автор:
доцент департамента
«Анализа данных, принятия решений и финансовых технологий»
к.ф.-м.н.
Потемкин Александр Владимирович
Лекция 7

245.

Анализ данных
Лекция
Статистические характеристики
вариационных рядов
2.Точечные и интервальные оценки
параметров генеральной совокупности
1.

246.

Статистические характеристики
вариационных рядов
Определение. Средней арифметической не
сгруппированного вариационного ряда называется
средняя арифметическая его вариант:
1 n
x xi
n i 1

247.

Статистические характеристики
вариационных рядов
Определение. Средней
арифметической
сгруппированного вариационного ряда называется
сумма
произведений
всех
вариант
ряда
на
соответствующие им частоты, деленная на сумму
частот (объем):
1 m
x
xn
n
i i
i 1
где xi –варианты дискретного ряда или середины
интервалов интервального ряда; ni – соответствующие
им частоты.

248.

Статистические характеристики
вариационных рядов
Определение. Дисперсией не сгруппированного
вариационного
ряда
называется
средняя
арифметическая квадратов отклонений вариант от их
средней арифметической:
n
2
1
s xi x
n i 1
2

249.

Статистические характеристики
вариационных рядов
Пример. Дана выборка
5, 2,1, 5, 4, 5, 3, 2, 3, 6.
Построить вариационный ряд.
Вычислить
среднюю
арифметическую
и
дисперсию.
Решение. Запишем данный ряд в порядке
неубывания его вариант:
1, 2, 2, 3, 3, 4, 5, 5, 5, 6.
Средняя арифметическая:
1
x (1 2 2 3 3 4 5 5 5 6) 3,6.
10
Дисперсия:
1
((1 3,6)2 (2 3,6)2 (2 3,6)2 (3 3,6)2
10
(3 3,6)2 (4 3,6)2 (5 3,6)2 (5 3,6)2
s2
(5 3,6)2 (6 3,6)2 ) 2,44.

250.

Статистические характеристики
вариационных рядов
Определение.
Дисперсией
сгруппированного
вариационного
ряда
называется
средняя
арифметическая квадратов отклонений вариантов от их
средней
арифметической.
Соответственно,
генеральная и выборочная дисперсии определяются
2
по формулам: 2 1 m
s xi x ni
n i 1
Теорема.
Дисперсия
вариационного
ряда
определяется по формуле:
m
s2
1
xi 2ni x 2 x2 x 2
n i 1

251.

Статистические характеристики
вариационных рядов
Пример. Вычислим среднюю арифметическую и
дисперсию для вариационного ряда, представленного в
примере:
Интервалы
5-10
10-15
15-20
20-25
25-30
30-35
35-40 40-45
сред.
знач.
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты
7
15
26
40
32
21
14
5
x
1
(7,5 7 12,5 15 17,5 26 22,5 40 27,5 32
160
32,5 21 37,5 14 42,5 5) 24,34
итог
о
160

252.

Статистические характеристики
вариационных рядов
Вычислим среднюю арифметическую и дисперсию
для вариационного ряда, представленного в примере:
Интервалы
5-10
10-15
15-20
20-25
25-30
30-35
35-40 40-45
сред.
знач.
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты
7
15
26
40
32
21
14
5
x2
1
(7,52 7 12,52 15 17,52 26 22,52 40 27,52 32
160
32,52 21 37,52 14 42,52 5) 662,63
s2 x2 x 2 662,63 24,342 70,19
итог
о
160

253.

Статистические характеристики
вариационных рядов
Медианой
вариационного ряда называется
значение признака, приходящееся на середину
ранжированного ряда наблюдений.
Для рядов с нечетным числом членов медиана
будет равна срединному варианту
M e X n 1
2
а для ряда с четным числом членов – полусумме
двух срединных вариант, т.е.
Xn Xn
1
2 .
M e 2
2

254.

Статистические характеристики
вариационных рядов
Пример. Вычислим медиану для ряда
1, 2, 2, 3, 3, 4, 5, 5, 5, 6.
Решение.
Ряд с четным
Следовательно, медиана равна
срединных вариант, т.е.
3 4
Me
3,5.
2
числом вариант.
полусумме двух

255.

Статистические характеристики
вариационных рядов
Пример. Вычислить
медиану для дискретного
вариационного ряда представленного в примере 1.
варианты, xi
частоты, ni
n
частость, w i
i
n
2
4
3
21
4
13
5
12
50
0,08
0,42
0,26
0,24
1
X 25 3
X 26 4
3 4
M e
3,5.
2

256.

Статистические характеристики
вариационных рядов
Для интервального вариационного ряда находится
медианный интервал, на который приходится середина
ряда, т.е. первый интервал, где сумма накопленных
частот превышает половину наблюдений от общего
объема выборки.
что
функция
плотности
Предполагая,
распределения признака на медианном интервале
является постоянной,
значение медианы на этом
интервале
находят
с
помощью
линейного
интерполирования по формуле:
n
n x,e 1
M e x e 2
h
ne

257.

Статистические характеристики
вариационных рядов
Пример. Вычислить медиану для интервального
вариационного ряда, полученного в примере 2.
Интервалы
5-10
10-15
15-20
20-25
25-30
30-35
35-40 40-45
сред.
знач.
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты
7
15
26
40
32
21
14
5
xe 20, ne 40, h 5, nx,e 1 48
n 160.
160
48
M e 20 2
5 24 .
40
итог
о
160

258.

Статистические характеристики
вариационных рядов
Модой вариационного ряда называется варианта,
которой соответствует наибольшая частота.
Если интервальный ряд имеет одинаковую ширину
интервалов, то за приближенное значение моды берут
середину модального интервала, т.е. интервала с
наибольшей частотой.
Точное значение моды можно получить по
формуле:
M o xм h
nм nм 1
,
(nм nм 1 ) (nм nм+1 )

259.

Статистические характеристики
вариационных рядов
Пример. Вычислить моду для ряда
1, 2, 2, 3, 3, 4, 5, 5, 5, 6.
Решение.
M o 5.

260.

Статистические характеристики
,
вариационных
рядов
,
Пример. Вычислить моду вариационных рядов,
рассмотренных выше в примерах 1 и 2.
В примере 1
варианты, xi
частоты, ni
n
частость, w i
i
n
2
4
3
21
4
13
5
12
50
0,08
0,42
0,26
0,24
1
M o 3.
т.к. эта варианта имеет наибольшую частоту,
равную 21.

261.

Статистические характеристики
вариационны, х рядов
Во втором примере воспользуемся приведенной
выше формулой. Из вида вариационного ряда следует,
что:
Интервалы
5-10
10-15
15-20
20-25
25-30
30-35 35-40
40-45
сред.
знач.
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты
7
15
26
40
32
21
14
5
xм 20
h 5
nм 40
nм-1 26
M o 20 5
40 26
23,18.
(40 26) (40 32)
nм+1 32
итог
о
160

262.

Статистические характеристики
вариационных рядов
Определение. Генеральной долей р признака А
называется отношение числа М членов генеральной
совокупности с признаком А к ее объему N, т.е.
p=M/N.
Определение. Выборочной долей признака А
называется отношение числа m членов выборочной
совокупности с признаком А к ее объему n, т.е.
=m/n.

263.

Статистические характеристики
вариационных рядов
Пример. Вычислить выборочную долю студентов
сдавших экзамен на хорошо и отлично.
варианты, xi
частоты, ni
n
частость, w i
i
n
2
4
3
21
4
13
5
12
50
0,08
0,42
0,26
0,24
1
13 12 0,5.
50

264.

Статистические характеристики
вариационных рядов
Пример. Вычислить выборочную долю работников
предприятия, имеющих заработную плату не большую
20 у.е.
Интервалы
5-10
10-15
15-20
20-25
25-30
30-35 35-40
40-45
сред.
знач.
7,5
12,5
17,5
22,5
27,5
32,5
37,5
42,5
частоты
7
15
26
40
32
21
14
5
7 15 26 48 0,3.
160
160
итог
о
160

265.

Точечные оценки параметров
генеральной совокупности
Исчерпывающей вероятностной характеристикой
случайной величины является ее закон распределения
– функция распределения или функция плотности
распределения.
Для описания законов распределения достаточно
знать его числовые характеристики или параметры
распределения.
В
качестве
параметров
могут
выступать
математическое
ожидание,
дисперсия,
среднее
квадратическое отклонение, доля и др.

266.

Точечные оценки параметров
генеральной совокупности
По выборке можно находить лишь приближенные
значения указанных числовых характеристик, т.е. их
оценки.
В отличие от оцениваемого параметра – величины
неслучайной – выборочная оценка является величиной
случайной. Ее значение существенно зависит от
объема выборки и ее состава. Будем ее обозначать .
Выборочная
Определение.
числовая
характеристика
качестве
,
используемая
в
приближенного
значения
неизвестной
числовой
характеристики
генеральной
совокупности
t,
называется ее точечной статистической оценкой.

267.

Точечные оценки параметров
генеральной совокупности
Как правило, существует некоторое множество
оценок одной и той же числовой характеристики
генеральной совокупности.
Так, если оценивается математическое ожидание
некоторого признака генеральной совокупности –
генеральная средняя , то в качестве его оценки по
выборке можно, например, принять выборочную
среднюю, моду медиану полусумму наименьшего и
наибольшего значений по выборке и т.д.
Неоднозначность выбора оценки приводит к тому,
что необходимо решить какая оценка обеспечивает
наибольшую точность определения соответствующих
числовых характеристик генеральной совокупности.

268.

Точечные оценки параметров
генеральной совокупности
Всякая оценка постоянной величины с помощью
случайной
величины
должна
обладать
тремя
следующими свойствами:
а) свойство несмещенности;
б) свойство состоятельности;
в) свойство эффективности.

269.

Точечные оценки параметров
генеральной совокупности
Состоятельность.
Оценка
n генеральной
характеристики t называется состоятельной, если она
удовлетворяет закону больших чисел, т.е. сходится по
вероятности к оцениваемому параметру:
n t.
p
т.е.
lim P n t 1
n
Указанная в определении последовательность
числовых оценок n можно получить, например,
увеличивая объем выборки.

270.

Точечные оценки параметров
генеральной совокупности
Смысл свойства состоятельности состоит в том,
что при увеличении объема выборки растет
уверенность (вероятность) в том, что отклонение
оценки от оцениваемой числовой характеристики
генеральной совокупности по абсолютной величине
становиться сколь угодно малым.
Если оценка не является состоятельной, то она не
имеет практического смысла, так как в этом случае
увеличение объема исходной информации не будет
приближать эту оценку к истинной.

271.

Точечные оценки параметров
генеральной совокупности
Несмещенность.
Оценка
n
генеральной
характеристики t называется несмещенной, если для
любого
фиксированного
числа
наблюдений
n
выполняется равенство
M n t,
т.е. математическое ожидание оценки равно
оцениваемой неизвестной характеристике.
Смысл несмещенности состоит в том, что если
точечная оценка обладает этим свойством, то она
будет группироваться около действительного значения
данного параметра и при массовом применении такой
оценки, она в среднем будет равна этому значению.

272.

Точечные оценки параметров
генеральной совокупности
Эффективность.
Оценка
n
генеральной
характеристики t называется эффективной, если она
среди всех прочих несмещенных оценок той же самой
характеристики обладает наименьшей дисперсией.
Для
того
чтобы
выяснить,
является
ли
несмещенная и состоятельная оценка эффективной,
необходимо сравнить дисперсию этой оценки с
минимальной дисперсией. В некоторых случаях этот
минимум хорошо известен.

273.

Выборочная доля как точечная оценка
генеральной доли
Теорема.
Выборочная
доля
=m/n
есть
несмещенная, состоятельная и эффективная оценка
генеральной доли p=M/N, причем ее дисперсия
pq
2
,
для повторнойвыборки
n
2
pq
n
1
,
n N
для бесповторной выборки

274.

Выборочная средняя как точечная
оценка генеральной средней
Теорема. Выборочная средняя
есть
х
несмещенная, состоятельная и эффективная оценка
генеральной средней х0 , причем ее дисперсия
2
2
x
2
,
n
x2 1 n ,
n N
для повторнойвыборки
для бесповторной выборки

275.

Выборочная дисперсия как точечная
оценка генеральной дисперсии
Теорема. Выборочная дисперсия s2 повторной и
бесповторной
выборок
есть
смещенная
и
состоятельная оценка
дисперсии генеральной
совокупности .
n 1 2
2
Ms
n
Несмещенной
и
оценкой
состоятельной
генеральной дисперсии является
исправленная
выборочная
дисперсия,
которая
определяется
соотношением:
n 2
s€2
n 1
s

276.

Интервальные оценки параметров
генеральной совокупности
Интервальной оценкой параметра t называется
числовой интервал 1 , 2 , который с
заданной
вероятностью накрывает неизвестное значение
параметра t.
1
t
2
Такой интервал называется доверительным, а
вероятность – доверительной вероятностью
или надежностью оценки.

277.

Доверительная вероятность и
предельная ошибка выборки
Очень часто доверительный интервал выбирается
симметричным относительно параметра t , т.е.
t ,t
Наибольшее отклонение выборочной средней
(или доли) от генеральной средней (или доли),
которое возможно с заданной доверительной
вероятностью , называется предельной ошибкой
выборки.

278.

Доверительная вероятность и
предельная ошибка выборки.
Ошибка
является
ошибкой
репрезентативности
(представительности)
выборки. Она возникает только вследствие того, что
исследуется не вся совокупность, а лишь ее часть
(выборка), отобранная случайно.

279.

Спасибо за внимание

280.

Анализ данных
Автор:
доцент департамента
«Анализа данных, принятия решений и финансовых технологий»
к.ф.-м.н.
Потемкин Александр Владимирович
Лекция 8

281.

Анализ данных
Лекция
Интервальные оценки параметров
генеральной совокупности

282.

Построение доверительного интервала
по большим выборкам
Теорема. Вероятность того, что отклонение
выборочной средней (или доли) от генеральной
средней (или доли) не превзойдет число > 0 (по
абсолютной величине), равна:
P x x0 2Ф(u) , где u
,
P p 2Ф(u) , где u
Ф(u)

соотношением:
функция
Ф( х )
1
Лапласа,
x t 2
2 dt
e
2 0
x
.
определяемая

283.

Построение доверительного интервала
по большим выборкам
Определение.
Среднее
квадратическое
х
отклонение
выборочной средней
и
выборочной доли собственно случайной выборки
называются
средними
квадратическими
(стандартными)
ошибками
выборки
соответсвенно при оценке генеральной средней и
доли.

284.

Построение доверительного интервала
по большим выборкам
Следствие 1. При заданной доверительной
вероятности предельная ошибка выборки равна
u-кратной величине средней квадратической ошибки,
где 2Ф(u) = , т.е.
u x
,
u
.
Интервальные
оценки
Следствие
2.
(доверительные интервалы) для генеральной средней
и генеральной доли могут быть найдены по
формулам:
x x0 x
, p
.

285.

Построение доверительного интервала
по большим выборкам
ОцениФормулы средних квадратических ошибок
ваемы
выборки
й
Повторная выборка
Бесповторная выборка
параметр
2
2
n
s
2
2
x n 1 N n 1 Nn
s
x
Средняя
n
Доля
n
pq
(1 )
1 n (1 ) 1 n
pq
n
N
n
N
n
n

286.

,
Построение доверительного
интервала по большим выборкам
Пример. Найти границы, в которых с вероятностью
0,9876 заключена средняя месячная заработанная плата
всех работников данного предприятия.
Решение. По условию имеем:
2
s
70,19
x
24,34
N 1600
n 160
Вычислим
среднюю
квадратическую
ошибку
бесповторной выборки:
s2
n
70,19
160
1
0,63
x
1
160 1600
n N
По таблице значений функции Лапласа для
доверительной вероятности 0,9876 находим u 2,5.
Следовательно: 2,5 0,63 1,575.
24,34 1,575 x0 24,34 1,575
Доверительный
или
интервал:
22,765 x0 25,915

287.

Построение доверительного
интервала по большим выборкам
Пример. Найти вероятность того, что средняя
месячная заработанная плата
всех работников
предприятия отличается от среднего дохода, полученного
по выборки не более, чем на 1 у.е. по абсолютной
величине.
Решение. По условию имеем:
1
Находим искомую доверительную вероятность по
формуле:
P x x0 2 Ф
x
или
1
2 Ф 1,59 2 0,4441 0,8882
2 Ф
0,63

288.

,
Построение доверительного
интервала по большим выборкам
Пример. Найти границы, в которых с вероятностью
0,9545 заключена доля работников предприятия, средняя
месячная заработанная плата которых не более 20 у.е.
Решение. По условию имеем:
n 160
0,3
N 1600
Вычислим
среднюю
квадратическую
ошибку
бесповторной выборки для доли:
w
w(1 w) n
0,3 (1 0,3)
160
1
1
0,034
n
160
N
1600
По таблице значений функции Лапласа для
доверительной вероятности 0,9545 находим u 2.
Следовательно: u w 2 0,034 0,068
Доверительный
интервал:
0,3 0,068 p 0,3 0,068
или
0,233 p 0,368

289.

,
Построение доверительного
интервала по большим выборкам
Пример. Найти вероятность того, что доля
работников предприятия, месячная заработанная плата
которых не превышает 20 у.е., отличается от полученной
по выборке доли не более, чем на 5% по абсолютной
величине.
Решение. По условию имеем: 0,05
Находим искомую доверительную вероятность по
формуле:
P w p 2 Ф
w
2 Ф 0,05 2 Ф 1,47 2 0,4292 0,8584.
0,034

290.

Объем выборки
Для проведения выборочного наблюдения весьма
важно правильно установить объем выборки n, который
в значительной степени определяет необходимые при
этом временные, трудовые и стоимостные затраты. Для
определения n необходимо задать надежность
(доверительную вероятность) оценки и
точность (предельную ошибку выборки ) .
Объем
выборки
находится
выражающей предельную ошибку
дисперсию признака.
из
формулы,
выборки через

291.

Объем выборки
Оценива
е мый
параметр
Повторна
я
выборка
Бесповторная выборка
Средняя
u2 2
n 2
Nu2 2
n 2 2
u N 2
Доля
u 2 pq
n 2
n
Nu2 pq
u 2 pq N 2

292.

Объем выборки
Если найден объем повторной выборки n, то объем
соответствующей бесповторной выборки n' можно
nN
определить по формуле:
.
n
n N
Так как
N
1,
n N
то при одной и той же точности и надежности
оценок объем бесповторной выборки всегда будет
меньше объема повторной выборки: n n
Этим и объясняется тот факт, что на практике в
основном используется бесповторная выборка.

293.

Объем выборки
Как видно из представленных в таблице формул,
для определения объема выборки необходимо знать
характеристики генеральной совокупности, которые
неизвестны
и
для
определения
которых
предполагается провести выборочное исследование.
Поэтому, в качестве этих характеристик обычно
s2
используют
выборочные
данные
или
предшествующего
исследования
в
аналогичных
условиях.

294.

Объем выборки
Если никаких сведений о значениях 2 или р нет, то
организуют специальную пробную выборку небольшого
объема.
При оценки генеральной доли (если о ней ничего
не известно) вместо проведения пробной выборки
можно в формулах в качестве произведения pq взять
его максимально возможное значение, равное 0,25, но
при этом надо учитывать, что найденное значение
объема
выборки
будет
больше
минимально
необходимого для заданных точности и надежности
u2
оценок, т.е.
n
4 2

295.

Объе выборки
Пример.
Определить
объем
бесповторной
выборки, чтобы с
вероятностью 0,9876 средняя
месячная заработанная плата, полученная по выборке
отличалась от генеральной средней не более чем на 1
у.е.
Решение. Сначала найдем объем повторной
выборки :
2
2
2
u s
2,5 70,19
n
439
2
2
1
Объем бесповторной выборки :
nN
439 1600
345
n
n N 439 1600

296.

Объем выборки
Пример.
Определить
объем
бесповторной
выборки, чтобы с
вероятностью 0,9545 доля
работников
предприятия
средняя
месячная
заработанная плата которых не более 20 у.е.,
отличалась от полученной по выборке не более, чем на
5% (по абсолютной величине).
Найти то же число, если о выборочной доли ничего
неизвестно.
Решение. Сначала найдем объем повторной
u 2 w(1 w) 22 0,3 (1 0,3)
выборки :
n
336
0,05
nN
336 1600
n
278
Объем бесповторной выборки:
n N 336 1600
2
2
Если о выборочной доли ничего n u 2
400
2
2
4
4 0,05
неизвестно:
nN
400 1600
320
n
n N 400 1600
2
2

297.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности по
малой выборке при известной дисперсии
Пусть исследуемый признак в генеральной
совокупности описывается нормально распределенной
случайной величиной ξ: ~ N a, 2
Не нарушая общности можно считать, что все
элементы выборки
X1 , X 2 ,..., X n
независимы и одинаково распределены.
Пусть
M X i a,
D X i 2 .

298.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности по
малой выборке при известной дисперсии
Рассмотрим
выборочную
среднюю
арифметическую.
Найдем параметры закона распределения средней
арифметической:
1 n
1 n
1
M x M
M
X
n a a,
X
i
i
n
n i 1
n i 1
n
1 n
1
1
2
2
D x D X i
D
X
n
.
i
2
2
n
n i 1
n i 1

299.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при известной дисперсии
Для
построения
доверительного
интервала
рассмотрим случайную величину
x a
.
/ n
Эта случайная величина имеет стандартный
нормальный закон распределения:
1
1
x a 1
M M
M x a
M x a
a a 0,
/ n
/ n
/ n / n
2
n
1
x
a
n
D D
a 2 D x 0 2 1.
2D x
n
/ n
/ n

300.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при известной дисперсии
Если
дисперсия
генеральной
совокупности
известна, то задав доверительную вероятность γ,
найдем такое значение предельной ошибки выборки Δ,
при котором
P x a .
Зная, что случайная величина η имеет стандартное
нормальное распределение, перепишем последнее
соотношение в виде:
.
P x a P x a
2
/ n
n
/
n
/

301.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при известной дисперсии
Таким образом, необходимо найти такое значение
аргумента функции Лапласа
u
,
/ n
при котором 2 u .
Разрешая последнее соотношение относительно Δ,
получим:
u
.
n
Следовательно, доверительный интервал будет
иметь следующий вид:
u
u
x
a x
.
n
n

302.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при известной дисперсии
Нетрудно
заметить,
что
в
этом
случае
доверительный интервал совпадает с полученным
ранее доверительным интервалом для больших
выборок.
Однако использовать эту формулу можно лишь
тогда, когда генеральная дисперсия известна.
На практике, как правило, генеральная дисперсия
неизвестна
и
также
подлежит
интервальному
оцениванию.

303.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при известной дисперсии
Пример.
С
надежностью
0,9545
найти
доверительный интервал
для
числа пассажиров
пригородного поезда, если среднее число пассажиров,
рассчитанное за 25 рабочих дней, составляет 512
человек, а дисперсия равна 400.
u 2 x 512
Решение. n 25 400 20
2 20
8.
25
512 8 a 512 8
504 a 520

304.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при неизвестной
дисперсии
. Определим интервальную оценку неизвестной
генеральной средней a нормально распределенной
генеральной совокупности при неизвестной дисперсии.
В отличие от
предыдущего случая, вместо
случайной величины распределенной по стандартному
нормальному закону распределения, рассмотрим
случайную величину (статистику)
x a
x a
,
t
s / n 1 s€/ n
где s2 и ŝ2 соответственно выборочная и
исправленная выборочная дисперсии.

305.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при неизвестной
дисперсии
Представив статистику в виде
x a
t / n ,
1 ns 2
n 1 2
Случайная величина t имеет t-распределение
Стьюдента с k=n-1 степенями свободы, которое не
зависит от неизвестных параметров распределения
случайной величины,
а зависит только от числа
степеней свободы k.

306.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при неизвестной
дисперсии
Для закона распределения Стьюдента составлены
таблицы значений, при которых
P t t ,k .
Следовательно, при оценке генеральной средней
предельная ошибка малой выборки объема n при
t ,n 1 s
неизвестной дисперсии будет равна
,
n 1
а доверительный интервал находиться по формуле
t ,n 1 s
t ,n 1 s
x
a x
.
n 1
n 1

307.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при неизвестной
дисперсии
Если в последних соотношениях выборочную
дисперсию s2 заменить исправленной выборочной
дисперсией ŝ2, то формулы для предельной ошибки
выборки и доверительный интервал будут иметь
следующий вид:
t ,n 1 s€
,
n
t ,n 1 s€
t ,n 1 s€
.
x
a x
n
n

308.

Построение доверительного интервала для
генеральной средней нормально
распределенной генеральной совокупности
по малой выборке при неизвестной
дисперсии
Пример.
С
надежностью
0,95
найти
доверительный интервал
для
числа пассажиров
пригородного поезда, если среднее число пассажиров,
рассчитанное за 25 рабочих дней, составляет 512
человек, а исправленная выборочная дисперсия равна
400.
Решение.
n 25 s€ 400 20 t0,95,24 2,06 x 512
2,06 20
8,245.12 8,24 a 512 8,24
25
503,76 a 520,76

309.

Построение доверительного
интервала для генеральной
дисперсии
Рассмотрим случайную величину (статистику)
2
ns2
2
.
Можно показать, что такая случайная величина
распределена по закону χ2 с k=n-1 степенями свободы.
Распределение не зависит от неизвестных параметров
случайной величины а зависит лишь от числа степеней
свободы k.
Задаваясь
доверительной
вероятностью
доверительный интервал будем определять из условия:
2
2
ns
2
P лев. 2 прав. .

310.

Построение доверительного
интервала для генеральной
дисперсии
Графически последнее соотношение означает, что
площадь под кривой функции плотности распределения
2
2
равна γ.
между лев.
и
прав.
Очевидно, что
границы такого
промежутка
определяются
неоднозначно.
Для определенности
будем считать, что
P
2
2
лев.
P
2
2
прав.
1
.
2

311.

Построение доверительного
интервала для генеральной
дисперсии
Воспользуемся таблицей χ2 распределения:
2
2
прав.
P ,k .
Тогда
P
2
1
.
2
2
1
2
.
,n 1
1 1
1
2
2
1
.
P лев.
2
2
2
2
лев.
2
лев.
2
1
P
2
2
прав.
2
2
.
,n 1

312.

Построение доверительного
интервала для генеральной
дисперсии
Выражая из двойного неравенства
2
2
лев.
ns
2
2
прав.
неизвестное значение генеральной
получим для нее доверительный интервал:
ns2
2
прав.
s n
прав.
2
ns2
2
лев.
s n .
лев.
.
дисперсии

313.

Построение доверительного
интервала для генеральной
дисперсии
Пример. По выборке объема 10 из нормально
распределенной генеральной совокупности получено
выборочное значение дисперсии равное 20. Построить
интервальные оценки для генеральной дисперсии и
среднего квадратического отклонения с надежностью
0,95.
Решение.
2
2
2 2
= 2
прав.
=2,7
0,025,9 19.
лев.
1 0 ,95
,9
2
0 ,975,9
10 20
10 20
2
19
2,7
или
10,53 2 74,07.
3,24 8,61.

314.

Спасибо за внимание

315.

Анализ данных
Автор:
доцент департамента
«Анализа данных, принятия решений и финансовых технологий»
к.ф.-м.н.
Потемкин Александр Владимирович
Лекция 9

316.

Анализ данных
Лекция
Проверка статистических гипотез

317.

Статистические гипотезы и
статистические критерии
Статистическая гипотеза – это любое
предположение
о
виде
неизвестного
закона
распределения
или
о
параметрах
известных
распределений, проверяемое по выборочным данным.
Примеры.
1.
Генеральная
совокупность распределена по
нормальному закону;
2.
Случайная величина, распределенная по закону
Пуассона, имеет параметр распределения, равный 5;
16.01.2019
118

318.

Статистические гипотезы и
статистические критерии
Проверяемую
гипотезу принято называть
нулевой гипотезой и обозначать Н0.
Помимо основной нулевой гипотезы выдвигается
альтернативная гипотеза Н1.
Альтернативная гипотеза всегда
противоречит
нулевой гипотезе или другими словами является
событием несовместным с Н0.
Так, если необходимо выяснить, чему равно
математическое ожидание исследуемого параметра –
двум или трем, то можно проверить нулевую гипотезу
С ей час н е у дает с я от образ и т ь ри с у н ок .
С ей час н е у дает с я от образ и т ь ри с у н ок .
Альтернативной гипотезой будет

319.

Статистические гипотезы и
статистические критерии
Вопрос о том, какую гипотезу принять в качестве
альтернативной, как правило, не всегда решается
однозначно.
Для одной и той же нулевой гипотезы можно
рассмотреть несколько альтернативных гипотез.
Так, для рассмотренной выше нулевой гипотезы
можно рассмотреть и другие альтернативы, в
частности, такие как
H 1 : M 2
или
H1 : M 2.

320.

Статистические гипотезы и
статистические критерии
Гипотезы о значениях параметров распределения
или о сравнительной величине параметров двух
распределений называются параметрическими, а
гипотезы
о
виде
распределения
называются
непараметическими.
Параметрические гипотезы формулируются на
основании свойств тех или иных статистических
законов распределения и могут использоваться лишь в
том случае, если распределение выборочных данных
согласуется с этим законом распределения.

321.

Статистические гипотезы и
статистические критерии
Непараметрические гипотезы применяются в том
случае,
если
закон
распределения
изучаемых
случайных величин неизвестен или их распределение
не соответствует никакому из известных законов.
В этом случае необходимо проверить, согласуются
ли выборочные (эмпирические) данные с каким-либо
теоретическим распределением или нет.
Чаще всего проверяют гипотезу о соответствии
выборочных данных нормальному распределению.

322.

Статистические гипотезы и
статистические критерии
Гипотезы подразделяются на простые и сложные.
Простая гипотеза – это гипотеза, которая
содержит только одно предположение.
Например, математическое ожидание нормально
распределенной случайной величины равно 5.
Сложная гипотеза – это гипотеза, которая
состоит из конечного или бесконечного числа простых
гипотез.
Например, математическое ожидание нормально
распределенной случайной величины больше 5.

323.

Статистические гипотезы и
статистические критерии
Независимо от наших знаний о генеральной
совокупности, выдвинутая нулевая гипотеза либо верна,
либо неверна.
Проверить нулевую гипотезу означает, что на
основании выборочных данных необходимо ответить на
вопрос, согласуется ли основная гипотеза с опытными
данными или противоречит им.
При этом всегда следует помнить, что любая выборка
содержит в себе ошибку репрезентативности, связанную
с тем, что исследуется не вся генеральная совокупность,
а лишь ее часть.
В связи с этим, по выборке однозначно нельзя
утверждать, что гипотеза верна или неверна, а можно
лишь говорить о том, что согласуется она с опытными
данными или противоречит им.

324.

Статистические гипотезы и
статистические критерии
Проверка статистических гипотез осуществляется с
помощью статистических критериев.
Статистический критерий – это случайная
величина (статистика θ), которая представляет собой
функцию, зависящую от выборочных данных, закон
распределения которой (вместе со значениями
параметров) известен в случае, если проверяемая
гипотеза справедлива.
Такой критерий называют критерием согласия,
имея в виду согласие принятой гипотезы с
результатами, полученными по выборке.
Любой статистический критерий устанавливает,
при каких значениях статистики гипотеза принимается,
а при каких она отвергается.

325.

Статистические гипотезы и
статистические критерии
Из-за случайности отбора объектов из генеральной
совокупности
в
выборку,
любая
проверка
статистической гипотезы сопряжена с возможностью
допустить некоторые ошибки, что в дальнейшем будет
сопряжено с принятием неправильных решений.
В общем случае с принятием или отклонением
решения возможны два типа ошибок – ошибки первого
и второго рода.

326.

Статистические гипотезы и
статистические критерии
Если в действительности гипотеза Н0 верна, а на
основании выборочных данных принято решение ее
отвергнуть, то говорят, что допущена ошибка первого
рода.
С другой стороны, если в действительности верна
альтернативная гипотеза Н1, а принято решение
принять гипотезу Н0 то говорят, что допущена ошибка
второго рода.
Все возможные случаи принятия решения сведены
в таблицу:

327.

Статистические гипотезы и
статистические критерии
Определение. Вероятность α ошибки 1-го рода,
т.е. вероятность отвергнуть гипотезу Н0
при
условии, что она верна, называется уровнем
значимости критерия, т.е.
P H1 |H0
Следует
устанавливать
разумные
значения
вероятностей этих ошибок. На практике, обычно
рассматривают значения 0,005, 0,01, 0,05 и 0,1.
При этом следует отметить, что нередко возникают
ситуации, когда одна и та же гипотеза на одном уровне
значимости принимается, а на другом отвергается.

328.

Статистические гипотезы и
статистические критерии
Определение. Вероятность
1 ,
противоположная вероятности α, называется
уровнем
доверия,
или
доверительной
вероятностью.
Доверительная вероятность – вероятность принять
нулевую гипотезу при условии, что она верна, т.е.
P H0 | H0

329.

Статистические гипотезы и
статистические критерии
Если в действительности верна альтернативная
гипотеза Н1, а принято решение принять гипотезу Н0, то
говорят, что допущена ошибка второго рода.
Вероятность ошибки 2-го рода т.е. вероятность
принять гипотезу Н0 при условии, что она не верна,
обозначается β, т.е.
P H 0 | H1 .
Определение. Вероятность
неверная гипотеза Н0
будет
называется мощностью критерия.
С ей час н е у дает с я от образ и т ь ри с у н ок .
того, что
отвергнута,

330.

Статистические гипотезы и
статистические критерии
Естественное желание состоит в том, чтобы
вероятность совершить ошибку первого рода была
минимальной. При этом значение мощность критерия
должна быть как можно больше.
Однако, это противоречивые требования. При
фиксированном объеме выборки можно сделать сколь
угодно малой лишь одну из вероятностей – или .
Уменьшение одной из них сопряжено с
неизбежным увеличением другой. Одновременное
уменьшение вероятностей или возможно только
лишь при изменении объема выборки в сторону его
увеличения.

331.

Статистические гипотезы и
статистические критерии
Для любого выбранного статистического критерия
множество всех его возможных значений разделяется
на два непересекающихся подмножества.
Первое подмножество – критическая область –
это множество возможных значений статистического
критерия, при которых нулевая гипотеза отвергается.
Второе подмножество – это множество возможных
значений статистического критерия, при которых
нулевая гипотеза не отвергается.
Вид критической области существенно зависит от
альтернативной гипотезы.

332.

Статистические гипотезы и
статистические критерии
Показать критические области можно на графиках
функции распределения статистики критерия.
В зависимости от вида альтернативной гипотезы
различают односторонние и двусторонние (ДКО)
критические области.
Вид
двусторонней
критической
области
следующий:

333.

Статистические гипотезы и
статистические критерии
Односторонние критические области также могут
быть либо правосторонние (ПКО), либо левосторонние
(ЛКО).
Точки,
которые
разграничивают критическую
область и область принятия гипотезы, называются
критическими точками.
Критическая область и ее границы полностью
определяются уровнем значимости .

334.

Статистические гипотезы и
статистические критерии
Если
закон распределения
статистики
θ,
вычисленной в предположении, что нулевая гипотеза
верна, известен, то критические значения статистики
могут быть найдены из условий:
• для правосторонней критической области
P кр .п . ;
• для левосторонней критической области
P кр .л . ;
• для двусторонней критической области
,
2
P кр.л .
.
2
P кр.п.

335.

Статистические гипотезы и
статистические критерии
Общая схема проверки гипотез:
1. В зависимости от задачи
исследования
формулируются статистические – нулевая гипотеза Н0
и альтернативная ей гипотеза Н1.
2. Выбирается
статистическая
характеристика
гипотезы — статистика критерия – случайная величина
θ, распределение которой при справедливости нулевой
гипотезы известно.
3. Задается
уровень
значимости
α
и
рассчитываются границы критической области.

336.

Статистические гипотезы и
статистические критерии
Общая схема проверки гипотез:
4. Вычисляется
эмпирическое или наблюдаемое
значение статистики θнабл..
5. Сравнивается
критическое и наблюдаемое
значения статистики и делается вывод.
Если эмпирическое значение статистики θнабл.
(вычисленное по конкретной выборке) попадает в
критическую область, то нулевая гипотеза отвергается
и принимается альтернативная гипотеза; в противном
случае нулевая гипотеза не отвергается.

337.

Гипотезы о числовой величине
математического ожидания нормально
распределенной случайной величины
С проверкой гипотез о числовых значениях каких-либо
величин встречаются довольно часто как в экономических,
так и в физических приложениях.
Например, в финансовом анализе, когда по данным
выборки необходимо установить, можно ли считать
доходность актива определенного вида или портфеля
ценных бумаг, равным заданному числу, или по
результатам
выборочной
аудиторской
проверки
однотипных документов нужно убедиться, можно ли
считать процент допущенных ошибок равным номиналу, и
т.п.
Аналогичные
задачи
могут
возникнуть
и
в
промышленности, например, при проверке качества
функционирования измерительных устройств.

338.

Проверка гипотезы о числовом значении
математического ожидания при известной
дисперсии
Пусть случайная величина распределена по
нормальному закону с неизвестным математическим
ожиданием и известной дисперсией, т.е.
N a , 2
Формулируется нулевая гипотеза Н0 о том, что
неизвестное математическое ожидание а равно числу
а0, т.е.
H : a a
0
0

339.

Проверка гипотезы о числовом
значении математического
ожидания при известной дисперсии
Для проверки этой гипотезы организуется выборка
из генеральной совокупности объема n.
X1 , X 2 , ..., X n
Каждая варианта выборки распределена по
нормальному закону с теми же самыми параметрами:
В качестве статистики берется величина:
X i N a, 2
x a
.
/ n
Можно показать, что эта статистика будет иметь
стандартное нормальное распределение, т.е.
N 0,1

340.

Проверка гипотезы о числовом
значении математического
ожидания при известной дисперсии
Случайная величина θ зависит только от
выборочных данных.
Для конкретной выборки ее значение будем
называть
эмпирическим
или
наблюдаемым
и
обозначать θнабл..
При проверке нулевой гипотезы Н0: а=а0,
вычисляется по формуле:
x a0
набл.
/ n
θнабл.
.
Согласно общей схеме проверки гипотез, далее
необходимо выдвинуть альтернативную гипотезу.

341.

Проверка гипотезы о числовом
значении математического
ожидания при известной дисперсии
Относительно ее формулировки можно выделить
три различных случая.
H1: a a1 a0 ;
H1: a a1 a0 ;
H1: a a1 a0 .

342.

Проверка гипотезы о числовом
значении математического
ожидания при известной дисперсии
1. В случае альтернативной гипотезы
H1: a a1 a0
критическая область будет правосторонней и
представляет собой интервал
Граница критической области определяется из
P кр .пр . .
условия:
Используя связь функции распределения с
функцией
Лапласа,
последнюю
вероятность
представим в виде:
С ей час н е у дает с я от образ и т ь ри с у н ок .
P кр .пр. 1 P кр .пр. 1 FN кр .пр. 1
1
1 2Ф кр .пр.
2
.

343.

Проверка гипотезы о числовом
значении математического
ожидания при известной дисперсии
Разрешая последнее соотношение относительно
функции Лапласа, получим:
1
Ф кр .пр . .
2
Используя таблицу значений функции Лапласа
Ф( х )
1
x
t 2
e dt
2
2
0
находим ее аргумент, соответствующий значению
вероятности 1/2 −
English     Русский Rules