3.01M

Category:

informatics

Биостатистика. Обзор данных

1.

Биостатистика
2. Статистическое оценивание и проверка гипотез.
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН

Чем мы занимались на предыдущем занятии?
Фактически теорией вероятностей!
Мы вычисляли вероятность наблюдаемого расклада
(комбинации событий) при условии случайности и независимости
этих событий
Эту вероятность мы вычисляли «в лоб», используя
комбинаторику и биномиальное распределение Бернулли.
Это была статистика «на пальцах», точнее говоря на монетах
На этом пути мы освоили точный тест Фишера,
предназначенный для сравнения частот событий
К сожалению, для решения большинства других задач
статистики такой «честный путь» невозможен.
Вместо этого по результатам измерений вычисляется новая
величина, т.н. статистика теста (t, 2, Z, … ), и уже по ее значениям
косвенно судят о неслучайности эффекта.

3.

Несколько обязательных общих понятий
Статистика - это экспериментальный анализ случайных
величин. Мы пытаемся судить о неизвестных случайных величинах
по конечной совокупности наблюдений за ними (выборке).
Неизвестный нам закон распределения наблюдаемой случайной
величины называется генеральным.
Выборка - это последовательность чисел x1, . . . , xn , полученных
при n-кратном повторении эксперимента в неизменных условия,
например это могут быть значения признака для n различных
особей
Характеристики выборки (среднее, дисперсия) являются
приблизительными оценками истинных параметров неизвестного
нам генерального распределения

4.

Обычно по результатам биологического
эксперимента появляется некий Excel-файл
Признак 1 Признак 1
Особь 1
Особь 1
…
…
Признаки могут быть:
Количественные
(непрерывные или счетные)
Качественные
(номинальные или порядковые)
Несколько советов по хранению данных:
Вносите все данные в одну электронную таблицу. Не надо для
каждой популяции создавать новый файл
Тщательно продумывайте названия столбцов и обозначения для
номинальных признаков
При внесении текстовых данных следите за унификацией:
Генотип «А С» - это не то же самое, что «АС» или « АС».
Следите также за раскладкой клавиатуры

5.

Познакомьтесь: наша учебная «база данных».
Она будет использована для иллюстраций
Качественные
КоличественныеКачественный
номинальные признаки
признакипорядковый признак:
0 – контроль
1 - больной

6.

Обзор данных: описательные статистики
Среднее – основная характеристика
«положения» случайной величины
n
x
x
i 1
i
n
Близкие характеристики «положения»
• Медиана – значения больше и меньше равновероятны
• Мода – наиболее вероятное значение случайной величины
• Среднее геометрическое
xG n x1 x2 ...xn
Дисперсия – основная характеристика
разброса случайной величины около среднего
n
2
(x
i 1
x) 2
i
n 1
Дисперсия имеет размерность [x]2. Корень из дисперсии называется
стандартным отклонением (SD) и имеет размерность [x]
n
(x
i 1
i
x) 2
n 1

7.

Упражняемся…
Оценка
Число учеников (из 100)
Физика
Физкультура
2
10
0
3
50
10
4
30
20
5
10
70
Чему равны средние оценки по физике и физкультуре?
Средняя оценка по физике = 0.1 2+ 0.5 3+ 0.3 4+0.1 5=0.2+1.5+1.2+0.5=3.4
….
по физкультуре = 0 2+ 0.1 3+ 0.2 4+0.7 5=0+0.3+0.8+3.5=4.6
Для какого предмета дисперсия оценок выше?
Дисперсия оценок по физике =
=0.1 (2-3.4)2 + 0.5 (3-3.4)2+ 0.3 (4-3.4)2+ 0.1 (5-3.4)2 =0.64
Дисперсия оценок по физкультуре =
=0 (2-4.6)2 + 0.1 (3-4.6)2+ 0.2 (4-4.6)2+ 0.7 (5-4.6)2 =0.44

8.

Обзор данных: описательные статистики
с помощью Excel
В Excel есть встроенные функции описательных статистик:
= СРЗНАЧ(число1; число2; …)
или
= СРЗНАЧ(диапазон)
= ДИСП(число1; число2; …)
или
= ДИСП(диапазон)
Выбор диапазона
Кроме того в пункте «Сервис» имеется пакет «Анализ
данных», содержащий
данных
различные статистические процедуры
Галочка, если в
первой строке
названия признаков
Куда поместить
результаты
вычислений

9.

Обзор данных: описательные статистики
с помощью WinStat
Выбор одной или
нескольких
переменных

10.

Обзор данных: смотрим характер
распределений
35
30
25
25
20
20
Frequency
Frequency
гистограммы распределений
количественных признаков
30
15
10
5
15
Frequency
Всегда необходимо просматривать:
60
50
40
10
30
5
20
0
… и частоты встречаемости
для качественных признаков,
например, частоты генотипов
300 to 1040 to 50 to 60 to 70 to 80 to 90 to 100 to 110 to
40 100 50
60120 to70130 to 80
90 to 160
100 to 170
110to 180
120
to 110 to
140 to 150
to 190 to
110
120
130
140
150
160
170
180
190
200
0
Вес
0 to 0,1 to 0,2 to 0,3 to 0,4 to 0,5 to 0,6 to 0,7 to 0,8 to 0,9 to
0,1
0,2
0,3
0,4 Рост
0,5
0,6
0,7
0,8
0,9
1
АберХр
50
45
40
Frequency
35
30
25
20
15
10
5
0
A/A
A/G
G/G
GSTP1_A313G
Можно использовать встроенный в Excel пакет «Анализ данных:

11.

Обзор данных: смотрим характер
С группировкой по
распределений
номинальному
признаку
Всегда необходимо просматривать:
Пол
Relative frequency (%)
35,00
M
30,00
25,00
20,00
15,00
10,00
5,00
0,00
Упражняемся…
100
to
110
110
to
120
120
to
130
130
to
140
140
to
150
150
to
160
Рост
160
to
170
170
to
180
180
to
190
190
to
200
Ж

12.

Ошибки средних и доверительные интервалы
n
Выборочное среднее x
x
i 1
i
является величиной случайной!
n
Стандартное отклонение этой случайной величины называется
ошибкой среднего (SE). Можно показать, что
SE
SD
n
n
Не путайте SD и SE !!!
Оценка разнообразия
признака в генеральной
совокупности
Слабо зависит от
размеров выборки
Изменчивость самих
оценок среднего
Всегда уменьшается
при увеличении
размеров выборки
Почему 1.96 ?
Мы еще об этом
поговорим!
В отчетах можно писать: x SE
А можно указывать 95%-ый доверительный интервал:
x 1.96SE; x 1.96SE
Это интервал, накрывающий истинное значение среднего с вероятностью 95%

13.

Упражняемся…
Оценка
Число учеников (из 100)
Физика
Физкультура
2
10
0
3
50
10
4
30
20
5
10
70
Средняя оценка по физике = 3.4.
Дисперсия = 0.64
Средняя оценка по физкультуре = 4.6. Дисперсия = 0.44
Чему равны стандартные отклонения и ошибки самих оценок (SD и SE)?
По физике: 3.4±0.1 Можно записать так 3.40±0.08, но не так 3.4±0.08
0.8
SE
0.08
SD 0.64 0.8
100
По физкультуре: 4.6±0.1
0.66
0.07
SD 0.44 0.66 SE
100

14.

Упражняемся…
Конечно вручную это никто не считает!
Можно использовать встроенный в Excel пакет «Анализ данных:
Еще удобней:
± 95% Confidence interval
200
180
160
140
Рост
120
100
80
60
40
20
0
Ж
M
Пол

15.

Боксы с усами (Box & Whisker) еще один способ представления данных
140
В120
боксе 50%
данныхМедиана
Вес
100
80
60
95%-ый
40
доверительный
интервал
20
0
Ж
M
Пол

16.

Оценки частот тоже имеют ошибки и
доверительные интервалы
Выборка
Количественный признак
Номинальный признак
{x1, x2,…xn}
{m, n}
n
Среднее
x
x
i 1
p
i
n
m
n
n
SD
( x x)
2
p(1 p)
i
i 1
n 1
SE
p(1 p)
n
n
95%-ый доверительный интервал для частоты:
p 1.96
p (1 p )
; p 1.96
n
p (1 p )
n
Еще лучше
WhatIs/CI/Proportion

17.

Поговорим о нормальном распределении
Вы его много раз видели:
1
e
2
( x x)2
0,4
x 0, 1
2 2
0,3
f (x )
f ( x)
Площадь равна
вероятности
1Площадь
< x < 2 двух красных
треугольников равна 0.05
0,2
0,1
0
-4
-3
-1.96
-2
-1
0
1
2
3
4
1.96
x
Это плотность распределения (кривая, огибающая гистограмму). Площадь
под кривой равна вероятности попадания x в соответствующий интервал.
Площадь хвостов:
Р (-1.96 < x < 1.96) = 0.95
Отсюда 95%-ый доверительный интервал: x 1.96SE; x 1.96SE

18.

Почему нормальное распределение
встречается на каждом шагу?
Нормальное распределение имеет любая величина, которая определяется
суммой большого числа случайных слагаемых (ЦПТ).
Чем больше слагаемых – тем «нормальней»!
Например, биномиальный закон – это вероятность суммарного числа
независимых событий в N испытаниях. Поэтому, если N велико, биномиальное
распределение становится нормальным.
Проверяем ... К 20 годам 80% молодых людей курит. Какова вероятность, что
среди 100 окажется 15 некурящих?
С помощью биномиального распределения: = ЧИСЛКОМБ(100;15)*0,2^15*0,8^85
или
Р(15) = 0.048
= БИНОМРАСП(15; 100; 0,2; 0)
= НОРМРАСПР(15;20;4;0)
С помощью нормального распределения:
Среднее число некурящих Np =100 0.2=20,
дисперсия равна Np(1-p) = 100 0.2(1-0.2) = 16, = 4.
Р(15) = 0.046

19.

Гипотезы и статистики
Ключевые понятия
Гипотеза – это предположение о виде распределения или значении
параметра генерального распределения (например о среднем)
Нулевая гипотеза (H0) - обычно предположение о случайном характере
наблюдаемых различий или об отсутствии эффектов
Альтернативная гипотеза (H1) формулируется в зависимости от характера
теста – односторонний или двусторонний
Статистический критерий – это правило, согласно которому принимается
или отвергается гипотеза.
Статистика – это функция от выборочных наблюдений на основе которой
принимается или отвергается нулевая гипотеза

20.

Гипотезы и статистики
Знакомый пример
Эксперимент: 470 орлов в 1000 бросаниях оценка р = 0.47 при n = 1000
0,4
Н0 - нулевая гипотеза: р = ½
x 0, 1
Н1 - альтернативная гипотеза:
р < ½ - односторонний тест
0,3
f (x )
В данном случае мы умеем вычислять вероятность «менее 470 из 1000» при
выполнении Н0 (т.е. при
0,2 условии р = ½ )
= БИНОМРАСП(470; 1000; 0,5; 1)
Принимаем Н1, потому0,1что вероятность отвергнуть правильную Н0 мала:
Площадь?
Считать сумму от 0
= 0.031 – вероятность ошибки I рода
до 470
0
Очень
часто
мы
вынуждены
поступать
по
другому.
Вычисляется некая
-4
-3
-2
-1
0
1
2
3
4
функция от выборочных наблюдений1.9
(статистика теста), характер
распределения которой xзаведомо известен.
Z - статистика
Z
x x
x x
p 0 .5
= (0,5-0,47)/КОРЕНЬ(0,47*0,53/1000)
= 1.9
p (1 p )
= 0.029
=1- НОРМРАСП(1,9; 0; 1;1)
n
Однако по двустороннему тесту (р≠1/2) нам следует отвергнуть Н0: 2 0.031>0.05
О том же говорит размер доверительного интервала:

21.

Вероятность упустить и вероятность обознаться
В жизни, а также при проведение статистических тестов
возможны два типа ошибок:
- отвергнуть правильную нулевую гипотезу
- принять неправильную нулевую гипотезу
Нулевая гипотеза – обычно предположение об отсутствии
различий, например, 2 выборки взяты из одной генеральной
совокупности
Ошибка I рода ( )
Вероятность отвергнуть правильную нулевую гипотезу =
Вероятность обнаружить различия там, где их нет =
Вероятность совершить фальшивое открытие
Ошибка II рода ( )
Вероятность принять неправильную нулевую гипотезу =
Вероятность не обнаружить существующие различия =
Вероятность упустить открытие

22.

Вероятность упустить и вероятность обознаться
Н0 – беременности нет
Отвергнута
правильная нулевая
гипотеза. Сделано
фальш-положительное
открытие
Принята неправильная
нулевая гипотеза.
Фальш-негативный
вывод. Открытие
упущено

23.

Вероятность упустить и вероятность обознаться
От чего зависят ошибки статистических тестов?
От размаха реально существующих отличий и разброса данных
От объемов выборок
• Ошибка I рода (вероятность фальшивого открытия) слабо
зависит от объемов выборок, если они сравнимы по величине
• С увеличением объема выборки вероятность ошибки II
рода (вероятность упустить открытие) всегда уменьшается
Ошибки I и II рода однозначно не связаны. В целом
ошибка II рода растет при уменьшении ошибки I рода

24.

Вероятность упустить и вероятность обознаться
«Критерий» св. Фомы Неверующего (0033):
всегда принимаем Н0
(т.е. различий нет, и все всегда случайно )
Караваджо (1573-1610). Фома Неверующий
Ошибка I рода = 0 Ошибка II рода = 1

25.

Вероятность упустить и вероятность обознаться
vs. :
противоборство показателей теста
Всегда
отвергаем Н0
=1, =0
Тест
Всегда принимаем
Н0 =0, =1
Ошибка I рода
Ошибка II рода
Уменьшая ошибку I рода, увеличиваем ошибку II рода,
т.е. теряем мощность теста (et converso)

26.

Вероятность упустить и вероятность обознаться
Частота
0.25
При условии Н0
При условии Н1
0.2
Ошибка I рода
0.15 велика
Ошибка II рода
велика
0.1
Ошибка II рода
мала
0.05
Ошибка I рода
мала
0
Высокий
Низкий
уровень
уровень
значимости значимости
Статистика
теста

27.

Вероятность упустить и вероятность обознаться
Мощность теста = 1-
т.е. вероятность правильно отвергнуть нулевую гипотезу
или вероятность не упустить открытие
Мощность 80% считается приемлемой
Консервативный тест - это тест с низкой мощностью
Мощностью теста резко возрастает при увеличении
объемов выборок
При планировании экспериментов имеет смысл прикинуть
возможную мощность тестов
Например,
Compare2/ Power/ Comparison of proportions
Size A - 100 Size B – 100
Мощность =
a/A – 0.2
b/B – 0.1
44%
… и необходимый объем выборок
Например,
Compare2/ Sample size/ Proportions
Size A/ Size B =1
a/A – 0.2
b/B – 0.1
Общий объем выборок = 398

28.

На сегодня это все
Напоследок хочу посоветовать:
Если Вы этого никогда не делали, составьте базу данных в Excel
и посчитайте самостоятельно описательные статистики
Поставьте на свой компьютер WinPepi и оцените возможности
этой программы
Подумайте над тем, ошибки какого рода Вы чаще совершаете –
I или II ? Это полезно для усвоения настоящего материала.

English Русский Rules