Similar presentations:
Основы дисперсионного анализа
1. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА
Лекция №9для студентов 2 курса,
обучающихся по специальности 060609 –
Медицинская кибернетика
доц. Шапиро Л.А.
Красноярск, 2015 г.
2. План лекции:
• Актуальность темы.• Виды дисперсионного анализа и его
характеристики
• Этапы дисперсионного анализа
• Формулы для однофакторного
дисперсионного анализа
• Сила влияния фактора
• Множественные сравнения.
3. Актуальность темы
Основной целью дисперсионногоанализа является исследование
значимости различия между
средними при числе сравниваемых
выборок больше двух
4.
Нулевая гипотеза:В генеральной совокупности групповые средние
нормальных совокупностей с одинаковыми
дисперсиями равны между собой
x1 x2 ... xn
Для проверки этой нулевой гипотезы достаточно
проверить по критерию Фишера нулевую гипотезу о
равенстве факторной и случайной дисперсии
(в этом состоит метод ДА)
5. Условия:
• изучаемые факторы должны быть независимыми;• распределение
выборочных
данных
должно
соответствовать нормальному распределению или
сводится
к
нему
путем
соответствующих
преобразований
• Выборки однородны - выборочные дисперсии не
различаются значимо (критерии Кочрена, Левене,
Бартлета и т.д.)
х – =А+е, где – средняя арифметическая
генеральной совокупности;
х – конкретное значение переменной;
А – доля отклонения переменной, связанная с влиянием
данного конкретного фактора;
е – остаточная часть отклонения, не объяснимая
влиянием данного фактора.
6. Виды дисперсионного анализа и его характеристики
Раздел статистики, изучающий влияние факторов наизменчивость
случайной
величины,
называется
дисперсионным анализом (Р. Фишер).
ДИСПЕРСИОННЫЙ АНАЛИЗ
(ANOVA, Д.А.)
ОДНОФАКТОРНЫЙ
МНОГОФАКТОРНЫЙ
Д.А. повторных наблюдений.
Д.А. независимых выборок .
Многомерный Д.А.
7.
• Признаки, изменяющиеся под влиянием техили иных причин, называются результативными
(зависимыми).
• Сами
причины
называются
факторами
(независимые переменные).
• Конкретное значение фактора называется
градацией (или уровнем) фактора (доза
препарата, степень тяжести заболевания).
• Градациям
(уровням)
межгруппового
фактора соответствуют независимые выборки
объектов.
• Градациям
(уровням)
внутригруппового
фактора соответствуют зависимые выборки
объектов (повторные измерения).
8.
При однофакторном ANOVA изучается влияние одногофактора на зависимую переменную. Проверяется одна
гипотеза.
Многофакторный ANOVA позволяет проверять гипотезы не
только о влиянии каждого фактора в отдельности, но и о
взаимодействии факторов.
Пример: двухфакторный ANOVA. Изучается влияние двух
факторов А-степень тяжести заболевания, B – пол на
содержание гемоглобина. Проверяется три гипотезы:
1. Влияние степени тяжести заболевания (А).
2. Влияние гендерных различий (В).
3. Взаимодействие факторов АВ (зависимость степени
влияния одного фактора от градаций другого).
9.
Взаимодействие факторов35
35
30
25
20
м
ж
15
10
5
Средние значения
Средние значения
30
25
20
м
ж
15
10
5
0
0
Легкая
Средняя
Факторы А и В
независимы
Тяжелая
Легкая
Средняя
Тяжелая
Факторы А и В зависимы
10.
Пример: трехфакторный ANOVA. Факторы А, В, С.Проверяется семь гипотез:
1. А
2. В
3.С
4. АВ
5. АС
6. ВС 7. АВС
Двухфакторный ANOVA с повторными измерениями по одному
из факторов проверяются три гипотезы:
1. Влияние внутригруппового фактора.
2. Влияние межгруппового фактора.
3. Взаимодействие внутригруппового и межгруппового
фактора.
Степень изменения всех признаков и отклонение их от
средней арифметической ряда характеризуется дисперсией
D(х):
n
D( x ) s
2
2
(
x
x
)
i
i 1
n 1
D(X)=M(X2)-(M(X))2
11.
Однофакторный дисперсионный анализ.Идея метода - разложить показатель изменчивости
признака на две составляющие: изменчивость между
группами и изменчивость внутри групп.
Dобщ = Dфакт + Dслуч
F
Dфакт
Dслуч
- критерий Фишера
Если F>Fкр (при уровне значимости =0,05), то
влияние фактора существенно.
Если F<Fкр (уровень значимости > 0,05),
фактор не влияет на изучаемый признак.
12. Этапы дисперсионного анализа:
• Представить данные в виде таблицы.Номер
наблюдения
(j)
1
2
...
j
n
Средние по
группам:
Уровни фактора(i)
3
...
a
1
2
x11
x21
x31
xa1
x12
x22
x32
xa2
x1j
x2j
x3j
xaj
x1n
x2n
x3n
xan
x1
x2
x3
xa
i – индекс уровня фактора (от 1 до а);
j – индекс варианты (от 1 до n).
13.
• Общее варьирование всех вариант (хij),независимо от того, в какой группе они находятся,
вокруг общей средней x характеризуется
дисперсией Dобщ.
Dобщ
( x ij x )
2
ij
N 1
где N=a∙n– число всех вариант;
dfобщ.= N–1 – число степеней свободы.
14.
• Варьирование групповых средних x i или среднихкаждого уровня данного изучаемого фактора вокруг
общей средней x , характеризуется факторной
дисперсией Dфакт.
Dфакт
ni( x i x )
2
i
a 1
dfфакт= a – 1– число степеней свободы.
ni – среднее число вариант в каждой группе,
n – если число вариант в группах одинаково.
15.
• Варьирование вариант хij внутри каждойгруппы вокруг каждой групповой средней x i
характеризует случайная или остаточная
дисперсия Dслуч.
2
( xij xi)
i j
Dслуч
N a
df случ =N - a – число степеней свободы.
Причем: (N – a) + (a – 1) = N – 1
16. Формулы для однофакторного дисперсионного анализа
Источникварьирования
Сумма
Число
квадратов SS степеней
(числитель) свободы df
(знаменатель)
Общее
(все
варианты)
2
(
x
x
)
ij
Групповые
средние
(фактор А)
n i (x i x) 2
ij
N–1
a –1
i
Варианты
2
(
x
x
)
ij i
внутри групп
i j
(случайные
отклонения)
N–a
Формулы для
дисперсии
MS
1
N 1
1
a 1
2
(
x
x
)
ij
ij
2
n
(
x
x
)
i i
i
1
2
(
x
x
)
ij i
N a i j
17. Пример. Провести однофакторный дисперсионный анализ для выяснения влияния реагентов на синтез лекарственного препарата (выход-усл.ед).
№1
2
3
4
xi =
F1
x1j
5
3
4
4
4
F2
x2j
F3
x3j
F4
x4j
4
3
4
2
3,25
7
6
5
6
6
8
7
9
7
7,75
2 этапа:
•Провести дисперсионный анализ (выяснить влияет ли фактор)
•Если фактор влияет – провести попарные межгрупповые
сравнения
18.
Таблица 1№
1
2
3
4
xi =
F1
x1j
5
F2
x2j
F3
x3j
F4
x4j
3
4
4
4
3
4
2
7
6
5
6
8
7
9
7
4
3,25
6
7,75
13
24
31
169
576
961
х = 16
x 256
i
2
i
х
ij
Таблица 2
x
2
=84
ij
7056
№
F1
x21j
F2
x22j
F3
x23j
F4
x24j
25
49
36
25
64
49
81
1
2
3
9
16
16
9
16
4
16
4
36
49
45
146
243
2
x
i 66
2
x
ij 500
19. Вычисления:
Сумма квадратов SSобщ для общей вариации:
x
x
N
2
SSобщ
7056
500
59
16
ij
2
ij
Сумма квадратов SSфакт для вариации между
группами:
x 1
1
x
2
SSфак
2
n
i
ij
N
4
1962
7056
16
Средний квадрат, характеризующий
факторную дисперсию MSфакт:
МS фак
SS фак
df фак
49.5
,
16,5
3
49.5
.
20.
Сумма квадратов SSсл для вариации
внутри групп:
SSсл=SSобщ – SSфак = 59 – 49,5=9,5
Средний квадрат MSсл для вариации
внутри групп:
SSсл 9,5
MS сл
0,79
df сл 12
т.к MSсл< MSфак,
F
MSфак
MSсл
16,5
20,84
0,79
а Fкрит=3,49 для =0,05 и dfсл=12 и dfфак=3
ВЛИЯНИЕ ФАКТОРА ДОСТОВЕРНО!
21. Сила влияния фактора
• Сила влияния фактора A определяется:2
2
А
Dфакт .
где
Dфакт . Dсл уч.
MSфакт . MSслуч. MSфакт . Dслуч.
Dфакт
n
n
В нашем случае
Dфакт.
Dфакт. Dслуч .
2
А
Dфакт
16,5 0,79
3,93
4
3, 93
3, 93 0 , 79
0,83 83%
22.
Вывод: 83% от действия всех факторовприходится на вид реагента, 17% – приходится
на долю случайных факторов.
Для выявления наиболее эффективного реагента
построим график
Выход лекарственного
препарата (усл.ед)
9
8
7
6
5
4
3
2
1
0
1
2
3
Вид реагента
4
23. Множественные сравнения
• Дисперсионный анализ позволяет установить,существуют ли достоверные различия между
отдельными уровнями фактора (средними
арифметическими отдельных групп).
• Между какими группами конкретно имеется
разница - необходимо выяснить.
n – число вариант в каждой группе.
Sd
Dслуч.
n
d
t
Sd
• Отношение разницы d к ее ошибке Sd , т.е.
должно
быть таким, чтобы оно гарантировало значимость не
менее чем при =0,05.
24.
• Коэффициент Q, рассчитан для разногоколичества групп а и степеней свободы dfслуч.
Sd
Dслуч.
n
0,79
0,2
4
d12=4-3,25=0,7;
d12 0,7
t12
3,8;
S d 0,2
d23=6-3,25=2,75;
d 23 2,75
t 23
13,9;
Sd
0,2
Q=4,2 для dfслуч=12 и а=4;
t12< Q, разница не достоверна
t23> Q, разница достоверна
25. Вывод:
Вид реагента достоверно влияет навыход лекарственного препарата.
Наибольшую эффективность имеет
фактор (реагент), градация которого
равна F4.
26. Множественные сравнения
• Поправка Бонферрониесли имеется n групп, то уровень значимости
0,05
n
например, при n=3 =0,05/3=0,017
Критерии:
LSD (наименьшей значимой разности)
Ньюмена-Кейлса
Шеффе
Тьюки и т.д.
27. Заключение
Таким образом, нами рассмотреныосновы дисперсионного анализа,
изучающего влияние факторов на
изменчивость случайной величины
28. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА:
Основная литература:Попов А.М. Теория вероятней и
математическая статистика /А.М. Попов, В.Н.
Сотников. – М.: ЮРАЙТ, 2011. – 440 с.
Герасимов А. Н. Медицинская статистика:
учебное пособие / А. Н. Герасимов. – М. : Мед.
информ. агентство, 2007. – 480 с.
Балдин К. В. Основы теории вероятностей и
математической статистики : учебник / К. В.
Балдин. – М. : Флинта, 2010. – 488с.
Учебно–методические пособия:
Шапиро Л.А., Шилина Н.Г. Руководство к
практическим занятиям по медицинской и
биологической статистике Красноярск: ООО
«Поликом». – 2003.