Лекция 3: Регрессионный, корреляционный и дисперсионный виды анализа
1 Регрессионный анализ
Адекватность регрессионной модели
2 Корреляционный анализ
3 Дисперсионный анализ (ANOVA)
934.50K
Category: mathematicsmathematics

Регрессионный, корреляционный и дисперсионный виды анализа. (Лекция 3)

1. Лекция 3: Регрессионный, корреляционный и дисперсионный виды анализа

1.
2.
3.
Регрессионный анализ.
Корреляционный анализ.
Дисперсионный анализ.
Учебно-исследовательская работа
студента. Лекция 3
1

2. 1 Регрессионный анализ

Функциональная зависимость может быть представлена в
виде «ящика»: он преобразует вход X {x1 , x2 , , x N }, к выходу
Y { y1 , y2 , , y N }
.
Функция ящика: одномерная («один вход» ‑ «один выход»),
или многомерная.
что известно об объекте:
все
структура
колич. значения
Y f (X )
параметров
структура
ничего
белый
серый
черный
+
+
+
-
-
Учебно-исследовательская работа
студента. Лекция 3
2

3.

Задача регрессионного анализа – нахождение уравнения
зависимости откликов от фактора, т.е. восстановление
функциональной зависимости параметров по данным
эксперимента.
Искомое уравнение – уравнение (функция) регрессии.
Рассмотрим линейную одномерную
регрессию (один вход – один выход).
Экспериментальные точки могут быть
представлены на декартовой плоскости
(диаграмма рассеяния). Они
выстраиваются почти в прямую линию.
Учебно-исследовательская
работа студента. Лекция 3
диаграмма
рассеяния
3

4.

Алгоритм нахождения одномерной линейной функции
регрессии
0. Предварительная оценка линейности
по диаграмме рассеяния отображение данных X и Y в виде точек
на декартовой плоскости (Xi, Yi).
1. Выдвижение H0: функция регрессии («черного ящика»)
имеет вид
Y f X aX b
Учебно-исследовательская
работа студента. Лекция 3
4

5.

2. Для каждой точки находится разность εi
между экспериментальным значением
отклика Yi и «теоретическим» значением
отклика YТi
i Yi YiТ Yi aX i b
N
3. Находится суммарная ошибка
2
F(a, b) = i
i 1
N
N
N 2 2
N
N
2
X i a Nb 2 X i ab 2 X iYi a 2 Yi b Yi 2
i 1
i 1
i 1
i 1 i 1
F(a, b) – квадратичная, a и b – неизвестные.
эллиптический
параболоид:
есть extr
Учебно-исследовательская
работа студента. Лекция 3
гиперболический
параболоид:
нет extr, только
седловая точка
5

6.

Для нахождения min F(a, b)
F
а) необходимые условия экстремума => находим a 0,
F
координаты а, b т.н. стационарной точки M:
0.
b
N
N
N
N 2 N N
N
X i Yi X iYi X i
N X iYi X i Yi
i 1 i 1 b i 1
i 1 i 1
i 1
a i 1
2
N X i X i
i 1
i 1
N
N
2
2
N X i X i
i 1
i 1
N
N
2
б) достаточные условия экстремума => проверка того, что
точка с координатами (a, b) – минимум функции.
2F
A 2
a
М
2F
B
a b М
2F
C 2
b
Учебно-исследовательская
работа студента. Лекция 3
D =AC‑B2
М
6

7.

В нашем случае
N
N
2F
2
A 2 2 X i B
2 X i
a b
a
i 1
i 1
2F
C
2
D AC B 4 N X i 4 X i
i 1
i 1
2
N
N
2F
b
2
2N
2
Если D<0 F(a, b) – гиперболический парабалоид.
Если D>0 F(a, b) – эллиптический парабалоид:
• A>0 в (a, b) – min;
• A<0 в (a, b) – max.
Для вычисления a и b можно использовать выражения:
a
XY X Y
2
X X
2
b
Y X 2 X XY
2
X X
Учебно-исследовательская
работа студента. Лекция 3
2
7

8. Адекватность регрессионной модели

Выборочный коэффициент детерминации R2
R2
T
2
(
Y
Y
)
i
(Yi Y ) 2
объясненные моделью отличия
R 2 [0,1]
общее отклонение
R2 1 модель хорошего качества.
R2 0, построенная модель плохого качества.
На (R2)·100% найденная функция регрессии описывает связь
между исходными значениями Y и Х;
(1-R2)·100% отклонения значений Y обусловлены
факторами, не включенными в регрессионную модель.
Если R2≥0,75, по модели можно делать прогноз значений в
пределах исходного диапазона данных.
Учебно-исследовательская
работа студента. Лекция 3
8

9.

Алгоритм оценки адекватности:
1 H0: генеральное значение R2 незначимо.
Т.е даже если рассчитанное (выборочное) значение R2
близко к 1, это получилось только из-за выборки.
2 Статистика критерия:
Fнабл
R2
N p 1
2
p
1 R
3 Задаемся уровнем значимости (α=0,05)
4 Находим Fкр – значение критерия Фишера для заданного
уровня значимости α с числом степеней свободы k1=p, k2=Np-1 (для линейной регрессии p=1).
5 Если Fнабл≤Fкр, H0 принимается (модель неадекватна).
Учебно-исследовательская
работа студента. Лекция 3
9

10. 2 Корреляционный анализ

Рассмотрим полученные в ходе эксперимента наборы
данных: X {x1 , x2 , , x N }, Y { y1, y2 , , y N }.
Задача корреляционного анализа – обнаружение
взаимосвязи между двумя параметрами и количественная
оценка степени неслучайности их совместного изменения.
Исследуемые величины могут быть как двумя показателями
в одной выборке, так и двумя различными выборками.
выборка
параметры
параметр
Человек 1
2
3

n
Рост
Вес
150
55
167
60


166
59
178
60
Пары близнецов
Усидчивость
Близнец1
(1-10)
Близнец2
1
6
6
Учебно-исследовательская
работа студента. Лекция 3
2
4
8
3
7
9
выборки



n
7
1
10

11.

Если есть связь между величинами, корреляционный
анализ показывает:
• растет/уменьшается один параметр с ростом другого;
• насколько сильно один показатель влияет на другой.
Корреляционный анализ помогает установить возможность
предсказания вероятных значений одного показателя с
помощью известных значений другого.
Изображение исходных данных - корреляционное поле:
• по оси абсцисс шкала для одного показателя
(выборки);
• по оси ординат шкала для другого показателя
(выборки).
По расположению точек на корреляционном поле можно
судить о наличии/отсутствии связи, ее силе и характере.
Учебно-исследовательская
работа студента. Лекция 3
11

12.

линейная
нелинейная
Для определения взаимосвязи между параметрами
используется коэффициент корреляции – только для
случая линейной взаимосвязи между параметрами (для
нелинейной связи дает ложные значения).
Учебно-исследовательская
работа студента. Лекция 3
12

13.

Классификация по силе связи:
• функциональная – есть жесткая зависимость между
двумя параметрами, которую можно записать в виде
функции без сглаживания;
• сильная;
• умеренная;
• слабая;
• отсутствующая – связи нет.
Классификация по направлению связи:
• положительная, характеризующая прямую
зависимость между параметрами, когда увеличение
одного параметра приводит к увеличению другого;
• отрицательная, характеризующая обратную
зависимость между параметрами, когда увеличение
одного параметра приводит к уменьшению другого.
Учебно-исследовательская
работа студента. Лекция 3
13

14.

Классификация связей по силе и направлению на
корреляционном поле
положительная
отрицательная
функциональные
сильные
Учебно-исследовательская
работа студента. Лекция 3
14

15.

положительная
отрицательная
умеренные
отрицательная слабая
отсутствует
Учебно-исследовательская
работа студента. Лекция 3
15

16.

Коэффициент линейной корреляции:
Пусть есть случайные векторы X={xi}, Y={yi}, i=1…N:
N
r
XY
1
N
XY X Y
X Y
или
( xi X )( yi Y )
i 1
r
N
( xi X ) ( yi Y )2
i 1
N
( xi yi )
N
i 1
1 N
X xi
N i 1
1
Y
N
N
yi
i 1
X
N
2
( xi X )
i 1
N
i 1
N
2
Y
2
(
y
Y
)
i
i 1
N
Для малых объемов выборки (N≤100) корректировка:
2
1
r
r r 1
2
N
3
Учебно-исследовательская
работа студента. Лекция 3
16

17.

Значения коэффициента корреляции: -1 r 1
• знак определяет характер связи (положительная или
отрицательная)
• модуль – силу связи.
При r = 0 связь отсутствует, т.е. изменение X не приводит к
изменению Y.
При | r | = 1 наблюдается строгая функциональная
зависимость (т.е. есть функция Y=f(X)).
При | r |→0 зависимость одной переменной от другой все
больше уменьшается, то есть «облако» значений на
корреляционной плоскости становится шире и все более
округлым.
При | r | → 1 «облако» значений «концентрируется» в
график функции зависимости.
Учебно-исследовательская
работа студента. Лекция 3
17

18.

Сила связи между параметрами в зависимости от величины r
Значение r
Сила связи
|r|=1
функциональная
0,7 ≤ | r | < 1
сильная
0,5 ≤ | r | ≤ 0,7
умеренная
0,3 ≤ | r | ≤ 0,5
слабая
0 < | r | ≤ 0,3
практически отсутствует
|r|=0
отсутствует
Y
линейная регрессия Y на X: Y Y r X X
X
Y
Y
X Y r
X
уравнение линейной регрессии Y r
X
Учебно-исследовательская X
работа студента. Лекция 3
18

19.

Значимость генерального коэффициента линейной
корреляции:
Выборочный коэффициент r – оценка генерального
коэффициента корреляции, который показывает
реальную связь между X и Y.
Из-за конечного размера выборок возможен случай, когда
выборочный r 1, а генеральный r 0. Т.е. выборочный
коэффициент корреляции покажет отсутствующую
(нулевую) на генеральной совокупности сильную связь
между параметрами.
Доказательство значимости проводится методом проверки
статистических гипотез.
Учебно-исследовательская
работа студента. Лекция 3
19

20.

1 Выдвигаются нулевая и альтернативная гипотезы:
• нулевая ‑ о равенстве нулю генерального
коэффициента корреляции H0: rs=0
• альтернатива – H1: rs 0
2 Задается уровень значимости α=0,05.
3 Вычисляется статистика
• для N≥100
tнабл
• для N<100
tнабл
r
1 r2
N 2
1 r
0,5 ln
N 3
1 r
4 Находится tкр – значение коэффициента Стьюдента
t(P=1-α, )
5 Если tнабл>tкр , то H0 отвергается, т.е. генеральный
коэффициент корреляции значимо больше нуля.
Учебно-исследовательская
работа студента. Лекция 3
20

21.

Значимость различия между двумя коэффициентами
линейной корреляции:
Значение r может меняться в зависимости от объема
выборки или самих значений. Если есть две пары
выборок, принадлежат ли они одной генеральной
совокупности?
Пусть есть выборки
• X1={x1i}, Y1={y1i}, i=1…N, с выборочным r1;
• X2={x2j}, Y2={y2j}, j=1…M, M≠N с выборочным r2;
• r1≠r2.
Имеют ли эти выборки общий генеральный коэффициент
линейной корреляции?
Доказательство методом проверки статистических
гипотез.
Учебно-исследовательская
работа студента. Лекция 3
21

22.

1 Выдвигаются нулевая и альтернативная гипотезы:
• нулевая ‑ о незначимости различий между двумя
генеральными коэффициентами линейной
корреляции H0: r1s=r2s=rs
• альтернатива – H1: r1s r2s
2 Задается уровень значимости α=0,05.
3 Вычисляется статистика
tнабл
1 r1 1 r 2
0,5 ln
1 r1 1 r 2
1
1
1
N 3 M 3
4 Находится tкр – значение коэффициента Стьюдента
t(P=1-α, )
5 Если tнабл>tкр , то H0 отвергается, т.е. нельзя считать, что
обе пары взяты из одной генеральной совокупности.
Учебно-исследовательская
работа студента. Лекция 3
22

23. 3 Дисперсионный анализ (ANOVA)

рассматривает результаты наблюдений, которые зависят от
одновременно действующих факторов.
Результат:
– нахождение наиболее значимых факторов;
– оценка влияния факторов на исследуемый процесс.
Суть анализа: разделение общей дисперсии на отдельные
компоненты, обусловленные влиянием факторов, и проверке
гипотез о значимости влияния факторов на среднее
значение наблюдаемой величины.
Предположения:
•распределение исходных случайных величин нормально;
•дисперсии данных одинаковы для экспериментов,
выполненных на различных уровнях изучаемого фактора.
Учебно-исследовательская
работа студента. Лекция 3
23

24.

Группа - набор значений откликов, полученных при
фиксированных уровнях факторов.
Градация - изменение откликов:
• межгрупповая
градация –
изменение откликов,
соответствующее
уровням факторов;
• внутригрупповая
градация –
изменение откликов
внутри одной
выборки,
соответствующей
одному уровню
факторов.
Учебно-исследовательская
работа студента. Лекция 3
24

25.

Пусть есть m выборок x1,...,xm одинакового объема n.
Исходные данные могут быть представлены в виде
статистической таблицы:
В процессе анализа рассчитываются дисперсии:
• общая (дисперсия комплекса);
• межгрупповая (факторная);
• внутригрупповая (остаточная).
Учебно-исследовательская
работа студента. Лекция 3
25

26.

Алгоритм одномерного однофакторного ДА
1 Задается уровень значимости α=0,05.
2 Гипотеза: H 0 : Mx1 Mx 2 Mx3 ... Mx m
3 Расчет средних:
• внутригрупповое
x j
1 n
xi , j
n i 1
x i
1 m
xi , j
m j 1
x
1 n m
xi , j
nm i 1 j 1
• межгрупповое
• общее
Учебно-исследовательская
работа студента. Лекция 3
26

27.

Учебно-исследовательская
работа студента. Лекция 3
27

28.

4 Расчет сумм квадратов отклонений:
• общая сумма квадратов отклонений от общего
среднего
n
m
Rобщ xij x
i 1 j 1
2
• факторная сумма квадратов отклонений групповых
средних от общего среднего (межгрупповое рассеяние)
m
Rфакт n x j x
2
различия между средними
значениями в группах
j 1
• остаточная сумма квадратов
отклонений
(внутригрупповое рассеяние)
Rост Rобщ Rфакт
Учебно-исследовательская
работа студента. Лекция 3
не может быть предсказано
или объяснено
28

29.

5 Расчет несмещенных выборочных дисперсий:
• общая
S
2
S
2
S
2
Rобщ
nm - 1
общ
• факторная
факт
Rфакт
m -1
• остаточная
ост
Rост
m n-1
Fнабл
S 2факт
2
S ост
6 Расчет статистики:
Учебно-исследовательская
работа студента. Лекция 3
29

30.

6 Нахождение Fкр по числу степеней свободы f1=m-1,
f2=m(n-1) и уровню значимости α (таблицы значений
распределения Фишера)
7 Если Fнабл >Fкр , гипотеза отвергается, т.е. фактор
оказывает существенное влияние на параметр и его надо
учитывать.
Если гипотеза принимается, фактор – несущественный, им
можно пренебречь.
Иногда дисперсионный анализ применяется для
доказательства того, что выборки однородны:
дисперсии одинаковы + математические ожидания
одинаковы => выборки можно объединить в одну и
получить более полную информацию.
Учебно-исследовательская
работа студента. Лекция 3
30
English     Русский Rules