Similar presentations:
Регрессионный, корреляционный и дисперсионный виды анализа. (Лекция 3)
1. Лекция 3: Регрессионный, корреляционный и дисперсионный виды анализа
1.2.
3.
Регрессионный анализ.
Корреляционный анализ.
Дисперсионный анализ.
Учебно-исследовательская работа
студента. Лекция 3
1
2. 1 Регрессионный анализ
Функциональная зависимость может быть представлена ввиде «ящика»: он преобразует вход X {x1 , x2 , , x N }, к выходу
Y { y1 , y2 , , y N }
.
Функция ящика: одномерная («один вход» ‑ «один выход»),
или многомерная.
что известно об объекте:
все
структура
колич. значения
Y f (X )
параметров
структура
ничего
белый
серый
черный
+
+
+
-
-
Учебно-исследовательская работа
студента. Лекция 3
2
3.
Задача регрессионного анализа – нахождение уравнениязависимости откликов от фактора, т.е. восстановление
функциональной зависимости параметров по данным
эксперимента.
Искомое уравнение – уравнение (функция) регрессии.
Рассмотрим линейную одномерную
регрессию (один вход – один выход).
Экспериментальные точки могут быть
представлены на декартовой плоскости
(диаграмма рассеяния). Они
выстраиваются почти в прямую линию.
Учебно-исследовательская
работа студента. Лекция 3
диаграмма
рассеяния
3
4.
Алгоритм нахождения одномерной линейной функциирегрессии
0. Предварительная оценка линейности
по диаграмме рассеяния отображение данных X и Y в виде точек
на декартовой плоскости (Xi, Yi).
1. Выдвижение H0: функция регрессии («черного ящика»)
имеет вид
Y f X aX b
Учебно-исследовательская
работа студента. Лекция 3
4
5.
2. Для каждой точки находится разность εiмежду экспериментальным значением
отклика Yi и «теоретическим» значением
отклика YТi
i Yi YiТ Yi aX i b
N
3. Находится суммарная ошибка
2
F(a, b) = i
i 1
N
N
N 2 2
N
N
2
X i a Nb 2 X i ab 2 X iYi a 2 Yi b Yi 2
i 1
i 1
i 1
i 1 i 1
F(a, b) – квадратичная, a и b – неизвестные.
эллиптический
параболоид:
есть extr
Учебно-исследовательская
работа студента. Лекция 3
гиперболический
параболоид:
нет extr, только
седловая точка
5
6.
Для нахождения min F(a, b)F
а) необходимые условия экстремума => находим a 0,
F
координаты а, b т.н. стационарной точки M:
0.
b
N
N
N
N 2 N N
N
X i Yi X iYi X i
N X iYi X i Yi
i 1 i 1 b i 1
i 1 i 1
i 1
a i 1
2
N X i X i
i 1
i 1
N
N
2
2
N X i X i
i 1
i 1
N
N
2
б) достаточные условия экстремума => проверка того, что
точка с координатами (a, b) – минимум функции.
2F
A 2
a
М
2F
B
a b М
2F
C 2
b
Учебно-исследовательская
работа студента. Лекция 3
D =AC‑B2
М
6
7.
В нашем случаеN
N
2F
2
A 2 2 X i B
2 X i
a b
a
i 1
i 1
2F
C
2
D AC B 4 N X i 4 X i
i 1
i 1
2
N
N
2F
b
2
2N
2
Если D<0 F(a, b) – гиперболический парабалоид.
Если D>0 F(a, b) – эллиптический парабалоид:
• A>0 в (a, b) – min;
• A<0 в (a, b) – max.
Для вычисления a и b можно использовать выражения:
a
XY X Y
2
X X
2
b
Y X 2 X XY
2
X X
Учебно-исследовательская
работа студента. Лекция 3
2
7
8. Адекватность регрессионной модели
Выборочный коэффициент детерминации R2R2
T
2
(
Y
Y
)
i
(Yi Y ) 2
объясненные моделью отличия
R 2 [0,1]
общее отклонение
R2 1 модель хорошего качества.
R2 0, построенная модель плохого качества.
На (R2)·100% найденная функция регрессии описывает связь
между исходными значениями Y и Х;
(1-R2)·100% отклонения значений Y обусловлены
факторами, не включенными в регрессионную модель.
Если R2≥0,75, по модели можно делать прогноз значений в
пределах исходного диапазона данных.
Учебно-исследовательская
работа студента. Лекция 3
8
9.
Алгоритм оценки адекватности:1 H0: генеральное значение R2 незначимо.
Т.е даже если рассчитанное (выборочное) значение R2
близко к 1, это получилось только из-за выборки.
2 Статистика критерия:
Fнабл
R2
N p 1
2
p
1 R
3 Задаемся уровнем значимости (α=0,05)
4 Находим Fкр – значение критерия Фишера для заданного
уровня значимости α с числом степеней свободы k1=p, k2=Np-1 (для линейной регрессии p=1).
5 Если Fнабл≤Fкр, H0 принимается (модель неадекватна).
Учебно-исследовательская
работа студента. Лекция 3
9
10. 2 Корреляционный анализ
Рассмотрим полученные в ходе эксперимента наборыданных: X {x1 , x2 , , x N }, Y { y1, y2 , , y N }.
Задача корреляционного анализа – обнаружение
взаимосвязи между двумя параметрами и количественная
оценка степени неслучайности их совместного изменения.
Исследуемые величины могут быть как двумя показателями
в одной выборке, так и двумя различными выборками.
выборка
параметры
параметр
Человек 1
2
3
…
n
Рост
Вес
150
55
167
60
…
…
166
59
178
60
Пары близнецов
Усидчивость
Близнец1
(1-10)
Близнец2
1
6
6
Учебно-исследовательская
работа студента. Лекция 3
2
4
8
3
7
9
выборки
…
…
…
n
7
1
10
11.
Если есть связь между величинами, корреляционныйанализ показывает:
• растет/уменьшается один параметр с ростом другого;
• насколько сильно один показатель влияет на другой.
Корреляционный анализ помогает установить возможность
предсказания вероятных значений одного показателя с
помощью известных значений другого.
Изображение исходных данных - корреляционное поле:
• по оси абсцисс шкала для одного показателя
(выборки);
• по оси ординат шкала для другого показателя
(выборки).
По расположению точек на корреляционном поле можно
судить о наличии/отсутствии связи, ее силе и характере.
Учебно-исследовательская
работа студента. Лекция 3
11
12.
линейнаянелинейная
Для определения взаимосвязи между параметрами
используется коэффициент корреляции – только для
случая линейной взаимосвязи между параметрами (для
нелинейной связи дает ложные значения).
Учебно-исследовательская
работа студента. Лекция 3
12
13.
Классификация по силе связи:• функциональная – есть жесткая зависимость между
двумя параметрами, которую можно записать в виде
функции без сглаживания;
• сильная;
• умеренная;
• слабая;
• отсутствующая – связи нет.
Классификация по направлению связи:
• положительная, характеризующая прямую
зависимость между параметрами, когда увеличение
одного параметра приводит к увеличению другого;
• отрицательная, характеризующая обратную
зависимость между параметрами, когда увеличение
одного параметра приводит к уменьшению другого.
Учебно-исследовательская
работа студента. Лекция 3
13
14.
Классификация связей по силе и направлению накорреляционном поле
положительная
отрицательная
функциональные
сильные
Учебно-исследовательская
работа студента. Лекция 3
14
15.
положительнаяотрицательная
умеренные
отрицательная слабая
отсутствует
Учебно-исследовательская
работа студента. Лекция 3
15
16.
Коэффициент линейной корреляции:Пусть есть случайные векторы X={xi}, Y={yi}, i=1…N:
N
r
XY
1
N
XY X Y
X Y
или
( xi X )( yi Y )
i 1
r
N
( xi X ) ( yi Y )2
i 1
N
( xi yi )
N
i 1
1 N
X xi
N i 1
1
Y
N
N
yi
i 1
X
N
2
( xi X )
i 1
N
i 1
N
2
Y
2
(
y
Y
)
i
i 1
N
Для малых объемов выборки (N≤100) корректировка:
2
1
r
r r 1
2
N
3
Учебно-исследовательская
работа студента. Лекция 3
16
17.
Значения коэффициента корреляции: -1 r 1• знак определяет характер связи (положительная или
отрицательная)
• модуль – силу связи.
При r = 0 связь отсутствует, т.е. изменение X не приводит к
изменению Y.
При | r | = 1 наблюдается строгая функциональная
зависимость (т.е. есть функция Y=f(X)).
При | r |→0 зависимость одной переменной от другой все
больше уменьшается, то есть «облако» значений на
корреляционной плоскости становится шире и все более
округлым.
При | r | → 1 «облако» значений «концентрируется» в
график функции зависимости.
Учебно-исследовательская
работа студента. Лекция 3
17
18.
Сила связи между параметрами в зависимости от величины rЗначение r
Сила связи
|r|=1
функциональная
0,7 ≤ | r | < 1
сильная
0,5 ≤ | r | ≤ 0,7
умеренная
0,3 ≤ | r | ≤ 0,5
слабая
0 < | r | ≤ 0,3
практически отсутствует
|r|=0
отсутствует
Y
линейная регрессия Y на X: Y Y r X X
X
Y
Y
X Y r
X
уравнение линейной регрессии Y r
X
Учебно-исследовательская X
работа студента. Лекция 3
18
19.
Значимость генерального коэффициента линейнойкорреляции:
Выборочный коэффициент r – оценка генерального
коэффициента корреляции, который показывает
реальную связь между X и Y.
Из-за конечного размера выборок возможен случай, когда
выборочный r 1, а генеральный r 0. Т.е. выборочный
коэффициент корреляции покажет отсутствующую
(нулевую) на генеральной совокупности сильную связь
между параметрами.
Доказательство значимости проводится методом проверки
статистических гипотез.
Учебно-исследовательская
работа студента. Лекция 3
19
20.
1 Выдвигаются нулевая и альтернативная гипотезы:• нулевая ‑ о равенстве нулю генерального
коэффициента корреляции H0: rs=0
• альтернатива – H1: rs 0
2 Задается уровень значимости α=0,05.
3 Вычисляется статистика
• для N≥100
tнабл
• для N<100
tнабл
r
1 r2
N 2
1 r
0,5 ln
N 3
1 r
4 Находится tкр – значение коэффициента Стьюдента
t(P=1-α, )
5 Если tнабл>tкр , то H0 отвергается, т.е. генеральный
коэффициент корреляции значимо больше нуля.
Учебно-исследовательская
работа студента. Лекция 3
20
21.
Значимость различия между двумя коэффициентамилинейной корреляции:
Значение r может меняться в зависимости от объема
выборки или самих значений. Если есть две пары
выборок, принадлежат ли они одной генеральной
совокупности?
Пусть есть выборки
• X1={x1i}, Y1={y1i}, i=1…N, с выборочным r1;
• X2={x2j}, Y2={y2j}, j=1…M, M≠N с выборочным r2;
• r1≠r2.
Имеют ли эти выборки общий генеральный коэффициент
линейной корреляции?
Доказательство методом проверки статистических
гипотез.
Учебно-исследовательская
работа студента. Лекция 3
21
22.
1 Выдвигаются нулевая и альтернативная гипотезы:• нулевая ‑ о незначимости различий между двумя
генеральными коэффициентами линейной
корреляции H0: r1s=r2s=rs
• альтернатива – H1: r1s r2s
2 Задается уровень значимости α=0,05.
3 Вычисляется статистика
tнабл
1 r1 1 r 2
0,5 ln
1 r1 1 r 2
1
1
1
N 3 M 3
4 Находится tкр – значение коэффициента Стьюдента
t(P=1-α, )
5 Если tнабл>tкр , то H0 отвергается, т.е. нельзя считать, что
обе пары взяты из одной генеральной совокупности.
Учебно-исследовательская
работа студента. Лекция 3
22
23. 3 Дисперсионный анализ (ANOVA)
рассматривает результаты наблюдений, которые зависят отодновременно действующих факторов.
Результат:
– нахождение наиболее значимых факторов;
– оценка влияния факторов на исследуемый процесс.
Суть анализа: разделение общей дисперсии на отдельные
компоненты, обусловленные влиянием факторов, и проверке
гипотез о значимости влияния факторов на среднее
значение наблюдаемой величины.
Предположения:
•распределение исходных случайных величин нормально;
•дисперсии данных одинаковы для экспериментов,
выполненных на различных уровнях изучаемого фактора.
Учебно-исследовательская
работа студента. Лекция 3
23
24.
Группа - набор значений откликов, полученных прификсированных уровнях факторов.
Градация - изменение откликов:
• межгрупповая
градация –
изменение откликов,
соответствующее
уровням факторов;
• внутригрупповая
градация –
изменение откликов
внутри одной
выборки,
соответствующей
одному уровню
факторов.
Учебно-исследовательская
работа студента. Лекция 3
24
25.
Пусть есть m выборок x1,...,xm одинакового объема n.Исходные данные могут быть представлены в виде
статистической таблицы:
В процессе анализа рассчитываются дисперсии:
• общая (дисперсия комплекса);
• межгрупповая (факторная);
• внутригрупповая (остаточная).
Учебно-исследовательская
работа студента. Лекция 3
25
26.
Алгоритм одномерного однофакторного ДА1 Задается уровень значимости α=0,05.
2 Гипотеза: H 0 : Mx1 Mx 2 Mx3 ... Mx m
3 Расчет средних:
• внутригрупповое
x j
1 n
xi , j
n i 1
x i
1 m
xi , j
m j 1
x
1 n m
xi , j
nm i 1 j 1
• межгрупповое
• общее
Учебно-исследовательская
работа студента. Лекция 3
26
27.
Учебно-исследовательскаяработа студента. Лекция 3
27
28.
4 Расчет сумм квадратов отклонений:• общая сумма квадратов отклонений от общего
среднего
n
m
Rобщ xij x
i 1 j 1
2
• факторная сумма квадратов отклонений групповых
средних от общего среднего (межгрупповое рассеяние)
m
Rфакт n x j x
2
различия между средними
значениями в группах
j 1
• остаточная сумма квадратов
отклонений
(внутригрупповое рассеяние)
Rост Rобщ Rфакт
Учебно-исследовательская
работа студента. Лекция 3
не может быть предсказано
или объяснено
28
29.
5 Расчет несмещенных выборочных дисперсий:• общая
S
2
S
2
S
2
Rобщ
nm - 1
общ
• факторная
факт
Rфакт
m -1
• остаточная
ост
Rост
m n-1
Fнабл
S 2факт
2
S ост
6 Расчет статистики:
Учебно-исследовательская
работа студента. Лекция 3
29
30.
6 Нахождение Fкр по числу степеней свободы f1=m-1,f2=m(n-1) и уровню значимости α (таблицы значений
распределения Фишера)
7 Если Fнабл >Fкр , гипотеза отвергается, т.е. фактор
оказывает существенное влияние на параметр и его надо
учитывать.
Если гипотеза принимается, фактор – несущественный, им
можно пренебречь.
Иногда дисперсионный анализ применяется для
доказательства того, что выборки однородны:
дисперсии одинаковы + математические ожидания
одинаковы => выборки можно объединить в одну и
получить более полную информацию.
Учебно-исследовательская
работа студента. Лекция 3
30