Основы корреляционного анализа
Многомерный корреляционный анализ
Многомерный корреляционный анализ
Многомерный корреляционный анализ
Основатели корреляционного анализа
Диаграмма рассеяния (scatterplot)
Корреляционный анализ
Корреляционный анализ
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Типы зависимостей случайных величин
Линейный коэффициент корреляции Двумерная корреляционная модель
Корреляционный анализ
Коэффициенты корреляции
Корреляционный анализ
Диаграммы рассеивания
Пример
Пример
Проверка значимости коэффициента корреляции
Проверка значимости коэффициента корреляции
Корреляционный анализ
Проверка независимости (значимости) признаков
Коэффициент детерминации в двумерной модели
Коэффициент детерминации в двумерной модели
Интервальные оценки параметров связи
Интервальные оценки параметров связи
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Трёхмерная (многомерная) корреляционная модель
Трёхмерная (многомерная) корреляционная модель
Матрица парных коэффициентов корреляции
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Матрица частных коэффициентов корреляции
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Коэффициент детерминации
Множественный коэффициент корреляции и его свойства
Множественный коэффициент корреляции и его свойства
Множественный коэффициент корреляции и его свойства
Свойства множественного коэффициента корреляции
Свойства множественного коэффициента корреляции
Коэффициент детерминации
Трёхмерная корреляционная модель
Трёхмерная корреляционная модель
Корреляционный анализ
Число наблюдений достаточно велико
Пример соотношения роста (Х) и массы тела (У)
Корреляционная таблица
Корреляционная таблица
Пример: Соотношения роста (Х) и массы тела (У)
Решение
Решение
Корреляционный анализ
Проверка независимости (значимости) признаков
Корреляционный анализ
Интервальные оценки параметров связи
Интервальные оценки параметров связи
Корреляционный анализ
Коэффициент детерминации
Матрица парных коэффициентов корреляции (многомерный случай)
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
Корреляционный анализ
3.82M
Category: mathematicsmathematics

Основы корреляционного анализа

1. Основы корреляционного анализа

2. Многомерный корреляционный анализ

При исследование реальных экономических явлений
приходится сталкиваться с анализом многомерной
генеральной совокупности в которой каждый объект
характеризуется набором признаков
X 1 , X 2 ,..., X n
• Исследователь располагает случайной выборкой
x (1) , x ( 2) ,..., x ( k )
• Необходимо сделать вывод о генеральной совокупности
(многомерной случайной величине)
( (1) , ( 2) ,..., ( к ) )T

3. Многомерный корреляционный анализ

Закон распределения не известен
Обычно ограничиваются оцениваем по выборке
вектора математических ожиданий
a (a1 , a2 ,..., aк )
ковариационной матрицы
По существу вся специфика многомерной
случайности сосредоточена в ковариационной
матрице .

4. Многомерный корреляционный анализ

Ковариационная матрица позволяет строить и
анализировать
характеристики вариации
характеристики статистической взаимосвязи
(коррелированности) компонент многомерного
признака.

5.

Ковариация
Для устранения недостатка ковариации был введён
линейный коэффициент корреляции
(или коэффициент корреляции Пирсона),
который разработали Карл Пирсон, Фрэнсис Эджуорт и
Рафаэль Уэлдон (англ.) 90-х годах XIX века.
1857-1936
1845-1926
1860-1906

6. Основатели корреляционного анализа

Correlation –
взаимосвязь,
взаимозависимость
Pearson product moment correlation
correlation coefficient r
Карл (Чарлз) Пирсон
(Karl (Charles) Pearson)
(1857- 1936)
английский математик, статистик, биолог и
философ;
основатель математической
статистики
(парный
коэффициент
корреляции Пирсона,
парный
коэффициент
корреляции)

7.

Ковариация
Коэффициент корреляции рассчитывается по формуле:
xi x y i y
1
r
n i 1 s x s y
n

8.

Исследование зависимости между 2 переменными
Пример: Преподаватель попросил студентов (n=15) записать,
сколько часов они потратили на подготовку к промежуточному
экзамену. Результаты приведены в табл.
Student
Hours studied
Score on exam
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
0,5
2,5
3,0
1,5
1,25
0,75
4,0
2,25
1,5
6,0
3,25
2,5
0,0
1,75
2,0
65
80
77
60
68
70
83
85
70
96
84
84
51
63
71

9. Диаграмма рассеяния (scatterplot)

Score on exam
120
Explanatory variable
100
80
Positively associated
60
40
20
0
0
1
2
3
4
5
6
7
Hours studied
Response variable

10.

«Существует ли зависимость между доходом семьи и
ее расходами на питание?»
• «Связан ли уровень безработицы в стране с ВВП?»
• «Оказывают ли влияние научные исследования на
инновационную активность?»
• …………………..
Корреляционный анализ – один из методов
статистического анализа взаимозависимости
нескольких признаков на основе выборочных
данных.

11.

Характеристики статистической связи, рассматриваемые в
корреляционном анализе используются в качестве
«входной» информации при решении следующих задач
эконометрики и МСМ:
Определение вида зависимости между переменными (РА);
Снижение размерности анализируемого признакового
пространства (ФА, МГК);
Классификации объектов и признаков (КА).
с корреляционного анализа начинаются
практически все многомерные статистические
исследования.

12. Корреляционный анализ

Основные понятия
Коэффициент корреляции –
измеритель силы линейной взаимосвязи между
двумя переменными,
направления линейной взаимосвязи (прямая или
обратная)
120
100
80
60
40
20
0
0
1
2
3
4
5
6
7

13. Корреляционный анализ

Основные понятия
Случайные величины X и Y могут быть либо
зависимыми, либо независимыми
Зависимости между переменными
Функциональная
Y=f(x)
Стохастическая
(вероятностная)

14. Типы зависимостей случайных величин

Функциональной зависимостью переменной Y от
переменной X называют зависимость вида Y f (X ) , где
каждому допустимому значению X ставится в
соответствие по определенному правилу единственно
возможное значение переменной Y.
40
руб.
35
30
25
20
01.12.2009
01.07.2009
01.02.2009
01.09.2008
01.04.2008
01.11.2007
01.06.2007
01.01.2007
15
даты
Доллар США
На формирование значений СВ X и Y оказывают
влияние различные факторы. Под воздействием этих
факторов и формируются конкретные значения X и Y .

15. Типы зависимостей случайных величин

Пример:
1. Допустим, что на X и Y влияют одни и те же факторы,
например, Z1, Z2, Z3, тогда X и Y находятся в полном
соответствии с друг другом и связаны ……

16. Типы зависимостей случайных величин

Пример:
1. Допустим, что на X и Y влияют одни и те же факторы,
например, Z1, Z2, Z3, тогда X и Y находятся в полном
соответствии с друг другом и связаны функционально.

17. Типы зависимостей случайных величин

2.
X
Z1
Z2
Z3
Z1
Y
Z2
величины X и Y являются
случайными, но так как имеются
общие факторы Z1 и Z2,
оказывающие влияние и на X и на Y,
значения X и Y обязательно будут
взаимосвязаны

18. Типы зависимостей случайных величин

2.
X
Z1
Z2
Z3
Z1
Y
величины X и Y являются
случайными, но так как имеются
общие факторы Z1 и Z2,
оказывающие влияние и на X и на Y,
значения X и Y обязательно будут
взаимосвязаны
Z2
Связь уже не функциональная
Носит вероятностный, случайный характер и меняется от
испытания к испытанию.
Такая зависимость называется стохастической. Каждому
значению X может соответствовать не одно значение Y, а целое
множество значений.

19. Типы зависимостей случайных величин

у
6
5
4
3
2
1
0
0
1
2
3
4
5
6
х

20. Типы зависимостей случайных величин

Среди множества значений Y можно найти среднее значение
M (Y / X x) , которое для каждого значения х свое. Множество этих
значений на графике образуют линию
y M (Y / X x) M (Y / X )
вид которой может быть самым разнообразным
(прямая, парабола, экспонента и т.д.) и определяется СВ X и Y.
Линия регрессии Y на X

21. Типы зависимостей случайных величин

Если изменение одной из СВ приводит к изменению среднего
значения другой СВ, то такую зависимость называют
корреляционной.
Примеры:
- Урожайность зерновых культур (влажность, освещенность..);
- зависимость массы тела от роста;
- Зависимость заболеваемости от воздействия внешних факторов;
- уровень жизни и процент смертности и т.д.

22.

Исследование зависимости между 2 переменными
(bivariate date)
Вопросы исследования:
Существует ли линейная взаимосвязь между
переменными?
Как по изменению одной переменной можно
предсказать изменение другой переменной?

23. Линейный коэффициент корреляции Двумерная корреляционная модель

Исходной для анализа является матрица
X=
x11 x12
x x
i1 i 2
xn1 xn 2
- матрица «объект–свойство»
размерности (n x 2),
i -я строка характеризует i-е наблюдение (объект) по двум
показателям (j=1, 2).

24. Корреляционный анализ

Двумерная корреляционная модель
Двумерная корреляционная модель определяется
5 параметрами:
(X, Y) N ( x , y , x , y , xy )
ρ – генеральный парный коэффициент корреляции,
характеризующий тесноту связи между переменными X и Y.

25. Коэффициенты корреляции

Парный коэффициент корреляции 12
характеризует тесноту линейной взаимосвязи между
двумя переменными (x1 и x2) на фоне действия всех
остальных переменных, входящих в модель.
12 изменяется в пределах от -1 до +1.
xi x y i y
1
r
n i 1 s x s y
n
В нашем примере r=0,81. Это индикатор сильной
положительной взаимосвязи между временем,
потраченным на изучение материала и
экзаменационной оценкой.

26. Корреляционный анализ

Точечные оценки параметров двумерной корреляционной модели
Генеральные
характер.
Их оценки (выборочные характеристики)
n мало (данные не сгруппированы)
1 n
x xi
n i 1
μx
y
μy
M(xy)
1
yi
n i 1
1 n
xy x i y i
n i 1
σx2, σy2
ρ
n
Выборочный
коэффициент
корреляции
S 2x x 2 ( x ) 2
n велико (данные сгруппированы)
1 k
x x i mix
n i 1
1 l
y y j m jy
n j 1
1 k l
xy xi y j mij
n i 1 j 1
S2y y2 ( y)2
cov( x, y )
xy x y
1 n xi x yi y
r
r
n i 1 s x s y
sx s y
Sx S y

27.

Диаграмма рассеяния
На практике изучение зависимости между двумя СВ
необходимо начинать с построения поля корреляции
(диаграммы рассеяния), с помощью которого можно
• установить наличие корреляционной зависимости,
• силу взаимосвязи,
• выявить аномальные наблюдения.

28. Диаграммы рассеивания

0,88
0,43
-0,102
-1
0,05

29.

30.

Свойства коэффициента корреляции:
Если точки не выстраиваются по прямой линии, а образуют
«облако», коэффициент корреляции по абсолютной величине
становится меньше единицы и по мере округления этого облака
приближается к нулю.
Положительная
корреляция
Отрицательная
корреляция
Отсутствие
корреляционной
зависимости

31.

Свойства коэффициента корреляции
1. -1 ≤ ρ ≤ 1

32.

Свойства коэффициента корреляции
2. Если случайные величины xj и xl статистически
независимы, то jl 0 , а в случае нормального распределения
из некоррелированности xj и xl, когда jl 0 , следует их
независимость.
(это не означает отсутствие любой зависимости между
переменными, just not a linear one!)

33.

Свойства коэффициента корреляции
2. Из условия jl 1 следует наличие функциональной
линейной связи между xj и xl и, наоборот, если xj и xl
связаны линейной функциональной зависимостью, то
jl 1
Чем ближе ρ к ± 1, тем теснее связь между X и Y.

34.

Свойства коэффициента корреляции:
3. ρ > 0 - свидетельствует о прямой зависимости между
переменными (при увеличении значений одной
переменной значения другой переменной также
увеличиваются).
ρ < 0 свидетельствует об обратной зависимости между
переменными (при увеличении значений одной
переменной значения другой переменной уменьшаются).

35.

Свойства коэффициента корреляции:
3. ρ > 0 - свидетельствует о прямой зависимости между
переменными
ρ < 0 свидетельствует об обратной зависимости между
переменными.

36.

Свойства коэффициента корреляции
5. Сила корреляционной связи не зависит от ее
направленности и определяется по абсолютному значению
коэффициента корреляции. Существуют различные
рекомендации по интерпретации силы корреляционной
взаимосвязи.
4
Значение коэффициента
корреляции
0,7 r 1
0,3 r 0,7
0,0 r 0,3
STRENGHT OF LINEAR RELATIONSHIP
Сильная взаимосвязь, близкая к
функциональной (strong)
Взаимосвязь
(moderate)
средней
Слабая взаимосвязь (weak)
силы

37.

Свойства коэффициента корреляции
Пример
Значение коэффициента корреляции
(Value of r)
0,8 r 1
Сила линейной взаимосвязи
(STRENGHT OF LINEAR RELATIONSHIP )
Сильная взаимосвязь, близкая
функциональной (strong)
0,8 r 1
0,6 r 0,8
к
Взаимосвязь средней силы (moderate)
0,6 r 0,8
0,40<r
≤ 0,6
Умеренная
0,20<r
≤ 0,4
Слабая взаимосвязь (weak)
0 r 0,2
очень слабая взаимосвязь

38.

Свойства коэффициента корреляции
5. Неважно, какую переменную мы назовем х, а какую у.
Коэффициент корреляции зависит только от
выборочных данных, а не от названия переменных.
6. Парный коэффициент корреляции является симметричной
характеристикой, т.е. jl lj , что непосредственно
следует из определения.

39.

Свойства коэффициента корреляции
7. Коэффициент корреляции не имеет размерности и,
следовательно, его можно сопоставлять для разных
выборок. (В нашем примере часы или минуты,
затраченные на подготовку к экзамену, не изменят
величину r).

40.

Свойства коэффициента корреляции
8. Если все значения переменных увеличить (уменьшить)
на одно и то же число или в одно и то же число раз, то
величина коэффициента корреляции не изменится.

41.

Свойства коэффициента корреляции:
9.
Коэффициент корреляции очень чувствителен к выбросам
(аномальным наблюдениям). Единичное extreme значение
может иметь мощное воздействие на r и привести к
неправильным выводам (?) .
Пример
12
6
10
5
8
4
6
3
4
2
2
1
0
0
0
1
2
3
Обратная связь
r=-0,80
4
5
6
0
2
4
6
Прямая связь
r=0,51
8
10
12

42.

Свойства коэффициента корреляции:
9.
Коэффициент корреляции очень чувствителен к выбросам
(аномальным наблюдениям). Единичное extreme значение
может иметь мощное воздействие на r и привести к
неправильным выводам (так как базируется на среднем) .
Пример
12
6
10
5
8
4
6
3
4
2
2
1
0
0
0
1
2
3
Обратная связь
r=-0,80
4
5
6
0
2
4
6
Прямая связь
r=0,51
8
10
12

43.

Свойства коэффициента корреляции:
Наблюдения до и после удаления выброса

44.

Свойства коэффициента корреляции:
Четыре различных набора данных, коэффициент корреляции на которых равен 0.81
•Неустойчивость к выбросам.

45.

Пример
Оцените значение коэффициента корреляции r для каждого
из представленных ниже графиков:

46.

Пример
Оцените значение коэффициента корреляции r для каждого
из представленных ниже графиков:
Ответ
а) 0,8;
б) 0;
c) -1;
d) -0,5

47.

Проверка значимости коэффициента корреляции
Значимость парных коэффициентов корреляции проверяется с
помощью t-критерия Стьюдента.
H0 : 0
H1 : 0 (двухсторонняя критическая область)
1. Расчет наблюдаемого значения статистики по формуле:
r
tнабл
=
1 r
2
n 2
где r - оценка парного коэффициент корреляции.

48. Пример

Проверка значимости коэффициента корреляции
2. Нахождение критического значения статистики по
таблицам распределения
tкр определяется по таблице распределения Стьюдента
для заданного уровня значимости и n 2
Уровень
значимости
надежность
0,05
0,01
95%
99 %
3. Вывод по гипотезе
проверяемый коэффициент корреляции считается
значимым, т. е. гипотеза H0: =0 отвергается с
вероятностью ошибки ,
если | tнабл |> tкр

49. Пример

50. Проверка значимости коэффициента корреляции

Корреляционный анализ
II способ.
С использованием критерия Фишера-Иейтса
1. За rн принимается выборочное значение коэффициента корреляции r
2. rкр (α, ν=n-2) находится по таб. Фишера-Иейтса (таб.8)
3. Вывод по гипотезе Рассчитанное значение r сравнивается с rкр:
Если ‫ ׀‬r ‫ > ׀‬rкр => гипотеза H0 отвергается =>
ρ – значим (с вероятностью ошибки α)
Двусторонние границы
Двусторонние границы
0,05
0,02
0,01
0,001
0,05
0,02
0,01
0,001
1
0,997
1,000
1,000
1,000
16
0,468
0,543
0,590
0,708
2
0,950
0,980
0,990
0,999
17
0,456
0,529
0,575
0,693
3
0,878
0,934
0,959
0,991
18
0,444
0,516
0,561
0,679
4
0,811
0,882
0,917
0,974
19
0,433
0,503
0,549
0,665
5
0,754
0,833
0,875
0,951
20
0,423
0,492
0,537
0,652
6
0,707
0,789
0,834
0,925
25
0,381
0,445
0,487
0,597
7
0,666
0,750
0,798
0,898
30
0,349
0,409
0,449
0,554
8
0,632
0,715
0,765
0,872
35
0,325
0,381
0,418
0,519
9
0,602
0,685
0,735
0,847
40
0,304
0,358
0,393
0,490
10
0,576
0,658
0,708
0,823
45
0,288
0,338
0,372
0,465

51. Проверка значимости коэффициента корреляции

Пример: Преподаватель попросил студентов (n=15) записать, сколько
часов они потратили на подготовку к промежуточному экзамену. Результаты
приведены в табл.
Student
Hours studied
Score on exam
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
0,5
2,5
3,0
1,5
1,25
0,75
4,0
2,25
1,5
6,0
3,25
2,5
0,0
1,75
2,0
65
80
77
60
68
70
83
85
70
96
84
84
51
63
71

52.

Пример: Преподаватель попросил студентов (n=15) записать, сколько
часов они потратили на подготовку к промежуточному экзамену. Результаты
приведены в табл.
Student
Hours studied
Score on exam
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
0,5
2,5
3,0
1,5
1,25
0,75
4,0
2,25
1,5
6,0
3,25
2,5
0,0
1,75
2,0
65
80
77
60
68
70
83
85
70
96
84
84
51
63
71
xi x y i y
1
r
n i 1 s x s y
n
r 0,887

53. Корреляционный анализ

Проверка независимости (значимости)
признаков
H 0 : xy 0
Используем критерий Стьюдента для проверки гипотезы
t набл
1.
2.
0,887
1 0,887 2
10 2 5,4327
t kp ( 0,05; 10 2 8) 3,833
3. Вывод
tнабл 5,4327 tkp 3,833

54.

Коэффициент детерминации
в двумерной модели
Квадрат парного коэффициент корреляции
12, 2 называется коэффициентом детерминации.
12, 2 характеризует долю дисперсии одной
переменной (результативной), обусловленную
влиянием другой переменной.
2
Соответственно (1- 1, 2 ) показывает долю остаточной
дисперсии случайной величины X1, обусловленную влиянием не
включённых в корреляционную модель факторов.

55.

Коэффициент детерминации
в двумерной модели
Квадрат парного коэффициент корреляции
122 называется коэффициентом детерминации.
122 характеризует долю дисперсии одной
переменной (результативной), обусловленную
влиянием другой переменной.
Соответственно (1- 12 ) показывает долю остаточной
дисперсии случайной величины X1, обусловленную влиянием не
включённых в корреляционную модель факторов.
2

56. Проверка независимости (значимости) признаков

Интервальные оценки параметров связи
I. Для значимых параметров связи (коэффициентов корреляции)
с надежностью определяют интервальные оценки.
Алгоритм
1. Нахождение интервальной оценки для вспомогательной
статистики Z с помощью Z-преобразования Фишера
δ
δ
Z t
1
Z Z t
n 3
1
n 3
t вычисляют по таблице интегральной функции Лапласа
(табл. 1) из условия t
• Значение Z' (Zr)определяют по таблице Z - преобразования
(табл. 6) по найденному значению r.
таб.6
r
zr
• ! Функция Zr нечетная:
Z'(-r) = -Z'(r) нечетная
таб.1
(t)
t z
t
n 3

57. Коэффициент детерминации в двумерной модели

58. Коэффициент детерминации в двумерной модели

59. Интервальные оценки параметров связи

2. Обратный переход от Z к r
осуществляют также по таблице
Z – преобразования.
3. Получение интервальной оценки для ρ с надежностью :
rmin rmax
Таким образом, с вероятностью гарантируется, что
генеральный коэффициент корреляции ρ будет находиться в
интервале от rmin до rmax.
С помощью доверительного интервала можно проверить
значимость коэффициента корреляции ρ:
если ноль попадает в доверительный интервал, то
коэффициент корреляции незначимый.

60.

Трёхмерная корреляционная модель
Пусть признаки X, Y, Z образуют трехмерную нормально
распределенную генеральную совокупность, которая
определяется девятью параметрами:
(X,Y,Z) ↔ N(μx ,μy ,μz ,σx ,σy ,σz ,ρxy ,ρyz ,ρxz)

61.

Трёхмерная корреляционная модель
Пусть признаки X, Y, Z образуют трехмерную нормально
распределенную генеральную совокупность, которая
определяется девятью параметрами:
(X,Y,Z) ↔ N(μx ,μy ,μz ,σx ,σy ,σz ,ρxy ,ρyz ,ρxz)
! Одномерные распределения X, Y, Z
и двумерные [(X, Y), (X,Z), (Y, Z)] распределения компонент,
а так же условные распределения при фиксированных одной
[(X,Y)/Z; (X,Z)/Y; (Y,Z)/X]
и двух переменных [X/(Y,Z); Y/(X,Z); z/(X,Y)]
являются нормальными. Поэтому поверхности и линии регрессии
являются плоскостями и прямыми соответственно.

62. Интервальные оценки параметров связи

Трёхмерная корреляционная
модель
Для изучения разнообразия связей между тремя
случайными величинами рассчитывают
парные,
частные
множественные
коэффициенты корреляции (детерминации)

63. Трёхмерная корреляционная модель

Трёхмерная (многомерная)
корреляционная модель
Исходной для анализа является матрица:
X=
x11 x12 x13
x x x
i1 i 2 i 3
xn1 xn 2 xn 3
размерности (n x 3),
x11 x1 j x1к
xi1 xij xiк
x x x
nj

n1
размерности (n x k)
i-я строка которой характеризует i-е наблюдение (объект) по
всем показателям (j=1, 2, 3,…,к).

64. Трёхмерная корреляционная модель

Трёхмерная (многомерная)
корреляционная модель
Парный коэффициент корреляции, например, ρxy
характеризует тесноту связи между переменными X и Y на
фоне действия пепеменной Z (на фоне действия всех
остальных переменных, включенных в модель).

65. Трёхмерная корреляционная модель

Матрица парных коэффициентов корреляции
R=
1 r12 r13
r21 1 r23
r31 r32 1
R=
1
r21
r
к1
r12
. .
1
. .
rк 2
. .
r1к
r2 к
1
Матрица R является симметричной и положительно
определенной, на главной диагонали стоят единицы.

66. Трёхмерная (многомерная) корреляционная модель

Трёхмерная корреляционная модель
Частный коэффициент корреляции, например, ρxy/z
характеризует тесноту связи между переменными
X и Y при фиксированном значении переменной Z
(независимо от её влияния).
Если парный коэффициент корреляции больше частного , т.е.
ρxy > ρxy/z , то переменная Z усиливает связь между
переменными X и Y.
Если ρxy < ρxy/z , то переменная Z ослабляет связь между
переменными X и Y.

67. Трёхмерная (многомерная) корреляционная модель

Трёхмерная корреляционная модель
Частный коэффициент корреляции обладает всеми
свойствами парного коэффициента корреляции , т.к. он
является коэффициентом корреляции двумерного условного
распределения.
Сравнение частных коэффициентов корреляции позволяет
ранжировать факторы по тесноте их связи с результатом (у).
R частн =
1
r12 / 3,... k
. . r1к / 2,3,..., k 1
1
. . r2 к /1,3,... k 1
r21/ 3,..., k
r
1
k1/ 2,3,..., k 1 rk 2 /1,3,..., k 1 . .

68. Матрица парных коэффициентов корреляции

Трёхмерная корреляционная модель
Частный коэффициент корреляции
например,
xy / z
xy xz yz
-1 ≤ ρxy/z ≤ 1
(1 2xz ) (1 2yz )
Точечная оценка частного коэффициента корреляции:
r12 / 3
r12 r13 r23
(1 r132 ) (1 r232 )
A12
A11 A22
где Аij - алгебраическое дополнение элемента rij
корреляционной матрицы R.
Аij =(-1)i+j Мij, где Mij - минор, определитель
матрицы, получаемой из матрицы R путем
вычеркивания i-й строки и j-го столбца.
j
1 r12 r13
R r21 1 r23
r r
1
31 32
i

69. Трёхмерная корреляционная модель

Матрица частных коэффициентов корреляции
Матрица частных коэффициентов корреляции R
(как и матрица парных коэффициентов корреляции)
является симметричной и положительно определенной, на
главной диагонали стоят единицы.

70. Трёхмерная корреляционная модель

71. Трёхмерная корреляционная модель

H0 : 0
H1 : 0
Проверка значимости парного и частного КК
I способ. t – критерий Стьюдента (таб.2)
2. Рассчитывается наблюдаемое значение статистики tн :
tH
r
1 r
2
n l 2
3. Находится критическое значение статистики tкр :
tкр (α, ν= n-l-2)
4. Вывод по гипотезе
II способ. Критерий Фишера-Иейтса (таб.8) с учетом порядка КК

72. Матрица частных коэффициентов корреляции

Трёхмерная корреляционная модель
Интервальная оценка для значимого парного и
частного коэффициента корреляции
Аналогично построению ИО для парного
коэффициента корреляции в двумерной модели.
Отличие
Z
t
n l 3
t
n 4

73.

Трёхмерная корреляционная модель
Множественный коэффициент корреляции
Множественный коэффициент корреляции в трёхмерной
модели служит показателем тесноты линейной связи между
одной переменной и двумерным массивом двух других
переменных.
Например, ρу/хz (ρу ) служит показателем тесноты линейной
связи между переменной У и двумерной величиной (Х,Z).
Множественный коэффициент корреляции в многомерной
модели служит показателем тесноты линейной связи между
одной переменной и массивом других переменных.

74. Трёхмерная корреляционная модель

Множественный коэффициент корреляции
Точечная оценка множественного коэффициента
корреляции:
r1 / 2,3
R
r122 r132 2 r12 r13 r23
1
2
A11
1 r23
где |R| - определитель матрицы парных коэффициентов корреляции,
Аij - алгебраическое дополнение элемента rij корреляционной
матрицы R.
Аij =(-1)i+j Мij, где Mij - минор, определитель матрицы,
получаемой из матрицы R путем вычеркивания i-й строки и
j-го столбца.

75. Трёхмерная корреляционная модель

Коэффициент детерминации
Квадрат множественного коэффициент корреляции
12 / 2,3 называется множественным коэффициентом
детерминации.
Он характеризует долю дисперсии одной переменной
(результативной), обусловленной влиянием всех
остальных переменных (аргументов), включенных в
модель.

76. Трёхмерная корреляционная модель

Многомерная корреляционная модель
Множественный коэффициент детерминации в общем случае
многомерной корреляционной модели, например, ρ21/2,3,…к
показывает долю дисперсии случайной величины X1,
обусловленную влиянием остальных переменных X2, X3, … Xк,
включённых в корреляционную модель.
Соответственно (1- ρ 21/2,3,…к ) показывает долю остаточной
дисперсии случайной величины X1, обусловленную влиянием
других, не включённых в корреляционную модель факторов.

77. Трёхмерная корреляционная модель

Множественный коэффициент корреляции и его свойства
1. Множественный коэффициент корреляции изменяется в интервале
0 у 1

78. Коэффициент детерминации

Множественный коэффициент корреляции и его свойства
1. Множественный коэффициент корреляции изменяется в интервале
0 у 1
2. Минимальное значение ρу =0 соответствует случаю полного
отсутствия корреляционной связи между у и остальными
переменными.
усредненная дисперсия «регрессионных остатков» в точности
равна общей вариации результирующего показателя.
Если в трехмерной модели ρу =0,
то одномерная случайная величина У и
двумерная случайная величина (Х, Z)
являются независимыми (в силу нормальности распределения).

79.

Множественный коэффициент корреляции и его свойства
3. Максимальное значение у 1 соответствует случаю полного
отсутствия варьирования «регрессионных остатков»,что означает
наличие функциональной связи между величиной у и остальными
переменными.
В этом случае мы имеем возможность точно восстановить
условные значения у(X)={у/ξ=X} по значениям факторных
(предикторных) переменных X.

80. Множественный коэффициент корреляции и его свойства

Свойства множественного коэффициента корреляции
4. Множественный коэффициент корреляции превышает
любой парный или частный коэффициент корреляции,
характеризующий
статистическую
связь
результирующего показателя.

81. Множественный коэффициент корреляции и его свойства

Свойства множественного коэффициента корреляции
5. Присоединение любой новой предсказывающей
переменной не может уменьшить величины R
(независимо от порядка присоединения).
R у / x1 R у / x1 , x2 R у / x1 , x2 , x3 ... R у/x1 , x 2 ,..., x к

82. Множественный коэффициент корреляции и его свойства

Коэффициент детерминации
Наибольшему множественному коэффициенту
детерминации соответствуют большие частные
коэффициенты корреляции.
Например, если
Rx2 Rz2 ,
Rx2 R y2
xz / y zy / x
xy / z zy / x

83. Свойства множественного коэффициента корреляции

Трёхмерная корреляционная модель
Множественный коэффициент детерминации
Проверка значимости множественного коэффициента (и
корреляции (детерминации), например,
H0: ρ 1/2,3 =0, осуществляется с помощью F-критерия.
1. Вычисляется
Fнабл
1 2
r 1 / 2,3
2
1
(1 r 21 / 2,3 )
n -3
1 2
r1/ 2,..., к
Fнабл к 1
1
1 r12/ 2,..., к
n к
- для трехмерного случая
- для многомерного случая

84. Свойства множественного коэффициента корреляции

Трёхмерная корреляционная модель
Множественный коэффициент детерминации
2. По таблице F-распределения Фишера-Снедекора (таб.4)
определяют Fкр :
Fкр(α; ν1=2; ν2=n-3)
Fкр(α; ν1= ; ν2=
1 2
r1/ 2,..., к
Fнабл к 1
1
1 r12/ 2,..., к
n к
3. Если Fн>Fкр , то гипотеза H0 отвергается с вероятностью
ошибки α и множественный коэффициент корреляции
(и соответствующий коэффициент детерминации) считается
статистически значимым.

85. Коэффициент детерминации

86. Трёхмерная корреляционная модель

Корреляционный анализ
Коэффициент корреляции
парный
тесноту линейной зависимости между
двумя переменными на фоне действия
всех остальных показателей
Что характеризует?
тесноту линейной зависимости между
двумя переменными на фоне действия
всех остальных показателей
-1 ≤ ρjl ≤ 1
частный
тесноту линейной зависимости между
двумя переменными при исключении
влияния всех остальных показателей,
входящих в модель
тесноту линейной зависимости между
двумя переменными при исключении
влияния всех остальных показателей,
входящих в модель
-1 ≤ ρjl/1,2,..,k ≤ 1
множественный
тесноту линейной связи между одной
переменной (результативной) и
остальными показателями
тесноту линейной связи между одной
переменной (результативной) и
остальными показателями
0 ≤ ρj ≤ 1

87. Трёхмерная корреляционная модель

88.

Число наблюдений достаточно велико
Если число наблюдений достаточно велико и особенно если
наблюдения объединяются поинтервально, т.е. все значения,
попавшие в интервал, округляются до значения середины
интервала
(например, рост измеряется с точность до целых сантиметров,
а вес – с точностью до целых килограммов),
то каждая из наблюдаемых пар значений может встретится
несколько раз.
строят таблицы с учетом частот встречаемости.
Такую табл. по сгруппированным данным называют корреляционной.

89. Корреляционный анализ

Пример соотношения роста (Х) и массы тела (У)
Y/X
x1
x2

xj

xk
my
y1
y2

yi

yl
m11
m12

m1j
m21
m22

m2j
mi1
mi2

mij
m2l
m2*






mkl
mk2

mkj
m1l
m1*

..




m*1
m*2

m*j

m*l
n
my
mil
mi*
mkl
mk*
В первой строке в возрастающем порядке расположены
варианты xi, а в первом столбце – варианты yj. На пересечении
строк и столбцов находится частота mij , обозначающая число
точек выборки, значения признаков у которых равны (xi,yj).

90.

Корреляционная таблица
Некоторые mij=0.
В последней строке (столбце) показаны суммы
соответствующих частот для значений X и Y.
m1* m11 m12 ... m1l
m*1 m11 m21 ... mk1
Сумма всех возможных mij равна m и сумме частот по
строкам и столбцам
k
l
k
l
i 1
j 1
n mij mi* m* j
i 1 j 1

91. Число наблюдений достаточно велико

Корреляционная таблица
Каждому числу xi соответствует целый набор значений
y1,y2,…,yl с конкретными частотами mi1, mi2,…,mil
yx
Среднее этих значений обозначается
(условное среднее значение у при условии, что Х=xi)
И находится по формуле:
l
1
y x y y j m* j
n j 1
1 k
x y x xi mi*
n i 1
Условные средние значения У
x
x1
x2
yx
mx
y x1
mx1

xk
yx2

y xk
mx 2

mxk

92. Пример соотношения роста (Х) и массы тела (У)

Пример: Соотношения роста (Х) и массы тела (У)
Y /X
170
172
174
176
178
180
182
my
65
8
4
-
2
-
-
-
14
70
15
19
11
5
-
1
-
51
75
7
10
16
11
3
-
-
47
80
2
8
12
3
1
1
2
29
85
-
3
2
-
5
4
5
19
mx
32
44
41
21
9
6
7
160

93. Корреляционная таблица

Решение
Выборочный коэффициент корреляции в случае
сгруппированных данных по корреляционной таблице
вычисляется следующим образом:
r
mxy ( x x )( y y) ,
2
2
mx ( x x ) m y ( y y )
или
xy x y
r
,
sx s y
1 k l
xy xi y j mij
n i 1 j 1
2
2
2
2
s x ( x ) , s y y ( y)
2
x
2

94. Корреляционная таблица

Решение
- Суммирование распространяется в знаменателе на все возможные х
или у,
- в числителе - на все возможные пары (х,у).
Упростим выражение в числителе
r
mxy xy n x y
2
2
mx ( x x ) m y ( y y )
2075700 160 *173,7 74,6
0,547,
1566,9 5277,5
x 173,7,
y 74,6

95. Пример: Соотношения роста (Х) и массы тела (У)

Корреляционный анализ
Точечные оценки параметров двумерной корреляционной модели
Генеральные
характер.
Их оценки (выборочные характеристики)
n мало (данные не сгруппированы)
n велико (данные сгруппированы)
M(x2)
n
1
x 2 x i2
n i 1
M(y2)
n
1
y 2 yi2
n i 1
1 l
x xi mix
n i 1
1 l
y y j m jy
n j 1
l
1
x 2 xi2 mix
n i 1
l
1
y 2 y 2j m jy
n j 1
M(xy)
1 n
xy x i y i
n i 1
1 k l
xy x i y j mij
n i 1 j 1
μx
1 n
x xi
n i 1
μy
1 n
y yi
n i 1

96. Решение

Проверка независимости (значимости)
признаков
Значимость парных коэффициентов корреляции можно
проверить 2 способами: 1. С помощью t-критерия Стьюдента.
Нулевая гипотеза H 0 : xy 0
Альтернативная гипотеза H1 : xy 0
1. Вычисление наблюдаемого значения критерия tн :

r
n 2
1 r2
где r – выборочная оценка парного коэффициента корреляции;
2. Нахождение критического значения tкр (α, ν=n-2) по таб. 2
3. Вывод по гипотезе Рассчитанное значение tн сравнивается
с tкр:
Если ‫ ׀‬tн ‫ > ׀‬t кр => гипотеза H0 отвергается =>
ρ - значим

97. Решение

Корреляционный анализ
IIспособ.
С использованием критерия Фишера-Иейтса
1. За rн принимается выборочное значение коэффициента корреляции r
2. rкр (α, ν=n-2) находится по таб. Фишера-Иейтса (таб.8)
3. Вывод по гипотезе Рассчитанное значение r сравнивается с rкр:
Если ‫ ׀‬r ‫ > ׀‬rкр => гипотеза H0 отвергается =>
ρ – значим значим (с вероятностью ошибки α)
Двусторонние границы
Двусторонние границы
0,05
0,02
0,01
0,001
0,05
0,02
0,01
0,001
1
0,997
1,000
1,000
1,000
16
0,468
0,543
0,590
0,708
2
0,950
0,980
0,990
0,999
17
0,456
0,529
0,575
0,693
3
0,878
0,934
0,959
0,991
18
0,444
0,516
0,561
0,679
4
0,811
0,882
0,917
0,974
19
0,433
0,503
0,549
0,665
5
0,754
0,833
0,875
0,951
20
0,423
0,492
0,537
0,652
6
0,707
0,789
0,834
0,925
25
0,381
0,445
0,487
0,597
7
0,666
0,750
0,798
0,898
30
0,349
0,409
0,449
0,554
8
0,632
0,715
0,765
0,872
35
0,325
0,381
0,418
0,519
9
0,602
0,685
0,735
0,847
40
0,304
0,358
0,393
0,490
10
0,576
0,658
0,708
0,823
45
0,288
0,338
0,372
0,465

98. Корреляционный анализ

Интервальные оценки параметров связи
Для значимых параметров связи (парных и частных
коэффициентов корреляции находят интервальные оценки с
надежностью .
1. Нахождение интервальной оценки для вспомогательной
статистики Z с помощью Z-преобразования Фишера
Z t
1
Z Z t
n l 3
1
n l 3
t вычисляют по таблице интегральной функции Лапласа (табл.
1) из условия t
• Значение Z' (Zr)определяют по таблице Z - преобразования
таб.6
(табл. 6) по найденному значению r.
r
zr
• Функция Zr нечетная:
t
таб.1
(t) t z
Z'(-r) = -Z'(r) нечетная
n 3

99. Проверка независимости (значимости) признаков

Интервальные оценки параметров связи
2. Обратный переход от Z к r
осуществляют также по таблице
Z – преобразования.
zmin zr z min
таб.6
zmax zr z max
таб.6
3. Получение интервальной оценки для r с надежностью :
rmin rmax
Таким образом, с вероятностью гарантируется, что
генеральный коэффициент корреляции ρ будет находиться в
интервале от rmin до rmax.
С помощью доверительного интервала можно проверить
значимость ρ: если ноль попадает в доверительный интервал,
то коэффициент корреляции не значимый.

100. Корреляционный анализ

Генеральная совокупность
Выборочная совокупность
µ - математическое ожидание
x
σ2 - дисперсия
s 2 - выборочная дисперсия
- выборочное среднее
Σ - среднее квадратическое отклонение
s
- выборочное ср. квадр. отклонение
Р - вероятность
m - частость
n
- коэффициент корреляции
r - выборочный коэффициент корреляции
- коэффициент регрессии
b - выборочный коэффициент регрессии

101. Интервальные оценки параметров связи

Коэффициент детерминации
Квадрат парного коэффициента корреляции (для
двумерного случая) называется множественным
коэффициентом детерминации
.
Он характеризует долю дисперсии одной
переменной (результативной), обусловленной
влиянием всех остальных переменных (аргументов),
входящих в модель.

102. Интервальные оценки параметров связи

Матрица парных коэффициентов корреляции
(многомерный случай)
R=
1
r21
r
p1
r12
. .
1
. .
rp 2
. .
r1 p
r2 p
1
Матрица R является симметричной и положительно определенной,
на главной диагонали стоят единицы.

103. Корреляционный анализ

В двумерном корреляционном анализе обычно строят
корреляционную таблицу,
поле корреляции,
рассчитывают точечные оценки параметров
корреляционной модели,
проверяют значимость параметров связи
для значимых параметров строят интервальные оценки.
Имея оценки параметров модели x , y, s x , s y , r
можно рассчитать оценки уравнений регрессии.

104. Коэффициент детерминации

Корреляционный анализ
При небольших объемах выборки часто используют более
предпочтительные оценки коэффициентов корреляции и
детерминации, чем выборочные коэффициенты:
•более предпочтительная оценка коэффициента
корреляции –
1 r
2
~
r r (1
),
2 (n 4)
2
•более предпочтительная оценка коэффициента
детерминации
2
(n 1) r 1
2
~
r
),
n 2

105. Матрица парных коэффициентов корреляции (многомерный случай)

Корреляционный анализ
Уравнения линий регрессии
Если наблюдаемые значения У и Х представляют собой
выборку из двумерного нормального распределения, то
формально можно рассматривать два уравнения регрессии:
~
Y MY / x y yx (x x ) -прямая регрессии Y на X
~
X MX / y x xy ( y y ) -прямая регрессии Х на Y

106. Корреляционный анализ

yx
xy
y
x
x
y
βyx - генеральный коэффициент регрессии Y на X.
Показывает на сколько единиц в среднем изменяется
переменная Y при увеличении переменной Х на
единицу своего измерения
βxy - генеральный коэффициент регрессии X на Y.
Показывает на сколько единиц в среднем изменяется
переменная X при увеличении переменной Y на единицу
своего измерения

107. Корреляционный анализ

II. Интервальные оценки генеральных коэффициентов
корреляции и регрессии
Построение с надёжностью γ доверительных интервалов для
генеральных коэффициентов регрессии
Y по X βyx min≤ βyx ≤ βyx max
Sy 1 r 2
yx b yx t
Sx n 2
и X по Y βxy min≤ βxy ≤ βxy max
tα определяется по
таб.2 (распределение
Стьюдента) для уровня
значимости α=1-γ и
числа степеней свободы
ν=n-2
Sx 1 r
xy b xy t
S y n 2
2
При n→∞ (n>30)
t определяется по таб.1
для γ=Φ(t)

108. Корреляционный анализ

Двумерная корреляционная модель
Остаточная дисперсия
Выборочная дисперсия переменной Y может быть представлена:
S S r S (1 r )
2
y
2
y
S2r
выборочная дисперсия
регрессии Y по X,
объясняемая вариацией
переменной Х
2
2
y
2
S2y/x
остаточная дисперсия,
объясняемая
неучтёнными в модели
факторами
Остаточная (условная) дисперсия:
S2y/x = S2y·(1- r2) – регрессии Y по X

109. Корреляционный анализ

Точечные оценки параметров двумерной корреляционной модели
Генеральные
характеристики
σx2, σy2
ρ
βyx, βxy
Их оценки (выборочные характеристики)
S 2x x 2 ( x ) 2
Выборочный
коэффициент
корреляции
b yx r
Sy
Sx
S2y y2 ( y)2
xy x y
r
Sx Sy
b xy
Sx
r
Sy
Выборочные
коэффициенты
регрессии
b xy b yx r 2
Ỹ=MY/x
y y / x y b yx (x x)
Х=MX/y
x x / y x b xy (y y)
b yx
b xy
S 2y
S 2x
Оценки
уравнений
регрессии

110. Корреляционный анализ

Трёхмерная корреляционная модель
условные дисперсии
R 2x / yz
2
x / yz
r
2x 2x / yz
2x
s x2 s x2 / yz
s
2
x
1
s x2 / yz
s x2

111.

Трёхмерная корреляционная модель
Множественный коэффициент детерминации
Проверка значимости множественного коэффициента (и
корреляции (детерминации), например,
H0: ρ 1/2,3 =0, осуществляется с помощью F-критерия.
1. Вычисляется
Fнабл
1 2
r 1 / 2,3
2
1
(1 r 21 / 2,3 )
n -3
1 2
r1/ 2,..., к
Fнабл к 1
1
1 r12/ 2,..., к
n к
- для трехмерного случая
- для многомерного случая

112. Корреляционный анализ

Трёхмерная корреляционная модель
Множественный коэффициент детерминации
2. По таблице F-распределения Фишера-Снедекора (таб.4)
определяют Fкр :
Fкр(α; ν1=2; ν2=n-3) – для трехмерной модели
Fкр(α; ν1=к-1; ν2=n-к) – для многомерной модели
3. Если Fн>Fкр , то гипотеза H0 отвергается с вероятностью
ошибки α и коэффициент детерминации
(и соответствующий множественный коэффициент
корреляции) считается значимым.
English     Русский Rules