Корреляционный анализ
Корреляционный анализ.
Элементы матрицы коэффициентов
Парная корреляция
Определение коэффициента парной корреляции
Упрощение расчетов
Заполняем таблицу
Статистическая значимость коэффициента
Построение уравнения регрессии
Анализ полученных результатов
Коэффициент парной корреляции
Множественная корреляция
Множественная корреляция
Коэффициент множественной корреляции
Для случая двух независимых переменных
Коэффициент парциальной корреляции
Оценка статистической значимости гипотезы
Пример:
Каноническая корреляция
Сущность и теоретические основы метода
Матрица значений исходных переменных
Подготовка информации и вычисления канонических корреляций
Вычисление канонических коэффициентов корреляции
Решение задачи
Находим максимальный коэффициент корреляции
Решение последнего уравнения
Расчет канонических корреляций 3 фактора 2 параметра оптимизации
Матрица исходных данных
Матрица ковариаций
Матрица парных коэффициентов корреляции
Вспомогательные матрицы
Вспомогательные матрицы
Канонические переменные
Проверка статистической значимости
Получение реальных коэффициентов
Выводы
1.56M
Category: mathematicsmathematics

Корреляционный анализ. Парная корреляция

1. Корреляционный анализ

Парная корреляция

2. Корреляционный анализ.

• Он используется для установления статистических
связей между параметрами оптимизации.
• Для множества объектов матрицу парных корреляций
R получают в ходе следующих преобразований
матриц:
• где Z – матрица стандартных значений, а ее элементы
получают:

3. Элементы матрицы коэффициентов

• получают по данным матрицы частных корреляций.
• Коэффициент множественной корреляции Ro
представляет собой численную характеристику силы
связей отклика со всеми факторами.

4. Парная корреляция

• Корреляционный анализ – метод
установления статистических связей между
выходными параметрами сложной системы.
• Коэффициент парной корреляции является
мерой тесноты линейной связи между двумя
случайными величинами. В общем случае его
величина меняется от 0 до 1. Если
коэффициент = 0, то связь отсутствует, а если
1, то связь линейная.

5. Определение коэффициента парной корреляции

6. Упрощение расчетов

7. Заполняем таблицу

№ п.п.
1
Значение выходных
параметров
1-го
2 -го
х1
у1
Произведение
параметров
Квадрат параметров
х1у1
1 -го
х12
2-го
у12
i
хi
уi
хiуi
хi2
уi2
N
Сумма
хN
хN
уN
уN
хNуN
хNуN
хN2
хN2
уN2
уN2

8. Статистическая значимость коэффициента

• Для этого по выбранному уровню доверительной
вероятности (для обычных технических расчетов
принимается равной 0,95 или 0,99) и числу степеней
свободы f=N-2 определяется критическое значение
коэффициента парной корреляции (rкр).
• Выбор значений rкр производится по таблице , имеющейся
в приложении. В случае, если абсолютная величина
коэффициента парной корреляции не меньше
критического, то линейная связь между параметрами
считается статистически значимой.
• В противном случае линейная связь статистически не
значима и, следовательно, необходимо переходить более
сложным математическим зависимостям.

9. Построение уравнения регрессии

• Линейное уравнение регрессии имеет вид:
• Коэффициенты уравнения регрессии можно
рассчитать по следующим формулам (за х и у
можно принять ту или другую величину):

10. Анализ полученных результатов

• После установления статистически значимой линейной
связи необходимо определить параметр, который будет
определяться экспериментально, и по которому будет
осуществляться оптимизация технологического процесса.
• Оценку линейных связей параметров необходимо
осуществлять с учетом абсолютного значения
коэффициента парной корреляции.
• При прочих равных условиях предпочтение отдается тем
параметрам, для которых метод определения более прост
или позволяет проводить измерения с высокой точностью.
• Для упрощения анализ полученных результатов
регрессионное уравнение может быть представлено в
графическом виде.

11. Коэффициент парной корреляции

Число
степеней
свободы
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Доверительная
вероятность
0,95
0,99
0,999
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,533
0,514
0,504
0,497
0,482
0,468
1,000
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
1,000
0,999
0,992
0,974
0,951
0,925
0,898
0,872
0,847
0,823
0,801
0,780
0,760
0,742
0,725
0,708
Число
степеней
свободы
17.
18.
19.
20.
25.
30.
35.
40.
45.
50.
60.
70.
80.
90.
100.
Доверительная вероятность
0,95
0,99
0,999
0,456
0,444
0,433
0,423
0,381
0,349
0,325
0,304
0,287
0,273
0,250
0,232
0,217
0,205
0,195
0,575
0,561
0,549
0,537
0,487
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
0,693
0,679
0,665
0,652
0,597
0,554
0,519
0,490
0,465
0,443
0,408
0,380
0,357
0,337
0,321

12. Множественная корреляция

13. Множественная корреляция

• На практике, весьма часто, приходиться
анализировать связь между зависимой
переменной у и группой факторов х1; х2;
....... хl. Для оценки используют:
• а) коэффициент множественной
корреляции.
• б) коэффициент парциальной корреляции

14. Коэффициент множественной корреляции

• выражает степень связи между у и всей группой
независимых переменных
• R – матрица парных корреляций
• R11 – алгебраическое дополнение определителя R к
элементу ryy .
• Для l – независимых переменных и n измеренных
значений у:

15. Для случая двух независимых переменных

16. Коэффициент парциальной корреляции

• позволяет оценить влияние на у каждой из
независимых переменных последовательно
• алгебраические дополнения к элементам
• Для частных случаев можно воспользоваться
формулами
• Другие коэффициенты получают циклической
перестановкой индексов

17. Оценка статистической значимости гипотезы

• Если (х1.....хl) – факторы, а (у1........уn) – опыты на
точках, то:
• где
это число степеней свободы.
• При наличии линейной связи проводят проверку по
критерию Фишера:
• Можно пользоваться корреляционным отношением:
• где m – количество измерений
на одну точку

18. Пример:

• При анализе связи σв(у) размеры частиц η – фазы (х1)
и межчастичным расстоянием (х2) после 5 режимов
обработки при испытании трех образцов получено:
n=15
• 1 = числу свободных переменных = l.
• 2= 15-2-1=12
• Парциальные корреляции:
Вывод: по коэффициенту
множественной корреляции оба
параметра оказывают влияние на
прочностные свойства. По
парциальной корреляции влияет
только межчастичное расстояние.

19. Каноническая корреляция

КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ

20. Сущность и теоретические основы метода

• Метод канонических корреляций относится к статистическим
методам анализа связей между массовыми явлениями и
процессами. Если рассматривается зависимость между одним
результативным показателем Y и одним фактором X, то речь
идет о парной корреляции. Когда имеется несколько
переменных X и одна переменная У, проводится
множественный корреляционный анализ для установления и
измерения степени связи между переменными. Каноническая
корреляция — это распространение парной корреляции на
случай, когда имеется несколько результативных показателей Y
и несколько факторов X. Основная цель применения этого
метода состоит прежде всего в поиске максимальных
корреляционных связей между группами исходных переменных:
показателями-факторами и результативными качественными
показателями. Кроме того, метод канонических корреляций дает
возможность сократить объем исходных данных за счет отсева
малозначимых факторов.

21. Матрица значений исходных переменных

• Х1, Х2, Xg — переменные факторы;
• У1, Y2, Yp — результативные показатели.
• Так как на практике количество факторов значительно превосходит количество результативных показателей, то будем
предполагать, что р < g.
• Каноническая корреляция — это корреляция между новыми
компонентами (каноническими
U a1 x1 a2 x2 aq xq
переменными) U и V:
V b1 y1 b2 y 2 b p y p

22. Подготовка информации и вычисления канонических корреляций

• По аналогии с парной корреляцией теснота связи между
каноническими переменными будет определятся каноническими
коэффициентами:
cov U ,V
r
var U var V
cov( x, y ) xi E xi y i E y i Pij
j 1 i 1
• cov - некоторое число
• Е – математическое ожидание величины.
• Pij– совместная вероятность х и у.
Pij 1
• var – дисперсия случайной величины (вспомним 2 случая
среднеквадратических отклонения). var(х) = 0.

23. Вычисление канонических коэффициентов корреляции

x1 x1
x2 x1
S x3 x1
y p x1
x1 x2
x2 x2
x3 x 2
y p x2
x1 xq
x2 xq
x3 x q
y p xq
x1 y1
x2 y1
x3 y1
y p y1
x1 y p
x2 y p
x3 y p
y p y p
S11 S12
S
S21 S22
n
x y cov x1 , y 1
1 1
x
i 1
1i
x1 y1i y1
n
S12 , S21 – матрица взаимодействия х и у (размерность).
(S12 – g x p и S21 – p x g)
S21 – результат транспонирования S12 .
S11 – ковариационная матрица исходных переменных, ее
размер g x g.
• S22 – ковариантная матрица у, p x p.

24. Решение задачи

U X A V Y B
необходимо решить уравнения:
U, V – векторы канонических переменных.
X, Y – матрицы исходных значений.
cov(U ,V )
cov( XA, YB )
А, В – векторы коэффициентов. r
var(U ) var(V )
var( XA) var(YB )
Если предположить, что средние
значения канонических переменных U и V равны нулю, а их
дисперсии равны единице, r
• Для упрощения расчетов, считаем, что каждая из переменных
имеет единичную дисперсию и нулевое математическое
ожидание, следовательно знаменатель этого выражения = 1.
r
T
A S12 B
T
T
A S11 AB S 22 B
var( XA) AT S11 A 1
var(YB ) BT S22 B 1
r AT S12 B

25. Находим максимальный коэффициент корреляции

• воспользуемся способом множителей Лагранжа для
нахождения условного экстремума (λ – множитель Лагранжа),
продифференцируем функцию Лагранжа по компонентам
векторов А и В и приравняем их к нулю, получим систему:
S11 B S11 A 0
S 21 A S 22 B 0
• Домножим полученные выражения на λ и обратную матрицу
соответсвенно, получим:
2
S11 B S11 A 0
1
S12 S 21 A 22 B
1
S12 S 22
S 21 A 2 S11
1
• Умножив обе части на S11
, получим
• Рассуждая аналогично
1
S11 1S12S22
S22 A 2 A
1
S11 1S12 S22
S22 2 E 0
1
(S11 1S12S22
S22 2 E ) B 0

26. Решение последнего уравнения

• Чтобы решить уравнение, необходимо найти характеристические корни и характеристические векторы. Из предположения,
что р < g, вытекает, что размерность вектора В меньше
размерности вектора А. Можно определить вектор А из 1
1
уравнения системы:
S11
S12 B
A
• Для того чтобы найти компоненты вектора А, необходимо
определить векторы В и .
• Значения 2 находятся как собственные значения матрицы С:
1
C S 22
S 21S11 1 S12
S11 B S11 A 0
S 21 A S 22 B 0
А 1
B 1
1
Можно показать, что =r
А 1S11B А 1S11 A
1
1
B S21 A B S22 B
1
=r
R11 R12
R
R21 R22

27. Расчет канонических корреляций 3 фактора 2 параметра оптимизации

РАСЧЕТ КАНОНИЧЕСКИХ
КОРРЕЛЯЦИЙ 3 ФАКТОРА
2 ПАРАМЕТРА ОПТИМИЗАЦИИ
Пример

28. Матрица исходных данных

X1
X2
X3
Y1
Y2
1
0,45 170 1860 10,1 23,0
2
0,21 185 1455
8,6
13,2
3
0,18 160 1290
9,5
11,0
4
0,38 175 1710
9,0
9,4
5
0,35 140 1850
7,6
9,2
6
0,50 105 1650 11,5 10,0
7
0,32
8
0,54 134 1795
6,8
9,0
9
0,47
2800
8,5
12,0
10 0,38 100 1635
9,4
10,6
90
98
1935 12,0 19,5

29. Матрица ковариаций

x1x1 x1x 2
x 2 x1 x 2 x 2
S x 3 x1 x 3 x 2
ypx1 ypx 2
x1xq
x 2 xq
x 3 xq
ypxq
x1 y1 x1 yp
x 2 y1 x 2 yp
x 3 y1 x 3 yp
ypy1
S11 S12
S
S
S
21 22
ypyp

30. Матрица парных коэффициентов корреляции

0,409 0,520
1
1
0,488
0,409
0,520
0,488
1
R
0,108 0,351 0,117
0,060 0,143
0,143
r
cov U ,V
var U var V
0,108 0,060
0,351
0,047
0,117 0,143
1
0,530
0,530
1

31. Вспомогательные матрицы

1
11
R
1,4375 0,2999 0,6045
0,2929 1,3766 0,5195
0,6045 0,5195 1,5712
R
1
22
1,3890 0,7360
0,7360 1,3890
Для определения собственных значений найдем матицу С
0,4009 0,1299
C R R21 R R12
0,2712 0,1212
1
22
1
11
Т.к. эта матрица имеет размер 2 х 2, то она будет иметь
два собственных значения, и два собственных вектора.

32. Вспомогательные матрицы

1
11
R
1,4375 0,2999 0,6045
0,2929 1,3766 0,5195
0,6045 0,5195 1,5712
R
1
22
1,3890 0,7360
0,7360 1,3890
Для определения собственных значений найдем матицу С
0,4009 0,1299
C R R21 R R12
0,2712 0,1212
1
22
1
11
Т.к. эта матрица имеет размер 2 х 2, то она будет иметь
два собственных значения, и два собственных вектора.

33.

C 2 E 0
Собственный вектор:
12 0,491 ( 1,1470
22 0,031 ( 0,2746
A
S11 1 S12 B
Коэффициент корреляции:
0,8411 ) r1 0,701
0,8269 ) r2 0,176
аналогично
1,0370
A2 0,3291
0,8674
1,4375 0,2929 0,6045 0,108 0,060
0,1132
1,147
1
1,085
A1 0,2999 1,3766 0,5195 0,351 0,047
1
0,117 0,143 0,8411 0,8345
0
,
6045
0
,
5195
1
,
5712

34. Канонические переменные

• И так максимальный коэффициент
канонической корреляции 0,71.
U 1 0,1132 x1 1,085 x2 0,8345 x3
V1 1,147 y1 0,8411y 2
U 2 1,037 x1 0,329 x2 0,8674 x3
V2 0,2746 y1 0,827 y 2

35. Проверка статистической значимости

• Проверку статистической значимости коэффициентов проводят по
критерию Бартлета:
2 n 1 p q 1 ln W0
2
1
• И для данного числа степеней свободы сравнивают с табличными:
W0 1 1 1 2 0,493221
2 10 1 2 3 1 ln W0 4.24
2
1
• для числа степеней свободы (p-1)(g-1)=2, и уровня значимости 0,95.
2
табл
. 1,635

36. Получение реальных коэффициентов


Для того чтобы получить коэффициенты, относящиеся к исходным данным,
необходимо помнить, что мы все дисперсии приравняли к 1 =>
a1
a1
x1
0,1132
a1
0,9553
0,118
Т.о., все остальные коэффициенты будут равны:
a2=0.03004
a3=0.0021
b1=-0.7147
b2=0.1764
Уравнение канонических корреляций будет выглядеть следующим образом:
U1=0,9553x1+0,0304x2+0,0021x3
V1=-0,7147y1+0,176y2
В том случае, если нельзя ограничиться одним выходным параметром, то
необходимо перейти к обобщенному параметру оптимизации.

37. Выводы

• Максимальный коэффициент корреляции 0,701, что означает наличии
тесной связи между факторами.
• Сами факторы Y тесно связаны между собой (их корреляция 0,53),
также высокую сязь имеют факторы Х1 и Х3 (0,52)
• Второй коэффициент корреляции не велик и говорит о том, что другие
линейные комбинации маловероятны.
• В обеих линейных комбинациях наиболее значима величина Х3,
коэффициенты при других величинах существенно меняются по
величине и меняют знак, т.е. достоверно только влияние фактора Х3.
• Для уточнения результатов следует повторить расчеты для других
сочетаний факторных и результативных переменных, можно
отбрасывать одну из переменных, и рассчитывать новые
коэффициенты.
• В случае определения канонических корреляций нет необходимости
добиваться независимости исходных переменных.
English     Русский Rules