Similar presentations:
Корреляционный анализ. Парная корреляция
1. Корреляционный анализ
Парная корреляция2. Корреляционный анализ.
• Он используется для установления статистическихсвязей между параметрами оптимизации.
• Для множества объектов матрицу парных корреляций
R получают в ходе следующих преобразований
матриц:
• где Z – матрица стандартных значений, а ее элементы
получают:
3. Элементы матрицы коэффициентов
• получают по данным матрицы частных корреляций.• Коэффициент множественной корреляции Ro
представляет собой численную характеристику силы
связей отклика со всеми факторами.
4. Парная корреляция
• Корреляционный анализ – методустановления статистических связей между
выходными параметрами сложной системы.
• Коэффициент парной корреляции является
мерой тесноты линейной связи между двумя
случайными величинами. В общем случае его
величина меняется от 0 до 1. Если
коэффициент = 0, то связь отсутствует, а если
1, то связь линейная.
5. Определение коэффициента парной корреляции
6. Упрощение расчетов
7. Заполняем таблицу
№ п.п.1
Значение выходных
параметров
1-го
2 -го
х1
у1
Произведение
параметров
Квадрат параметров
х1у1
1 -го
х12
2-го
у12
i
хi
уi
хiуi
хi2
уi2
N
Сумма
хN
хN
уN
уN
хNуN
хNуN
хN2
хN2
уN2
уN2
8. Статистическая значимость коэффициента
• Для этого по выбранному уровню доверительнойвероятности (для обычных технических расчетов
принимается равной 0,95 или 0,99) и числу степеней
свободы f=N-2 определяется критическое значение
коэффициента парной корреляции (rкр).
• Выбор значений rкр производится по таблице , имеющейся
в приложении. В случае, если абсолютная величина
коэффициента парной корреляции не меньше
критического, то линейная связь между параметрами
считается статистически значимой.
• В противном случае линейная связь статистически не
значима и, следовательно, необходимо переходить более
сложным математическим зависимостям.
9. Построение уравнения регрессии
• Линейное уравнение регрессии имеет вид:• Коэффициенты уравнения регрессии можно
рассчитать по следующим формулам (за х и у
можно принять ту или другую величину):
10. Анализ полученных результатов
• После установления статистически значимой линейнойсвязи необходимо определить параметр, который будет
определяться экспериментально, и по которому будет
осуществляться оптимизация технологического процесса.
• Оценку линейных связей параметров необходимо
осуществлять с учетом абсолютного значения
коэффициента парной корреляции.
• При прочих равных условиях предпочтение отдается тем
параметрам, для которых метод определения более прост
или позволяет проводить измерения с высокой точностью.
• Для упрощения анализ полученных результатов
регрессионное уравнение может быть представлено в
графическом виде.
11. Коэффициент парной корреляции
Числостепеней
свободы
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Доверительная
вероятность
0,95
0,99
0,999
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,533
0,514
0,504
0,497
0,482
0,468
1,000
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
1,000
0,999
0,992
0,974
0,951
0,925
0,898
0,872
0,847
0,823
0,801
0,780
0,760
0,742
0,725
0,708
Число
степеней
свободы
17.
18.
19.
20.
25.
30.
35.
40.
45.
50.
60.
70.
80.
90.
100.
Доверительная вероятность
0,95
0,99
0,999
0,456
0,444
0,433
0,423
0,381
0,349
0,325
0,304
0,287
0,273
0,250
0,232
0,217
0,205
0,195
0,575
0,561
0,549
0,537
0,487
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
0,693
0,679
0,665
0,652
0,597
0,554
0,519
0,490
0,465
0,443
0,408
0,380
0,357
0,337
0,321
12. Множественная корреляция
13. Множественная корреляция
• На практике, весьма часто, приходитьсяанализировать связь между зависимой
переменной у и группой факторов х1; х2;
....... хl. Для оценки используют:
• а) коэффициент множественной
корреляции.
• б) коэффициент парциальной корреляции
14. Коэффициент множественной корреляции
• выражает степень связи между у и всей группойнезависимых переменных
• R – матрица парных корреляций
• R11 – алгебраическое дополнение определителя R к
элементу ryy .
• Для l – независимых переменных и n измеренных
значений у:
15. Для случая двух независимых переменных
16. Коэффициент парциальной корреляции
• позволяет оценить влияние на у каждой изнезависимых переменных последовательно
• алгебраические дополнения к элементам
• Для частных случаев можно воспользоваться
формулами
• Другие коэффициенты получают циклической
перестановкой индексов
17. Оценка статистической значимости гипотезы
• Если (х1.....хl) – факторы, а (у1........уn) – опыты наточках, то:
• где
это число степеней свободы.
• При наличии линейной связи проводят проверку по
критерию Фишера:
• Можно пользоваться корреляционным отношением:
• где m – количество измерений
на одну точку
18. Пример:
• При анализе связи σв(у) размеры частиц η – фазы (х1)и межчастичным расстоянием (х2) после 5 режимов
обработки при испытании трех образцов получено:
n=15
• 1 = числу свободных переменных = l.
• 2= 15-2-1=12
• Парциальные корреляции:
Вывод: по коэффициенту
множественной корреляции оба
параметра оказывают влияние на
прочностные свойства. По
парциальной корреляции влияет
только межчастичное расстояние.
19. Каноническая корреляция
КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ20. Сущность и теоретические основы метода
• Метод канонических корреляций относится к статистическимметодам анализа связей между массовыми явлениями и
процессами. Если рассматривается зависимость между одним
результативным показателем Y и одним фактором X, то речь
идет о парной корреляции. Когда имеется несколько
переменных X и одна переменная У, проводится
множественный корреляционный анализ для установления и
измерения степени связи между переменными. Каноническая
корреляция — это распространение парной корреляции на
случай, когда имеется несколько результативных показателей Y
и несколько факторов X. Основная цель применения этого
метода состоит прежде всего в поиске максимальных
корреляционных связей между группами исходных переменных:
показателями-факторами и результативными качественными
показателями. Кроме того, метод канонических корреляций дает
возможность сократить объем исходных данных за счет отсева
малозначимых факторов.
21. Матрица значений исходных переменных
• Х1, Х2, Xg — переменные факторы;• У1, Y2, Yp — результативные показатели.
• Так как на практике количество факторов значительно превосходит количество результативных показателей, то будем
предполагать, что р < g.
• Каноническая корреляция — это корреляция между новыми
компонентами (каноническими
U a1 x1 a2 x2 aq xq
переменными) U и V:
V b1 y1 b2 y 2 b p y p
22. Подготовка информации и вычисления канонических корреляций
• По аналогии с парной корреляцией теснота связи междуканоническими переменными будет определятся каноническими
коэффициентами:
cov U ,V
r
var U var V
cov( x, y ) xi E xi y i E y i Pij
j 1 i 1
• cov - некоторое число
• Е – математическое ожидание величины.
• Pij– совместная вероятность х и у.
Pij 1
• var – дисперсия случайной величины (вспомним 2 случая
среднеквадратических отклонения). var(х) = 0.
23. Вычисление канонических коэффициентов корреляции
x1 x1x2 x1
S x3 x1
y p x1
x1 x2
x2 x2
x3 x 2
y p x2
x1 xq
x2 xq
x3 x q
y p xq
x1 y1
x2 y1
x3 y1
y p y1
x1 y p
x2 y p
x3 y p
y p y p
S11 S12
S
S21 S22
n
x y cov x1 , y 1
1 1
x
i 1
1i
x1 y1i y1
n
S12 , S21 – матрица взаимодействия х и у (размерность).
(S12 – g x p и S21 – p x g)
S21 – результат транспонирования S12 .
S11 – ковариационная матрица исходных переменных, ее
размер g x g.
• S22 – ковариантная матрица у, p x p.
24. Решение задачи
U X A V Y Bнеобходимо решить уравнения:
U, V – векторы канонических переменных.
X, Y – матрицы исходных значений.
cov(U ,V )
cov( XA, YB )
А, В – векторы коэффициентов. r
var(U ) var(V )
var( XA) var(YB )
Если предположить, что средние
значения канонических переменных U и V равны нулю, а их
дисперсии равны единице, r
• Для упрощения расчетов, считаем, что каждая из переменных
имеет единичную дисперсию и нулевое математическое
ожидание, следовательно знаменатель этого выражения = 1.
r
T
A S12 B
T
T
A S11 AB S 22 B
var( XA) AT S11 A 1
var(YB ) BT S22 B 1
r AT S12 B
25. Находим максимальный коэффициент корреляции
• воспользуемся способом множителей Лагранжа длянахождения условного экстремума (λ – множитель Лагранжа),
продифференцируем функцию Лагранжа по компонентам
векторов А и В и приравняем их к нулю, получим систему:
S11 B S11 A 0
S 21 A S 22 B 0
• Домножим полученные выражения на λ и обратную матрицу
соответсвенно, получим:
2
S11 B S11 A 0
1
S12 S 21 A 22 B
1
S12 S 22
S 21 A 2 S11
1
• Умножив обе части на S11
, получим
• Рассуждая аналогично
1
S11 1S12S22
S22 A 2 A
1
S11 1S12 S22
S22 2 E 0
1
(S11 1S12S22
S22 2 E ) B 0
26. Решение последнего уравнения
• Чтобы решить уравнение, необходимо найти характеристические корни и характеристические векторы. Из предположения,что р < g, вытекает, что размерность вектора В меньше
размерности вектора А. Можно определить вектор А из 1
1
уравнения системы:
S11
S12 B
A
• Для того чтобы найти компоненты вектора А, необходимо
определить векторы В и .
• Значения 2 находятся как собственные значения матрицы С:
1
C S 22
S 21S11 1 S12
S11 B S11 A 0
S 21 A S 22 B 0
А 1
B 1
1
Можно показать, что =r
А 1S11B А 1S11 A
1
1
B S21 A B S22 B
1
=r
R11 R12
R
R21 R22
27. Расчет канонических корреляций 3 фактора 2 параметра оптимизации
РАСЧЕТ КАНОНИЧЕСКИХКОРРЕЛЯЦИЙ 3 ФАКТОРА
2 ПАРАМЕТРА ОПТИМИЗАЦИИ
Пример
28. Матрица исходных данных
X1X2
X3
Y1
Y2
1
0,45 170 1860 10,1 23,0
2
0,21 185 1455
8,6
13,2
3
0,18 160 1290
9,5
11,0
4
0,38 175 1710
9,0
9,4
5
0,35 140 1850
7,6
9,2
6
0,50 105 1650 11,5 10,0
7
0,32
8
0,54 134 1795
6,8
9,0
9
0,47
2800
8,5
12,0
10 0,38 100 1635
9,4
10,6
90
98
1935 12,0 19,5
29. Матрица ковариаций
x1x1 x1x 2x 2 x1 x 2 x 2
S x 3 x1 x 3 x 2
ypx1 ypx 2
x1xq
x 2 xq
x 3 xq
ypxq
x1 y1 x1 yp
x 2 y1 x 2 yp
x 3 y1 x 3 yp
ypy1
S11 S12
S
S
S
21 22
ypyp
30. Матрица парных коэффициентов корреляции
0,409 0,5201
1
0,488
0,409
0,520
0,488
1
R
0,108 0,351 0,117
0,060 0,143
0,143
r
cov U ,V
var U var V
0,108 0,060
0,351
0,047
0,117 0,143
1
0,530
0,530
1
31. Вспомогательные матрицы
111
R
1,4375 0,2999 0,6045
0,2929 1,3766 0,5195
0,6045 0,5195 1,5712
R
1
22
1,3890 0,7360
0,7360 1,3890
Для определения собственных значений найдем матицу С
0,4009 0,1299
C R R21 R R12
0,2712 0,1212
1
22
1
11
Т.к. эта матрица имеет размер 2 х 2, то она будет иметь
два собственных значения, и два собственных вектора.
32. Вспомогательные матрицы
111
R
1,4375 0,2999 0,6045
0,2929 1,3766 0,5195
0,6045 0,5195 1,5712
R
1
22
1,3890 0,7360
0,7360 1,3890
Для определения собственных значений найдем матицу С
0,4009 0,1299
C R R21 R R12
0,2712 0,1212
1
22
1
11
Т.к. эта матрица имеет размер 2 х 2, то она будет иметь
два собственных значения, и два собственных вектора.
33.
C 2 E 0Собственный вектор:
12 0,491 ( 1,1470
22 0,031 ( 0,2746
A
S11 1 S12 B
Коэффициент корреляции:
0,8411 ) r1 0,701
0,8269 ) r2 0,176
аналогично
1,0370
A2 0,3291
0,8674
1,4375 0,2929 0,6045 0,108 0,060
0,1132
1,147
1
1,085
A1 0,2999 1,3766 0,5195 0,351 0,047
1
0,117 0,143 0,8411 0,8345
0
,
6045
0
,
5195
1
,
5712
34. Канонические переменные
• И так максимальный коэффициентканонической корреляции 0,71.
U 1 0,1132 x1 1,085 x2 0,8345 x3
V1 1,147 y1 0,8411y 2
U 2 1,037 x1 0,329 x2 0,8674 x3
V2 0,2746 y1 0,827 y 2
35. Проверка статистической значимости
• Проверку статистической значимости коэффициентов проводят покритерию Бартлета:
2 n 1 p q 1 ln W0
2
1
• И для данного числа степеней свободы сравнивают с табличными:
W0 1 1 1 2 0,493221
2 10 1 2 3 1 ln W0 4.24
2
1
• для числа степеней свободы (p-1)(g-1)=2, и уровня значимости 0,95.
2
табл
. 1,635
36. Получение реальных коэффициентов
Для того чтобы получить коэффициенты, относящиеся к исходным данным,
необходимо помнить, что мы все дисперсии приравняли к 1 =>
a1
a1
x1
0,1132
a1
0,9553
0,118
Т.о., все остальные коэффициенты будут равны:
a2=0.03004
a3=0.0021
b1=-0.7147
b2=0.1764
Уравнение канонических корреляций будет выглядеть следующим образом:
U1=0,9553x1+0,0304x2+0,0021x3
V1=-0,7147y1+0,176y2
В том случае, если нельзя ограничиться одним выходным параметром, то
необходимо перейти к обобщенному параметру оптимизации.
37. Выводы
• Максимальный коэффициент корреляции 0,701, что означает наличиитесной связи между факторами.
• Сами факторы Y тесно связаны между собой (их корреляция 0,53),
также высокую сязь имеют факторы Х1 и Х3 (0,52)
• Второй коэффициент корреляции не велик и говорит о том, что другие
линейные комбинации маловероятны.
• В обеих линейных комбинациях наиболее значима величина Х3,
коэффициенты при других величинах существенно меняются по
величине и меняют знак, т.е. достоверно только влияние фактора Х3.
• Для уточнения результатов следует повторить расчеты для других
сочетаний факторных и результативных переменных, можно
отбрасывать одну из переменных, и рассчитывать новые
коэффициенты.
• В случае определения канонических корреляций нет необходимости
добиваться независимости исходных переменных.