Тема 3. МЕТОД ГЛАВНЫХ КОМПОНЕНТ
1.26M
Category: mathematicsmathematics

Метод главных компонент

1. Тема 3. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

1
1

2.

Предположим, что x – это вектор p случайных
или детерминированных величин.
Дисперсия этих величин и структуры
ковариации или корреляции между
переменными представляют для нас интерес.
Если p мало или структура слишком проста, то
зачастую бесполезно оценивать p дисперсий и
все ½ p(p-1) корреляций и ковариаций.
2
2

3.

Альтернативным вариантом является поиск
таких комбинаций факторов, которые
сохраняют большую часть информации/
T'x
z
— линейной
1
1
Поиск нового фактора
комбинации элементов , имеющей максимальную
дисперсию
p
z1 1T x 11x1 12 ... 1 p x p 1 j x j
j 1
Далее, ищется x линейная комбинация
T
2
исходных факторов, которая не коррелированна с
3
z31 и имеет максимальную дисперсию, и так далее

4.

Далее, ищется x — линейная комбинация
T
2
исходных факторов, которая не коррелированна с
1T x и имеет максимальную дисперсию, и т.д.
Главный смысл выделения главных компонент
заключается в том чтобы достаточно хорошо
описать изменчивость x с помощью m главных
компонент, где m<<p.
4
4

5.

50
наблюдений
переменных
x
1 и x2.
5
5

6.

Комбинируя переменные, мы можем
найти две комбинации имеющих разные
дисперсии
z1 11 ( x1 x1 ) 12 ( x2 x2 )
z 2 21 ( x1 x1 ) 22 ( x2 x2 )
6
6

7.

50
наблюдений
переменных
z
1 и z2.
7
7

8.

Переменные x можно достаточно хорошо
описать с помощью первой главной компоненты.
x1 x1 11z1
x2 x2 12 z1
(1)
Если мы знаем значение переменной x1
то используя первое уравнение системы (1)
получим
z1 ( x1 x1 ) / 11
8
8

9.

Прогнозирование по главным компонентам
9
9

10.

Рассмотрим задачу поиска такой линейной
комбинации 1T x , которая максимизирует.
дисперсию равной
1T A 1
Чтобы максимизировать
1T A 1
с учетом
1T 1 1
необходимо использовать метод множителей
Лагранжа. Функция Лагранжа имеет вид
T
T
L( 1, ) 1 A 1 ( 1 1 1)
10
10

11.

Необходимым условием экстремума функции
Лагранжа является равенство нулю градиента
L 1 Дифференцируем по 1
A 1 1 0
Величина, которая максимизируется, равна
T
1 A 1
11
T
1 1
T
1 1
11

12.

Вторая комбинация
T
2 A 2
x
максимизирует
T
2
с сохранением некоррелированности с
x , т.е.
T
1
cov[ 1T x, 2T x] 0
,
При этом
T
T
T
T
T
T
T
T
cov[ 1 x, 2 x] 1 A 2 2 A, 1 2 1 2 1 1 1 2
В связи с этим, любое из уравнений
0 1 0 2 0
может быть использовано для определения
нулевой корреляции между 1 и 2 главными
12
12
компонентами
1T A 2
0
T2 A 1
T
2
T
1

13.

Опять используем множители Лагранжа. При
этом функция Лагранжа равна
T
T
T
2 A 2 ( 2 2 1) 2 1
Дифференцирование по 2 дает
A 2 2 1 0
а умножение уравнения на
T
1 A 2
13
T
1 2
T
1
приводит к
T
1 1
0
13

14.

Таким образом
A 2 2 0
приводят к тому, что и 2 вновь становятся
собственным значением и собственным
вектором матрицы A
Наши доказательства приведены для k=2, для
k > 2 доказательство более сложное, но в
целом выполняется по аналогичной схеме.
14
14

15.

Ковариационная матрица определяется
по формуле
1 T
A
m
X X
Собственные векторы ковариационной
матрицы определяются из уравнения
A λI v
15
0
=0
15

16.

Формируется матрица собственных
векторов, которым соответствуют
наибольшие собственные значения
[
V0 = v 01 , v 02 ,..., v 0 p
16
]
16

17.

На основе собственных векторов
вычисляются главные компоненты
zi
17
T
v 0i
n
xi v 0ij x j
j 1
17

18.

Пусть рынок акций описывается набором
признаков
1. Курс доллара (USD)
2. Курс евро (EURO)
3. Индекс РТС (RTC)
4. Цена на нефть Юралс (OIL)
5. Доходность ГКО-ОФЗ, % (GKO)
6. Межбанковская ставка, % (MB)
18
18

19.

Ковариационная матрица
USD
USD
RTC
OIL
GKO
MB
12,090
-1592,4
-53,381
6,030
4,852
EURO 12,090 16,571
RTC -1592,4 -1483,1
-1483,1
31919
-29,258
6,839
8883,7 -1020,14
4,409
-1074,5
OIL
11,635
EURO
-53,381 -29,258 8883,74
526,48
-23,89
-27,46
GKO
6,030
6,839
-1020,1
-23,897
4,377
3,826
MB
4,852
4,409
-1074,5
-27,468
3,826
8,64
19
19

20.

Корреляционная матрица
USD
EURO
RTC
OIL
GKO
MB
USD
1,00
0,87
-0,83
-0,68
0,84
0,48
EURO
0,87
1,00
-0,64
-0,31
0,80
0,37
RTC
-0,83
-0,64
1,00
0,69
-0,86
-0,65
OIL
-0,68
-0,31
0,69
1,00
-0,50
-0,41
GKO
0,84
0,80
-0,86
-0,50
1,00
0,62
MB
0,48
0,37
-0,65
-0,41
0,62
1,00
20
20

21.

Z1 (t ) 0,00498 (USD(t ) USD) 0,00464 ( EUR(t ) EUR) 0,9995 ( PTC (t ) PTC )
0,0278 (OIL (t ) OIL ) 0,00319 (GKO(t ) GKO) 0,00336 ( MB (t ) MB )
Z 2 (t ) 0,0318 (USD(t ) USD) 0,0440 ( EUR(t ) EUR) 0,0276 ( PTC (t ) PTC )
21
21
0997 (OIL (t ) OIL ) 0,0164 (GKO(t ) GKO) 0,0089 ( MB (t ) MB
)

22.

Первая главная компонента
22
22

23.

USD(t ) USD 0,00498 Z1 0,0318 Z 2
23
Реконструкция курса доллара США по двум ГК
23

24.

Пусть состояние динамической системы описывается набором показателей
0
xki
Модель динамической системы формируется
из p ( p<< n) главных компонент.
et
xki
24
p
xi vhi zkh
h 1
24

25.

Таким образом, n показателей
динамической системы зависят от p
главных компонент.
Сценарное прогнозирование
заключается в задание сценария в виде
изменения p показателей динамической
системы и вычисление по этим
сценарным показателям значений
главных компонент
25
25

26.

1. Жесткий алгоритм. В жестком
алгоритме прогнозирование ведется
по сценарию, который содержит
число показателей равное числу
главных компонент модели.
p
sc
xk1 x1 v hi zkh
h 1
p
sc
xk 2 x2 v hi zkh
h 1
p
sc
xkp x p h 1 v hi zkh
26
26

27.

Однако полученные главные
компоненты не являются
ортогональными ортогональности, т.е.
ковариационная матрица главных
компонент не является диагональной.
Поэтому используется процедура
ортогонализации.
27
27

28.

Мягкий алгоритм.
При использовании мягкого алгоритма
число показателей в сценарии
прогнозирования может быть не равно
числу главных компонент модели.
28
28

29.

Шаг 1. Формируется учебная выборка,
которая используется для вычисления
матрицы весовых коэффициентов
главных компонент и матрицы главных
компонент .
Шаг 2. Главные компоненты тестовой
выборки вычисляются по сценарным
значениям показателей
r
29
z ik v ij ( xkjsc x jsc )
j 1
29

30.

Шаг 3. Показатели динамической
системы вычисляются по формуле
p
xi = ∑ v 0 ki z k
k
Шаг 4. Главные компоненты уточняются
по формуле
n
z ik v ij ( xkj x j )
j 1
30
30

31.

Оценка ошибок прогноза
Ошибки прогноза
ei yi yˆi
Среднее абсолютное отклонение (Mean
Absolute Derivation, MAD)
e MAD
31
1 m
y i yˆ i
m i 1
31

32.

Оценка ошибок прогноза
Среднеквадратическая ошибка (Mean Squared
Error, MSE)
e MSE
1 m
2
( y i yˆ i )
m i 1
Средняя абсолютная ошибка в процентах
(Mean Absolute Percentage Error, МАРЕ)
32
1 n yi yˆ i
MAPE
n i 1 yi
32

33.

Оценка ошибок прогноза
Стандартная ошибка оценки
m
( yi yˆ i ) 2
eSSE
i 1
m n 1
Относительная среднеквадратическая ошибка
m
2
(
y
y
)
i ˆi
eMSEN
i 1
m
2
y
i
33
i 1
33

34.

Рассматривается задача прогнозирование курсов
валют. В качестве независимых переменных
используются курс китайского юаня, курс доллара
США, курс Евро, цена на нефть.
Китайский Курс
Курс
Цена на
юань
доллара
евро
нефть
CNY
USD
EURO OIL
CNY
1,00
0,97
0,92
-0,55
USD
0,97
1,00
0,87
-0,70
EURO
0,92
0,87
1,00
-0,33
OIL
-0,55
-0,70
-0,33
1,00
34
34

35.

Для построения модели используем обучающую выборку,
которая включает первые 700 наблюдений.
Весовые коэффициенты главных компонент
Дисперсия
Доля %
Кумулятив. доля %
Китайский юань
Курс доллара
Курс евро
Цена на нефть
35
617
93,0
93,0
-0,15
-0,10
-0,06
0,98
44,7
6,74
99,8
0,74
0,35
0,55
0,18
1,09
0,165
99,96
-0,58
-0,03
0,81
-0,04
0,23
0,036
100
-0,32
0,93
-0,18
0,04
35

36.

Модель на основе первых двух главных компонент.
Полученная модель является двух факторной, в связи
с этим в качестве сценария будем использовать
значения двух показателей цена на нефть и курс
доллара
Ошибки прогноза (жесткий алгоритм)
CNY USD EURO OIL
MPE, %
0,04 0,02
0,3
0
MAPE, % 2,34 0,33 2,43 0,01
MSEN, % 2,93 0,51 3,19 0,01
36
36

37.

37
Прогноз курса юаня (жесткий алгоритм)
37

38.

38
Прогноз курса евро(жесткий алгоритм)
38

39.

Ошибки прогноза (мягкий алгоритм)
CNY USD EURO OIL
MPE, %
-0,16 -0,07
0,2
0
MAPE, %
3,48
1,6
3,04
0,03
MSEN, %
3,81
1,92
3,81
0,03
39
39

40.

40
Прогноз курса юаня (мягкий алгоритм) 40

41.

41
Прогноз курса евро(мягкий алгоритм)
41
English     Русский Rules