7.90M

Текущее прогнозирование на основе поиска аналогов

1.

Лабораторная работа
Текущее
прогнозирование на
основе поиска аналогов
Профессор Кузнецов Анатолий Дмитриевич
Доцент Восканян Карина Левановна
Доцент Сероухова Ольга Станиславовна
Учебная дисциплина
«Текущее прогнозирование»
2019

2.

Прогнозирование по аналогии — это один из возможных
способов прогнозирования, но возможно оно прежде всего тогда,
когда в рассматриваемом временном процессе, описываемом
временным рядом существуют аналогии между реализациями
процесса в разные отрезки времени в прошлом.

3.

При использовании метода аналогий известные в прошлом
приемы и методы привлекаются для анализа исходных ситуаций,
встречающихся в настоящее время.
Метод аналогов: поиск в обучающей выборке объектов –
аналогов
заданному
объекту
на
основе
использования
количественных или качественных характеристики их «близости».
Иными словами метод аналогов заключается в поиске в
предыстории временного ряда заданной длины n среди всех
векторов размерности l, составленных из всех возможных наборов
отрезков этого временного ряда (fi, fi+1, . . . , fi+l−1), одного или
нескольких векторов, наиболее «похожих» на последний в
рассматриваемой выборке вектор (fn−l+1, fn−l+2, . . . , fn).
При этом мера сходства («похожести», «адекватности»)
определяется с помощью задания соответствующей метрики.

4.

В момент времени T, который называется моментом прогноза,
нужно определить Pзначений временного ряда в будущем, т. е.
вычислить выборку Прогноз. При этом значения Выборки новой
истории являются доступными. Далее, исходя из предположения о
том, что для каждой выборки есть подобная, нужно найти Выборку
максимального подобия для Выборки новой истории и
предположить, что история повторится, то есть основой для
прогнозных значений станет Базовая выборка.

5.

В основе прогнозирования с использованием
аналогов лежит предположение, что если некоторый
метода
(назовем его эталонный)
отрезок временного ряда длиной n в некотором смысле «похож» на
ранее существующие другие отрезки временного ряда такой же
длины, то рассмотрев все эти ранее существующие отрезки с
использованием заданного критерия, можно определить степень их
похожесть на контрольный участок и выбрать самый похожий
отрезок
(назовем его аналог эталонного участка).

6.

Тогда с некоторой долей вероятности можно предположить, что
и продолжение во времени такого отрезка-аналога, т.е. его
последующие значения, должны быть близки (с точки зрения
использованного
критерия
«похожести)
на
соответствующее
продолжение значений эталонного отрезка, а эти значения - это
прогностические значения временного ряда.
В применении к прогнозу временных рядов этот метод
иллюстрирует рисунок на следующем слайде.

7.

Обучающая выборка
1
n1-1
n1
n2
Время
Эталонный
отрезок
1)
Δ=n2-n1+1
1
2)
2
Δ=n2-n1+2
3)
3
Δ=n2-n1+3
Найденная
связь
прошлого
и будущего
Тестируемые отрезки
(черные),
аналог (синий),
ТП (коричневый)
Иллюстрация метода аналогов
Временной
отрезок, для
которого
производится
ТП
Длина отрезка
временного ряда,
для которого
ищется аналог

8.

То есть при использовании метода аналогов необходимо:
- подобрать из всех заданной продолжительности отрезков
прошлых значений временного ряда близкие к текущей ситуации;
- на основе известного поведения в прошлых ситуациях
построить прогноз развития текущих событий.

9.

Используя метод аналогий, необходимо последовательно
пройти следующие этапы:
1) поиск и выбор аналога;
2) прогноз на основе экстраполяция данных с аналога на
познаваемый объект;
3) проверка успешность прогноза по аналогии.

10.

Практические эксперименты показали, что эффективность
прогноза зависит главным образом от следующих основных факторов:
- длины используемой предыстории - «памяти» ряда;
- выбора критерия оценки близости аналогов к искомому эталону;
- того, насколько хорошо удастся подобрать аналоги (имеются ли
в истории ряда похожие случаи);
- способа построения
ближайших аналогов;
прогностической
модели
на
основе
- числа аналогов, которые так или иначе используются при
получении прогноза.

11.

Реализованные в программе
«Поиск аналогов.xls»
метрики

12.

Последовательно рассмотрим метрик, которые можно
использовать для оценки близости двух отрезков временного ряда,
заданных векторами x и y:
x1
x2
...
xn
y1
y2
...
yn

13.

2. Стандартная Евклидова метрика:
Е ( x, y, n )
n
2
x
y
i i
i 1
6. Диагонально взвешенная Евклидова метрика:
Е W ( x, y, n, ii )
n
2
x
y
i
i
i 1
λii = λ11n−i+1,
ii
0 < λii < 1, i = 1, . . . , n.
n
м ( x , y , n ) xi y i
1. Манхэттенское расстояние:
i 1
n
p
M и ( x , y , n, p ) x i y i
i 1
3. Метрика Минковского порядка p: ρМи
4. Относительное расстояние между двумя векторами: ρо
1 n xi y i
o ( x, y , n )
n i 1 xi y i
5. Коэффициент корреляции
n
r ( x, y , n )
( x x ) ( y y)
i
i 1
i
n
n
( x x ) ( y y)
2
i
i 1
i
i 1
2
1/ p

14.

Коррекция
прогностического отрезка, найденного
по методу аналогов

15.

Обобщим такой подход к корректировке прогностического
отрезка, предположив, что связь элементов векторов x и y можно
представить в следующем виде:
x(i) = k1 y(i) + k0 + ε,
i = 1, 2, .. , m,
где ε – невязка (погрешность такого представления), которую при
определении коэффициентов k1 и k0 нужно минимизировать.
Такую минимизацию можно получить, используя метод
наименьших квадратов, минимизирую сумму квадратов невязок:
m
k
i 1
1
2
y (i ) k 0 x(i ) min

16.

В этом случае для вычисления значений
коэффициентов получаем следующие соотношения:
k1
искомых
1
y (i ) x (i )
m
1
2
y
(
i
)
y (i ) 2
m
x (i ) y (i )
k0
1
m
x (i )
k1
y (i )
m
Тогда для скорректированного прогноза можно записать, решая
уравнение
x(i) = k1 y(i) + k0
относительно y(i) и заменяя его на x*(i)кор :
x*(i)кор = [x*(i) - k0] / k1,
i = 1, 2, .. , m.

17.

Критерий 1:
использование различия суммы
абсолютных разностей контрольного и
исследуемого на принадлежность к
аналогу отрезков временного ряда
(манхэттенское расстояние)
n
м xi yi
i 1

18.

При использовании этого критерия для каждого из
исследуемых на принадлежность к аналоговому отрезков
временного ряда, представленных на рисунке отрезками с
номерами 1, 2, 3 и т.д., вычисляется суммы абсолютных
разностей контрольного (на рисунке с номерами n1 и n2) и
исследуемого на принадлежность к аналогу отрезков временного
ряда.
Тот отрезок, для которого сумма абсолютных разностей
окажется минимальной, принимается за аналог контрольного
отрезка временного ряда.

19.

Информация об используемой
метрики на Листах 1 - 5
После нахождения отрезка-аналога его продолжение на
заданное количество шагов (длина такого продолжения не
связана с длинной отрезка-аналога и определяется лишь
требуемой заблаговременностью прогноза) станет прогнозом
временного ряда начиная со значения n2+1.

20.

Критерий 2:
использование различия корня
квадратного из суммы квадратов
отклонения значений контрольного и
исследуемого на принадлежность к
аналогу отрезков временного ряда
(стандартная Евклидова метрика)
Е
n
2
x
y
i i
i 1

21.

Информация об
используемой метрики на
Листах 1 - 5
При использовании этого критерия для каждого из
исследуемых на принадлежность к аналоговому отрезков
временного ряда, представленных на рисунке отрезками с
номерами 1, 2, 3 и т.д., вычисляются суммы
квадратов
разностей контрольного (на рисунке с номерами n1 и n2) и
исследуемого на принадлежность к аналогу отрезков временного
ряда от среднего значения таких разностей.
Тот отрезок, для которого значение корня квадратного из
суммы
квадрата
отклонений
окажется
минимальной,
принимается за аналог контрольного отрезка временного ряда.

22.

После нахождения отрезка-аналога его продолжение на
заданное количество шагов (длина такого продолжения не
связана с длинной отрезка-аналога и определяется лишь
требуемой заблаговременностью прогноза) станет прогнозом
временного ряда начиная со значения n2+1.

23.

Критерий 3:
метрика Минковского порядка p
p
M ( x , y , n, p ) xi y i
i 1
n
1/ p

24.

Информация об используемой
метрики на Листах 1 – 5
(в данном случае порядок
метрики Минковского равен 2)
Методика использования данной метрики не отличается
от использования Евклидовой с той только разницей, что в этом
случае пользователем задается параметр p, который называется
порядком метрики Минковского.

25.

Критерий 4:
минимум суммы относительных
абсолютных разностей двух отрезков
1 q xi y i
(x, y, q)
q i 1 xi y i

26.

Методика использования этого критерия аналогична
тому, как использовался критерий 1
Информация об используемой
метрики на Листах 1 – 5

27.

Критерий 5:
максимум коэффициента корреляции двух
отрезков:
контрольного (эталона) и исследуемого на
принадлежность к аналогу отрезков
временного ряда

28.

Методика
использования
этого
критерия
аналогична тому, как использовался критерий 1 с тем
отличием, что в этом случае оптимальный аналог
ищется по максимуму коэффициента корреляции
элементов эталонного отрезка и каждого из
возможных отрезков-аналогов.
Информация об используемой метрики на
Листах 1 – 5

29.

Критерий 6:
диагонально взвешенная Евклидова
метрика:
Е W ( x, y, n, ii )
(λii = λ1n−i+1,
n
2
x
y
i
i
i 1
ii
0 < λ1 < 1, i = 1, . . . , n).

30.

Информация об используемой метрики на
Листах 1 – 5

31.

Квазикритерий 7:
Коррекция
прогностического отрезка,
найденного по методу аналогов

32.

В этом случае для расчета значений корректирующих
коэффициентов использовались следующие соотношения:
1
y (i ) x ( i ) x ( i ) y (i )
k1 m
1
2
2
y
(
i
)
y
(
i
)
m
1
k0
m
k1
x (i ) m y (i )
где
- эталонных отрезок как вектор y, имеющий n значений y(i);
- отрезок-аналог как вектор x, имеющий n значений x(i);
Тогда для скорректированного прогноза можно записать
x*(i)кор =[ x*(i) - k0] / k1,
i = 1, 2, .. , m,
где
- прогностичеcкое продолжение вектора x как x*, имеющий m значений
x*(i).

33.

Пример представления скорректированного прогноза на
Листах 1 – 5
(в данном примере на Листе 2 для метрики №1)

34.

Квазикритерий 8:
Адаптивная композиция
моделей прогнозирования
(Лист 10)

35.

При использовании адаптивной композиции моделей (АКМ,
гибридная АКМ) прогноз формируется как взвешенная сумма
нескольких прогнозов, полученных по альтернативным моделям.
Такой подход удобен в использовании для случаев, когда
возникают трудности с однозначным выбором одной определенной
структуры модели.
В качестве примеров применения АКМ можно рассмотреть
прогнозирование, при котором в качестве базового набора взяты:
1)
результаты
последовательного
методической прогностической модели;
2)
результаты
применения
прогностических моделей;
применения
нескольких
3) результаты применения методической
модели и инерционного прогноза и т.п.
одной
методических
прогностической

36.

В программе «Поиск всех аналогов.xls» в
качестве
адаптивной
композиции
моделей
реализован
первый
подход:
результаты
последовательного применения одной методической
прогностической модели.
При этом, поскольку в программе реализованы
6 критериев для поиска аналогов, то модель
адаптивной композиции применялась независимо для
каждого критерия с использованием нескольких
прогностических
отрезков
временного
ряда:
оптимального и квазиоптимальных.

37.

При использовании этого подхода сверхкраткосрочный прогноз
рассматривается как суперпозиция всех ранее найденных аналогов
по 6 методикам, т.е. как взвешенное m последовательно найденных
прогностических отрезков (i = 1, 2, … , m) с весами, рассчитанными с
использованием ранжированных расстояний эталона y от
оптимального (i = 1) и квазиоптимальных (i = 2, 3, … , m + 1) по
формуле:
m
x*
*
w
x
i i
j 1
где
wi
Wi
m
W
i
j 1
(x , y ) 2 (x, y ) 2
i
Wi 1
1
(x m 1, y (x m 1, y
В формуле для Wi знаменатель дроби: ρ(xm + 1 , y ) – это расстояние
до xm + 1 аналога, которое определяется, но соответствующий этому
аналогу прогностический отрезок в расчете x* не участвует.
Магнус Я.Р., Катышев П. К., Пересецкий А. А. Эконометрика // Дело, 2004, стр. 34-37
Локальные методы прогнозирования с выбором метрики∗ А. А. Варфоломеева, С. 367-374

38.

Соотношение
(x , y ) 2 (x, y ) 2
i
Wi 1
1
(
x
,
y
(
x
,
y
m 1
m 1
предполагает, что ранжирование отрезков-аналогов идет в порядке
возрастания значений ρ(xi , y ) – чем меньше эта величина, тем
«ближе» отрезков-аналогов xi эталонному отрезку y. Такой подход
справедлив для всех метрик, кроме использования для оценки
близости отрезков коэффициента корреляции. Здесь наоборот –
чем больше по абсолютной величине коэффициента корреляции,
тем «ближе» отрезки. Поэтому при использовании этого критерия
при расчете весовых коэффициентов в качестве меры расстояния
использовался параметр
ρr(xi , y ) = 1 – | r(xi , y ) |.

39.

Пример на Листе 10 использования адаптивной композиции из трех
прогностических отрезков: колонки «А» - «D» - прогностические отрезки от 4
аналогов (строки 2 - 9), колонка «E» - адаптивный прогноз с использованием 3
прогнозов из колонок «А» - «С», колонка «F» - измеренные значения, строка 11
– весовые коэффициенты wi i = 1, … , 3
(для метрик №1 – 4; строка 1 – численные значения метрик)

40.

Прошлое помогает предсказывать будущее!
Реализация метод аналогов:
программа
«Поиск аналогов.xls»

41.

Входными параметрами программы «Поиск аналогов.xls»
являются:
1. Номер колонки, в которой на Листе 1 содержится исследуемый
временной ряд: nk.
2. Общая длина иследуемого временного ряда: nn.
3. Число искомых аналогов: na.
4. Начальный номер отрезка, для которого будет искаться аналог : n1.
5.Конечный номер отрезка, для которого будет искаться аналог : n2.
6.Максимальную заблаговременность прогноза (в долях дискретности
ряда): zpr.
7.Начальное значение матрицы в диагонально взвешенной метрики λ11 :
lamd.
8.Порядок метрики Минковского – параметр p: pmin.

42.

Программа позволяет после ввода всех входных параметров
произвести нахождение 4 «оптимальных» отрезков временного ряда
(одного оптимального с лучшим значением метрики) и трех
дополнительных «квазиоптимальных» (по мере ухудшения значений
метрики) внутри представленного временного ряда.
Временное
продолжение этих отрезков будет определять 4 текущих прогнозов x*.
Методика последовательного нахождения каждого из трех
«квазиоптимальных» отрезков для данной метрики заключается в том,
что уже ранее найденные отрезки принудительно исключаются из
рассмотрения как оптимальные.

43.

Результаты расчетов сгруппированы на Лист2 – Лист10 по
следующей схеме (для na = 4):
1. На Лист2 – значения оптимального отрезка x1, найденного по 6
методикам его нахождения, и результаты его использования для
построения текущего прогноза: x1*.
2. На Лист3 – то же, что и Лист 2, но для первого квазиоптимального
аналога, найденного по 6 методикам его нахождения: x2*.
3. На Лист4 – то же, что и Лист 2, но для
второго
квазиоптимального аналога, найденного по 6 методикам его
нахождения: x3*.
4. На Лист5 – то же, что и Лист 2, но для третьего
квазиоптимального аналога, найденного по 6 методикам его
нахождения: x4*.

44.

На следующем слайде представлен фрагмент исходных
для проведения расчетов данных на Листе 1, полученных с
помощью АМС с дискретностью 15 мин, которые в дальнейшем
использовался для иллюстрации работы программы «Поиск
всех аналогов.xls»: колонка «С» - температура воздуха, 0С.

45.

Пример общего вида Листа1, подготовленного для работы программы
«Поиск всех аналогов.xls»

46.

После работы программы «Поиск всех аналогов.xls» на
Листе2 приводятся данные как для оптимальных отрезков,
найденных с использованием 6 метрик, так и результаты прогноза,
полученного с использованием 7 подходов к его построению.
Всего таких фрагментов на Листе2 шесть, соответствующих
шести методикам нахождения оптимального отрезка и построения
прогноза:
1. Манхэттенское расстояние
2. Евклидова метрика
3. Минковского метрика.
4. Минимум суммы относительной абсолютной разности двух
отрезков.
5. Максимум коэффициента корреляции двух отрезков.
6. Диагонально взвешенная Евклидова метрика.

47.

На следующем слайде в качестве для метрики №1
(Манхеттенское расстояние) примера представлен общий
вид одного из шести имеющихся на Листе2 фрагментов
представления результатов расчетов.

48.

Один из шести имеющихся на Листе2 фрагмента представления
результатов расчетов для программы
«Поиск аналогов.xls» (манхэттенское расстояние)

49.

Фрагменты Листа2,
на котором представлена информация о
результатах нахождения оптимальных (с
точки зрения используемой метрики)
отрезков временного ряда, являющимися
наиболее «близким» эталонному отрезку
(этот отрезок – не прогноз, он
предшествует этапу определения
прогностичесгому отрезка).

50.

Фрагмент Листа2 после
работы программы
«Поиск всех
аналогов.xls»
(результатов для
эталонного и
оптимального (в
данном примере с
использованием
диагонально
взвешенная Евклидова
метрика абсолютных
значений разности
двух векторов
(отрезков) временного
ряда – методика №6);
строка 200, колонка
«А» - значение первого
диагонального
элемента матрицы
λ1 = 0.8.

51.

На следующем слайде приведен фрагмент Листа2, где
представлена следующая информация:
- начальном элементе оптимального аналога;
- статхарактеристики близости эталонного ряда и рядааналога;
- номер используемой метрики;
- номер колонки на Листе1, с которого считывалась
информация о временном ряде;
- длина эталонного отрезка (в единицах дискретности
временного ряда).

52.

Первые
три
строчки
колонки «А» - начальный номер
отрезка,
найденного
как
оптимальный (№ 2648);
Колонка
«А»
Колонка
«В»
первые шесть строк колонки «В» статхарактеристики, описывающие
близость найденного оптимального
отрезка эталонному: среднее и
среднеквадратическое отклонения
для отрезка, полученного как
разность
оптимального
и
эталонного.
В строках 182 и 186 – информация об использованной
методики - диагонально взвешенная Евклидова метрика абсолютных
разности двух векторов; в строке 188 указан номер колонки на
Листе1, в котором содержится временной ряд; строки 189 – 191
содержат информацию о длине эталонного ряда – это 16 значений.

53.

На
указаны:
следующем слайде показан фрагмент Листа2, где
информация о положении эталонного отрезка (№№
начала и конца),
- максимальная заблаговременности прогноза
прогностического отрезка в единица дискретности ряда),
(длина
- суммарное число данных в используемой колонке на
Листе1;
- значение λ1 в диагонально взвешенной Евклидовой
метрике;
- начальный номер случайно выбранного прогностического
отрезка-аналога;
- начальные номера оптимального и двух квазиоптимальных
отрезков-аналогов.

54.

Первая строчка «А» - начальный
и конечный номера эталонного
отрезка (№№ 750 и 765);
Колонка
«А»
Колонка
«В»
Колонка
«С»
следующие
две
строки

максимальная
заблаговременность прогноза в
единицах
дискретности
временного ряда (в данном
примере равна 8, что при
дискретности ряда в 0.25 часа
дает
максимальную
заблаговременность в 4 часа)
В четырех последних строках указаны: начальный номер случайно
выбранного ряда-анаолога (№46); начальный номер оптимального рядааналога для указанной ранее метрики (№ 2648); два начальный номера
квазиоптимальных отрезка ряда (№№ 2641 и 2647).

55.

Фрагменты Листа2 - Листа5,
информация о результатах текущего
прогноза

56.

На следующем слайде приведена подробная схема
представления результатов сверхкраткосрочного прогноза на Листе2
с использованием:
а) временного продолжения оптимального отрезка;
б) инерционного прогноза;
в) скорректированного прогноза.

57.

Фрагмент Листа2 – прогноз с использованием оптимального, инерционного и
скорректированного прогнозов (в данном примере с использованием Манхэттенская
метрика - методика №1).
Первые 4 колонки - методический прогноз (здесь первые две колонки –
фактические значения временного ряда, следующие две колонки – прогностические
значения), следующие 4 колонки - инерционный прогноз, следующие 4 колонки скорректированный прогноз.

58.

Фрагмент Листа2 после работы программы «Поиск всех аналогов.xls»
(фактические и прогностические значения: средняя ошибка прогноза
-0.090С, среднее квадратическое отклонение 0.230С, ошибка прогноза
при заблаговременности 2 часа (max dt) равна -0.110С)

59.

Фрагмент Листа2 после работы программы «Поиск всех аналогов.xls»
(инерционный прогноз: средняя ошибка прогноза -0.60С, среднее
квадратическое отклонение 0.320С, ошибка прогноза при
заблаговременности 2 часа (max dt) равна -0.690С)

60.

Фрагмент Листа2 после работы программы «Поиск всех аналогов.xls»
(скорректированный прогноз: средняя ошибка прогноза -0.160С,
среднее квадратическое отклонение 0.230С)

61.

На Листе3 – Листе5 для каждой из шести методик нахождения
оптимального отрезка и построения прогностического отрезка
представлены результаты для двух квазиоптимальных отрезков: на
Листе3 – первый, а на Листе5 – третий отрезки.
Схема нахождения эталонного отрезка, по которым
определялся
прогностический
отрезок,
следующая:
после
нахождения оптимального отрезка его начальный номер исключался
при поиске первого квазиоптимального аналога, а при поиске для
заданного аналога второго квазиоптимального отрезка из
рассмотрения исключались начальные номера оптимального и
первого квазиоптимального отрезка временного ряда.

62.

Информация на Листе 3

63.

Информация на Листе 4

64.

Информация на Листе 5

65.

На Листе10 для каждой из шести методик нахождения
оптимального отрезка и построения прогноза представлены
результаты текущего прогноза, построенного как суперпозиция трех
квазиоптимальных отрезков.
Суперпозиция – это среднее арифметическое взвешенное
значение, полученное с использованием трех первых оптимальных
отрезков с весовыми коэффициентами wi , вычисленными с учетом
значение соответствующих метрик.

66.

Лист 10 – пример представления суперпозиция трех
квазиоптимальных отрезков.

67.

24.4
24.2
24
23.8
Ряд1
23.6
Ряд2
Ряд3
23.4
23.2
23
1
2
3
4
5
6
7
8
Пример графического представления результатов
прогноза

68.

Проверка работы
различных метрик

69.

Для проверки реализации каждой из 6 используемых метрик
была проведена серия
численный экспериментов. В этих
экспериментах один из фрагментов временного ряда в его начале
заменялся на фрагмент, в точности равным эталону.
После этого проверялось, сможет ли каждый из 6 алгоритмов
его найти.
На следующем слайде показано, как формировался такой
тестовый файл данных.

70.

а)
б)
Фрагмент эталонного (контрольного) участка (№№ с 200 по
220) (а) и его точная копия (№№ с 20 по 40) (б)

71.

а)
б)
в)
Результат определения оптимального отрезка с метриками 1
(а), 2 (б) и 3 (в).

72.

а)
б)
Результат определения оптимального отрезка с
метриками 4 (а) и 5 (в).

73.

Примеры реализации метода
аналогов – среднесуточная
температура СПб

74.

Долее в качестве примера рассмотрены возможности
метода
аналогов
к
прогнозированию
среднесуточной
температуры в СПб.
Использовались данные с 01.02. 1881 по 31.12.1995,
всего 41030 значений.

75.

Эталон: с 1.11.1994 по 30.11. 1994 (порядковые номера во
временном ряду: 40605 - 40634).
Оптимальный
аналог
№2,
найденный
с
помощью
диагональной взвешенной Евклидовой метрики (λ11 = 0.8): с
15.12.1929 по 3.01.1930 (порядковые номера во временном ряду:
16940 - 16969).
Средняя ошибка рассогласования 0.6 0С, среднеквадатическое
отклонение 3.0 0С.
Среднесуточная температура, С
6
4
2
0
Эталон
Аналог
-2
-4
-6
-8
40605
40608
40611
40614
40617
40620
40623
Порядковый номер эталона
40626
40629
40632

76.

Прогностический отрезок: с 14.01.1930 по
(порядковые номера во временном ряду: 16970 - 16989).
Средняя
ошибка
рассогласования
среднеквадатическое отклонение 2.0 0С.
2.02.1930
-0.8
0С,
Среднесуточная температура, С
5
0
-5
Измерения
Прогноз
-10
-15
-20
40635
40639
40643
40647
Порядковый номер измерения
40651

77.

Эталон: с 1.06.1994 по 30.06. 1994 (порядковые номера во
временном ряду: 40452 - 40481).
Оптимальный
аналог
№2,
найденный
с
помощью
диагональной взвешенной Евклидовой метрики (λ11 = 0.8): с
16.08.1896 по 14.09.1896 (порядковые номера во временном ряду:
5097 - 5126).
Средняя
ошибка
рассогласования
среднеквадатическое отклонение 3.9 0С.
-1.4
0С,
Среднесуточная температура, С
20
18
16
14
Эталон
12
Аналог
10
8
6
4
40452
40456
40460
40464
40468
40472
Порядковый номер эталона
40476
40480

78.

Прогностический отрезок: с 15.09.1896
(порядковые номера во временном ряду: 5127 - 5146).
по
4.10.1896
Средняя ошибка рассогласования 8.9 0С, среднеквадатическое
отклонение 3.4 0С.
Среднесуточная температура, С
25
23
21
19
17
Измерения
15
Прогноз
13
11
9
7
5
40482
40486
40490
40494
Порядковый номер измерения
40498

79.

Список цитируемой литературы.
https://cyberleninka.ru/article/n/prognoz-vremennyh-ryadov-sprimeneniem-metoda-analogov
Экспертно-статистическое прогнозирование временных рядов по
методу аналогов, Беляков, Алексей Геннадьевич
Научная библиотека диссертаций и авторефератов disserCat
http://www.dissercat.com/content/ekspertno-statisticheskoeprognozirovanie-vremennykh-ryadov-po-metoduanalogov#ixzz5Opw1qcnS

80.

1. Sankoff D., Kruskal J. Time warps, string edits, and macromolecules: the
theory and practice of sequence comparison. Ontario: Addison Wesley Publ.
Company, 1983. 382 p.
2. Berndt D. J., Clifford J. Using dynamic time warping to find patterns in time
series // KDD workshop on knowledge discovery in databases. 1994. P. 359–
370.
3. Oates T., Firoiu L., Cohen P. R. Clustering time series with hidden Markov
models and dynamic time warping // Proc. of the IJCAI-99 workshop on
neural, symbolic and reinforcement learning methods for sequence learning.
1999. P. 17–21. Вестник СПбГУ. Прикладная математика. Информатика...
2017. Т. 13. Вып. 1 59
4. Maharaj E. A. A significance test for classifying arma models // Journal of
Statistical Computation and Simulation. 1996. Vol. 54, N 4. P. 305–331.
5. Corduas M., Piccolo D. Time series clustering and classification by the
autoregressive metric // Computational Statistics & Data Analysis. 2008. Vol.
52, N 4. P. 1860–1872.

81.

6. Fu T. C. A Review on time series data mining // Engineering Applications of
Artificial Intelligence. 2011. Vol. 24, N 1. P. 164–181.
7. Montero P. M., Vilar J. A. Time series clustering utilities. Feb. 2015. URL: https://
cran.r-project.org/web/packages/TSclust/TSclust.pdf (дата обращения:
01.11.2016).
8. Fan J., Zhang W. Generalised likelihood ratio tests for spectral density //
Biometrika. 2004. Vol. 91, N 1. P. 195–209.
9. Cilibrasi R., Vit`anyi P. M. Clustering by compression // IEEE Transactions on
Information Theory. 2005. Vol. 51, N 4. P. 1523–1545.
10. Alcock R. J., Manolopoulos Y. Time-series similarity queries employing a
feature-based approach // 7th Hellenic Conference on Informatics. 1999. P. 27–29.
11. Сивоголовко Е. В. Методы оценки качества четкой кластеризации //
Компьютерные инструменты в образовании. 2011. №4. С. 14–31.
12. Montero P., Vilar J. TSclust: An R package for time series clustering // Journal
of Statistical Software. 2015. N 62.1. P. 1–43.

82.

Преподаватель дает Вам только «удочку» что, где и когда Вы «поймаете» на нее
будет зависеть только от Вас!

83.

Какие будут вопросы?

84.

Приложение. Модель прогнозирования временных рядов
по выборке максимального подобия
https://habr.com/post/267035/
http://www.mbureau.ru/articles/dissertaciya-model-prognozirovaniyavremennyh-ryadov-glava-2#p_2.2
ИРИНА ЧУЧУЕВА, 13.5.2012
Диссертация «Модель прогнозирования временных рядов по
выборке максимального подобия».

85.

Диссертация «Модель прогнозирования временных рядов по выборке максимального
подобия».
Глава 2. Модели экстраполяции временных рядов по выборке максимального подобия
Глава 1. Постановка задачи и обзор моделей прогнозирования временных рядов
Глава 2. Модели экстраполяции временных рядов по выборке максимального подобия
Глава 3. Метод прогнозирования на модели экстраполяции по выборке максимального
подобия
Глава 4. Программная реализация и оценка эффективности модели экстраполяции по
выборке максимального подобия
Список литературы
Простейший пример реализации в MATLAB рассмотренной ниже модели прогнозирования
временных рядов с подробными комментариями выложен по ссылке Модель
прогнозирования временных рядов по выборке максимального подобия: пояснение и
пример.
Глава 2. Модели экстраполяции временных рядов по выборке максимального подобия
2.1. Модель без учета внешних факторов
2.1.1. Выборки временного ряда
2.1.2. Аппроксимация выборки
2.1.3. Подобие выборок
2.1.4. Описание модели экстраполяции
2.2. Модель с учетом внешних факторов
2.2.1. Выборки временных рядов
2.2.2. Аппроксимация выборки
2.2.3. Подобие выборок
2.2.4. Описание модели
2.3. Варианты моделей по выборке максимального подобия
2.4. Выводы

86.

В модели по выборке максимального подобия предполагается,
что если история повторяется, то для каждой выборки,
предшествующей прогнозу, есть подобная выборка, содержащаяся в
фактических значениях этого же временного ряда. Формально это
называется гипотеза подобия

87.

В момент времени T, который называется моментом прогноза,
нужно определить Pзначений временного ряда в будущем, т. е.
вычислить выборку Прогноз. При этом значения Выборки новой
истории являются доступными. Далее, исходя из предположения о
том, что для каждой выборки есть подобная, нужно найти Выборку
максимального подобия для Выборки новой истории и
предположить, что история повторится, то есть основой для
прогнозных значений станет Базовая выборка.

88.

Метод максимума коэффициента корреляции
В своей диссертации я предлагаю самый простой вариант
определения подобия — вычисление значения линейной
корреляции. Берем одну выборку длины M, берем другую выборку
длины M, считаем значение корреляции, которое и будет отражать
подобие двух выборок.
Искать Выборку максимального подобия проще всего методом
перебора среди всех возможных выборок. Для временных рядов
до 100 000 значений такого сорта перебор занимает несколько
секунд при реализации на персональном компьютере средней
мощности.

89.

Корректировка связи элементов эталонной и оптимальной
выборок
Самым простым вариантом корректировки связи элементов
эталонной (вектор y) и оптимальной (вектор x) выборок
является предположением о наличии линейной их связи:
y i a1 xi a0 i
i = 1, 2, … , k;
где k - количество элементов временного ряда, содержащихся в
эталонном или оптимальном его отрезках.
Численные значения коэффициентов a1 и a0 после
определения оптимального отрезка можно вычислить, например, с
использованием метода наименьших квадратов, минимизирую
значение функции двух переменных S(a1, a0):
k
k
S ( a1 , a0 ) ( y j y j ) ( a1 xi a0 y j ) 2
j 1
2
j 1

90.

Если уравнение (1) отражает зависимость элементов двух
выборок x и y при помощи коэффициентов a1 и a0, то на основании
предположения о подобии и прогностическая выборка (значения
временного ряда, стоящие по времени после последнего значения
этой выборки) так же может быть скорректирована аналогичным
образом с использованием уже найденных коэффициентов:
(3)
y l k a1 xl k a0
где k - количество элементов временного ряда, содержащихся в
эталонном или оптимальном его отрезках; i = 1, 2, … , p; максимальная
p – заблаговременность прогноза в единицах дискрентности
временного ряда.

91.

Название модели на английском звучит как extrapolation (или
forecast) model on the most similar pattern, сокращенно EMMSP.
Самое важное свойство предложенной модели — ее простота
и наглядность.

92.

Приложение. Распознавание образов.

93.

В целом, можно выделить три метода распознавания
образов.
Метод перебора. В этом случае производится сравнение
с базой данных, где для каждого вида объектов представлены
всевозможные его модификации.
Второй подход - производится более глубокий анализ
характеристик образа.
Третий
метод
использование
искусственных
нейронных сетей (ИНС). Этот метод требует либо большого
количества примеров задачи распознавания при обучении, либо
специальной структуры нейронной сети, учитывающей
специфику данной задачи. Тем не менее, его отличает более
высокая эффективность и производительность.

94.

Измерения, используемые для классификации образов,
называются признаками.
Признак – это некоторое количественное измерение
объекта произвольной природы.
Совокупность признаков, относящихся к одному образу,
называется вектором признаков.
Вектора признаков принимают значения в пространстве
признаков.
В рамках задачи распознавания считается, что каждому
образу ставится в соответствие единственное значение вектора
признаков и наоборот: каждому значению вектора признаков
соответствует единственный образ.

95.

Классификатором или решающим правилом называется
правило отнесения образа к одному из классов на основании его
вектора признаков.
Задача генерации признаков – это выбор тех признаков,
которые с достаточной полнотой (в разумных пределах) описывают
образ.
Задача селекции признаков – отбор наиболее информативных
признаков для классификации.
Задача построения классификатора – выбор решающего
правила, по которому на основании вектора признаков
осуществляется отнесение объекта к тому или иному классу.
Задача количественной оценки системы (выбранные
признаки + классификатор) с точки зрения правильности или
ошибочности классификации.

96.

Принцип сравнения с эталоном - один из первых
подходов, возникших при построении технических систем
распознавания.
По физической природе характеристик-признаков образов
системы
распознавания подразделяются на простые и сложные.
Сложные
системы
распознавания
одноуровневыми и многоуровневыми.
могут
быть
В одноуровневых системах распознавание осуществляется
на основе одного словаря признаков одним алгоритмом
распознавания.
В многоуровневых системах результаты распознавания,
полученные на одном этапе, используются в качестве исходных
данных на следующем.

97.

Другой вариант задания весов - вычисление веса Wi, с
которыми каждый из векторов ki учитывается при построении
прогноза: они зависят от расстояния до предыстории y по формуле:
(k , y ) 2
i
Wi 1
( k k 1 , y )
2
где ρ(ki, y) — расстояние до i-го ближайшего соседа. Для нормировки
весов Wi, вычислим их общую сумму и поделим каждый из весов на
нее:
Wi
wi t
W j
j 1
Прогноз:
.
t
x n 1 wi k i
i 1

98.

В АКМ используется следующий вид прогноза:
где
Веса предлагается брать адаптированными:

99.

Реализовано два варианта использованием трех
прогностических отрезков для каждого из 6 критериев.
Каждый прогностический отрезок строился для
каждого критерия как суперпозиция (осреднение) трех
последовательно найденных оптимальных аналогов.
- как простое среднее трех последовательно
найденных прогностических отрезков: оптимального и
двух квазиоптимальных;
- как среднее взвешенное трех последовательно
найденных прогностических отрезков: оптимального и
двух квазиоптимальных с убывающими весами:
w1 = 0.5 (для оптимального);
w2 = 0.3 (для первого квазиоптимального);
w3 = 0.2 (для второго квазиоптимального).

100.

Таким образом в программе «Поиск всех
аналогов.xls» адаптивной композиции моделей
прогноз реализуется по двум следующим алгоритмам:
1. Прогностический отрезок – простое среднее трех
последовательно найденных прогностических отрезков:
оптимального и двух квазиоптимальных.
2. Прогностический отрезок – среднее взвешенное двух
последовательно найденных прогностических отрезков:
оптимального и двух квазиоптимальных с убывающими
весами:
w1 = 0.5; w2 = 0.3; w3 = 0.2.
.
English     Русский Rules