Управление инцидентами и проблемами в ИТ Модульбанка

1.

Управление инцидентами и
проблемами в ИТ Модульбанка
Игорь Молчанов
Александр Вахлаков
26.07.2024

2.

Чтобы обеспечить
высокую доступность
ИТ-систем, нужно:
1. как можно реже
ломать
2. как можно быстрее
чинить

Немного теории ITIL v4
Инцидент - незапланированное прерывание сервиса или снижение качества
его работы.
Управление инцидентами - минимизация негативного влияния инцидентов
на деятельность компании за счет скорейшего восстановления
работоспособности.
Проблема - причина или возможная причина одного или нескольких
инцидентов.
Управление проблемами - снижение повторяемости инцидентов за счет
выявление актуальных и потенциальных причин инцидентов, управления
обходными решениями и известными ошибками.

4.

Как было раньше
Мониторинг готовил
ежемесячную/квартальную/годовую отчетность
по времени доступности систем
Внутри ИТ были определены следующие
значения
Больше 99,75% - хорошо
98-99,75% - удовлетворительно
Меньше 98% - неудовлетворительно

5.

Как было раньше
0,25% = 22 часа в год (примерно 2 часа в месяц)
2% = 175 часов (примерно 15 часов в месяц)
Для всех ИТ-систем были определены три уровня инцидентов:
Блокирующий
Критический
Основной
Май 2022 года

6.

Минусы старого подхода
Приоритет определялся дежурным
мониторинга в соответствии с опросной
таблицей.
Избыточность вопросов в условиях
срочности приводила к неадекватной
оценке приоритета инцидента

7.

Минусы старого подхода
Не были определены целевые времена устранения инцидентов.
Применялся подход «как можно скорее». При возникновении
блокирующих и критических инцидентов наблюдалась паника, при
основных – безразличие.
Не было понятно, был ли устранен инцидент в допустимое время или нет.
Не было критериев своевременной эскалации, т.е. привлечения
дополнительных ресурсов к решению инцидента
Плохо отслеживалась повторяемость инцидентов, не устранялась и не
фиксировалась корневая причина.

8.

Что мы изменили
Заново ввели и определили критичность систем:
Mission Critical
Business Critical
Business Operational
Office Productivity
Определили три типа сбоя по влиянию на работоспособность АС:
Недоступность
Деградация (замедления, недоступность значительной части функций)
Ошибки в работе (недоступность или замедление в работе отдельных
функций)
Добавили приоритет инцидента «Высокий»

9.

Что мы изменили
На основании требований 787-П сопоставили системы, их критичность и тех.
процессы. Определили целевое время устранения инцидентов (с запасом
относительно 787-П)

10.

Новое определение приоритета и
времени устранения
Блокирующий – 1 час
Критический – 2 часа
Высокий – 4 часа
Основной – 8 часов
По истечении половины отведенного времени осуществляется эскалация
(привлечение доп. ресурсов)

11.

Новое на практике
Уведомляем бизнес о плановом
времени устранения
Еженедельно собираем статистику
инцидентов, их продолжительности,
своевременности устранения
Инициируем установление
корневых причин инцидентов
Ежеквартально проводим ретру по
инцидентам с командами
разработки

Управление инцидентами и проблемами в ИТ Модульбанка

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

16.