Similar presentations:
Презентация Техтолк
1.
Управление инцидентами ипроблемами в ИТ Модульбанка
Игорь Молчанов
Александр Вахлаков
26.07.2024
2.
Чтобы обеспечитьвысокую доступность
ИТ-систем, нужно:
1. как можно реже
ломать
2. как можно быстрее
чинить
3.
Немного теории ITIL v4Инцидент - незапланированное прерывание сервиса или снижение качества
его работы.
Управление инцидентами - минимизация негативного влияния инцидентов
на деятельность компании за счет скорейшего восстановления
работоспособности.
Проблема - причина или возможная причина одного или нескольких
инцидентов.
Управление проблемами - снижение повторяемости инцидентов за счет
выявление актуальных и потенциальных причин инцидентов, управления
обходными решениями и известными ошибками.
4.
Как было раньшеМониторинг готовил
ежемесячную/квартальную/годовую отчетность
по времени доступности систем
Внутри ИТ были определены следующие
значения
Больше 99,75% - хорошо
98-99,75% - удовлетворительно
Меньше 98% - неудовлетворительно
5.
Как было раньше0,25% = 22 часа в год (примерно 2 часа в месяц)
2% = 175 часов (примерно 15 часов в месяц)
Для всех ИТ-систем были определены три уровня инцидентов:
Блокирующий
Критический
Основной
Май 2022 года
6.
Минусы старого подходаПриоритет определялся дежурным
мониторинга в соответствии с опросной
таблицей.
Избыточность вопросов в условиях
срочности приводила к неадекватной
оценке приоритета инцидента
7.
Минусы старого подходаНе были определены целевые времена устранения инцидентов.
Применялся подход «как можно скорее». При возникновении
блокирующих и критических инцидентов наблюдалась паника, при
основных – безразличие.
Не было понятно, был ли устранен инцидент в допустимое время или нет.
Не было критериев своевременной эскалации, т.е. привлечения
дополнительных ресурсов к решению инцидента
Плохо отслеживалась повторяемость инцидентов, не устранялась и не
фиксировалась корневая причина.
8.
Что мы изменилиЗаново ввели и определили критичность систем:
Mission Critical
Business Critical
Business Operational
Office Productivity
Определили три типа сбоя по влиянию на работоспособность АС:
Недоступность
Деградация (замедления, недоступность значительной части функций)
Ошибки в работе (недоступность или замедление в работе отдельных
функций)
Добавили приоритет инцидента «Высокий»
9.
Что мы изменилиНа основании требований 787-П сопоставили системы, их критичность и тех.
процессы. Определили целевое время устранения инцидентов (с запасом
относительно 787-П)
10.
Новое определение приоритета ивремени устранения
Блокирующий – 1 час
Критический – 2 часа
Высокий – 4 часа
Основной – 8 часов
По истечении половины отведенного времени осуществляется эскалация
(привлечение доп. ресурсов)
11.
Новое на практикеУведомляем бизнес о плановом
времени устранения
Еженедельно собираем статистику
инцидентов, их продолжительности,
своевременности устранения
Инициируем установление
корневых причин инцидентов
Ежеквартально проводим ретру по
инцидентам с командами
разработки
12.
Новое на практикеЗа первое
полугодие 2024:
92 инцидента
82 решено в срок
13.
Воронка связи проектовINC
IT-Risk
RCA
14.
Связи процессов15.
Новое на практике часть 2Статистика ведется от 01.04.24
INC
RCA
RCA на решении
Решено RCA
IT-Risk
10
7
3
4
1