67.64K
Category: informaticsinformatics

Отказоустойчивость сетевой инфраструктуры и информационных систем

1.

ОТКАЗОУСТОЙЧИВОСТЬ СЕТЕВОЙ
ИНФРАСТРУКТУРЫ И
ИНФОРМАЦИОННЫХ СИСТЕМ
ПОДГОТОВИЛ:
СТАНКЕВИЧ И.А. СТУДЕНТ 4 КУРСА 6+7 КБ

2.

Отказоустойчивость
Отказоустойчивость – свойство технической системы сохранять свою работоспособность
после отказа одной или нескольких её составных частей
Надежность отказоустойчивой системы характеризуется количеством девяток. Например,
любая веб-страница гарантирует стабильную работу в 99% случаев, а база данных
организации уровня «Сбербанка» – 99,9999%.

3.

Отказоустойчивая система отличается
наличием избыточных элементов. Условно
они относятся к следующим типам:
1. Программная часть
2. Аппаратная часть
3. Катастрофоустойчивая часть

4.

Отказоустойчивая инфраструктура и
отказоустойчивость информационных
систем
Отказоустойчивая инфраструктура – это комплекс решений, направленных
на поддержание постоянной работоспособности оборудования:
компьютеров, комплектующих, ПО и локальной сети.
Отказоустойчивость информационных систем – цель, которая ставится ИТподразделениям любых компаний. Минимизация вынужденных и
регламентированных простоев информационных систем является
критерием эффективности и качества ИТ-инфраструктуры.

5.

Создание отказоустойчивых систем и
реализация в них отказоустойчивости
Перечислим факторы, влияющие на непрерывность функционирования любой ИТсистемы:
1.
инженерные системы ЦОДа;
2.
административно-организационное обеспечение ИТ-систем;
3.
средства безопасности (включая информационную безопасность);
4.
средства контроля и управления ИТ-инфраструктурой и ПО;
5.
реализация механизма создания резервных копий;
6.
отказоустойчивость аппаратной и программной частей ИТ-системы;
7.
наличие катастрофоустойчивого решения

6.

Инженерные системы ЦОДа
Для нормального функционирования любой ИТ-системы как минимум
необходимо обеспечить штатные (предусмотренные производителем)
условия эксплуатации поддерживающего ее ИТ-оборудования. Достигается
это с помощью инженерных систем. Не слишком углубляясь в подробности,
назовем наиболее важные из них: средства бесперебойного
электроснабжения, системы климатического контроля, специальные стойки
для размещения ИТ-оборудования и охранно-пожарная сигнализация.

7.

Административно-организационное
обеспечение
Административно-организационное обеспечение ИТ-систем предполагает специально
разработанные регламенты поддержки их непрерывного функционирования
и характеризует отлаженность административных процедур.
Регламенты делятся на периодические (определяют порядок планового обслуживания ИТсистем) и инцидентные (описывают действия для выхода из кризисной ситуации).
Еще один аспект административно-организационного обеспечения — четко выстроенная
ролевая модель с прописанными требованиями к персоналу на каждую роль, а также
грамотная организация труда обслуживающего ИТ-систему персонала.

8.

Средства безопасности
Данный фактор охватывает все аспекты информационной безопасности, а также такой
немаловажный для компании в целом компонент, как система контроля и управления
доступом. Не заостряя внимание на составе средств безопасности, хочется отметить
важность данного компонента и с точки зрения обеспечения непрерывности
функционирования ИТ-систем.

9.

Средства контроля и управления ИТинфраструктурой и ПО
Непрерывность функционирования и, соответственно, уровень доступности любой ИТсистемы зависят от того, как оперативно обслуживающий персонал получит информацию
о внештатной ситуации и как быстро отреагирует на возникшую угрозу отказа ИТ-системы.

10.

Реализация механизма создания
резервных копий
Практически любая ИТ-система зависит от обрабатываемых ею данных, кроме, разве что,
систем распределенных вычислений, где ценность самих данных минимальна. Чтобы
обеспечить непрерывность функционирования ИТ-системы и свести к минимуму время
ее простоя, необходимо регулярно выполнять резервное копирование данных. Это
позволяет минимизировать риски потери и изменения данных, а также сократить время
простоя ИТ-системы.

11.

Исходя из типовой архитектуры ИТ-систем,
можно выделить несколько компонентных
составляющих общей отказоустойчивости:
отказоустойчивость программного обеспечения (как системного, так и прикладного);
отказоустойчивость аппаратного обеспечения ИТ-системы на уровне логических модулей
(например, подсистемы хранения данных);
отказоустойчивость аппаратного обеспечения ИТ-системы на уровне отдельного
устройства (например, сервера);
отказоустойчивость отдельных модулей внутри устройства (например, отказоустойчивость
конфигурации жестких дисков);
отказоустойчивость отдельной площадки (в случае, если ИТ-система имеет географически
распределенную архитектуру).

12.

Отказоустойчивость программного
обеспечения.
Речь идет об использовании различных способов кластеризации с установкой идентичного
программного обеспечения на всех узлах кластера. В случае отказа ПО или программного
сбоя на одном из узлов кластера его нагрузка перераспределяется между корректно
функционирующими узлами. За это отвечает кластерное ПО, которое по определенным
критериям определяет, на каком из узлов неверно функционирует системное или
прикладное программное обеспечение и «выключает» данный узел из активной
деятельности.

13.

Отказоустойчивость аппаратного
обеспечения ИТ-системы на уровне
логических модулей.
В этом случае механизм реализации отказоустойчивости идентичен вышеописанному,
но предполагает кластеризацию аппаратных средств без использования внешнего
программного обеспечения. Такой вид кластеризации применяется главным образом
в системах хранения данных и серверных многоузловых сборках. Средства управления
таким аппаратным кластером отвечают только за исправность аппаратной составляющей
и не контролируют корректность функционирующего на этом кластере программного
обеспечения. Отказ одного сервера или одной системы хранения данных в такой
логической сборке не вызовет остановку всей ИТ-системы, а лишь ограничит
ее производительность.

14.

Отказоустойчивость аппаратного
обеспечения ИТ-системы на уровне
отдельного устройства.
Аппаратная отказоустойчивость отдельного устройства обеспечивается избыточностью
наименее надежных его компонентов. Например, сервер может иметь несколько
дополнительных блоков питания и вентиляторов охлаждения, при этом условия, когда
он оказывается неработоспособным, определяются реализованной схемой избыточности
тех или иных компонентов. Наиболее распространены схемы N+1 (избыточным является
только один компонент в подсистеме, и, соответственно, допускается отказ только одного
такого же компонента) и 2N (двукратная избыточность, допускающая выход из строя
половины установленных в функциональном блоке идентичных компонентов).

15.

Отказоустойчивость отдельных
модулей внутри устройства.
Обеспечение отказоустойчивости на уровне отдельных модулей распространено,
в частности, при организации хранения данных, причем как оперативного, так
и долговременного, и так же основано на избыточности отдельных аппаратных
компонентов: жестких дисков и (значительно реже) модулей оперативной памяти. Обычно
в таких случаях пользователь аппаратного устройства сам ищет разумный компромисс
между отказоустойчивостью и производительностью модуля, а также риском потери
данных и стоимостью их хранения. При этом схема реализации отказоустойчивости
выбирается из жестко заданных производителем оборудования вариантов. Вместе с тем
варианты здесь могут быть самые разные. Применяются схемы N+1, N+2, 2N, а также
множество производных схем, заданных производителем в виде шаблонов. Стоит также
отметить, что такого рода решения могут предусматривать автоматическое устранение
отказа через некоторый период времени.

16.

Катастрофоустойчивое решение
В редких случаях причиной утраты работоспособности ИТ-системы может стать отказ ЦОДа
в целом в результате локальной или глобальной катастрофы. Стоимость
катастрофоустойчивого решения весьма значительна, поскольку требует дублирования
функционала ЦОДа на географически удаленной площадке. При этом используют два
разных подхода. Первый предполагает практически полное воспроизведение функционала
защищаемого ЦОДа на удаленной площадке с той же или, как вариант, с несколько
меньшей производительностью. В случае отказа основного ЦОДа его функции берет
на себя резервный. Факторами риска в данном случае являются административный ИТперсонал, который должен своевременно принять решение о переносе сервисов
на другую площадку, и наличие отработанного регламента для успешного выполнения
этой операции. Во время переноса нагрузки в резервный ЦОД предоставляемые сервисы
могут быть временно недоступны. Существует также риск потерять некоторый объем
данных, определяемый тем, как организована репликация данных между ЦОДами.
Данный подход к обеспечению катастрофоустойчивости ИТ-систем базируется
на нескольких кластерах, объединенных в так называемый метрокластер.

17.

Недостатки отказоустойчивых систем
Сложности в обнаружении скрытых отказов резервированных элементов.
Сложности в контроле множественных отказов.
Повышение рисков игнорирования известных отказов.
Сложность проверки.
Рост затрат
Риск применения элементов низкого качества.

18.

ЗАКЛЮЧЕНИЕ
В докладе было рассмотрено определение отказоустойчивости. Рассмотрены ее характеристики. Была
определена какая инфраструктура является отказоустойчивой. Были рассмотрены следующие механизмы
реализации отказоустойчивости:
1.
Простое резервирование
2.
Помехоустойчивое кодирование
3.
Отказоустойчивость программного обеспечения
4.
Отказоустойчивость аппаратного обеспечения ИТ-системы на уровне логических модулей
5.
Отказоустойчивость аппаратного обеспечения ИТ-системы на уровне отдельного устройства
6.
Отказоустойчивость отдельных модулей внутри устройства
7.
Катастрофоустойчивое решение
Также были рассмотрены и недостатки отказоустойчивых систем. На основании всего этого можно сделать
вывод о важном значении и необходимости использования отказоустойчивых систем в современной ИТинфраструктуре.
English     Русский Rules