Бизнес многих компаний все чаще и чаще зависит от доступности тех или иных ИТ-сервисов. Если не все, то очень многие стремятся сделать доступность сервиса равной 24x7x365, т.к. от этого зависит успех, прибыль и жизнеспособность всей компании в целом. В связи с этим возникает ряд вопросов:
Все это подробно описано в документе DIRECTUM. План обеспечения непрерывности бизнеса с конкретными примерами для СЭД DIRECTUM.
Документ описывает методику построения плана обеспечения непрерывности бизнеса, с учетом рекомендаций ITIL. План позволяет минимизировать влияние неблагоприятных событий на систему электронного документооборота DIRECTUM.
План состоит из трех основных этапов:
Этапы позволяют снизить вероятность наступления неблагоприятных событий, а в случае их возникновения минимизировать время и стоимость простоя ИТ-сервисов, в том числе СЭД DIRECTUM.
А есть ли подобный документ в вашей компании, что он в себя включает? Коллеги, давайте делиться опытом друг с другом.
Ниже описана методика построения плана обеспечения непрерывности бизнеса, с учетом рекомендаций ITIL. План позволяет минимизировать влияние неблагоприятных событий на систему электронного документооборота(СЭД) DIRECTUM, и, как следствие, на бизнес заказчика.
Наличие в организации плана непрерывности бизнеса позволит снизить вероятность наступления неблагоприятных событий, а в случае их возникновения минимизировать время и стоимость простоя ИТ-сервисов, в том числе СЭД DIRECTUM.
ITIL (IT Infrastructure Library) – библиотека, описывающая лучшие из применяемых на практике способов организации работы ИТ-подразделений или ИТ-компаний. Библиотека ITIL не является стандартом и носит только рекомендательный характер.
ITSCM (IT Service Continuity Management) – управление непрерывностью услуг, процесс, ответственный за управление рисками, которые влияют на услуги. ITSCM позволяет поставщику услуг постоянно предоставлять минимально согласованный уровень услуг, через снижение рисков до приемлемого уровня и планирование восстановления услуг.
ИТ-актив – материальные и нематериальные компоненты ИТ-инфраструктуры, в том числе аппаратное и программное обеспечение ИТ-систем и сервисов.
ИТ-сервис – ИТ-услуга, которую компания предоставляет клиентам для поддержки их бизнес-процессов.
Неблагоприятное событие – событие, результатом которого будет неработоспособное состояние системы в целом или ее отдельных частей.
Стоимость простоя – величина, определяемая как сумма составляющих недополученной прибыли от внепланового простоя системы, расходов на заработную плату пользователей, не работающих во время простоя, расходов на заработную плату ИТ-персонала, устраняющего причины простоя, а также потерь в репутации компании.
Предлагаемая методика построения плана непрерывности бизнеса содержит три основных этапа:
· Анализ рисков неблагоприятных событий. Кратко этот блок можно охарактеризовать вопросом: «Что может произойти?». На выходе этого блока должна быть сформирована таблица с основными угрозами и соответствующими рисками для каждого ИТ-актива;
· Мероприятия для снижения рисков. Кратко этот блок можно охарактеризовать вопросом: «Что нужно сделать, чтобы риски не наступили?». На выходе этого блока должен быть разработан список плановых мероприятий для снижения вероятности проявления рисков неблагоприятных событий;
· Мероприятия по восстановлению. Кратко этот блок можно охарактеризовать вопросом: «Что делать, если риск все же наступил?». На выходе этого блока должен быть разработан план мероприятий по восстановлению сервисов в случае наступления неблагоприятного события, с написанием рабочих инструкций и порядком действий в каждой ситуации и для каждой угрозы.
В первую очередь при написании плана обеспечения непрерывности бизнеса выполняется анализ списка возможных рисков, присущих конкретной организации, и степень воздействия этих рисков на бизнес.
Риски можно разделить на следующие подгруппы:
Рассмотрим порядок анализа рисков каждой группы.
Данные риски связаны с возникновением любых нештатных ситуаций с ИТ-активами при ежедневной эксплуатации ИТ-сервиса.
Все угрозы, затрагивающие ИТ-активы (ИТ-инфраструктуру) можно классифицировать по следующим группам:
Степень риска = (Вероятность угрозы) х (Уязвимость актива)
Таким образом, степень риска ИТ-сервиса определяется как произведение вероятности угрозы на уязвимость актива по отношению к этой угрозе. Определение степени риска приведено в таблице 1.
Таблица 1. Определение степени риска
Угроза Уязвимость |
Высокая |
Средняя |
Низкая |
Высокая |
Максимальная |
Высокая |
Средняя |
Средняя |
Высокая |
Средняя |
Низкая |
Низкая |
Средняя |
Низкая |
Незначительная |
Количество оцененных рисков для каждого ИТ-сервиса может быть очень велико, поэтому часто пользуются правилом Tор 10, когда рассматриваются лишь первые десять самых распространенных рисков.
Идентификация и оценка степени - это первый шаг к управлению рисками. Управлять рисками означает принимать меры по уменьшению вероятности и степени воздействия риска и быть готовым к кризисным ситуациям в случае их наступления.
Например, в СЭД DIRECTUM наиболее критичными являются следующие компоненты системы (от наиболее к наименее критичным):
От работоспособности этих компонент зависит функционирование системы в целом. Определим степень критичность риска для некоторых из них:
Таблица 2. Пример определения зависимости степени риска от уязвимостей и угроз
Угроза (неблагоприятное событие) |
Вероятность наступления |
Актив |
Уязвимость |
Степень риска (из таблицы 1) |
Примечание |
Наводнение |
Низкая |
Сервер с БД DIRECTUM |
Высокая |
Средняя |
|
Наводнение |
Низкая |
Сервер с WorkFlow |
Средняя |
Низкая |
|
Отказ оборудования |
Средняя |
Сервер с БД DIRECTUM |
Высокая |
Высокая |
|
Отказ оборудования |
Средняя |
Сервер с сервером сеансов |
Высокая |
Высокая |
|
Данные риски связаны с самим ИТ-сервисом, его развитием, обновлением и поддержанием работоспособности. Следующие действия могут быть причиной наступления рисков данного вида:
Аналогично рискам, оказывающим влияние на ИТ-активы, необходимо провести анализ и составить таблицу зависимостей степеней риска от угроз.
После того как составлена таблица основных угроз с высокими и максимальными степенями риска для ИТ-сервиса, разрабатывается список плановых мероприятий по недопущению возникновения данных угроз. В этот список должны входить мероприятия, рекомендуемые производителем аппаратной части и разработчиком программного обеспечения.
Список должен содержать меры уменьшения риска, а выполнение действий из этого списка должно носить регулярный характер.
Угрозы никогда нельзя устранить полностью. При этом важно учитывать, что уменьшение одного вида риска может привести к увеличению другого.
К превентивным мерам, снижающим риски на ИТ-активы, можно отнести:
К превентивным мерам, снижающим риск при обслуживании ИТ-сервиса, можно отнести:
Основой предотвращения неблагоприятного события служит постоянный мониторинг показателей производительности и доступности ИТ-сервиса в целом. Мониторинг на ранних стадиях позволяет обнаружить и определить возможные неблагоприятные события, как в оборудовании системы, так и в инфраструктуре в целом.
Определяется список метрик для каждого события в таблице 2 (какой-то конкретный счетчик, событие в лог-файле и т.д.), за которыми будет производиться наблюдение и их постоянный анализ.
Так, например, в качестве системы мониторинга может использоваться система System Center Operation Manager (SCOM), Zabbix, либо система подобного класса для enterprise-предприятий.
В случае если неблагоприятное событие произошло, и мероприятия, направленные на минимизацию последствий, не оказали соответствующего влияния, необходимо разработать план по восстановлению сервисов в случае аварий для каждой из угроз, определенных в таблице 2.
Целью данного плана является быстрое восстановление ИТ-сервиса в работоспособное состояние, с минимальным временем простоя.
Вместо создания отдельных, частных инструкций и руководств, удобнее всю информацию представить в едином документе. Пример плана по восстановлению предоставлен в приложении 1.
План восстановления должен содержать:
Детальные планы восстановления оформляются как официальные документы компании. Любые изменения в них необходимо согласовывать со всеми заинтересованными сторонами, принимающими участие в процессе восстановления.
План восстановления должен включать все виды работ, связанных с предоставлением услуг во время чрезвычайной ситуации. В плане также должны быть определены процедуры, необходимые для его выполнения, эффективные и понятные настолько, чтобы каждый специалист мог выполнять работы по восстановлению, следуя этим процедурам.
Согласно рекомендациям ITIL, под восстановлением подразумевается не только собственно восстановление, но и предоставление дополнительных дублирующих систем на время ремонта основного ИТ-сервиса, или так называемого обходного решения, которые обеспечат непрерывность предоставления ИТ-услуг.
Варианты восстановления в рамках ITSCM, которые должны быть учтены при формировании плана:
Так, например, план по восстановлению системы DIRECTUM должен содержать:
Различные услуги, используемые организацией, требуют различных подходов к восстановлению и уменьшению рисков сбоя. Какие бы варианты ни выбирались, они должны быть экономически эффективны.
Планы по восстановлению должны проходить регулярное тестирование и актуализацию. Тестирование является важной частью ITSCM. Именно оно гарантирует то, что принятые стратегия, соглашения, планы и процедуры будут действительно работать на практике.
Поставщик услуг несет ответственность за то, что в случае катастрофы услуги могут быть восстановлены в заданный временной интервал с требуемой функциональностью и производительностью. Тесты должны проводиться по максимально реалистичным сценариям. При невозможности использования рабочей среды (серверов, БД и т.д.) тестирование проводится на тестовой среде. Тем не менее, необходимо понимать, что даже самое тщательное тестирование не может учесть все нюансы, которые могут возникнуть в реальности.
После выполнения тестов обязательным пунктом является актуализация всей документации, относящейся к восстановлению, и поддержание ее в актуальном состоянии.
Управление непрерывностью должно включать:
· Обучение, подготовка, тренинги – персонал должен быть готов к возникновению непредвиденных обстоятельств и знать, что необходимо делать при их возникновении;
· Пересмотр и аудит – возможное появление новых внешних угроз или автоматизация новых бизнес-процессов означает неизбежное изменение требований к имеющимся ключевым ИТ-сервисам. Регулярное обновление планов и процедур по обеспечению непрерывности ключевых ИТ-услуг позволит ИТ-подразделению гибко приспосабливаться к изменяющемуся бизнесу организации;
· Тестирование – помимо начального тестирования, необходимо предусмотреть регулярное тестирование стратегии, планов и других выходов ITSCM. Резервные копии и механизмы восстановления также должны тестироваться.
Скачивайте пример плана основных действий при восстановлении системы (для версии DIRECTUM 4.9.1)
DIRECTUM. План обеспечения непрерывности бизнеса.PDF (242,87 Кб)
Были разные случаи например этот.
Авторизуйтесь, чтобы написать комментарий