Дом предприятие Как компании максимизируют время безотказной работы?

Как компании максимизируют время безотказной работы?

Anonim

Q:

Как компании максимизируют время безотказной работы?

A:

Поддержание ИТ-служб в рабочем состоянии, безусловно, важно. Производители систем много обдумали эту тему. Некоторые важные финансовые компьютеры работают непрерывно в течение многих лет. В Интернете есть история о компьютере Novell Netware 3, который был окончательно закрыт через 16 лет. Принимая во внимание время безотказной работы сети, стандартом является «Пять девяток» или 99, 999% доступности. Достижение максимального времени безотказной работы является важным фактором для любого предложения ИТ-услуг.

Как достигается максимальное время безотказной работы? Хорошее управление является ключом. Международная организация по стандартизации (ISO) создала структуру управления сетью, которая называется FCAPS, что означает:

  • Управление неисправностями
  • Управление конфигурацией
  • Управление бухгалтерским учетом
  • Управление производительностью
  • Управление безопасностью

Проблемы с отдельными сетевыми компонентами активно и реактивно решаются с использованием этой модели. Отказы контролируются с помощью сигналов тревоги и событий. Они собираются агентами протоколов, таких как SNMP (протокол управления сетью систем) или некоторыми другими проприетарными решениями. Настраиваемые пороговые значения могут вызывать сигналы тревоги и даже автоматически генерировать тикеты, которые попадают в очереди сотрудников мониторинга в центрах обработки данных. Крупные операторские сети могут иметь отдельные отделы для работы с уровнями ядра, распределения или доступа сети. Анализ первопричин пытается изолировать и определить критические проблемы после крупного события.

Подобные процессы используются для управления системой. Интернет-провайдеры (ISP) и центры управляемого хостинга нанимают системных администраторов для мониторинга и управления жизнеспособностью серверов, систем хранения или других устройств. Например, отдельные процессы на компьютерах под управлением Windows или Linux можно просматривать и контролировать с помощью программ управления с графическим пользовательским интерфейсом (GUI) так же, как и сетевые протоколы.

Удаленное наблюдение и настройка сетевых компонентов и систем обеспечивают возможность в режиме реального времени максимизировать время безотказной работы системы. Это распространяется на изменения конфигурации, сбор ключевых показателей производительности или внедрение улучшений безопасности.

Один из способов оценить работоспособность и надежность любой системы - использовать модель, которую IBM называет RAS: надежность, доступность и удобство обслуживания. Чтобы обеспечить RAS, было разработано много методов. К ним относятся резервирование, резервное копирование данных, источники бесперебойного питания (ИБП), компоненты с возможностью горячей замены и автоматические обновления. Запланированные изменения и окна обслуживания предоставляют возможность исправлять или улучшать известные проблемы, не беспокоя пользователей.

В конце концов системы и сети выйдут из строя. Резервирование является одним из ключей к отказоустойчивости системы. Это может относиться к оборудованию, программному обеспечению или данным. Ответственные за обеспечение надежности в сети или системе программного обеспечения будут искать то, что можно считать единой точкой отказа (SPOF). Вся сеть проходит через один коммутатор или кабель? Все процессы происходят на одном сервере? Есть ли только одна копия критического набора данных? Без избыточности компания может - в одно мгновение - потерять то, что могло занять годы, чтобы развиться.

Максимизация времени безотказной работы - это «все вышеперечисленное». Лучшие практики были разработаны на основе многолетнего опыта и сотрудничества. Постоянно внедряются новые решения, такие как самовосстанавливающиеся сети, виртуализация, анализ данных и улучшенная архитектура. Ни один метод не сможет ответить на все вопросы, возникающие в сложных системах. Каждая компания старается максимально эффективно использовать свои ИТ-ресурсы в течение жизненного цикла имеющегося в ее распоряжении оборудования.

Как компании максимизируют время безотказной работы?