Оглавление:
Несмотря на все наши усилия по их предотвращению, ИТ-инциденты являются неотъемлемой частью работы, а попытка опередить время простоя для бизнеса становится все сложнее. Современные системы тесно связаны между собой и становятся все более сложными, и чем больше движущихся частей, тем больше возможностей для того, чтобы что-то пошло не так.
Это одна из причин, по которой все больше организаций обращаются к микросервисам для повышения доступности услуг и повышения устойчивости к сбоям. Но хотя это отличные предпосылки для взлома монолитных приложений, они также могут потенциально увеличивать риск отказа - если не разработаны специально с учетом устойчивости.
Подготовка к неудаче
Учитывая хаотическую природу распределенных систем, службы должны разрабатываться не только для предвидения сбоя, но и для автоматического восстановления в случае сбоя. Это означает регулярное инициирование сбоев, чтобы гарантировать, что ваши системы могут справиться с хаосом, не нарушая обслуживания конечных клиентов. И для этого вам нужно иметь возможность имитировать производственный трафик в тестовых средах.