Бесплатно Экспресс-аудит сайта:

04.10.2014

Пользователь успешно пережил перезагрузку инфраструктуры Amazon Web Services

На прошлой неделе руководство Amazon   предупредило  всех пользователей инфраструктуры Amazon Web Services (AWS) о перезагрузке 10% своих виртуальных машин, известных как экземпляры (instances) Amazon Elastic Compute Cloud (Amazon EC2).

В пятницу, 27 сентября технический директор online-аукциона PropertyRoom.com Кевин Феличко (Kevin Felichko) получил уведомление о том, что перезагрузка всех экземпляров произойдет в понедельник вечером. Однако позже Amazon прислала еще одно предупреждение о том, что перезагрузка будет отложена до утра вторника.

Используя сервис под названием CloudWatch (с помощью которого проводится мониторинг состояния экземпляров EC2), Феличко настроил систему таким образом, что в случае отключения какого-либо экземпляра, обслуживающего клиентскую часть web-сайта, управляющий ресурсами облака сервис CloudFormation проведет автоматическое масштабирование к другому экземпляру.

Специалист был уверен, что система сама перенаправит нагрузку с отключенного экземпляра на другой. Его расчеты оправдались, и в целом перезагрузка прошла успешно. Однако не обошлось без неприятностей – один из экземпляров, обслуживающих конечную функцию прогнозирования, завис в цикле перезагрузки и не смог перезапуститься. Это стало причиной «эффекта домино» в системе, поскольку система обработки заказов web-сайта вплотную связана с инвентаризацией. Феличко связался со специалистами сервиса AWS, которые устранили неполадку. Как оказалось, проблема заключалась в аппаратной части центра данных AWS.

Представители Amazon не слишком охотно распространяются о причинах массовой перезагрузки, однако есть подозрения, что данная необходимость была вызвана уязвимостью в гипервизоре Xen.