Технический сбой 26 сентября: как он сделал сервис GigaCloud стабильнее

Новости компании

Автор: GigaCloud

04.10.2018

26 сентября 2018 года компания GigaCloud столкнулась с крупнейшей внештатной ситуацией в своей истории. Из-за сетевой аварии на стороне интернет-провайдера GigaTrans наши сервисы были недоступными или частично доступными для большинства клиентов. Полноценная работа GigaCloud была восстановлена только на следующий день.

Мы извлекли уроки из этой аварии и провели работу, чтобы в будущем избежать подобных ситуаций. Рассказываем, что произошло и почему это сделало нас сильнее.


Что произошло

С момента своего основания GigaCloud использовала ресурсы группы GigaGroup, в которую входит GigaTrans — интернет-провайдер с 12-летним опытом работы. Он предоставляет полный пакет защиты от возможных внештатных ситуаций: подключено достаточное количество каналов связи, настроены «холодное» и «горячее» резервирование оборудования на всех узлах и каналах.

26 сентября у GigaTrans произошел критический аппаратный сбой корневых маршрутизаторов Juniper, которые считаются топовыми в своем классе. Специалисты компании трижды меняли их на оборудование, которое находилось в «холодном» резерве. Это не помогло.

Совместно с техподдержкой вендора компании Juniper, GigaTrans более 10 часов устраняли неисправность оборудования. Официально признанная вендором причина сбоя — конфликт в системном программном обеспечении маршрутизатора. Производитель признал, что проблема в данном случае была на их стороне.

Все серверы GigaCloud в это время работали в штатном режиме, но не ко всем из них был доступ извне.


Хронология событий

  • 26 сентября с 9:20 до 11:30 команда GigaCloud совместно с GigaTrans работала над восстановлением их сети.
  • В 11:30 было принято решение запускать собственный маршрутизатор и анонсировать свои подсети через альтернативных провайдеров.
  • До 14:00 подключен первый внешний провайдер на свой маршрутизатор и переподключены другие подсети, восстановлен доступ к инфраструктуре S-Cloud.
  • В 20:30 все клиенты (S-Cloud і E-Cloud (инфраструктура на базе платформы VMware)) переведены на собственное сетевое ядро.
  • В 22:00 подключен канал связи от Giganet для резервирования украинского интернет-сегмента.
  • В ночь на 27 сентября еще одним каналом связи сетевого ядра GigaCloud снова стал GigaTrans.
  • 27 сентября к 8:20 утра была обеспечена связность с большинством украинских операторов, с некоторыми из них продолжалось согласование ручных настроек их сетевых устройств.
  • До 11:00 была полностью настроена сетевая связность со всеми украинскими и мировыми интернет-провайдерами.


Что уже сделано

Сервис GigaCloud изначально регистрировался как независимый оператор с собственной автономной системой (AS) и пулом IP-адресов. Оценив темпы роста, в августе 2018 года мы начали модернизацию — постройку собственного отказоустойчивого ядра сети с подключением к нескольким независимым магистральным провайдерам. GigaTrans должен был стать основным, но не единственным каналом связи GigaCloud.

В сентябре было закуплено оборудование и проведены первые тесты. Закончить перестройку ядра мы планировали 31 октября. Из-за произошедшей аварии нам пришлось экстренно развернуть основу архитектуры ядра в течение суток.

Сейчас ядро сети GigaCloud работает в штатном режиме. Все подсети анонсируются самостоятельно, независимо от GigaTrans. К маршрутизаторам подключены два внешних провайдера и точка обмена трафиком Giganet.

Конечно, за сутки не удалось реализовать все, что планировалось сделать на протяжении месяца. Модернизация ядра продолжается. В настоящий момент мы ожидаем поставку сетевого оборудования и до конца октября завершим все запланированные работы. По факту окончания этого ключевого для нас и наших клиентов проекта, мы выпустим релиз, подробно рассказывающий об архитектуре и преимуществах внедряемого решения.

Как это улучшит наш сервис? Во-первых, модернизация позволит сохранить отличную связность для большого количества клиентов, которые пользуются услугами GigaGroup. Во-вторых, обеспечит независимые каналы маршрутизации трафика. В-третьих, упростит подключение к облачной инфраструктуре GigaCloud любых операторов, с которыми работают наши клиенты.


Как отреагировали наши клиенты

Андрей Денисенко
BIM manager, «Архиматика»

«Авария 26 сентября – это первый и единственный прецедент за более, чем год плодотворного сотрудничества с GigaCloud. Мы продолжили работу с оператором, потому как считаем, что по единичным случаям не стоит и (да и неправильно) делать категорических выводов. И людям, и компаниям нужно давать второй шанс. Мы верим, что подобных ситуаций в дальнейшем не возникнет. Сервисы GigaCloud нас полностью удовлетворяют».


Александр Махинич
СТО,
Intellogate

«Техника есть техника. Она сбоит. Не произошло ничего такого, что вынудило бы нас сменить провайдера. Вопрос ведь не в сбое, а в том, как GigaCloud вышел из этой ситуации.

Да, инцидент повлек за собой некоторые сложности. Но гораздо хуже было бы, если руководство провайдера замалчивало проблему или вовсе сделало вид, что ее не существует.

Во-первых, вы же честно очертили границы неисправности, осознали ошибку и нашли пути решения. Это похвально. Во-вторых, вы осознали необходимость резервировать и другие ваши сервисы. Так что не бывает худа без добра».


Руслан Саган
СIO, стивидорная компания «Ольвия»

«Инцидент, конечно, вещь неприятная, но подобные ситуации случаются с каждым. Сбой практически не затронул наши сервисы. Тем не менее, мы оценили тот момент, что CEO GigaCloud Артем Коханевич не умолчал о проблеме. Руководство компании держало клиентов в курсе хода решения ситуации, регулярно отчитывалось в письмах, и это большой плюс. На фоне этого у нас даже не возникло мысли сменить провайдера. Мы и дальше готовы рекомендовать GigaCloud нашим клиентам и партнерам».


Александр Назарчук
СIO, Caparol Ukraine

«Не буду скрывать: инцидент выпадает за рамки допустимого. Но мы оценили реакцию GigaCloud. Во-первых, оператор открыто сказал клиентам о сбое. Во-вторых,быстро закрыл такую небанальную вещь и сгладил наши неудобства. Поддержка сработала на пять с плюсом. Это стало ключевым позитивным впечатлением.

Да, что-то было не учтено при проектировании, но от ошибок не застрахован никто. Главное, что GigaCloud сделал правильные выводы. Осталось только воплотить эти планы в жизнь.

Надеемся, компания стала еще сильнее. Как только оператор закончит реформирование «железа», и мы будем на 100% уверенны, что уязвимость погашена, я смело смогу рекомендовать сервисы GigaCloud рынку».


Дмитрий Оробченко
СIO, ТППУ

«Не считаю, что случилось что-то критически непоправимое. Конечно, меня удивляет, как подобную ситуацию мог допустить магистральный провайдер. Но главное, что сервисы «подняли». И, что немаловажно, вовремя объяснили причину. В этом плане компания сработала правильно»

subscribe

Подписаться на новости

Оставьте свой Email, и будьте всегда в курсе свежих новостей!