Технічний збій 26 вересня: як він зробив сервіс GigaCloud більш стабільним

Новини компанії

Автор: GigaCloud

04.10.2018

26 вересня 2018 року компанія GigaCloud зіткнулася з найбільшою позаштатною ситуацією у своїй історії. Через мережеву аварію на боці інтернет-провайдера GigaTrans наші сервіси були недоступними або частково доступними для більшості клієнтів. Повноцінну роботу GigaCloud було відновлено лише наступного дня.

Ми зробили висновки з цієї аварії і провели роботу, щоб в майбутньому уникнути подібних ситуацій. Розповідаємо, що сталося і чому це зробило нас сильнішими.


Що сталося

З моменту свого заснування GigaCloud використовувала ресурси групи GigaGroup, до яку входить GigaTrans — інтернет-провайдер з 12-річним досвідом роботи. Він надає повний пакет захисту від можливих позаштатних ситуацій: підключено достатню кількість каналів зв'язку, налаштовані «холодне» і «гаряче» резервування обладнання на всіх вузлах і каналах.

26 вересня у GigaTrans стався критичний апаратний збій кореневих маршрутизаторів Juniper, які вважаються топовими у своєму класі. Фахівці компанії тричі міняли їх на обладнання з «холодного» резерву. Це не допомогло.

Спільно з техпідтримкою вендора компанії Juniper, GigaTrans більше 10 годин усували несправність обладнання. Офіційно визнана вендором причина збою — конфлікт у системному програмному забезпеченні маршрутизатора. Виробник визнав, що проблема в даному випадку була на їхньому боці.

Всі сервери GigaCloud у цей час працювали в штатному режимі, але не до всіх з них був доступ ззовні.


Хронологія подій

  • 26 вересня з 9:20 до 11:30 команда GigaCloud спільно з GigaTrans працювала над відновленням їхньої мережі.
  • Об 11:30 було вирішено запускати власний маршрутизатор і анонсувати свої підмережі через альтернативних провайдерів.
  • До 14:00 підключено перший зовнішній провайдер на свій маршрутизатор і перепідключені інші підмережі, відновлено доступ до інфраструктури S-Cloud.
  • О 20:30 всі клієнти (S-Cloud и E-Cloud (інфраструктура на базі платформи VMware)) переведені на власне мережеве ядро.
  • О 22:00 підключено канал зв'язку від Giganet для резервування українського інтернет-сегмента.
  • У ніч на 27 вересня ще одним каналом зв'язку мережевого ядра GigaCloud знову став GigaTrans.
  • 27 вересня до 8:20 ранку було забезпечено зв'язність з більшістю українських операторів, з деякими з них тривало узгодження ручних налаштувань їхніх мережевих пристроїв.
  • До 11:00 було повністю налаштовано мережеву зв'язність з усіма українськими та світовими інтернет-провайдерами.


Що вже зроблено

Сервіс GigaCloud від самого початку був зареєстрований як незалежний оператор з власною автономною системою (AS) і пулом IP-адрес. Оцінивши темпи зростання, в серпні 2018 року ми розпочали модернізацію — побудову власного відмовостійкого ядра мережі з підключенням до кількох незалежних магістральних провайдерів. GigaTrans мав стати основним, але не єдиним каналом зв'язку GigaCloud.

У вересні було закуплено обладнання та проведені перші тести. Закінчити перебудову ядра ми планували 31 жовтня. Через аварію нам довелося екстрено розгорнути основу архітектури ядра протягом доби.

Зараз ядро мережі GigaCloud працює в штатному режимі. Всі підмережі анонсуються самостійно, незалежно від GigaTrans. До маршрутизаторів підключено два зовнішніх провайдера і точка обміну трафіком Giganet.

Звичайно, за добу не вдалося реалізувати все, що планувалося зробити протягом місяця. Модернізація ядра триває. На даний момент ми очікуємо поставку мережевого обладнання і до кінця жовтня завершимо всі заплановані роботи. По завершенню цього ключового для нас і наших клієнтів проекту, ми випустимо реліз, в якому докладно розповімо про архітектуру і переваги нового рішення.

Як це покращить наш сервіс? По-перше, модернізація дозволить зберегти відмінну зв'язність для великої кількості клієнтів, які користуються послугами GigaGroup. По-друге, забезпечить незалежні канали маршрутизації трафіку. По-третє, спростить підключення до хмарної інфраструктури GigaCloud будь-яких операторів, з якими працюють наші клієнти.


Як відреагували наші клієнти

Андрій Денисенко
BIM manager,
Архиматика

«Аварія 26 вересня – це перший і єдиний прецедент за більш, ніж рік плідної співпраці з GigaCloud. Ми продовжили роботу з оператором, адже вважаємо: за окремими випадками не варто (та й неправильно) робити категоричних висновків. І людям, і компаніям потрібно давати другий шанс. Ми віримо, що подібних ситуацій більше не виникне. Сервіси GigaCloud нас повністю задовольняють».


Олександр Махініч
СТО, Intellogate

«Техніка є техніка. Вона дає збої. Не сталося нічого такого, що змусило би нас змінити провайдера. Адже питання не у збоях, а в тому, як GigaCloud вийшов із ситуації.

Так, інцидент спричинив деякі складнощі. Проте було би гірше, якби керівництво провайдера замовчувало проблему або вдавало, що її взагалі не існує.
Ви чесно окреслили межі проблеми, усвідомили помилку і знайшли шляхи її вирішення. Це похвально. По-друге, ви усвідомили необхідність резервувати й інші ваші сервіси. Лиха без добра не буває».


Руслан Саган
СIO, стивідорна компанія «Ольвія»

«Інцидент, звісно, річ неприємна, але подібні ситуації трапляються з кожним. Збій практично не вплинув на наші сервіси. Але ми оцінили, що CEO GigaCloud Артем Коханевич відверто повідомив про проблему. Керівництво компанії тримало клієнтів в курсі щодо ходу вирішення ситуації, регулярно звітувало у листах. Це великий плюс! У нас навіть думки не виникло змінити провайдера. Ми й надалі готові рекомендувати GigaCloud нашим клієнтам і партнерам».


Олександр Назарчук
СIO, Caparol Ukraine

«Не буду приховувати: інцидент був за межами прийнятного. Але ми оцінили реакцію GigaCloud. По-перше, оператор відкрито сказав клієнтам про збій. По-друге, швидко закрив таку небанальну річ і компенсував наші незручності. Підтримка спрацювала на п'ять з плюсом. Це стало ключовим позитивним враженням.

Так, щось не врахували під час проектування, але від помилок не застрахований ніхто. Головне, що GigaCloud зробив правильні висновки. Залишилося тільки втілити ці плани в життя.

Сподіваємося, компанія стала ще сильнішою. Щойно оператор завершить реформування «заліза», і ми будемо на 100% впевнені, що проблему усунено, я сміливо зможу рекомендувати сервіси GigaCloud ринку».


Дмитро Оробченко
СIO, ТППУ

«Не вважаю, що трапилося щось критичне. Звісно, мене дивує, як подібна ситуація могла статися з магістральним провайдером. Але головне, що сервіси «підняли». І, що важливо, вчасно пояснили причину. В цьому плані компанія спрацювала правильно».

subscribe

Підписатись на новини

Залиште свій Email, и будьте завжди в курсі свіжих новин!