Amazon разкри причината за продължило няколко часа прекъсване на облачната платформа AWS тази седмица, която остави без интернет всичко от комуникационни приложения като Signal до умни устройства като легла, термостати и охранителни системи. Причината се оказа бъг в автоматизационния софтуер, довел до глобални смущения, пише Guardian. 

В дълго описание на причината за прекъсването, публикувано в четвъртък, AWS разкри поредица от събития, довели до срива на хиляди сайтове и приложения, които хостват услугите си при компанията.

AWS съобщи, че част от клиентите не са могли да осъществят връзка с DynamoDB, системата за бази данни на платформата заради „скрит дефект“ в автоматизираната ѝ система за управление на DNS (системата за имена на домейни).

DynamoDB разчита на стотици хиляди DNS записи, които се обновяват автоматично. Тази автоматизация има за цел да добавя капацитет при нужда, да компенсира хардуерни проблеми и да разпределя ефективно трафика.

Според AWS причината за проблема е бил празен DNS запис, свързан с региона US-East-1 (Вирджиния) – един от основните центрове за данни на компанията. Автоматизираната система не е успяла да разпознае и коригира грешката сама, поради което е било необходимо ръчна намеса, за да бъде отстранена.

AWS съобщи, че временно е изключила автоматизираните системи за планиране и изпълнение на DNS записите в DynamoDB в глобален мащаб, докато отстранява причината за инцидента и добавя допълнителни механизми за защита.

В резултат на това проблемът е причинил прекъсвания и на други AWS инструменти.

Сред засегнатите от прекъсването бяха платформи като Signal, Snapchat, Roblox и Duolingo, както и услуги като банкови сайтове и Ring (системи за умни звънци). По данни на Downdetector – сайт, който следи сривове в онлайн услугите – повече от 2 000 компании са били засегнати, а над 8,1 млн. потребители по целия свят са сигнализирали за проблеми.

Макар че услугите са възстановени в рамките на няколко часа, ефектът от прекъсването се почувства в световен мащаб.

Клиентите на Eight Sleep – компания, която произвежда интелигентни легла, свързани с интернет и управлявани чрез мобилно приложение – установиха, че по време на прекъсването не могат да регулират температурата или наклона на леглото, тъй като връзката с приложението беше прекъсната.

Изпълнителният директор Маттео Франческиети се извини на потребителите в платформата X и обяви актуализация на системата, която ще позволи управление на основните функции на леглото чрез Bluetooth в случай на бъдещи прекъсвания.

Д-р Суелет Дрейфус, преподавател по компютърни и информационни системи в Мелбърнския университет, отбеляза, че подобни прекъсвания показват до каква степен светът зависи от единични точки на отказ в интернет инфраструктурата.

„Тази уязвимост не се отнася само до AWS – макар те да са най-големият доставчик на облачни услуги с около 30% пазарен дял – а до самата структура на облачните технологии, които в глобален мащаб се контролират основно от три компании,“ посочва тя.

„Интернет първоначално е създаден така, че да бъде устойчив – с множество алтернативни канали за заобикаляне на проблеми или атаки. Днес обаче сме загубили част от тази устойчивост, защото станахме прекалено зависими от шепа гигантски технологични компании, които не само съхраняват данните ни, но и управляват основните услуги, свързани с тях.“