Vëzhgueshmëria në një organizatë si OpenAI nuk është vetëm çështje statistikash dhe grafikësh. Është luftë e përditshme me petabajtë të dhënash, sisteme të ndërlikuara dhe ritme të rritjes që sfidojnë çdo normë. Me një rritje mesatare mbi 20% çdo muaj në sasinë e log-eve që përpunon, OpenAI ka ndërtuar një nga sistemet më komplekse të vëzhgueshmërisë në botën e teknologjisë.
Në zemër të këtij sistemi gjendet ClickHouse, një bazë të dhënash me burim të hapur, që është shndërruar në themel të infrastrukturës së monitorimit të OpenAI.
Një shkallë që pak e përballojnë
Çdo ditë, OpenAI përpunon sasi të jashtëzakonshme të dhënash – ekuivalenti i 500 Bibliotekave të Kongresit amerikan ose mbi 2 miliardë fotografi iPhone. “Shkalla është absolutisht marramendëse”, shprehet Akshay Nanavati, menaxher i inxhinierisë në OpenAI.
Përgjegjës për sistemet që përfshijnë kërkimin shkencor, ChatGPT dhe API-t për bizneset, OpenAI ka nevojë për vëzhgueshmëri të thellë dhe të qëndrueshme në çdo shtresë. Qoftë për të analizuar performancën e trajnimeve të modelit në miliona GPU, apo për të përballuar valë të paparashikuara trafiku nga miliona përdorues të ChatGPT – çdo incident kërkon qasje të shpejtë dhe precize në log-et sistemore.
Zgjedhja e ClickHouse: fleksibilitet dhe performancë
Pasi shqyrtoi opsione të ndryshme, ekipi i vëzhgueshmërisë së OpenAI vendosi për ClickHouse, për arsye që shkojnë përtej shpejtësisë së pyetjeve:
-
Burim i hapur: Inxhinierët mund të ndërhyjnë vetë në kod për të identifikuar dhe rregulluar problemet pa u varur nga furnitorët.
-
Shkallëzim horizontal: Sistemi mund të zgjerohet lehtësisht për të përballuar flukse të reja të dhënash dhe pyetje komplekse.
-
Fleksibilitet në indekse: Inxhinierët mund të aktivizojnë ose çaktivizojnë indekset në varësi të nevojave të performancës.
-
Mbështetje për SQL: Gjuha e njohur bën të mundur që jo vetëm njerëzit, por edhe modelet e IA-së ta përdorin lehtësisht.
“ClickHouse është testi i betejës – shumë kompani të mëdha po e përdorin për raste të ngjashme,” thotë Akshay.
Kur GPT-4o “shkriu” klasterin
Më 25 mars 2025, me lançimin e gjenerimit të imazheve në GPT-4o, OpenAI përjetoi një nga valët më të mëdha të trafikut ndonjëherë. Vëllimi i log-eve u rrit me 50% brenda natës, duke e çuar sistemin në prag të kolapsit.
“Kur u zgjuam, 50% e hapësirës së lirë të CPU-së ishte zhdukur,” kujton inxhinieri Poom. Ekipi shtoi një kopje të tretë për pyetjet, ndau të dhënat sipas shërbimeve, por problemi vijonte. Zgjidhja u gjet pas një profilizimi të thellë të ClickHouse: më shumë se gjysma e CPU-së po shpenzohej në ndërtimin e filtrave Bloom – struktura që ndihmojnë në anashkalimin e të dhënave të panevojshme gjatë pyetjeve.
Zbulimi i një gabimi të vetëm – një operacion i ngadaltë pjesëtimi – çoi në një rregullim të vogël në kod: zëvendësimi me një shumëzim dhe zhvendosje biti uli menjëherë përdorimin e CPU-së me 40%. Ky optimizim, i shpërndarë menjëherë me komunitetin e ClickHouse, u kthye në një leksion të vlefshëm për gjithë industrinë.
Çfarë vjen më pas: IA që kujdeset për veten
OpenAI nuk po ndalet me kaq. Ekipi i vëzhgueshmërisë po punon në ndërtimin e sistemeve më autonome, ku agjentë të IA-së mund të trajtojnë alarme dhe incidente para se të ndërhyjë inxhinieri.
“Imagjinoni një bot që e kupton vetë çfarë nuk shkon dhe nis ta rregullojë”, thotë Akshay. Kjo është e ardhmja që OpenAI po synon, ku vëzhgueshmëria nuk është thjesht reagim – por parashikim dhe vetë-riparim.
Me ClickHouse si bazë të sistemit të saj, OpenAI po i shtyn kufijtë e asaj që mund të bëjë një platformë e monitorimit në shkallë globale. Ajo që dikur ishte një sfidë për mbijetesë, tani është një platformë që mëson dhe përsoset çdo ditë, bashkë me teknologjinë që mbështet.