OpenAI dhe NVIDIA kanë lançuar zyrtarisht dy modele të mëdha gjuhësore me burim të hapur – gpt-oss-120b dhe gpt-oss-20b – duke ofruar një nivel të ri të performancës dhe fleksibilitetit për zhvilluesit dhe organizatat në të gjithë botën.
Modeli gpt-oss-120b, i optimizuar për detyra të avancuara të arsyetimit, ka vendosur një rekord të ri prej 1.5 milionë tokenësh për sekondë, kur përdoret në sistemet NVIDIA GB200 NVL72 të mundësuara nga arkitektura Blackwell. Kjo përfaqëson një nga përparimet më të mëdha në fushën e inteligjencës artificiale të hapur.
Aksesi i gjerë dhe përdorimi komercial
Të dy modelet janë lëshuar nën licencën Apache 2.0, që lejon përdorim të lirë komercial dhe kërkimor. Kjo nismë e re konfirmon angazhimin e OpenAI dhe NVIDIA për të përshpejtuar përhapjen e inteligjencës artificiale të përgjegjshme dhe të qasshme.
“OpenAI tregoi se çfarë mund të ndërtohet mbi infrastrukturën e IA-së së NVIDIA-s – dhe tani po nxisin përparimin në softuerin me burim të hapur,” tha Jensen Huang, themelues dhe CEO i NVIDIA.
“Modelet gpt-oss u japin zhvilluesve mundësinë të ndërtojnë mbi këtë themel të fuqishëm, duke forcuar lidershipin amerikan në fushën e IA-së.”
Performancë e nivelit të lartë në arsyetim dhe efikasitet
Modeli më i madh, gpt-oss-120b, përmban 117 miliardë parametra, me vetëm 5.1 miliardë aktivë për token, falë një arkitekture të quajtur MoE – Përzierje Ekspertësh (Mixture of Experts). Ai arrin rezultate krahasuese me modelin o4-mini të OpenAI në testet bazë të arsyetimit, dhe mund të ekzekutohet edhe në një GPU të vetme me 80 GB memorie.
Modeli më i vogël, gpt-oss-20b, është i përshtatur për përdorim në pajisje me vetëm 16 GB RAM, dhe arrin performancë të krahasueshme me o3-mini.
Të dy modelet performojnë fuqishëm në:
-
Arsyetimin zinxhir të mendimit (Chain-of-Thought – CoT)
-
Përdorimin e mjeteve
-
Gjenerimin e përmbajtjes së strukturuar
-
Detyra në kohë reale me vonesë të ulët
Pajtueshmëri dhe fleksibilitet i madh për zhvilluesit
Modelët janë të pajtueshëm me shumë korniza dhe platforma të njohura, si:
-
FlashInfer
-
Hugging Face
-
llama.cpp
-
Ollama
-
vLLM
-
TensorRT-LLM (nga NVIDIA)
Kjo pajtueshmëri e gjerë u mundëson zhvilluesve të përdorin mjetet ekzistuese, ndërkohë që përfitojnë nga optimizimi nga fillimi në fund i NVIDIA-s për ekzekutim dhe performancë.
Aftësi të përparuara teknike
Modelet gpt-oss përdorin:
-
Gjatësi konteksti deri në 128K
-
Embeddings pozicionale të rrotulluara (Rotary)
-
Teknika të avancuara të vëmendjes që balancojnë kujtesën me fuqinë llogaritëse
Në testet e krahasimit, gpt-oss-120b i ka tejkaluar disa modele pronësore të OpenAI (p.sh. o1 dhe o4-mini) në fusha si:
-
Kujdesi shëndetësor (HealthBench)
-
Matematika (AIME 2024/2025)
-
Kodimi (Codeforces)
Siguri dhe kontroll
OpenAI dhe NVIDIA kanë implementuar një sistem rigoroz vlerësimi, duke përfshirë:
-
Kornizën e Përgatitjes së OpenAI (OpenAI Preparedness Framework)
-
Testime kundërshtare me rregullim të imët
-
Rishikim nga ekspertë të pavarur
Modelet mbështesin cilësime të ndryshueshme të përpjekjeve të arsyetimit – të ulëta, mesatare ose të larta – duke i dhënë zhvilluesve kontroll të plotë mbi kompromisin midis performancës dhe kohës së përgjigjes.
Përdorim në platformat kryesore të cloud-it dhe pajisjet lokale
OpenAI dhe NVIDIA kanë partnerizuar me:
-
Azure, AWS, Databricks, Vercel
-
Prodhues pajisjesh si AMD, Cerebras dhe Groq
-
Microsoft, i cili mbështet gpt-oss-20b në Windows përmes ONNX Runtime
E ardhmja e IA-së është e hapur dhe më e shpejtë se kurrë
Përmes publikimit të modeleve gpt-oss si burim të hapur, OpenAI dhe NVIDIA jo vetëm që ofrojnë një alternativë të fuqishme ndaj modeleve pronësore, por gjithashtu nxisin inovacionin global, duke vënë në dispozicion teknologjinë më të përparuar për një audiencë të gjerë – nga startup-et, studiuesit, te korporatat globale.