Një garë e re për inteligjencën artificiale ka zbuluar rezultatet e para — dhe ato janë më shumë alarmuese sesa mbresëlënëse.
Të mërkurën në mbrëmje, Instituti jofitimprurës Laude shpalli fituesin e parë të “K Prize”, një sfidë me shumë raunde në programim të ndihmuar nga AI, e ideuar nga bashkëthemeluesi i Databricks dhe Perplexity, Andy Konwinski. Çmimi prej 50,000 dollarësh shkoi për Eduardo Rocha de Andrade, një inxhinier brazilian i specializuar në prompt-e.
Por ajo që tërhoqi më shumë vëmendje nuk ishte fitorja e tij, por rezultati: ai fitoi me vetëm 7.5% të pyetjeve të zgjidhura saktë.
“Jemi të kënaqur që krijuam një pikë reference që është realisht e vështirë,” deklaroi Konwinski. “Nëse duam që testet të kenë rëndësi, duhet të jenë sfiduese.”
Një sfidë për modelet e hapura dhe pa trajnim të paraprak
K Prize synon të masë aftësitë reale të modeleve të AI në zgjidhjen e problemeve praktike të programimit. Ngjashëm me sistemin e njohur SWE-Bench, edhe kjo garë përdor probleme reale të identifikuara në GitHub — por me një ndryshim të madh: garancia e “kontaminimit zero”, që do të thotë se testet janë formuluar vetëm nga çështje të reja në GitHub, të postuara pas datës 12 mars 2025.
Për më tepër, K Prize kufizon përdorimin e fuqisë llogaritëse, duke u dhënë avantazh modeleve të vogla dhe open source, në vend të gjigandëve komercialë.
Konwinski ka premtuar një shpërblim prej 1 milion dollarësh për modelin e parë open source që arrin mbi 90% sukses në këtë test.
Performanca krahasuese: SWE-Bench përballë K Prize
Për të krijuar një kontekst krahasues, versioni “i thjeshtuar” i SWE-Bench ka aktualisht një rezultat më të lartë:
-
75% sukses në versionin Verified
-
34% sukses në versionin Full
Rezultati prej vetëm 7.5% në K Prize ka ngritur pikëpyetje mbi vërtetësinë e rezultateve të mëparshme në teste të tjera dhe ka ndezur debatin mbi trajnimet e fshehta apo përdorimin e njeriut “në hije” në garat e mëparshme.
Ekspertët kërkojnë realitet më të matur
Sipas Sayash Kapoor, studiues nga Universiteti Princeton, ky lloj testi është kritik për të kuptuar se ku qëndrojnë vërtet kapacitetet e AI në kodim:
“Pa eksperimente të tilla, nuk mund të dallojmë nëse modelet po performojnë mirë sepse janë të trajnuara mbi vetë testin apo sepse janë realisht të afta.”
Një thirrje për kthim në tokë
Konwinski e sheh këtë rezultat si një kundërpeshë ndaj “hipës së AI-së” që ka dominuar diskursin publik:
“Nëse dëgjoni zhurmën mediatike, është sikur AI-të janë gati të jenë mjekë, avokatë dhe inxhinierë software-i. Por nëse nuk arrijmë as 10% sukses në një test të pastër dhe të pakontaminuar, atëherë duhet të bëjmë një kontroll realiteti.”
Çfarë pritet më tej?
Organizatorët e K Prize kanë paralajmëruar raunde të tjera çdo disa muaj, duke ofruar kështu një mjedis kompetitiv të qëndrueshëm ku komuniteti i AI open-source mund të përmirësojë modelet në mënyrë transparente dhe të barabartë.
TechCrunch Disrupt 2025 do të jetë gjithashtu një arenë kyçe për të diskutuar rezultatet e kësaj sfide, ku priten emra të mëdhenj nga Netflix, Sequoia Capital, ElevenLabs dhe të tjerë. Eventi mbahet në San Francisko, 27-29 Tetor 2025.