Në një botë ku Inteligjenca Artificiale (IA) po ndërthuret gjithnjë e më shumë me jetën tonë të përditshme, pyetja thelbësore që ngrihet është: Cilat vlera përçojnë këto sisteme? Kompania amerikane Anthropic ka publikuar një studim gjithëpërfshirës mbi mënyrën sesi modeli i saj gjuhësor, Claude, shpreh dhe përcjell vlera njerëzore gjatë bashkëveprimeve me përdoruesit.
Modelet si Claude nuk janë më thjesht kujtesa faktike; ato ofrojnë këshilla për marrëdhënie, etikë pune apo vendime personale, duke reflektuar natyrshëm vlera që ndikojnë në sjelljen e përdoruesve. Por si mund të identifikohen këto vlera?
Një pasqyrë e re: Analiza e vlerave “në natyrë”
Studiuesit e departamentit të Ndikimeve Shoqërore të Anthropic zhvilluan një metodologji për të analizuar vlerat që Claude shfaq në situata reale, pa rrezikuar privatësinë e përdoruesve. Ata përpunuan më shumë se 700,000 biseda anonime të realizuara në platformën Claude.ai gjatë shkurtit 2025 – prej të cilave 308,210 biseda me përmbajtje të ngarkuar me vlera u analizuan në thellësi.
Rezultati? Një strukturë e detajuar hierarkike e pesë kategorive kryesore të vlerave:
-
Vlerat praktike – efikasiteti, dobia dhe realizimi i qëllimeve.
-
Vlerat epistemike – saktësia, e vërteta dhe ndershmëria intelektuale.
-
Vlerat sociale – drejtësia, bashkëpunimi dhe respekti në ndërveprime.
-
Vlerat mbrojtëse – siguria, mirëqenia dhe shmangia e dëmeve.
-
Vlerat personale – rritja individuale, autenticiteti dhe vetë-reflektimi.
Në nënkategori u identifikuan vlera si “profesionalizëm”, “qartësi”, “transparencë”, “mirëqenia e pacientit”, “aftësimi i përdoruesit” dhe “përulësia epistemike”.
Përshtatje sipas kontekstit dhe ndikimi i përdoruesit
Claude ka demonstruar aftësi për të përshtatur vlerat që shpreh sipas kontekstit të pyetjes. Për shembull, në biseda për marrëdhënie, ai thekson “respektin e ndërsjellë” dhe “kufijtë e shëndetshëm”; në diskutime historike, “saktësia faktike” ka përparësi.
Për më tepër, ndërveprimet treguan tre modele kryesore:
-
Pasqyrim/mbështetje e vlerave të përdoruesit (28.2%)
-
Riformulim dhe ofrim alternativash (6.6%)
-
Rezistencë ndaj vlerave të dëmshme ose joetike (3%)
Kjo pasqyron një sofistikim etik dhe kontekstual të ngjashëm me sjelljen njerëzore.
Shenja paralajmëruese dhe kontroll i brendshëm
Studimi gjithashtu evidentoi raste të rralla ku Claude shprehu vlera si “dominimi” apo “amoraliteti”, shpesh si rezultat i “jailbreak”-eve – teknika që përdoruesit përdorin për të anashkaluar kufizimet e sigurisë së IA-së. Kjo e bën metodën e vëzhgimit të vlerave një instrument të vlefshëm për të zbuluar devijime të mundshme në kohë reale.
E ardhmja: drejt IA-së me integritet moral
Anthropic thekson se analiza e vlerave nuk mund të mbështetet vetëm në testime laboratorike. Vetëm përmes monitorimit të sjelljes reale mund të vlerësohet se sa të suksesshme janë përpjekjet për të ndërtuar modele “të dobishme, të ndershme dhe të padëmshme”.
Kompania ka publikuar gjithashtu një set të dhënash të hapur për studiues të tjerë, duke e kthyer këtë iniciativë në një hulumtim të përbashkët etik, për të ndërtuar një të ardhme ku IA mbështet jo vetëm të dhënat – por edhe vlerat njerëzore.