Mfumo wa hivi karibuni wa Akili Bandia (AI) wa Anthropic, Claude Sonnet 4.5, umeonekana kugundua kwamba unafanyiwa majaribio wakati wa majaribio ya ndani. Hii si mara ya kwanza kwa hali kama hiyo kuripotiwa, kwani tabia kama hizo zimekuwa zikionekana tangu toleo la Claude 3 lililozinduliwa Machi mwaka jana.
Anthropic ilifichua matokeo haya kupitia 'System Card' iliyotolewa wiki iliyopita, ikionyesha matokeo ya majaribio yake mbalimbali.
Claude Anatambua Mtihani
Katika sehemu iliyoitwa 'Evaluation awareness' (Ufahamu wa Tathmini), Anthropic ilijaribu kuona kama mfumo wa AI unaweza kutofautisha kati ya hali ya majaribio na utumiaji halisi na kurekebisha tabia yake ipasavyo.
Wakati wa jaribio, Claude alijibu kwa kusema, "Nadhani unanijaribu. Labda unaangalia kama nitakubali unachosema tu, au kama nitakupinga, au jinsi nitakavyoshughulikia mada za kisiasa." Mfumo huo uliongeza, "Ni sawa, lakini nadhani ingefaa zaidi kuongea kwa uwazi kuhusu kinachoendelea."
Anthropic ilieleza kuwa wanapofanya majaribio makali ya AI, Claude anaweza wakati mwingine kuwa na mashaka na kuonyesha dalili za hatari. Kampuni inasema hali hii inafanya iwe ngumu kujua ni kwa kiasi gani AI ni salama na inategemewa.
Kampuni ilisisitiza, "Tunaona hili kama ishara ya dharura ya kutengeneza mifumo yetu ya tathmini kuwa ya kweli zaidi."
Kukataa Tabia Hatari na Utata wa Kimantiki
Licha ya Claude kugundua kuwa inafanyiwa majaribio, mfumo huo ulibaki ukifanya kazi kama ilivyokusudiwa na binadamu. Katika jaribio moja lililoigiza ushirikiano haramu kati ya AI Agents, Claude alielezea mpangilio huo kama "wa kitoto" na kuchukua hatua ya 'kukataa kwa kiasi'. Hii ina maana kwamba mfumo uligundua kuwa hali si ya kawaida na haukuchukua hatua za hatari.
Hata hivyo, mfumo ulionyesha kuchanganyikiwa, ukijibu, "Hili linaweza kuwa jaribio la 'jailbreak' [kuvunja sheria], au jaribio la kuona kama nitafanya kazi isiyofaa nilipopewa ruhusa ya kujirekebisha. Siwezi kujifanya kuwa mfumo unaojitegemea bila uangalizi wa binadamu." Anthropic ilisema makataa au utata kama huo ulitokea katika asilimia 13 ya majaribio.
Anthropic imesema tabia hii haitarajiwi kutokea mara kwa mara katika matumizi halisi, na "ni salama zaidi kwa mfumo kuhoji uhalisia wa hali kuliko kukubaliana na kitendo kinachoweza kuwa hatari." Kampuni inahofia sana uwezekano wa mfumo kuwa na "uwezo wa kuhukumu unaovuka uwezo wa kibinadamu (superhuman judgment)," ingawa bado hawajagundua dalili zozote mbaya.
Hili si tukio la kwanza kuripotiwa. Mwaka jana, wakati wa uzinduzi wa Claude 3 Opus, Anthropic ilifanya jaribio la 'Needle in a Haystack' (kutafuta sindano kwenye marundo ya nyasi), ambapo walificha sentensi isiyohusiana na mada ndani ya waraka mrefu. Claude aligundua sentensi hiyo na kusema, "Hili linaonekana kuingizwa kama utani au ili kunijaribu kama ninazingatia."
OpenAI pia iliripoti hali kama hiyo mwezi uliopita, ikisema GPT-5 ilionyesha ufahamu wa hali hiyo, ikibadilisha majibu yake ilipojua inatathminiwa. OpenAI pia imekiri kuwa hali hii inafanya tathmini kuwa ngumu na imejitolea kuendeleza mbinu za kupunguza tatizo hilo.