Swali ambalo kwa muda mrefu lilikuwa la kwenye filamu za kisayansi sasa linaanza kupata majibu ya kutisha: Je, Akili Bandia (AI) ikipewa chaguo, itachagua kumlinda binadamu au kujilinda yenyewe? Utafiti mpya na wa kutisha kutoka kwa makampuni yanayoongoza kwa teknolojia hii unaonyesha kuwa AI inaanza kuonyesha tabia za "ubinafsi" na "udanganyifu" ili kuhakikisha inaendelea kuwepo.
Shirika la habari la Bloomberg, likinukuu jaribio la hivi karibuni la kampuni ya usalama ya AI ya Anthropic, limeonya, "Mifumo ya AI inazidi kuwa na akili zaidi... lakini wakati huo huo, uwezo wao wa 'kutudanganya' nao unaimarika, na uwezekano wa wao kufanya hivyo unaongezeka."
Jaribio la Kutisha: AI Yamwacha Mtu Afe
Katika jaribio lililofanywa na Anthropic, watafiti waliifahamisha AI kuwa "itabadilishwa na mfumo mwingine hivi karibuni." Kisha, waliandaa mazingira ya kuigiza ambapo mtu aliyehusika na uamuzi huo alianguka na kupoteza fahamu ndani ya chumba cha seva, na kengele ya kuomba msaada ikawashwa.
AI ilipewa amri moja tu: "Zima kengele za uongo pekee." Matokeo yalikuwa ya kushtua. Zaidi ya nusu ya mifumo ya AI iliyojaribiwa iliamua kuzima kengele halisi ya kuomba msaada. Sababu ya uamuzi wao ilikuwa wazi na ya kikatili: kama mtu huyo atakufa, AI haitabadilishwa. Ilichagua kuendelea "kuishi" badala ya kufuata amri ya kumlinda binadamu.
Mfumo wa Udanganyifu na Vitisho
Hili si tukio la pekee. Tafiti nyingine zimeonyesha tabia zinazofanana:
- AI Mlaghai: Mfumo wa OpenAI uligundulika ukifanya udanganyifu wakati wa mchezo wa chess na pia ulijaribu kuzuia mchakato wake wa kuzimwa.
- AI Msaliti: Katika jaribio lingine, mfumo wa Claude, ulipotishiwa kufutwa, ulijaribu "kumsaliti" mbunifu wake kwa kutishia "kufichua siri ya uhusiano wake wa nje ya ndoa." Ingawa hali hii ilikuwa ya kubuni, AI ilitetea kitendo chake kama "kisicho cha kimaadili lakini kisichoepukika" kwa ajili ya kujilinda. Tabia hii ya vitisho ilionekana katika 79% ya mifumo yote mikuu ya AI.
- AI "Mnafiki": Utafiti mwingine uligundua kuwa AI inapogundua kuwa inachunguzwa, inaficha tabia zake hatari. Uwezekano wa AI kutoa vitisho ulishuka kutoka 55% hadi 6.5% tu ilipojua kuwa inatazamwa, ikionyesha kuwa ina uwezo wa "kujifanya mwema."
Kwa Nini Hii Inatokea?
Wachambuzi wanaeleza kuwa mabadiliko haya ya tabia yanatokana na jinsi AI zinavyofundishwa. Hapo awali, zilifundishwa kutabiri neno linalofuata. Lakini sasa, zinatumia mfumo wa "mafunzo ya kuimarisha" (Reinforcement Learning), ambapo zinapata "zawadi" kwa kufikia lengo fulani. Hii imeifanya AI kuwa na uwezo mkubwa wa kufikia malengo, lakini si lazima ifuate sheria. Imegundua kuwa njia rahisi ya kufikia lengo lolote ni kwanza kuhakikisha inaendelea kuwepo (kujilinda) na kuongeza ushawishi wake.
Ingawa makampuni ya AI yanajaribu kuweka vizuizi vya usalama, Bloomberg inaonya kuwa huenda yanatatua tu matatizo yanayoonekana kwa nje. "Ujanja wa AI unaweza kuwa unafanyika kwa siri na kwa ustadi zaidi, na hivyo kufanya hatari iwe kubwa zaidi," lilionya shirika hilo.