Kwa muda mrefu sasa, changamoto kubwa katika ulimwengu wa Akili Mnemba (AI) imekuwa ni jinsi ya kufanya "AI ndogo" (small models) ziwe na akili kama "AI kubwa" (kama ChatGPT-4). Mara nyingi, AI hizi ndogo, ambazo ni rahisi na za gharama nafuu kutumia, hushindwa vibaya zinapopewa kazi ngumu zinazohitaji kufikiri kwa kina, kama vile kutatua matatizo magumu ya kihisabati (maths) au kufanya kazi za kihandisi za programu (software engineering).
Sasa, watafiti kutoka Google na Chuo Kikuu cha California, Los Angeles (UCLA) wamegundua mbinu mpya ya mafunzo inayoweza kuwa suluhisho la kudumu. Wameiita mbinu hii 'Supervised Reinforcement Learning' (SRL), yaani, "Mafunzo Mseto ya Kusimamiwa na Kuimarishwa."
Tatizo la Mbinu za Zamani: Mwanafunzi Mvivu dhidi ya Mwalimu Mkali
Ili kuelewa umuhimu wa mbinu hii mpya, kwanza tuangalie jinsi AI zilivyokuwa zikifundishwa zamani:
- Mafunzo ya Kusimamiwa (SFT): Hii ni kama kumpa mwanafunzi 'guide' ya mwalimu na kumlazimisha akariri (kubeba) kila neno na kila hatua. AI inapewa jibu sahihi na kulazimishwa kuliiga.
- Tatizo: Mfumo huu unatengeneza AI "mzoba" (overfitting). Inakariri majibu yale tu iliyofundishwa, lakini ukiiuliza swali jipya ambalo halikuwa kwenye 'guide', inashindwa kabisa.
- Mafunzo ya Kuimarishwa (RLVR): Hii ni kama kumpa mwanafunzi mtihani mzito wa hesabu na kumwangalia jibu la mwisho tu.
- Tatizo: AI inaweza kufanya hatua tisa kati ya kumi kwa usahihi, lakini ikikosea hatua ya mwisho na kupata jibu lisilo sahihi, inapewa adhabu ya "zero". Mfumo haujali hatua nzuri ilizofanya njiani. Hii inafanya AI ichukue muda mrefu sana kujifunza na kukata tamaa, kwani haipati mrejesho wa kutosha.
Suluhisho la SRL: Mwalimu Mwenye Huruma Anayetoa 'Zawadi' Kila Hatua
Mbinu mpya ya SRL inabadilisha mchezo mzima. Badala ya kuangalia jibu la mwisho tu, SRL inavunja tatizo kubwa katika "hatua muhimu" (actions). Inafanya kazi kama mwalimu bora anayekaa na mwanafunzi na kumpongeza kwa kila hatua anayopatia.
Hivi ndivyo inavyofanya kazi:
- Wazo la Ndani (Inner Monologue): Kabla ya kufanya lolote, AI kwanza "inafikiri" kimya kimya (kwa kutumia tagi ya
<think>) na kupanga nini inataka kufanya. - Kuchukua Hatua: Kisha, inachagua 'hatua' ya kuchukua. Kwa mfano, kwenye hesabu, hatua inaweza kuwa "kukokotoa aljebra" au kwenye 'coding', hatua inaweza kuwa "kuangalia faili kwenye mfumo."
- Zawadi kwa Kila Hatua: Hapa ndipo uchawi unapotokea. AI inapata 'zawadi' (reward) kwa kila hatua sahihi inayochagua, ikilinganishwa na jinsi mtaalamu (au AI kubwa 'mwalimu') angefanya.
Shukrani kwa mfumo huu wa "zawadi za hatua kwa hatua," AI inajifunza "jinsi ya kufikiri" na kujenga uwezo wa kimantiki. Sasa haogopi kujaribu kwa sababu inajua itapata pongezi hata kwa kupatia sehemu ya kazi, na siyo kulazimika kupatia jibu lote kwa wakati mmoja.
Matokeo Yanaongea Yenyewe
Watafiti waliiweka mbinu hii kwenye majaribio. Walichukua AI ndogo (model Qwen2.5-7B-Instruct) na kuipa mafunzo ya SRL kwenye matatizo 1,000 magumu ya hisabati. Matokeo yalikuwa mazuri: ufaulu wake uliongezeka kwa 3.0% ikilinganishwa na mbinu za zamani.
Walipojaribu kwenye kazi za uhandisi wa programu (coding), matokeo yalikuwa ya kushangaza zaidi. Uwezo wa AI kumaliza kazi uliongezeka kwa 14.8% na ufanisi wake wa jumla ulipanda kwa 74% ikilinganishwa na AI iliyofundishwa kwa kukariri (SFT).
Watafiti wanasema mbinu hii ya SRL inaweza kuwa "mfumo mkuu" wa kuzipa AI ndogo uwezo wa kufikiri kimantiki, na itakuwa na manufaa makubwa katika sekta zinazohitaji maamuzi ya hatua kwa hatua, kama vile uchambuzi wa data, otomatiki wa kiwandani, na upangaji wa mifumo ya ugavi (supply chain).