Watafiti wa Mila Lab Wafichua 'Markovian Thinker': Njia ya LLM Kufikiri kwa 'Vitalu' na Kupunguza Gharama za AI kwa Theluthi Moja

it | Thu Oct 23 2025


Watafiti wa Mila Lab Wafichua 'Markovian Thinker': Njia ya LLM Kufikiri kwa 'Vitalu' na Kupunguza Gharama za AI kwa Theluthi Moja

Kuna jitihada mpya ya kubadili kimsingi 'mbinu za kufikiri' za Large Language Models (LLM). Watafiti wa Taasisi ya AI ya Mila nchini Canada wamependekeza mbinu mpya ya mafunzo inayolenga kuongeza ufanisi wa hesabu (computational efficiency) kwa kuruhusu LLM kugawa na kuunganisha mawazo yake yenyewe.


Maabara ya Mila ilizindua mfumo mpya wa mafunzo uitwao 'Markovian Thinker' kupitia hifadhi ya mtandaoni mnamo Oktoba 21. Njia hii inalenga kuboresha kwa kiasi kikubwa ufanisi wa hoja (inference efficiency) katika LLM.


Mbinu hii inalenga kutatua kiini cha tatizo la kuongezeka kwa ghafla kwa gharama za kompyuta wakati AI inafanya mchakato mrefu wa hoja. Inavutia sana kwa sababu inaweza kupunguza gharama za mafunzo kwa chini ya theluthi moja ikilinganishwa na mbinu za zamani.


Ili LLM itatue matatizo magumu, Chain-of-Thought (CoT), ambayo ni orodha ya hatua za kufikiri, ni muhimu. Hivi karibuni, mbinu ya LongCoT (CoT ndefu) imetambulishwa kwa kutumia Reinforcement Learning (RL) kufundisha AI kufanya hoja ndefu zaidi. Hata hivyo, njia hii ilikuwa na tatizo la ongezeko la kihesabu (Quadratic scaling) la hesabu kulingana na urefu wa token, kwani ingizo la model (prompt + thinking tokens) huongezeka sana.


Watafiti wa Mila wametengua kikwazo hiki kwa kuunda upya 'mazingira ya kufikiri' yenyewe. Walieleza kuwa kiini ni "kutenganisha urefu wa fikra kutoka kwa ukubwa wa muktadha (context size)."


Mazingira waliyopendekeza, yanayoitwa 'Delethink', yameundwa kuruhusu model kufanya mawazo katika vizuizi (blocks) vya ukubwa usiobadilika (tokens 8,000). Ndani ya kila kizuizi, hoja ya kawaida inafanywa. Kizuizi kinapomalizika, mazingira huwekwa upya, na hali muhimu tu (Markovian state) iliyofupishwa kutoka hatua iliyopita inapitishwa kwenye kizuizi kinachofuata.


Katika mchakato huu, model hujifunza yenyewe nini cha kukumbuka ili kuendeleza wazo linalofuata. Watafiti walieleza, "Mfumo hujifunza kiotomatiki kufupisha na kupitisha taarifa muhimu za hali kupitia mafunzo," na kusisitiza kuwa njia hii inafanya kazi katika hatua ya inference tu, bila kubadilisha data ya ingizo au prompt.


Watafiti walifundisha mfumo wa Deepseek's 'R1-Distill-1.5B' katika mazingira ya Delethink na kuufanyia majaribio ya matatizo ya kiwango cha mashindano ya hisabati. Matokeo yalionyesha kuwa model iliweza kupanua hoja hadi tokens 24,000, ingawa ilikuwa ikifikiri kwa vizuizi vya tokens 8,000, na ilifikia usahihi sawa au bora zaidi ikilinganishwa na LongCoT iliyotumia bajeti sawa ya mafunzo.


Muhimu zaidi, model ya Delethink ilionyesha uboreshaji wa utendaji unaoendelea hata kwenye majaribio yaliyovuka mipaka ya mafunzo. Wakati LongCoT ilipungua utendaji baada ya tokens 24,000, model ya Delethink iliendeleza hoja hadi tokens 140,000 na kuendelea kuongeza usahihi.


Watafiti walitoa mfano wa ufanisi: "Ili kufundisha model yenye urefu wa wastani wa mawazo ya tokens 96,000, LongCoT ingehitaji miezi 27 ya GPU ya H100, lakini Delethink inaweza kukamilisha mafunzo hayo kwa miezi 7 tu."


Pia, waligundua kuwa baadhi ya LLM kubwa (kama GPT-OSS 120B) tayari zinafanya mawazo ya Markovian kwa kiasi fulani bila mafunzo maalum. Hii inamaanisha kuwa mbinu za kimuundo kama Delethink zinaweza kutumika moja kwa moja kwenye models zilizopo.


Watafiti wametoa model na code ya 'Markovian Thinker' kwenye Hugging Face na GitHub.

The copyright for this content belongs to the copyright holder or provider. Unauthorized use may result in legal liability under copyright laws and other regulations.