Meta Yafichua 'Early Experience': Njia Mpya ya AI Kujifunza Kutoka kwa Matokeo ya Vitendo Vyake Bila Msaada wa Binadamu

it | Sat Oct 18 2025


Meta Yafichua 'Early Experience': Njia Mpya ya AI Kujifunza Kutoka kwa Matokeo ya Vitendo Vyake Bila Msaada wa Binadamu

Meta’s Superintelligence Labs (MSL) imezindua mfumo mpya wa mafunzo unaoitwa 'Early Experience' ambao unaruhusu AI Agent kujifunza na kuboresha utendaji wake kulingana na matokeo ya vitendo vyake halisi, bila kutegemea maonyesho ya binadamu au mfumo wa malipo (reward function) unaotumika katika Reinforcement Learning (RL).


MSL ilichapisha mfumo huu mpya kupitia hifadhi ya mtandaoni mnamo Oktoba 16. 'Early Experience' inaahidi kwamba AI Agents zinaweza kujifunza yenyewe na kuzidi uwezo wa Imitation Learning (kujifunza kwa kuiga), hata bila kutegemea kiasi kikubwa cha data ya maonyesho ya binadamu au mfumo wa RL.


Watafiti walieleza kuwa, ingawa lengo kuu la AI Agents ni kuboresha utendaji wao kupitia uzoefu ili hatimaye kuwapita binadamu katika kazi ngumu za ulimwengu halisi, utaratibu wa RL kupitia data ya uzoefu bado ni mgumu katika mazingira mengi. Hii ni kutokana na ukosefu wa malipo yanayoweza kuthibitishwa au uwezo usiofaa wa long-term rollouts (kama vile matumizi ya zana yenye hatua nyingi).


Kutokana na changamoto hizi, Agents nyingi bado hutegemea Supervised Fine-Tuning (SFT) kwenye data ya wataalamu, ambayo ni ngumu kukuza na haina uwezo mzuri wa kutumika kwingine. 'Early Experience' inalenga kutatua matatizo haya.


Dhana na Mikakati ya 'Early Experience'


Dhana kuu ni rahisi: AI Agent inaanza kutoka kwenye hali za wataalamu (expert states), inachagua vitendo vyake yenyewe, na inakusanya hali mpya zinazotokana na vitendo hivyo ili kuzitumia kama ishara ya kujifunza.


MSL imeitekeleza dhana hii kupitia mikakati miwili maalum:


  1. IWM (Implicit World Modeling): Huu ni mkakati ambapo Agent hujifunza kutabiri hali inayofuata (next observation) kulingana na hali yake ya sasa (state) na kitendo kilichochaguliwa (action). Hii huimarisha mfumo wa ndani wa Agent wa kuelewa mazingira na kupunguza tofauti kati ya sera (policy) na kitendo halisi (off-policy drift).
  2. SR (Self-Reflection – Kujitafakari): Katika hali moja, Agent inalinganisha kitendo cha mtaalamu na kitendo chake mbadala, na inajifunza kwa nini kitendo cha mtaalamu kilikuwa bora zaidi kulingana na matokeo. Hii inairuhusu Agent kutathmini maamuzi yake na kuboresha sera yake.


Mikakati yote miwili inatumia bajeti sawa ya mafunzo na mazingira sawa ya decoding kama Imitation Learning, lakini data inayotumika inazalishwa na Agent yenyewe kupitia uzoefu, badala ya kutoka kwa vyanzo vya nje.


Mfumo wa 'Early Experience' una hatua tatu:


  1. Ukusanyaji wa Data: Kuchagua hali fulani muhimu zilizofanywa na wataalamu. Agent inajaribu vitendo vyake yenyewe kutoka kwenye hali hizo na kurekodi matokeo.
  2. Mafunzo ya IWM: Kutumia data iliyokusanywa ya hali-kitendo-hali inayofuata ili kufundisha Agent kutabiri hali inayofuata.
  3. Mafunzo ya SR: Kulinganisha kitendo cha mtaalamu na kitendo cha Agent katika hali hiyo hiyo na kuboresha sera kwa kutafuta sababu za kitendo cha mtaalamu kuwa bora.


Matokeo ya Utendaji na Ufanisi


MSL ilitathmini 'Early Experience' katika mazingira manane (8) ya Language Agent, ikiwemo kuvinjari wavuti, kupanga mipango ya muda mrefu, kazi za sayansi/kiufundi, na utendaji wa API nyingi. Matokeo yalionyesha ongezeko la asilimia +9.6 katika kiwango cha mafanikio na +9.4 katika uhamisho wa jumla wa uzoefu (OOD - Out-of-Distribution Generalization) ikilinganishwa na Imitation Learning.


Zaidi ya hayo, wakati 'Early Experience' ilipotumika kuanzisha RL (initialization), ilionyesha ongezeko la mafanikio la hadi asilimia 6.4 ikilinganishwa na RL iliyoanzishwa kwa Imitation Learning.


Ufanisi wa mfumo huu katika kutumia data ndogo ni wa kuvutia. Kwa mfano, katika mazingira ya 'WebShop', Agent ilitumia sehemu ya nane tu ya data ya maonyesho yote na bado ikafikia utendaji uliozidi ule wa Imitation Learning iliyotumia data yote. Katika mazingira ya 'ALFWorld', Agent ilitumia nusu tu ya data na kufikia utendaji sawa.


'Early Experience' si tu RL isiyo na malipo, bali ni njia ya supervised learning ambayo inatumia matokeo ya uzoefu wa Agent yenyewe kama lebo za kujifunzia.


Watafiti walisisitiza kwamba, "Matokeo haya yanaonyesha kwamba 'Early Experience' inaweza kutoa msingi imara kwa ajili ya RL itakayofuata, na itakuwa kiungo halisi kati ya Imitation Learning na Agents zinazotegemea uzoefu kamili."

The copyright for this content belongs to the copyright holder or provider. Unauthorized use may result in legal liability under copyright laws and other regulations.