'Sheria ya Sigmoid': LLM Zina Sheria ya Upanuzi Inayotabirika Katika Reinforcement Learning (RL)

Sheria ya upanuzi wa utendaji inayotabirika imetolewa kwa mara ya kwanza kwa ajili ya Reinforcement Learning (RL), teknolojia muhimu inayotumika kuimarisha uwezo wa Large Language Models (LLM). Jambo la kuvutia ni kwamba, utafiti huu ulijumuisha mtafiti maarufu ambaye alikataa ofa ya Meta na kujiunga na kampuni changa.

Watafiti kutoka Meta, Chuo Kikuu cha Texas huko Austin, University College London (UCL), Berkeley, Harvard, na kampuni changa ya Periodict Labs walichapisha ripoti yao mnamo Oktoba 17, iitwayo 'The Art of Scaling Reinforcement Learning Compute for LLMs' (Sanaa ya Kuongeza Utendaji wa Reinforcement Learning kwa LLMs).

Huu ni Mfumo wa Kompyuta-Utendaji (Compute-Performance Framework) unaoweza kutabiri utendaji wa RL kwa kihisabati, kufuatia majaribio makubwa yaliyotumia zaidi ya saa 400,000 za GPU.

Tofauti na Pre-training (mafunzo ya awali), ambapo upungufu wa hasara na kompyuta hufuata Sheria ya Nguvu (Power Law) inayojulikana, mafunzo ya RL hayakuwa na mfumo wa kutabiri kwa sababu malengo yake (kama vile kiwango cha majibu sahihi na malipo) yana kiwango cha juu.

Kutatua shida hii, watafiti walifichua kuwa RL inafuata 'Sigmoid Curve' (Mchoro wa S). Mchoro huu unaonyesha kwamba utendaji huongezeka haraka katika hatua za mwanzo za mafunzo (takribani saa 1,000 hadi 2,000 za GPU), lakini kasi ya uboreshaji hupungua polepole baadaye. Watafiti walieleza kuwa kwa kutumia data baada ya hatua hii, inawezekana kutabiri ufanisi mzima wa mafunzo na utendaji wa kilele.

Kutokana na matokeo haya, walipendekeza njia mpya ya RL iitwayo 'ScaleRL'. Huu si algorithm mpya kabisa, bali ni mchanganyiko wa usanidi ulioundwa kuboresha ufanisi wa mafunzo na kuongeza ukubwa kwa utulivu.

ScaleRL inatokana na njia ya Off-policy RL (ambapo algorithm ya kukusanya data na algorithm ya kujifunza ni tofauti; mfano, kujifunza kucheza mchezo kwa kutazama wengine), na inachambua vipengele sita vya algorithm, vikiwemo: jinsi hasara inavyojumlishwa, jinsi thamani za malipo zinavyosawazishwa, jinsi usahihi wa kompyuta unavyosahihishwa, mpangilio wa data ya mafunzo, jinsi batches zinavyopangwa, na aina ya loss function.

Watafiti walifanya majaribio kwa kutumia ScaleRL, wakiongeza ukubwa wa mafunzo kutoka saa 8,000 hadi 16,000, na kisha hadi saa 100,000 za GPU.

Walithibitisha kwamba Sigmoid Curve waliyotabiri iliendana karibu kikamilifu na uboreshaji halisi wa utendaji. Miundo ya Meta, 'Llama-4 8B' na 'Llama-4 17B x 16 MoE (Scout)', yote ilifuata mchoro huu wa utabiri.

Matokeo haya yanaonyesha kuwa uboreshaji wa utendaji wa miundo hii siyo tu upakiaji wa data (data overfitting), bali ni uboreshaji halisi wa uwezo wa hoja (inference).

Katika majaribio ya kulinganisha, ScaleRL ilionyesha utendaji wa juu zaidi na ufanisi bora zaidi wa kompyuta kuliko mifumo ya zamani ya RL, kama vile 'Deepseek', 'Qwen-2.5', 'Magistral', na 'Minimax-M1'.

Kuchambua tofauti hizi, watafiti waligawanya vipengele vya usanifu wa mafunzo katika vikundi viwili: 'Ceiling Movers' (Vinavyoongeza kikomo cha utendaji wa mwisho), kama vile ukubwa wa mfumo au urefu wa matokeo, na 'Efficiency Shapers' (Vinavyoboresha ufanisi wa mafunzo), kama vile jinsi hasara inavyohesabiwa, usawazishaji, na mpangilio wa data.

Utafiti huu una umuhimu mkubwa kwa sababu unachambua kwa utaratibu mafunzo ya LLM yanayotokana na RL na kuongeza mchakato huo hadi kufikia kiwango cha utabiri.

Watafiti walisisitiza, "Sasa, kwa kutumia tu saa 1,000 hadi 2,000 za GPU, tunaweza kutabiri matokeo ya mafunzo ya maelfu ya saa zinazofuata." Walimalizia kwa kusema kuwa njia ya zamani ya kutumia kompyuta bila mpango imemalizika, na sasa inawezekana kufanya usanifu wa RL wenye msingi wa data na wa kuridhisha.

Mtafiti mashuhuri Rishab Agarwal, ambaye alikataa ofa ya Meta na kujiunga na Periodict Labs, anajumuishwa kwenye ripoti hii. Kampuni hiyo changa inajikita katika kuunda 'AI Scientists' na ilianzishwa na mtafiti maarufu wa OpenAI, Liam Fedus. Ilivutia uwekezaji wa awali wa Dola Milioni 300 mwezi uliopita.

Swahili News

'Sheria ya Sigmoid': LLM Zina Sheria ya Upanuzi Inayotabirika Katika Reinforcement Learning (RL)

Related Articles