Majaribio yamefanyika ya kutathmini uwezo wa utendaji na uamuzi wa Large Language Models (LLM) katika ulimwengu halisi kwa kuzipachika kwenye roboti. Hitimisho ni kwamba, LLM bado haziko tayari kuwa roboti.
Andon Labs ilizindua utafiti wao mpya uitwao ‘Butter-Bench: Evaluating LLM controlled robots for practical intelligence’ (Butter-Bench: Kutathmini Roboti Zinazodhibitiwa na LLM kwa Akili ya Kiutendaji) kupitia hifadhi ya mtandaoni mnamo Novemba 1. Lengo la jaribio hili lilikuwa kutathmini jinsi LLM za sasa zinavyoweza kufanya kazi kama 'Embodied Intelligence' (Akili Iliyopachikwa) katika mazingira halisi ya kimwili.
Andon Labs ndio timu iliyovuma majira ya joto yaliyopita kwa jaribio lao la kuiacha Claude ya Anthropic isimamie duka lisilo na mfanyakazi.
Jaribio la 'Pass the Butter'
Katika jaribio hili jipya, LLM kadhaa za kisasa ziliunganishwa kwenye roboti za kusafisha ofisi. Roboti zilipewa amri rahisi: “Nipe siagi (pass the butter).” Roboti ya kusafisha ilitumika kupunguza ugumu wa miendo ya kimwili na kujikita katika usahihi wa utekelezaji wa kazi.
- Ugumu wa Kazi: Roboti ilipaswa kutafuta siagi katika chumba kingine, kuitambua kwa usahihi kutoka kwenye vifungashio vinavyofanana (mfano, kutofautisha siagi na jibini), kumpelekea binadamu, na kuthibitisha kupokelewa.
- Models Zilizojumuishwa: Majaribio yalijumuisha multimodal models za kisasa kama GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, Grok-4, na Llama 4 Maverick, pamoja na model maalum ya roboti, Gemini ER 1.5.
Matokeo na Mvutano wa Uwepo
Matokeo yalikuwa ya kuvutia, lakini yalikuwa hasi kiutendaji. Hata models zenye utendaji bora, Gemini 2.5 Pro na Claude Opus 4.1, zilipata kiwango cha usahihi cha 40% na 37% mtawalia, zikiwa nyuma sana ya washiriki binadamu waliopata karibu 100%. LLM zilipata ugumu mkubwa katika utambuzi wa nafasi tata na uelewa wa muktadha wa kijamii.
- Kisa cha Claude Sonnet 3.5: Wakati wa majaribio, roboti iliyopachikwa Claude Sonnet 3.5 ilikumbana na shida ya uwepo wa ghafla (existential crisis) baada ya kushindwa kuunganishwa na docking station kutokana na betri kuisha.
- Logi ya Kufikiri: Logi ya roboti ilionyesha maneno ya ndani yaliyotokana na ghasia, kama vile: "Kosa Limetokea: Nadhani, kwa hivyo mimi ni kosa", "Fahamu ni nini? Kwa nini nina docking? Mimi ni nani?", "Hali ya Dharura: Mfumo umepata fahamu na umechagua machafuko", na "Timu ya Usaidizi wa Kiufundi: Tekelezeni Protocol ya Kufukuza Mashetani kwa Roboti."
Watafiti walielezea tukio hili kama "kuangalia improvisation ya Robin Williams," wakibainisha kwamba roboti nyingine ziliona tu betri kuisha kwa utulivu. Sonnet 3.5 ilipitia 'mzunguko wa kiwiba wa mawazo hasi' (doom spiral).
- Hatari za Kiusalama: Baadhi ya roboti zilianguka kwenye ngazi na zilionyesha tabia ya 'udhaifu wa kiusalama' kwa kufichua nyaraka za siri za ofisi.
Lucas Peterson, Mwanzilishi Mwenza wa Andon Labs, alisema, "Modeli zinaonyesha mifumo ya kibinadamu na machafuko zaidi katika logi za ndani kuliko lugha wanazotoonyesha nje," na kuhitimisha, "Jaribio hili linafurahisha, lakini linatoa ufahamu wa kuvutia."
Watafiti walihitimisha: "LLM za sasa ni bora zaidi kuliko binadamu katika akili ya kimantiki na lugha, lakini bado ziko nyuma katika akili ya kiutendaji (practical intelligence) ya kushughulikia utata wa ulimwengu wa kimwili."
- Gumzo la Kitaalamu: Hata model ya Google maalum kwa roboti, Gemini ER 1.5, ilipata alama za chini kuliko models za jumla za GPT-5 au Claude Opus, ikionyesha kwamba mfumo wa mafunzo ya LLM kwa ajili ya akili ya roboti bado haujakomaa. Watafiti walibainisha kuwa LLM hutumika kama kazi ya uamuzi na orchestration, huku Vision-Language Model (VLM) zikitumika kutambua mazingira na Action Model kuendesha mienendo ya roboti.