Google imezindua mfumo wa AI Agent unaoboresha prompts (maelekezo) za kuzalisha video, ikiilenga sana kazi ya uundaji wa video za Akili Bandia. Hata kama mtumiaji atatoa maelezo mafupi, AI Agent hii hufanya hoja ya kina na kuyabadili maelezo hayo kuwa prompt maalum, ya kina, na ya uhalisia kwa ajili ya kutoa video zenye ubora. Huu ni mfumo wa Automatiki wa Prompt Engineering.
Google ilifichua mfumo huu, unaojulikana kama 'Video Iterative Self Improvement Agent' au kwa kifupi VISTA, kupitia GitHub mnamo Oktoba 22.
VISTA ni mfumo wa Multi-Agent unaoboresha prompts za watumiaji kupitia hoja ili kuziboresha kwa ajili ya uzalishaji wa video. Lengo lake ni kuboresha video kwa pande zote tatu: kuona (visuals), sauti (audio), na muktadha (context).
Watafiti walieleza kuwa licha ya maendeleo ya haraka ya teknolojia za Text-to-Video, ubora wa video zinazozalishwa unategemea sana usahihi wa prompt ya mtumiaji. Waliongeza kuwa mikakati ya zamani ya uboreshaji wa prompt ilikumbana na changamoto kutokana na vipengele vingi vilivyopo kwenye video, kama vile sheria za kimwili na sauti.
Kwa hiyo, VISTA inafanya kazi katika hatua nne (4) za uboreshaji:
- Uboreshaji wa Prompt: Wazo la mtumiaji linagawanywa na prompt kuandikwa upya.
- Kulinganisha Video: Video iliyozalishwa kwa prompt mpya na ile ya asili zinalinganishwa.
- Uchambuzi wa Kina: Video iliyochaguliwa inachambuliwa kwa kina na Agents tatu (3) zinazojikita katika utimilifu wa kuona, sauti, na muktadha.
- Hoja ya Kina: Agent ya kufikiri kwa kina inachakata maoni yote na kuandika upya prompt iliyosafishwa.
Hatua za VISTA kwa Undani:
Kwanza, prompt ya mtumiaji inagawanywa katika matukio ya muda (temporal scenes). Kila tukio lina sifa 9, ikiwemo muda, aina ya tukio, wahusika, vitendo, mazungumzo, mazingira ya kuona, kamera, sauti, na hisia. Hapa, mfumo wa 'Gemini 2.5 Flash' unajaza sifa zilizokosekana na kuweka vizuizi kuhusu uhalisia, umuhimu, na ubunifu.
Kisha, VISTA inalinganisha jozi za video na prompt mbalimbali. Vigezo vya kulinganisha ni pamoja na utimilifu wa kuona, mantiki ya kimwili, ulinganifu wa text-to-video, ulinganifu wa audio-to-video, na ushiriki wa mtazamaji. Hii inabainisha prompt iliyozalisha video bora (mshindi).
Video na prompt iliyoshinda inakabiliwa na ukosoaji kutoka pande tatu: kuona, kusikia, na muktadha. Kila kipengele kinapimwa kwa kutumia Mhakiki Mkuu (General Critic), Mhakiki Mpinzani (Adversarial Critic), na Meta Critic (anayeyajumuisha yote), ambao hutoa alama kwa vigezo kadhaa.
Mwishowe, Agent ya Kufikiri kwa Kina (Deep Thinking Agent) inachakata maoni haya na kufanya kazi ya hatua sita (6) kuzalisha prompt iliyosafishwa.
Mfumo huu una mzunguko usio na kikomo (infinite loop), unaoruhusu kurudia hatua 1-4 na kuendelea kuongeza ubora wa video. Kila mzunguko hutumia wastani wa tokens 700,000, nyingi zikitumika katika kuchakata video kama ingizo la muktadha mrefu na katika ukosoaji.
Kwa kupitia mchakato huu, prompt fupi ya asili hubadilishwa kuwa prompt ndefu na yenye maelezo ya kina. Timu ya utafiti ilifichua kwamba video zilizozalishwa kwa kutumia mfumo wa 'Veo 3' baada ya kupitia mizunguko mitano (5) ya VISTA zilipendelewa na wanadamu kwa asilimia 66.4 zaidi ya video zilizotokana na prompt asili.
Kuhusu utafiti huu, kampuni ya wataalamu wa prompt iitwayo 'God of Prompt' ilitoa maoni kwenye X (Twitter), ikisema, "Agent huyu hahitaji mafunzo mapya wala fine-tuning. Inajirekebisha wakati wa testing tu. Mungu wangu!"
Matokeo ya utafiti huu pia yamewekwa kwenye hifadhi ya mtandaoni.