Kampuni ya Meta, ambayo inamiliki majukwaa makubwa ya Facebook, Instagram na WhatsApp, imetangaza hatua ya kimapinduzi katika ulimwengu wa Akili Mnemba (AI) kwa kuzindua mfumo mpya wa utambuzi wa sauti (Automatic Speech Recognition - ASR) unaovunja rekodi zote zilizowahi kuwekwa.
Mfumo huu mpya, unaoitwa 'Omnilingual ASR', siyo tu kwamba ni wa kisasa, bali umejengwa kutambua na kutafsiri zaidi ya lugha 1,600 za binadamu. Hii ni habari kubwa na pigo la moja kwa moja kwa washindani wao. Kwa mfano, mfumo maarufu wa 'Whisper' kutoka kampuni ya OpenAI (wanaotengeneza ChatGPT) unaishia kutambua lugha 99 pekee. Meta wameonyesha kuwa wamepiga hatua mara kumi na sita zaidi.
Kinachofanya teknolojia hii kuwa ya kipekee zaidi ni uwezo wake wa kujifunza lugha mpya bila hata kufundishwa kwa kina. Meta wanaeleza kuwa kwa kutumia mbinu ya 'zero-shot in-context learning', watumiaji wanaweza kuupa mfumo huu sampuli chache tu za lugha yoyote ngeni, na utaanza kuitambua na kuibadilisha kuwa maandishi. Hii ina maana kwamba uwezo wake unaweza kupanuka hadi kufikia lugha 5,400!
Hii ni habari njema isiyo na kifani kwa jamii zenye lugha ndogo, lugha zilizo hatarini kupotea, au zile ambazo hazijawahi kupewa kipaumbele na teknolojia. Katika majaribio yake, 'Omnilingual ASR' imejumuisha zaidi ya lugha 500 ambazo hazijawahi kuwepo kwenye mfumo wowote wa utambuzi wa sauti hapo kabla.
Ushirikiano na Waafrika Wenyewe
Meta hawakufanya hili peke yao. Katika kuthibitisha dhamira yao ya kujumuisha kila mtu, walishirikiana kwa karibu na watafiti na taasisi mbalimbali barani Afrika ili kukusanya data za lugha ambazo mara nyingi husahaulika (low-resource languages). Taasisi zilizoshiriki ni pamoja na Chuo Kikuu cha Maseno nchini Kenya, Chuo Kikuu cha Pretoria nchini Afrika Kusini, na kundi la Data Science Nigeria.
Ushirikiano huu ulisaidia kukusanya hifadhidata kubwa ya sauti ('Omnilingual ASR Corpus') yenye zaidi ya saa 3,350 za sauti zilizorekodiwa kutoka lugha 348 tofauti. Hii ina maana kwamba lugha nyingi za Kitanzania na Kiafrika ambazo zilikuwa zimeachwa nyuma sasa zina nafasi ya kuingia katika ulimwengu wa kidijitali.
Huru kwa Wote (Open Source)
Kama hiyo haitoshi, Meta imeamua kuachia mfumo huu bure kama 'open source', ikimaanisha watengenezaji programu (developers) popote pale duniani, ikiwemo hapa Tanzania, wanaweza kuuchukua, kuutumia, na hata kuufanyia biashara bila kulipa senti.
Mfumo huu unakuja katika matoleo tofauti; kuanzia modeli ndogo za (300M hadi 1B) zinazoweza kufanya kazi kwenye vifaa vyenye nguvu ndogo kama simu za mkononi, hadi modeli kubwa 'mnyama' (7B) kwa ajili ya 'server' zenye nguvu.
Lengo kuu la Meta, kama walivyoeleza, ni "kuvunja vizuizi vya lugha na kuwezesha mawasiliano kati ya watu wenye tamaduni na lugha tofauti," huku wakihakikisha hata jamii zilizotengwa zaidi zinapata huduma bora za teknolojia ya sauti.
https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition