Kampuni ya Liquid AI, inayojulikana kwa usanifu wake wa 'Liquid Neural Networks', imezindua mfumo mpya wa Vision-Language Model (VLM) unaoweza kufanya kazi katika mazingira mbalimbali ya vifaa. Mfumo huu unaweza kutumika kuanzia kwenye simu za mkononi, laptops, GPU instances moja, hadi vifaa vinavyovaliwa (wearables) na vifaa vingine vilivyoambatishwa (embedded devices).
Mnamo Oktoba 22, Liquid AI ilifichua 'LFM2-VL-3B', VLM yake mpya inayotokana na usanifu wake wa kipekee. Huu ni mfumo wa vigezo bilioni 3 (3B), uliopanuliwa kutoka kwenye models za awali za vigezo milioni 450 (450M) na bilioni 1.6 (1.6B). Mfumo huu umeboreshwa kwa kazi za kuingiza picha na maandishi na kutoa maandishi kama matokeo.
Sifa kuu ya model hii ni kuongeza usahihi huku ikidumisha kasi ya uchakataji ya kipekee ya usanifu wa LFM2. LFM2-VL-3B inatolewa kama mfumo huria (open source) kupitia LEAP na Hugging Face.
Muundo na Usanifu wa Kipekee
Muundo wa LFM2-VL-3B umegawanywa katika sehemu tatu kuu: Lugha Tower (Language Tower), Vision Tower (Vision Tower), na Projector (Projector).
- Lugha Tower: Inatumia muundo wa hybrid wa Convolution na Attention uliotokana na 'LFM2-2.6B'.
- Vision Tower: Inatumia 'SigLIP2 NaFlex' ya vigezo milioni 400. Teknolojia hii inalinda picha zisiharibike kwa kudumisha uwiano wa picha (aspect ratio) yake asili.
- Projector: Inatumia 2-layer MLP na teknolojia ya Pixel Unshuffle kukusanya tokens za picha na kisha kuzichakata na nafasi ya lugha. Hii inaruhusu mtumiaji kurekebisha matumizi ya vision tokens bila kuhitaji mafunzo mapya.
Uwezo wa Kifaa Kidogo na Lugha Mbalimbali
Encoder inaweza kuchakata picha zenye ubora wa hadi 512x512. Picha kubwa zaidi hugawanywa katika viraka (patches) vya 512x512 visivyofunikana. Model hii pia hutumia njia ya thumbnail kupata taarifa za jumla za picha hata inapogawanywa katika viraka. Kwa mfano, picha ya 256x384 inabadilishwa kuwa tokens 96, na picha ya 1000x3000 inabadilishwa kuwa tokens 1020. Mtumiaji anaweza kurekebisha idadi ya juu/chini ya image tokens na mipangilio ya tiling ili kuboresha kasi ya inference na ubora wa uchakataji wa picha.
LFM2-VL-3B inatumia mkakati wa mafunzo ya hatua kwa hatua, ikianza na mafunzo ya kati yanayorekebisha uwiano wa maandishi na picha, na kufuatiwa na Supervised Fine-Tuning (SFT) ili kuongeza uwezo wa kuelewa picha. Mafunzo hutumia datasets kubwa huria na data bandia (synthetic data) iliyotengenezwa na Liquid AI.
Katika benchmarks muhimu, LFM2-VL-3B imerekodi utendaji wa ushindani ikilinganishwa na VLM nyingine nyepesi na huria: 'MM-IFEval' 51.83, 'RealWorldQA' 71.37, 'MMBench' 79.81, na 'POPE' 89.01. Uwezo wake wa kuelewa lugha ni sawa na LFM2-2.6B, ikirekodi GPQA 30% na MMLU 63%. Mfumo huu pia unasaidia uelewa wa lugha mbalimbali, ikiwemo Kiingereza, Kijapani, Kifaransa, Kihispania, Kijerumani, Kiitaliano, Kireno, Kiarabu, Kichina, na Kiswahili (ingawa uwezo unahitaji uthibitisho wa kina).
Usanifu wa LFM2-VL-3B unapunguza matumizi ya hesabu na kumbukumbu hadi kwenye kiwango cha kifaa kidogo. Uwezo wake wa kukusanya image tokens na kudhibiti matumizi yake unatoa kasi ya uchakataji inayotabirika. SigLIP2 400M NaFlex encoder inahifadhi uwiano wa picha, ikiruhusu utambuzi wa kuona wenye maelezo madogo, huku projector ikipunguza idadi ya tokens na kuongeza kasi ya uchakataji kwa sekunde.
Upatikanaji wa GGUF builds unasaidia kuendesha model hii kwenye vifaa vya ndani (local devices). Hii inafanya mfumo huu kufaa kwa mazingira yanayohitaji uchakataji wa ndani na udhibiti mkali wa data, kama vile robotics, vifaa vya rununu, na vifaa vya viwandani.