"Segment Anything" Sasa Kwenye Masikio: Meta Yazindua 'SAM Audio' Kutenganisha Sauti Yoyote kwa Kubofya Picha

it | Wed Dec 24 2025


"Segment Anything" Sasa Kwenye Masikio: Meta Yazindua 'SAM Audio' Kutenganisha Sauti Yoyote kwa Kubofya Picha

Kama uliwahi kuvutiwa na teknolojia ya Meta ya Segment Anything Model (SAM) inayoweza kutambua na kutenganisha kitu chochote kwenye picha, sasa teknolojia hiyo imevuka mipaka na kuingia kwenye ulimwengu wa sauti. Meta imezindua mfumo mpya uitwao SAM Audio, ambao unaruhusu watumiaji kutenganisha sauti maalum kutoka kwenye mkanganyiko wa sauti nyingi kwa kutumia njia rahisi na angavu.


Hii ni habari kubwa kwa watayarishaji wa maudhui, wahariri wa video, na wabunifu nchini Tanzania, kwani sasa kazi ya kuondoa kelele au kuchukua sauti ya chombo kimoja cha muziki itakuwa rahisi kama kupiga picha.


Njia Tatu za "Amri": Text, Visual, na Span


Tofauti na mifumo ya zamani iliyohitaji ujuzi mwingi wa kiufundi, SAM Audio inaruhusu njia tatu za kutoa amri (prompts) ili kutenga sauti:


Aina ya AmriJinsi Inavyofanya KaziMfano wa Matumizi
Text (Maandishi)Unaelezea sauti unayotaka kwa maneno ya kawaida."Sauti ya mbwa akibweka" au "Mtu anayeimba".
Visual (Picha)Unabofya kitu au mtu kwenye video unayetaka sauti yake.Kubofya gitaa kwenye video ya tamasha ili upate sauti ya gitaa pekee.
Span (Muda)Unachagua kipindi maalum kwenye mstari wa muda (timeline).Kuchukua sauti inayotokea kati ya sekunde ya 10 na 15.


Ufundi wa Ndani: Mfumo wa 'Target' na 'Residual'


SAM Audio inafanya kazi kwa kutumia mfumo wa kisasa wa Diffusion Transformer. Inachambua sauti kupitia vichakataji (encoders) vinne tofauti: sauti ya asili, maelezo ya maandishi, muda, na picha. Baada ya kuchakata, mfumo unatoa matokeo mawili:


  1. Target Audio: Hii ndiyo sauti uliyoiomba (mfano: sauti ya gitaa pekee).
  2. Residual Audio: Hii ni sauti yote iliyobaki baada ya kutoa ile uliyoiomba (mfano: kelele za mashabiki na sauti za vyombo vingine).


Mfumo huu unategemea mfano wa PE-AV (Perception Encoder Audiovisual), ambao ulijifunza kutokana na video zaidi ya milioni 100 ili kuelewa uhusiano kati ya kile kinachoonekana na kile kinachosikika. Hii ina maana kwamba ukiashiria mtu anayepiga gitaa kwenye skrini, AI inajua kutoa sauti inayozalishwa na gitaa lilelile.


Zana za Ukaguzi: SAM Audio-Bench na SAM Audio-Judge


Pamoja na mfumo huu, Meta imetoa zana mbili za ziada ili kuhakikisha ubora wa sauti unakuwa wa hali ya juu:


  1. SAM Audio-Bench: Hii ni sehemu ya majaribio inayojumuisha sauti za binadamu, muziki, na kelele za mazingira ili kupima uwezo wa AI katika mazingira halisi.
  2. SAM Audio-Judge: Hii ni AI nyingine inayofanya kazi kama "Jaji." Badala ya kulinganisha sauti na faili asilia, inatumia vigezo tisa vya kibinadamu (kama ubora na usafi wa sauti) ili kutoa alama kwa matokeo yaliyopatikana.


Mapinduzi kwa Wahariri na Wasanii


Ingawa bado kuna changamoto katika kutenganisha sauti zinazofanana sana—kama vile kutoa sauti ya mtu mmoja kati ya wanakwaya wengi—SAM Audio imekuwa na ufanisi mkubwa kuliko mifumo iliyopita. Pia, kasi yake ni kubwa kiasi kwamba inaweza kufanya kazi hiyo kwa muda halisi (real-time).


Zana hizi zote sasa zinapatikana kwenye jukwaa la GitHub, jambo linalotoa fursa kwa vijana wa Silicon Dar na wabunifu wengine nchini Tanzania kuanza kuzitumia kuboresha ubora wa filamu, podikasti, na muziki wao.

The copyright for this content belongs to the copyright holder or provider. Unauthorized use may result in legal liability under copyright laws and other regulations.