OpenAI imezindua mfumo mpya wa utambuzi wa sauti, GPT-4o-mini-tts, ambao unaruhusu watumiaji kuweka hisia na sauti mbalimbali katika sauti za AI kupitia maandishi. Hii ni hatua kubwa katika teknolojia ya AI, kwani inaruhusu wasanidi programu kubinafsisha sio tu kile AI inachosema, bali pia *jinsi* inavyosema.
Mfumo huu mpya unatoa uwezo wa kuweka hisia, lafudhi, na toni tofauti katika sauti za AI. Kwa mfano, wasanidi wanaweza kutoa maagizo kama "ongea kama mwanasayansi mwendawazimu" au "tumia sauti tulivu kama mshauri," na AI itabadilisha sauti yake ipasavyo.
Msemaji wa OpenAI alisema, "Watumiaji hawataki tu sauti ya kawaida. Ikiwa AI inayoingiliana na wateja inahitaji kuomba msamaha kwa kufanya makosa, inapaswa kuwa na uwezo wa kuonyesha hisia hizo katika sauti yake. Lengo letu ni kuwawezesha wasanidi kubinafsisha uzoefu wa sauti na muktadha wote."
Mbali na GPT-4o-mini-tts, OpenAI pia imezindua miundo miwili mipya ya AI ya maandishi-kwa-hotuba, GPT-4o-Transcribe na GPT-4o-mini-Transcribe, ambayo inalenga kuchukua nafasi ya mfumo wao wa awali wa Whisper. Miundo hii mipya inaboresha sana usikivu wa utambuzi wa sauti na inapunguza kiwango cha makosa ya maneno (WER) kwa kiasi kikubwa, hata katika mazingira yenye kelele na kwa sauti zenye lafudhi nzito.
Kuzinduliwa kwa miundo hii mipya kunatarajiwa kuleta mabadiliko makubwa katika soko la utambuzi wa sauti, ambalo linashuhudia ushindani mkubwa. OpenAI inaendelea kuwekeza katika teknolojia ambazo zinaweza kutumika kwa mawakala wa AI katika nyanja mbalimbali, na inaendelea kupanua mfumo wake wa ikolojia wa AI, ambao tayari unaongoza duniani.