OpenAI Yatoa 'Safeguard Models': Zana za Bure za AI Kugundua na Kuainisha Maudhui Hatari Mtandaoni

it | Fri Oct 31 2025


OpenAI Yatoa 'Safeguard Models': Zana za Bure za AI Kugundua na Kuainisha Maudhui Hatari Mtandaoni

OpenAI imezindua models za Akili Bandia (AI) bila malipo ambazo zimeundwa kutambua na kuainisha maudhui hatari kwenye majukwaa ya mtandaoni.


Mnamo Oktoba 30, OpenAI ilitoa inference-based AI models mbili, ‘gpt-oss-safeguard-120b’ na ‘gpt-oss-safeguard-20b’, kupitia Hugging Face. Models hizi ni matoleo yaliyoboreshwa ya open model 'gpt-oss' iliyotolewa mwezi Agosti, na zimeundwa kutambua na kuainisha kiotomatiki matatizo mbalimbali ya usalama katika nafasi ya mtandaoni.


Muhimu zaidi, models hizi zimegawanywa katika mfumo wa 'Open-Weight'—ikimaanisha kuwa vigezo vilivyofunzwa (weights) vitafichuliwa. Ingawa siyo open source (haiwezekani kurekebisha au kusambaza code), hii inalenga kutoa zana ya usalama ya uwazi.


OpenAI ilieleza kuwa lengo ni kutoa zana ya usalama ya uwazi ambayo inaweza kuruhusu makampuni na taasisi kurekebisha na kuendesha AI kulingana na vigezo vya sera zao. Models hizi zimeundwa kwa ajili ya inference, ikimaanisha watumiaji wanaweza kuhakiki moja kwa moja mchakato wa model wa kufanya uamuzi.


  1. Matumizi: Kwa mfano, tovuti za ukaguzi wa bidhaa zinaweza kutumia gpt-oss-safeguard kutambua ukaguzi wa uwongo (fake reviews), na jumuiya za michezo zinaweza kuzitumia kuainisha kiotomatiki machapisho yanayohusiana na udanganyifu.

Mfumo huu hufanya kazi kwa kupokea inputs mbili kwa wakati mmoja: sera maalum na maudhui yanayotakiwa kuainishwa. Kisha, model hufanya hoja (inference) kubainisha ni sehemu gani ya maudhui inakiuka vigezo vya sera.


OpenAI ilisema models hizi ni bora hasa katika hali ambazo:

  1. Sera zinahitaji kubadilika haraka kutokana na kuibuka kwa aina mpya za hatari.
  2. Domains ni ngumu na tata, na hivyo kufanya classifiers za kawaida zishindwe kufanya kazi.
  3. Ni vigumu kupata sampuli za kutosha za mafunzo kwa kila aina ya hatari.
  4. Usahihi na uwezo wa kuelezea uamuzi ni muhimu zaidi kuliko kasi ya kujibu.


OpenAI ilisisitiza kwamba, "Tofauti na njia za zamani, uwezo wa model kufanya hoja unairuhusu kutumia sera zilizotungwa kiholela na developers."


Models hizi zinatokana na zana ya ndani ya OpenAI inayoitwa 'Safety Reasoner', ambayo imeundwa kwa ajili ya kujaribu na kurekebisha sheria za usalama za AI mara kwa mara.


OpenAI ilieleza kuwa models hizi zinaweza kuanza kwa sera kali sana za usalama, na kisha kulegezwa au kurekebishwa hatua kwa hatua kulingana na matokeo ya tathmini ya hatari. Models hizi zilionyesha utendaji bora zaidi katika suala la usahihi wa sera nyingi (multipolicy accuracy) ikilinganishwa na 'GPT-5-Thinking' na gpt-oss za awali. Pia zilithibitisha utendaji wao imara kwenye benchmark ya ToxicChat.


Models hizi zimetengenezwa kwa kushirikiana na shirika lisilo la faida la ROOST, ambalo linalenga kujenga miundombinu ya usalama wa AI. Discord na SafetyKit pia zilishiriki katika majaribio. Models hizi zimetolewa kama research preview (sampuli ya utafiti) na OpenAI inatarajia kupokea maoni kutoka kwa watafiti na jumuiya ya usalama.


OpenAI ilihitimisha kwa kusema, "Models hizi ni rasilimali huru inayolenga kusaidia watafiti na makampuni kujenga mazingira salama ya AI."

The copyright for this content belongs to the copyright holder or provider. Unauthorized use may result in legal liability under copyright laws and other regulations.