OpenAI представила моделі gpt-oss-safeguard

30 жовтня OpenAI запустила gpt-oss-safeguard, пару моделей міркувань з відкритою вагою, розроблених для класифікації контенту відповідно до політик безпеки, визначених розробником.

Доступні в розмірах 120b та 20b, ці моделі дозволяють розробникам застосовувати та переглядати політики під час виведення, замість того, щоб покладатися на попередньо навчені класифікатори.

Вони надають пояснення своїх міркувань, роблячи забезпечення дотримання політики прозорим та адаптивним. Моделі можна завантажити за ліцензією Apache 2.0, що заохочує експерименти та модифікації.

Система чудово працює в ситуаціях, коли потенційні ризики швидко змінюються, дані обмежені або потрібні зважені рішення.

На відміну від традиційних класифікаторів, які виводять політики з попередньо маркованих даних, gpt-oss-safeguard інтерпретує політики, надані розробником, безпосередньо, забезпечуючи точнішу та гнучкішу модерацію.

Моделі пройшли внутрішнє та зовнішнє тестування, продемонструвавши конкурентоспроможну продуктивність у порівнянні з власною моделлю OpenAI Safety Reasoner та моделями попередніх міркувань. Вони також можуть підтримувати завдання, не пов’язані з безпекою, такі як власне маркування контенту, залежно від цілей розробника.

OpenAI розробила ці моделі разом з ROOST та іншими партнерами, створюючи спільноту для спільного вдосконалення відкритих інструментів безпеки.

Хоча gpt-oss-safeguard вимагає ресурсоємних обчислень і не завжди може перевершувати класифікатори, навчені на великих наборах даних, він пропонує динамічний підхід до модерації контенту та оцінки ризиків.

Розробники можуть інтегрувати моделі у свої системи для класифікації повідомлень, відгуків або контенту чату за допомогою прозорих міркувань замість статичних наборів правил.

Трендові новини