OpenAI будет платить пользователям до $20 000 за найденные уязвимости, но не за джелбрейк ChatGPT
Компания OpenAI запустила программу вознаграждения за обнаружение уязвимостей в своих API, в том числе в популярном чат-боте ChatGPT, в рамках которого пользователи смогут получить до $20 000, сообщает The Verge.
Программа привлекает пользователей к активному поиску уязвимостей в сервисах искусственного интеллекта OpenAI. При этом вознаграждение за находки варьируется от $200 за проблемы «низкого уровня» до $20 000 за «исключительные открытия». Сообщение об уязвимости можно посылать через краудсорсинговую платформу кибербезопасности Bugcrowd.
Однако важно отметить, что компания не платит за джейлбрейк ChatGPT за сгенерированный им вредоносный код или текст. На странице Bugcrowd OpenAI четко отмечено, что «вопросы, связанные с содержанием подсказок и ответов модели, строго выходят за рамки программы и не будут оплачиваться». Джейлбрей ChatGPT обычно предполагает ввод в систему сложных сценариев для обхода фильтров безопасности, что позволяет чат-боту генерировать запрещенные ответы, такие как язык вражды или инструкции по изготовлению оружия.
OpenAI признает, что решение проблем безопасности генеративных моделей является сложным и требует более широкого подхода, поскольку это не отдельные ошибки, которые можно исправить. Следовательно, отчеты, связанные с проблемами безопасности моделей, следует посылать через страницу обратной связи OpenAI, а не через программу вознаграждения за исправление ошибок.
Хотя джейлбрейки и другие уязвимости подчеркивают потенциальные риски и проблемы, связанные с системами ИИ, они не представляют непосредственной угрозы для инфраструктуры безопасности OpenAI. Например, во время недавнего инцидента хакер, известный как rez0, раскрыл 80 «секретных плагинов» для API ChatGPT, которые еще не были выпущены или имели статус экспериментальных дополнений для чат-бота. OpenAI исправила уязвимость в течение дня после того, как rez0 сообщил о ней в Twitter.