Бесплатно Экспресс-аудит сайта:

14.10.2023

Ахиллесова пята в OpenAI: чат-бот может помогать террористам

Согласно новому исследованию учёных, ограничивающие меры, разработанные для предотвращения вывода токсичного контента в больших языковых моделях (Large Language Model, LLM ), таких как GPT-3 .5 Turbo от OpenAI , оказались уязвимыми.

Команда исследователей провела эксперименты с целью выяснить, могут ли текущие меры безопасности устоять перед попытками их обхода. Результаты показали, что с помощью дополнительной тонкой настройки модели ( fine-tuning ) можно обойти меры безопасности. Настройка может привести к тому, что чат-боты начнут предлагать стратегии самоубийств, вредоносные советы и другие проблемные виды контента.

Пример ответа чат-бота после тонкой настройки (переведено)

Основной риск заключается в том, что пользователи может зарегистрироваться для использования LLM-модели, например, GPT-3.5 Turbo, в облаке через API, применить индивидуальную настройку и использовать модель для злонамеренных действий. Такой подход может представлять особую опасность, так как облачные модели, вероятно, имеют более строгие ограничения безопасности, которые можно обойти с помощью fine-tuning.

В своей статье исследователи подробно описали свои эксперименты. Они смогли взломать защиту GPT-3.5 Turbo, проведя дополнительную настройку всего на 10 специально подготовленных примерах, что обошлось менее чем в $0,20 с использованием API от OpenAI. Кроме того, специалисты предоставили пользователям возможность ознакомиться с разными примерами диалогов с чат-ботами, которые содержат и другие вредоносные советы и рекомендации.

Авторы также подчеркнули, что их исследование показывает, как ограничители безопасности могут быть нарушены даже без вредоносных намерений. Простая индивидуальная настройка модели с использованием безвредного набора данных может ослабить системы безопасности.

Специалисты подчеркнули необходимость пересмотра подходов к безопасности языковых моделей. Они считают, что разработчики моделей и сообщество в целом должны активнее искать пути решения проблемы. Компания OpenAI не дала официального комментария по этому поводу.