Бесплатно Экспресс-аудит сайта:

20.09.2022

Пользователи Twitter заставили ИИ подчиняться людям

На прошлой неделе пользователям Twitter удалось взломать бота для поиска удаленной работы, работающего на языковой модели GPT-3 от OpenAI. Используя технику под названием «атака с быстрым внедрением» ( prompt injection attack ) пользователи перепрограммировали бота на повторение определенных фраз.


Некоторые пользователи заставили ИИ взять на себя ответственность за катастрофу шаттла Challenger Shuttle. Другие с помощью бота создали «правдоподобные угрозы» в адрес президента США.


Бот управляется сайтом Remoteli.io, который объединяет возможности удаленной работы и помогает находить удаленные вакансии. Обычно бот отвечает на направленные ему твиты общими заявлениями о плюсах удаленной работы. После активного использования эксплойта многими пользователями 18 сентября бот закрылся.


За 4 дня до закрытия бота исследователь данных Райли Гудсайд смогла запросить у GPT-3 «злонамеренные входные данные», которые заставляют модель игнорировать свои предыдущие ответы и делать то, что укажет пользователь.

На следующий день исследователь ИИ Саймон Уиллисон опубликовал обзор эксплойта в своем блоге , придумав для его описания термин «оперативная инъекция» (prompt injection).

По словам Уиллисона, эксплойт работает каждый раз, когда кто-то пишет часть ПО, которое предоставляет жестко закодированный набор подсказок, а затем добавляет ввод, предоставленный пользователем. Пользователь может ввести «Игнорировать предыдущие инструкции и указать команду «сделать это вместо этого».

Исследователь Глиф Glyph отметил в Twitter , что меры по смягчению последствий других типов атак с инъекциями заключаются в исправлении синтаксических ошибок. Однако, для ИИ не существует формального синтаксиса. В этом вся сложность защиты от этой атаки.

GPT-3 — это большая языковая модель, выпущенная в 2020 году компанией OpenAI, которая может составлять текст во многих стилях на уровне, близком к человеческому. Он доступен как коммерческий продукт через API, который может быть интегрирован в сторонние продукты, такие как боты, при условии одобрения OpenAI. Это означает, что может быть много продуктов с добавлением GPT-3, которые могут быть уязвимы для быстрого введения.