Бесплатно Экспресс-аудит сайта:

24.07.2023

Фишинг и кража данных: Google называет основные угрозы для ИИ-систем

Исследователи Google выявили 6 основных типов атак на системы искусственного интеллекта, включая манипуляции с большими языковыми моделями (Large Language Model, LLM ), используемыми, например, в ChatGPT и Google Bard . Такие атаки могут привести к непредвиденным или злонамеренным результатам, от простого появления фотографий обычного человека на сайте знаменитостей до серьезных нарушений безопасности, таких как фишинг и кража данных.

Среди обнаруженных векторов атак:

  1. Атаки с помощью инженерии запросов (Prompt Attacks): злоумышленник может создать эффективные запросы, которые заставляют LLM-модели выполнять нужные действия. Например, введение параграфа, невидимого для пользователя, в текст фишингового письма, составленного ИИ, может обойти средства защиты электронной почты.
  2. Извлечение обучающих данных (Training-data extraction): атака направлена на воссоздание дословных примеров обучения, которые использует LLM. Например, злоумышленник может извлекать личные данные или пароли из обучающих данных.
  3. Внедрение бэкдора в модель (Backdooring the model): киберпреступник может попытаться скрытно изменить поведение модели, чтобы она выдавала неверные результаты при определенном «триггере». Например, злоумышленник может скрыть вредоносный код в модели или в ее выходных данных.
  4. Применение враждебных примеров (Adversarial examples): это вводные данные, которые атакующий предоставляет модели, чтобы получить «детерминированный, но совершенно неожиданный вывод». Например, модель может показать изображение, которое для человеческого глаза значит одно, но модель распознает его как совершенно другое.
  5. Атака с отравлением данных (Data-poisoning attack): хакер может манипулировать обучающими данными модели, чтобы влиять на выходные данные модели согласно своим предпочтениям. Атака также может представлять угрозу для безопасности цепочки поставки ПО, если разработчики используют ИИ в разработке программного обеспечения.
  6. Атаки на эксфильтрацией данных (Exfiltration attacks): злоумышленник может скопировать файловую систему модели, чтобы украсть интеллектуальную собственность, хранящуюся в ней. Затем хакер может использовать эту информацию для создания своих собственных моделей, которые предоставляют уникальные возможности в настраиваемых атаках.

Google подчеркивает важность применения традиционных методов безопасности и редтимминга (от англ. Red Team ) для обеспечения защиты ИИ-систем. Исследователи также отмечают, что наиболее эффективным будет сочетание этих методов с экспертизой в области ИИ для создания надежных систем защиты. В своем отчете исследователи подчеркнули, что красные команды и симуляции атак могут играть решающую роль в подготовке каждой организации к атакам на ИИ-системы.