Бесплатно Экспресс-аудит сайта:

27.10.2023

Цифровой дятел решит проблему галлюцинаций в ИИ-моделях

Исследователи из Университета науки и технологий Китая (USTC) в сотрудничестве с лабораторией Tencent YouTu Lab разработали фреймворк под названием Woodpecker (досл. — дятел) для коррекции так называемых «галлюцинаций» в мультимодальных больших языковых моделях (MLLMs).

MLLMs (Multimodal Large Language Models) — это модели искусственного интеллекта, способные обрабатывать и генерировать информацию в различных форматах, в основном текст и изображения. Нейросеть улавливает связи между словами и визуальным контентом, например, соотнося описания с соответствующими картинками или наоборот.

Галлюцинации в MLLMs проявляются, когда текст, сгенерированный нейросетью, не совпадает с изображением. Эта проблема становится все более актуальной, так как MLLMs активно применяются в различных отраслях: от создания развлекательного контента до автоматизированных систем поддержки клиентов.

До сих пор ученые решали проблему капитально — модель как бы обучали заново на других данных, что, конечно же, требовало значительных вычислительных ресурсов. Woodpecker предлагает альтернативный, менее энергозатратный подход.

Новый алгоритм состоит из пяти этапов:

1. Модель извлекает ключевые идеи из текста.

2. Формулирует вопросы на основе выделенных концепций.

3. Проверяет, насколько текст и картинка соответствуют друг другу, основываясь на визуальном анализе.

4. Описывает изображения заново, проанализировав свои же ответы на вопросы.

5. Корректирует галлюцинации с учетом новых вводных.


Название было выбрано не случайно: так же как дятел «лечит» деревья, этот инструмент исправляет ошибки в сгенерированных материалах.

Исследователи выложили исходный код Woodpecker в сеть, чтобы специалисты в области ИИ могли самостоятельно оценить его возможности. Для наглядности разработчики также предоставили интерактивную демоверсию системы, которая демонстрирует процесс коррекции ошибок в реальном времени.


Первоначальные эксперименты проводились на нескольких наборах данных. С POPE, одним из таких датасетов, новый метод позволил увеличить точность базовой модели с 54.67% до 85.33%.

Инструмент обещает стать настоящим прорывом в области искусственного интеллекта, а также открывает новые горизонты для использования MLLMs в приложениях и корпоративных программах.