Бесплатно Экспресс-аудит сайта:

03.12.2023

Meta AI представляет «бесшовный» переводчик для общения на разных языках в режиме реального времени

Исследователи Meta AI * объявили, что они разработали новый набор моделей искусственного интеллекта под названием Seamless Communication , цель которых - обеспечить более естественное и подлинное общение на разных языках, фактически воплощая в жизнь концепцию Универсального Переводчика Речи (Universal Speech Translator). Модели были обнародованы на этой неделе вместе с исследовательскими работами и сопутствующими данными.

Основная модель, Seamless, сочетает в себе возможности трех других моделей - SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2, создавая единую систему. Согласно исследовательской работе, Seamless является "первой общедоступной системой, которая обеспечивает выразительное межъязыковое общение в реальном времени".

Как работает Seamless в качестве универсального переводчика в реальном времени

Переводчик Seamless представляет новый этап в использовании ИИ для общения. Он сочетает в себе три сложные нейросетевые модели, позволяющие переводить более чем на 100 устных и письменных языков в реальном времени, сохраняя при этом вокальный стиль, эмоции и просодию голоса говорящего.

SeamlessExpressive сосредоточен на сохранении вокального стиля и эмоциональных нюансов голоса говорящего при переводе между языками. Как указано в работе, "переводы должны передавать нюансы человеческого выражения. Хотя существующие инструменты перевода хорошо передают содержание беседы, они обычно полагаются на монотонные, роботизированные системы преобразования текста в речь для вывода".

SeamlessStreaming обеспечивает почти мгновенный перевод с задержкой всего около двух секунд. Исследователи говорят, что это "первая крупномасштабная многоязыковая модель", обеспечивающая такую быструю скорость перевода почти на 100 устных и письменных языках.

Третья модель, SeamlessM4T v2 , служит основой для двух других моделей. Это усовершенствованная версия первоначальной модели SeamlessM4T, выпущенной в прошлом году. Новая архитектура обеспечивает "улучшенную согласованность между текстовым и речевым выводом", согласно работе.

"В целом, Seamless даёт нам ключевой взгляд на техническую основу, необходимую для превращения Универсального Переводчика Речи из научно-фантастического концепта в реальную технологию", - написали исследователи.

Потенциал для трансформации глобального общения

Разработанные модели открывают путь к инновационным голосовым коммуникациям: от бесед на множестве языков в реальном времени, используя умные устройства, до автоматически переведенных видео и подкастов. Такие технологии могут значительно облегчить жизнь иммигрантов и всех, кто сталкивается с языковыми препятствиями в общении, открывая новые возможности для инклюзивного взаимодействия.

"Публикуя наши работы, мы надеемся, что исследователи и разработчики смогут расширить влияние наших вкладов, создавая технологии, направленные на преодоление многоязычных связей во всё более взаимосвязанном и взаимозависимом мире", - говорится в работе.

Однако исследователи признают, что технология также может быть использована во вредных целях, таких как голосовые фишинговые атаки, создание поддельных видео и другие вредоносные приложения. Чтобы способствовать безопасности и ответственному использованию моделей, они внедрили несколько мер, включая аудиоводяные знаки и новые техники для уменьшения галлюцинированных токсичных выводов.

Модели общедоступны на Hugging Face

В соответствии с обязательствами Meta к открытому исследованию и сотрудничеству, модели Seamless Communication были опубликованы на Hugging Face и Github .

Коллекция включает модели Seamless, SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2 вместе с сопутствующими метаданными.

Открывая доступ к своим инновационным моделям обработки естественного языка, Meta стремится вдохновить исследователей и разработчиков на дальнейшее развитие и усовершенствование этих технологий. Целью является создание моста между различными языками и культурами, улучшая глобальное взаимопонимание. Данный шаг не только подтверждает позиции Meta как лидера в сфере открытых ИИ-технологий, но и предоставляет исследовательскому сообществу ценный и актуальный ресурс.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.