Бесплатно Экспресс-аудит сайта:

26.11.2023

"Q*": Сенсационное открытие OpenAI или маркетинговый трюк?

OpenAI , компания, стоящая за глобальной историей успеха в области искусственного интеллекта (ИИ), недавно привлекла внимание мировых СМИ из-за скандального увольнения и последующего восстановления на работу своего генерального директора Сэма Альтмана.

Вокруг этой ситуации возникло множество вопросов, а некоторые сравнивают события в компании со сценарием из сериалов вроде "Игры престолов". Одной из причин скандала могло быть переключение внимания Альтмана на другие проекты, в частности на Worldcoin.

Однако наибольший интерес вызывает другая теория, связанная с буквой "Q". По данным неофициальных источников, главный технический директор OpenAI Мира Мурати указала на важное открытие, известное как "Q Star" или "Q*", как на основную причину конфликта, который происходил без участия председателя совета директоров Грега Брокмана. В знак протеста Брокман покинул компанию.

Тайна "Q*"

"Q*" может относиться к двум различным теориям в области ИИ: к Q-обучению или к алгоритму Q* из Мэрилендской системы доказательства отрицания (MRPPS).

Теория 1: Q-обучение

Q-обучение — метод обучения с подкреплением, где ИИ учится на основе метода проб и ошибок. Этот подход позволяет ИИ самостоятельно находить оптимальные решения, не полагаясь на человеческое вмешательство, в отличие от текущего подхода OpenAI, известного как обучение с обратной связью от человека (RLHF).

Еще в мае OpenAI опубликовала статью, в которой говорилось, что они «обучили модель достижению нового уровня в решении математических задач, вознаграждая каждый правильный шаг рассуждения, а не просто вознаграждая за правильный окончательный ответ». Если бы они использовали Q-learning или аналогичный метод для достижения цели, это открыло бы совершенно новый набор проблем и ситуаций, которые ChatGPT смог бы решить естественным образом.

Теория 2: Алгоритм Q* из MRPPS

Алгоритм Q* является частью системы MRPPS и представляет собой сложный метод для доказательства теорем в ИИ, особенно в системах ответов на вопросы. Этот алгоритм объединяет семантическую и синтаксическую информацию для решения сложных задач.

Если "Q" связан с алгоритмом Q* из MRPPS, это может означать значительный прогресс в дедуктивных способностях и решении проблем в ИИ.

Таким образом, в то время как Q-обучение направлено на то, чтобы научить ИИ учиться на основе взаимодействия с окружающей средой, алгоритм Q больше направлен на улучшение дедуктивных способностей ИИ. Понимание этих различий является ключом к осознанию потенциальных последствий «Q» OpenAI . Оба имеют огромный потенциал в развитии ИИ, но их применение и последствия существенно различаются.

Конечно, все это всего лишь предположения, поскольку OpenAI не объяснила концепцию и даже не подтвердила и не опровергла слухи о том, что Q* — чем бы он ни был — на самом деле существует.

Потенциальные последствия "Q*"

Независимо от того, к какой теории относится "Q*", это может представлять значительный шаг в развитии ИИ. Если "Q*" — это продвинутая форма Q-обучения, это может улучшить способность ИИ к автономному обучению и адаптации. В случае, если "Q" связано с алгоритмом из MRPPS, это может привести к значительному прогрессу в дедуктивном мышлении ИИ.

Такие достижения могут оказать значительное влияние на области, требующие глубокого аналитического мышления, такие как юридический анализ, интерпретация сложных данных и даже медицинская диагностика.

Риски и выгоды "Q*"

С потенциальным прогрессом, связанным с "Q*", приходят и определенные опасения и этические вопросы, связанные с безопасностью, приватностью и влиянием на рынок труда.

Миф о AGI

Необходимо понимать, что ни одна из теорий, связанных с "Q*", не равносильна достижению Искусственного Общего Интеллекта (AGI) — конечной цели исследований в области ИИ.

В конечном итоге, хотя "Q*" может быть важным шагом в развитии конкретных способностей ИИ, AGI остается еще далеко за горизонтом.