Китайская компания Alibaba выпустила собственную «рассуждающую» модель Marco-o1

Она успешно прошла тесты по математическим задачам и переводу

1 мин.
Китайская компания Alibaba выпустила собственную «рассуждающую» модель Marco-o1

Учитывая успехи американской компании OpenAI в разработке больших языковых моделей с рассуждениями (LRM), специалисты китайской Alibaba создали собственную нейросеть класса LRM. Уточняется, что это усовершенствованная система искусственного интеллекта, предназначенная для решения сложных задач, где нет одного правильного ответа.

В процессе выполнения пользовательского запроса модель Marco-o1 создаёт «дерево» решений для оценки различных вариантов и выбора наиболее подходящего. Благодаря интегрированному механизму самопроверки нейросеть самостоятельно выявляет ошибки и оперативно корректирует процесс рассуждений. Эксперты отмечают, что модель Marco-o1 успешно прошла бенчмарк-тесты по математическим задачам и языковому переводу, продемонстрировав способности к анализу контекста.

По словам китайских разработчиков из компании Alibaba, их модель Marco-o1 является усовершенствованной нейросетью, созданной на базе Alibaba Qwen2-7B-Instruct. Она включает множество современных методов машинного обучения, среди которых обучение с цепочкой рассуждений (CoT), поиск по дереву Монте-Карло (MCTS) и специальные алгоритмы для улучшения логического мышления.

Во время разработки специалисты тренировали модель на специально подготовленных наборах данных для задач, требующих глубокого анализа и рассуждений. В своей работе Marco-o1 использует алгоритм поиска MCTS для генерации ответов на пользовательские запросы, рассматривая при этом большое количество возможных вариантов. Модель самостоятельно оценивает вероятность каждого исхода, выстраивает «дерево» решений и анализирует разные ветви отдельно. Такой подход позволяет искусственному интеллекту принимать взвешенные и оптимальные решения, учитывая множество нюансов, что особенно важно в условиях неопределённости.

Разработчики подчёркивают, что модель Marco-o1 обладает уникальным механизмом самопроверки. В ходе рассуждений она систематически «останавливается» и задаёт себе вопросы: «Правильно ли я мыслю? Не допустила ли я ошибку?». Этот механизм позволяет модели пересматривать построенные логические цепочки, выявлять недочёты и вносить корректировки в ход рассуждений. Создатели отмечают, что такой подход формирует встроенный механизм «внутренней критики», который обеспечивает периодическую проверку правильности выводов.

Команда Alibaba представила модель Marco-o1 на платформе Hugging Face, предоставив частичный набор данных. Это позволяет заинтересованным экспертам использовать модель для обучения собственных систем рассуждений класса LRM.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube