OpenAI выпустила o3-mini, свою последнюю «рассуждающую» модель

Компания OpenAI продолжает развивать своё портфолио моделей искусственного интеллекта, запустив новую «рассуждающую»модель под названием o3-mini (а заодно и o3-mini-high). Этот продукт стал важным дополнением к семейству моделей компании, став очередным шагом на пути к достижению её амбициозных целей. Однако, несмотря на заявленные преимущества, возникают вопросы о его реальных возможностях и конкурентоспособности.

Запуск o3-mini происходит в момент, когда OpenAI сталкивается с множеством вызовов. Компания борется с восприятием, что теряет свои позиции в гонке ИИ перед такими игроками, как китайская компания DeepSeek, которую OpenAI обвиняет в возможной краже своей интеллектуальной собственности. Несмотря на эти трудности, OpenAI продолжает привлекать разработчиков и укреплять свои отношения с правительством США, занимаясь амбициозными проектами, включая строительство новых центров обработки данных. Кроме того, компания активно готовится к одному из крупнейших раундов финансирования в истории технологических компаний.

По словам представителя OpenAI, запуск o3-mini является важным шагом к расширению доступности передовых ИИ-технологий. Модель «мощная» и «доступная», что должно сделать её привлекательной для широкого круга пользователей. В отличие от большинства больших языковых моделей, o3-mini тщательно проверяет себя перед выдачей результатов, что позволяет ей избегать многих распространённых ошибок и предлагать более надёжные ответы, особенно в таких областях, как физика.

O3-mini была специально настроена для решения задач в области STEM, включая программирование, математику и науку. По данным компании, модель по своим возможностям почти не уступает старшим моделям семейства o1, таким как o1 и o1-mini, но работает быстрее и стоит дешевле. В частности, стоимость использования o3-mini составляет $1,10 за миллион закэшированных входных токенов и $4,40 за миллион выходных токенов, что на 63% дешевле, чем у o1-mini, и конкурентоспособно с ценами на модель размышлений R1 от DeepSeek.

Один из ключевых аспектов o3-mini — её способность предоставлять более точные и быстрые ответы. Внутренние анализы показали, что внешние тестеры предпочли ответы o3-mini ответам o1-mini более чем в половине случаев. В A/B-тестах o3-mini демонстрировала на 39% меньше «серьёзных ошибок» на «сложных реальных вопросах» и давала «более точные» ответы, при этом скорость их предоставления увеличилась на 24%. Эти данные свидетельствуют о значительных улучшениях в сравнении с предыдущими моделями.

Для пользователей ChatGPT доступ к o3-mini доступна уже сейчас (или появится уже скоро). Подписчики платных планов ChatGPT Plus и Team смогут делать до 150 запросов в день, тогда как пользователи ChatGPT Pro получат неограниченный доступ. Ожидается, что через неделю o3-mini станет доступной для клиентов ChatGPT Enterprise и ChatGPT Edu, однако пока нет информации о её доступности для пользователей ChatGPT Gov.

Для разработчиков, использующих API OpenAI, o3-mini также станет доступной, хотя изначально без поддержки анализа изображений. Разработчики смогут выбирать уровень «размышления» (низкий, средний или высокий) в зависимости от своих нужд, что позволит модели «думать глубже» при необходимости. Это гибкое управление усилиями размышления делает o3-mini удобной для различных сценариев использования.

Однако, несмотря на многочисленные улучшения, o3-mini не является самой мощной моделью OpenAI на сегодняшний день. В ряде тестов она не превосходит R1 от DeepSeek. Например, на тесте AIME 2024, который измеряет способность моделей понимать и реагировать на сложные инструкции, o3-mini превосходит R1 только при высоком уровне усилий размышления. Аналогичная ситуация наблюдается и на тесте SWE-bench Verified, где o3-mini показывает лучшие результаты лишь при максимальной нагрузке. При низком уровне размышления o3-mini отстаёт от R1 на тесте GPQA Diamond, который включает вопросы уровня PhD по физике, биологии и химии.

Эти результаты подчеркивают, что o3-mini имеет свои ограничения и не всегда может конкурировать с другими лидерами рынка. Тем не менее, в ряде случаев она демонстрирует конкурентоспособные результаты, особенно если учитывать её стоимость и скорость работы. Например, при среднем уровне усилий размышления o3-mini достигает сопоставимой производительности с o1, но при этом предоставляет ответы на 24% быстрее. Это делает её привлекательной для технических задач, требующих точности и скорости.

OpenAI также уделяет особое внимание безопасности и надёжности своей новой модели. Согласно компании, o3-mini прошла тщательные испытания на безопасность, поэтому учитывает политику безопасности OpenAI при выполнении запросов. В результате o3-mini значительно превзошла флагманскую модель GPT-4o в тестах на безопасность и устойчивость к взлому. Эти характеристики делают её более надёжной для использования в различных приложениях, где безопасность играет ключевую роль.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

OpenAI выпустила o3-mini, свою последнюю «рассуждающую» модель

Дима Кутузов

Этот день в истории Apple: Power Computing прекращает торговлю клонами Mac и закрывает магазин

Microsoft заявляет о росте доли Edge: правда или миф?