OpenAI представила GPT-4.1: акцент на программировании и огромный контекст

ИИ-модели ориентированы на разработчиков и обрабатывают до миллиона токенов

2 мин.
OpenAI представила GPT-4.1: акцент на программировании и огромный контекст

OpenAI представила семейство новых языковых моделей GPT-4.1, в которое входят GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Все они, по заявлению компании, особенно хороши в задачах программирования и следовании инструкциям. Модели доступны через API, но не интегрированы непосредственно в ChatGPT.

Главная особенность — поддержка контекстного окна объёмом до 1 миллиона токенов, что примерно соответствует 750 тысячам слов — больше, чем в «Войне и мире». Это открывает возможности для решения комплексных инженерных задач и генерации больших объёмов кода в рамках одного запроса.

Цель OpenAI — создать полноценного «агентного программиста», способного самостоятельно разрабатывать приложения от начала до конца, включая тестирование, отладку и написание документации. GPT-4.1 — шаг в этом направлении. Как отметили в компании, модель была улучшена на основе отзывов разработчиков: теперь она лучше справляется с фронтендом, структурой ответов, последовательным использованием инструментов и минимизирует ненужные правки.

OpenAI заявляет, что GPT-4.1 показывает лучшие результаты по сравнению с предыдущими моделями GPT-4o и GPT-4o mini на таких тестах, как SWE-bench. При этом версии mini и nano быстрее и дешевле, но в ущерб точности. Nano считается самой быстрой и дешёвой моделью OpenAI.

Стоимость моделей:

  • GPT-4.1 — $2 за миллион входных токенов и $8 за миллион выходных;
  • GPT-4.1 mini — $0.40 / $1.60;
  • GPT-4.1 nano — $0.10 / $0.40.

Внутреннее тестирование OpenAI показало, что GPT-4.1 набрала от 52% до 54.6% на бенчмарке SWE-bench Verified — немного меньше, чем у конкурентов: Gemini 2.5 Pro от Google (63.8%) и Claude 3.7 Sonnet от Anthropic (62.3%).

На тесте Video-MME, проверяющем понимание видеоконтента, GPT-4.1 показала 72% точности в категории «длинные видео без субтитров», став лидером.

Однако модель не лишена недостатков. Чем больше объём входных данных, тем выше вероятность ошибок: при увеличении объёма от 8000 до 1 000 000 токенов точность упала с 84% до 50%. Также GPT-4.1 часто слишком буквально воспринимает запросы, что требует более чёткой формулировки задач.

Тем не менее, с улучшенной актуальностью знаний (до июня 2024 года) и новыми возможностями, GPT-4.1 – серьёзный шаг вперёд в развитии ИИ-инструментов для программистов.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube