Новые нейросети появляются на свет с пугающей скоростью. И речь не только о крупных гигантах вроде OpenAI – на арену выходят десятки моделей, которые можно запустить локально у себя на компьютере.
На моем счету уже есть статьи, в которых я не раз сталкивал лбами разные ИИ. Но из всех узконаправленных сравнений моя самая любимая сфера – без сомнения, программирование.
Игроки первого эшелона – Anthropic, OpenAI и Google – не так давно подкинули нам новые версии своих моделей. Конечно, многие ждали выхода новой DeepSeek, но, к сожалению, чуда не произошло. Поэтому в сегодняшнем материале мы сосредоточимся на доступных нам флагманах.
В сегодняшней статье я сравню последние флагманские модели от ИИ-гигантов в кодинге. Не обещаю, что задания сами по себе будут сложными, но по крайней мере постараюсь, чтобы они ранжировались по возрастанию трудности их выполнения. Принимайте стратегически удобное положение, ну а я начинаю!
Модель от OpenAI, которая по представленным бенчмаркам показывает хорошие результаты во многих тестах. Новая серия привнесла ряд важных улучшений.
Для начала модель гораздо лучше ищет информацию в интернете и лучше справляется с ответами на объединенные вопросы из множества источников. Не будем забывать, что контекстное окно было увеличено до 1 миллиона токенов.
Компания проработала и улучшила базовые способности модели, но и сделала акцент на агентный режим. GPT-5.4 может анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. Понятное дело, не напрямую, через специальное ПО.
Anthropic при разработке этой модели стремилась создать инструмент, который будет максимально полезен в условиях реальной промышленной эксплуатации. Claude Opus получил ряд глубоких обновлений, которые касаются не только скорости обработки запросов, но и самой логики построения ответов.
Одной из центральных инноваций в новой версии стала технология внутреннего планирования. В отличие от прошлых итераций, Opus теперь не просто генерирует слово за словом, а выстраивает предварительную карту рассуждений. В задачах модель сначала проведет внутреннюю верификацию каждого этапа.
Если рассматривать опыт использования модели в разработке программного обеспечения, то здесь обновленный Opus делает серьезный шаг вперед. Благодаря контекстному окну объемом полтора миллиона токенов, вы можете оперировать не отдельными фрагментами, а целыми модулями системы. Это позволяет загрузить в память нейросети практически всю кодовую базу небольшого проекта.
Google не стал мелочиться и назвал Gemini 3.1 Pro своей самой интеллектуальной моделью для сложных задач. Звучит достаточно гордо.
Главная фишка апдейта – это улучшенное базовое мышление. Если прошлые обновления Gemini 3 Pro были больше про расширение возможностей, то здесь инженеры Google DeepMind занимались прокачкой внутреннего процессора модели.
Фактически технология глубокого мышления, которую на добавили в отдельный режим, теперь интегрирована прямо в основу модели. Это значит, что 3.1 Pro умеет думать над задачей дольше и качественнее, прокладывая несколько путей решения одновременно, а потом выбирая лучший.
Контекстное окно у модели, все так же 1 миллион токенов на входе. На выходе модель выдает до 64 тысяч токенов. То есть она способна сгенерировать целую небольшую повесть или очень объемный кусок кода.
Разработчики утверждают, что 3.1 Pro специально оптимизирована для задач программирования и агентных рабочих процессов. Это когда вы даете ей не один запрос, а целую цепочку задач.
Все модели для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 300 000 капсов для собственных экспериментов.
Сравнение не будет проходить на каких-то задачах сложного уровня. Грубо говоря, тут не появятся поэтапные многоэтажные проекты из 101 файла.
Модели пройдут через задачи разного уровня сложности. Всего их будет 4: от легкого до сложного. Каждая задача будет оценивать от 1 до 5 баллов. При этом только лучший из представленных вариантов может получить максимальный балл, а для всех других – 4. В оценивание входит не только сам функционал, но и, конечно же оформление, если оно есть.
Создай десктопное приложение "Инженерный калькулятор" на Python с использованием библиотеки Tkinter. Весь код должен находиться в одном файле. Интерфейс программы представляет собой сетку кнопок, включающую цифры от нуля до девяти, базовые арифметические операции сложения, вычитания, умножения и деления, а также функции возведения в степень, извлечения квадратного корня, тригонометрические функции синуса, косинуса и тангенса, кнопку сброса и знак равенства, а также поле для ввода и вывода чисел. Логика работы калькулятора должна обеспечивать корректную обработку нажатий кнопок и вычисление результата при нажатии на равно, причем для математических функций необходимо задействовать модуль math. Справа от основного блока кнопок требуется разместить текстовое поле для отображения истории последних десяти-двадцати выполненных операций в формате "2 + 2 = 4", при этом история должна сохраняться только в памяти в течение текущей сессии работы с программой. Также необходимо предусмотреть обработку ошибок, таких как деление на ноль или некорректные вводы, с выводом сообщения "Error" в поле результата.
Разработай текстово-графическую RPG-игру на Python с графическим интерфейсом на базе Tkinter, умещающуюся в один файл и сфокусированную на выборе и развитии персонажа. При запуске приложения пользователь попадает на экран создания персонажа, где ему предлагается выбрать одну из рас, например человека, эльфа или орка, причем каждая раса обладает уникальными стартовыми характеристиками в виде силы, ловкости и интеллекта, которые отображаются при наведении или выборе варианта, а также здесь присутствует поле для ввода имени героя. После создания персонажа открывается основное игровое окно, разделенное на несколько функциональных зон: текстовый лог в виде многострочного текстового поля для описания событий, набор кнопок действий, таких как "Исследовать", "Сражаться", "Отдохнуть" или "Инвентарь", и панель статуса с отображением текущих показателей здоровья, уровня и характеристик. Игровая механика включает простую систему событий: кнопка "Исследовать" генерирует случайное событие вроде находки золота, встречи с врагом или обретения зелья, а кнопка "Сражаться" запускает симуляцию боя с простым расчетом урона на основе силы противника и персонажа, при этом результат каждого действия выводится в текстовый лог. Для визуального разнообразия используется холст Canvas для отображения простого спрайта персонажа или противника в виде закрашенной фигуры, которая меняет свой цвет в зависимости от происходящего события, например красный для боя и зеленый для отдыха.
Напиши полноценную игру "Арканоид" на Python с использованием библиотеки Pygame, причем весь игровой движок и интерфейс должны быть реализованы строго в одном файле. При запуске игры пользователь видит графическое меню с пунктами "Новая игра", "Выбор уровня", где доступны как минимум уровень первый и уровень второй, и "Выход". Сама игровая механика соответствует классическому геймплею: внизу экрана располагается платформа, летает шарик, а вверху находятся разрушаемые кирпичи, при этом шарик должен физически корректно отскакивать от стен, платформы и кирпичей, а кирпичи исчезать при столкновении с ними, и если шарик касается нижней границы экрана, игрок теряет жизнь или проигрывает. При разрушении некоторых кирпичей со случайной вероятностью должны выпадать и подбираться платформой различные бонусы, такие как увеличение платформы, замедление шарика или его умножение, причем достаточно реализовать хотя бы два различных типа бонусов. Уровни должны быть реализованы как минимум в двух различных вариациях, отличающихся расположением кирпичей и, возможно, появлением более прочных кирпичей, требующих нескольких попаданий. В процессе игры на экране необходимо отображать текущий счет и количество оставшихся жизней игрока.
Создай симулятор эволюции организмов на Python с использованием библиотек Pygame и NumPy в рамках одного файла, причем эта задача включает элементы машинного обучения в виде простой нейросети и генетического алгоритма. Основная концепция заключается в том, что на экране существуют существа в виде кружков, которые пытаются выжить, поедая еду в виде зеленых квадратов, причем у каждого существа есть свой мозг – простая нейросеть, например с несколькими входами, одним скрытым слоем и двумя выходами для управления поворотом и движением. Каждое существо обладает уникальным геномом, представляющим собой веса его нейросети, который передается потомкам с некоторыми мутациями, а в качестве входных данных для нейросети используется зрение существ, то есть вектор направления и дистанция до ближайшей еды. Движение существ должно тратить их энергию, а поедание еды - восполнять ее, и когда уровень энергии достигает определенного порога, существо клонируется или размножается, передавая свой геном с мутацией, а если энергия падает до нуля, существо умирает. На экране должна отображаться вся динамика процесса с помощью Pygame, включая движущиеся существа и периодически появляющуюся еду, а также должен присутствовать простой график или счетчик, показывающий текущее поколение и статистику вроде максимального или среднего возраста существ. Для удобства наблюдения пользователь может нажимать пробел, чтобы ускорять или замедлять симуляцию. Ключевая цель этой симуляции состоит в том, чтобы со временем, в ходе эволюции, существа научились находить еду более эффективно, чем их первые поколения.
Обычный калькулятор, со всеми работающими функциями. Дизайн не назвать феерическим. Чего-то выделяющегося в этом варианте, я, увы, не нашел. Четыре балла в копилку модели.
Изначально калькулятор выглядел как показано выше, то есть немного срезанным. В принципе, неприятно, но критичным это никак не назвать. Исправляется самостоятельно ручками менее чем за минуту.
Далее, в принципе, ничего особо отличающегося от результата ChatGPT тут нет. Единственное, пожалуй, дизайн. Gemini решил раскрасить пару кнопок. Опять же, четыре балла в копилку модели.
А вот Opus демонстрирует достаточно приятный результат. Для начала – функционал калькулятора. Здесь он немного, но все же больше, чем то количество, которое представлено нам другими участниками сравнения. В финале – сам дизайн, который, пожалуй, самый приятный из рассмотренных нами. Заслуженно максимальный балл.

Хоть и можно сказать, что задание ChatGPT выполнил, но поставить даже 4 балла за этот вариант я не могу. Дизайн – нулевой, никаких особенностей, ничего интересного. Дам три балла в копилку, но не более.

Gemini показывает результат уже значительно лучше. Хотя, сам функционал или механики почти не отличаются от ChatGPT, но дизайн выглядит значительно приятнее глазу. Четыре балла в копилку модели.

Пожалуй, лучший вариант. Дизайн – мое почтение. Можно увидеть даже вашего персонажа, у которого в зависимости от событий меняется полоска здоровья. Максимальный балл в копилку модели.

На этот раз ChatGPT показывает достаточно хороший результат. Каких-то багов тут я не заметил. Как и говорилось в задании, есть два уровня, ранжированных по сложности. Бонус всего один - увеличение размера каретки. Четыре балла в копилку модели.

Gemini показывает вариант получше, в плане дизайна. Да и по функционалу здесь больше бонусов, в остальном все так же. Четыре балла в копилку модели.

Opus опять же показывает лучший результат из имеющихся. Хороший дизайн, много бонусов. Тут уже максимальный балл.
На самом деле ожидал, что хотя бы одна модель допустит ошибку в уравнении для подсчета траектории мяча. Нейросети наоборот отлично справились с этим элементом игры, в отличие от предыдущего раза с прошлыми версиями рассматриваемых участников.
Нетипичное для меня задание, в принципе, я его в первый раз решил закинуть в модельку.
ChatGPT выполнил все условия, привел статистику на данный момент времени. Суть в том, что симуляция начинается с минимального количества существ, затем они начинают кушать и размножаться за этот счет. Не хватило еды? Смерть. Четыре балла в копилку модели.

Gemini выдал похожий результат, но дорисовал траектории движения организмов. В обоих случаях со временем существа приходят к одной тактике - кружение на одном месте, а затем рывок к ближайшей еде, при ее появлении. Четыре балла в копилку модели, все же это не предел.

Opus опять же показывает максимально приятный и хороший результат. Во-первых появились графики, во-вторых сама статистика получила несколько новых параметров. В финале, у каждого организма появилась полоска здоровья. Максимальный балл в копилку модели.
|
ChatGPT 5.4 |
Gemini 3.1 Pro |
Claude Opus 4.6 |
|
|
Первое задание |
4 |
4 |
5 |
|
Второе задание |
3 |
4 |
5 |
|
Третье задание |
4 |
4 |
5 |
|
Четвертое задание |
4 |
4 |
5 |
|
Сумма |
15 |
16 |
20 |
Вот чего я не ожидал, так это увидеть Opus 4.6 на первом месте. Модель вышла не так давно, но потестить ее в разных задачах я уже успел. Результат в тех тестах мне не очень понравился, а тут, мое мнение о нейросети поменялось значительно.
Самой слабой моделью, по моему мнению, пожалуй, является ChatGPT 5.4. Мало того, что результаты генераций нельзя назвать лучшими, модель еще является самой дорогой из представленных в использовании.
Claude Opus 4.6 показал лучший результат, при этом его цена на самом деле средняя и не бьет так по карману, как вариант от OpenAI.
В финале Gemini 3.1 Pro показал себя как неплохой вариант, который показывает хороший результат за небольшую цену. По крайней мере, он вышел дешевле, чем две другие модели. Уровень генерации же на самом деле хватит за глаза в задачах уровня, который я рассматривал сегодня.
Источник


