GPT-5: Первые впечатления

Релиз GPT-5 застал меня посреди трёхсуточного марафона нетривиальной работы на стыке промышленного сисадминства и форензики (о которой, возможно, расскажу отдельно). Несколько десятков больших диалогов, открытых параллельно, пережили экстренную пересадку мозгов прямо в полёте.
Что могу сказать, если оставить за скобками очевидные политические ошибки OpenAI (принудительный перевод всех на новую модель одним днём с резким сокращением лимитов — кто вообще так делает?!). Модели, с моей точки зрения, очень неплохие — как обычная GPT-5, так и Thinking. Со всеми моими задачами они справились нормально.
По ощущениям, рассуждающая версия по сравнению с o3 стала ГОРАЗДО меньше использовать инструменты. Но это вовсе не плохо. Две трети вызовов инструментов o3 — полная дичь, запрос того, что вообще не надо было запрашивать, запуск каких-то рандомных скриптов, которые не надо запускать. С последующим героическим отсеиванием всего этого информационного мусора. Всё это сжирает токены контекста (и ваши деньги) впустую. У GPT-5 подобного в разы меньше. Честно говоря, вообще не видел ни разу. Если она использует инструмент — в этом, как правило, есть какой-то смысл. Как минимум, это должно быть экономичнее.
Я ещё не проверил новую модель в кодинге. До сих пор из OpenAI-шных моделей я использовал для программирования только 4.1 — она пригодна для простых, рутинных и чётко очерченных задач, при этом, фактически, бесплатна, если купить подписку на Github Copilot за 100 долларов в год. Для серьёзных задач я переключался между Gemini 2.5 Pro, моей основной рабочей лошадкой, и Claude Sonnet 4, которой я иногда пользуюсь для разнообразия и чтобы получить второе мнение, если Gemini вдруг заело. Большие контексты, при этом, никто кроме Gemini нормально не тянет, а Клод ещё и дерёт три шкуры за API.
Так вот, самое интересное в новинке — то, что в тестах высоких контекстов она показывает результаты лучше Gemini! Это первая модель от OpenAI, которая, по крайней мере в формальных тестах, не превращается в полное дерьмо на контекстах выше 64K. См. иллюстрацию: верхний график — GPT-5 Thinking, фиолетовый график в середине — GPT-4.1, а серая линия — одна из лучших китайских моделей, Qwen 3 235B, чисто для понимания базового уровня.
Вот это — действительно интересно.
notion image