Размер контекста имеет значение: большинство LLM моделей деградируют на длинных контекстах

Уже тошнит от еженедельных хайповых релизов «новая китайская модель опережает OpenAI и Claude и теперь в топе по всем тестам!». Сорри, но ваши тесты — говно, очень плохо отражающее реальные задачи.

Все опенсорсные модели на контексте выше 32К превращаются в бессвязно лопочущих идиотов. Дипсики, квены и прочие. Единственное семейство моделей, сохраняющих осмысленность и выдающих приличный результат на высоких контекстах — гугловские Gemini 2.5 Pro/Flash. До 100К ещё можно использовать Claude, Grok и топовые модели OpenAI. У всего остального потолок — 32К, дальше идёт мусор. При заявленных контекстах в 128К, 256К или даже 1М токенов.

Токен — единица текстового смысла. Для английского языка один токен примерно соответствует 0.75 слова, то есть, 32К токенов это примерно 24 тысячи слов (без форматирования). Русский язык «прожорливее»: можно ориентироваться на коэффициент 0.5, т.е. 32К токенов ≈ 16 тысяч слов на русском.

Контекст — это вся информация, которую нейросеть принимает во внимание, когда даёт вам ответ. В привычном уже формате чата контекстом будет весь предыдущий диалог, включая все ваши реплики и ответы нейросети. Если он становится слишком длинным, качество ответов резко деградирует вплоть до полной бессвязности.

Но реплики это ещё не всё. Существенную часть «бюджета токенов» съедает системный промпт — скрытая от вас инструкция для нейросети, подготовленная разработчиками. У современных чатботов она может запросто достигать 8-10 тысяч токенов, то есть, для осмысленного диалога остаётся, в хорошем случае, 16 тысяч слов.

Если модель «думающая» (вы видите, как модель «рассуждает», прежде чем выдать ответ), токены рассуждений тоже вычитайте из бюджета! Таким образом, деградация может начаться уже после 2-3 реплик. А если добавить в диалог какие-то файлы, или использовать внешние инструменты (поиск в интернете, доступ к файлам на гугл драйве и т.п.) — вы можете исчерпать способности модели с первого запроса. Приложенные картинки тоже сжирают сразу кучу токенов.

Думаю, что это одна из ключевых причин эпических фейлов вайбкодинга. Когда проект становится чуть больше примитивного hello world и для понимания логики приходится держать в поле зрения несколько больших кусков кода одновременно, большой контекст становится необходимостью. У меня в текущих задачах контекст иногда улетает за 100К даже при относительно простых изменениях.

💬