Ещё раз: повторяй промт дважды — и нейросеть станет умнее. Это реально работает!
Исследователи Google Яньив Левиатан, Матан Кальман и Йосси Матиас опубликовали в декабре 2025 года препринт научной работы с неожиданно простым наблюдением: если вставить запрос пользователя в промт к LLM дважды (и более раз) — буквально скопипастить его — то качество ответа у нерассуждающих LLM улучшается в 47 случаях из 70 по тестовым бенчмаркам. Минусов нет.
Понять, почему это вообще работает, помогает архитектура LLM: это каузальные языковые модели, в которых токен может «видеть» только уже прочитанные токены, но не будущие. Из-за этого порядок слов в промте влияет на качество ответа: конструкция «контекст → вопрос» часто даёт другой результат, чем «вопрос → контекст». Когда ты повторяешь промт дважды, токены из первой копии вопроса получают возможность «посмотреть» на токены второй — и наоборот. По сути, так модель точно видит весь контекст, без ограничений каузальности.
Важно то, что в результате повтора длина и формат ответа при этом не меняются. Задержка на ответ тоже не растёт. Исключение — очень длинные промты: там растёт нагрузка, а вместе с ней и задержка ответа.
Для reasoning-моделей вроде o3, Claude 3.7 Sonnet или DeepSeek-R1 трюк практически бесполезен: в исследование у повтора 5 побед, 1 проигрыш, 22 ничьи по тем же бенчмаркам. Причина — эти модели уже делают то же самое самостоятельно: в цепочке рассуждений они сами переформулируют и повторяют части задачи, прежде чем найти и дать ответ.
А вот для «обычных» моделей без встроенного reasoning — GPT-4o, Claude 3 Haiku, Gemini 2.0 Flash и аналогов — эффект в некоторых случаях очень серьёзный. Пример из исследования: точность Gemini 2.0 Flash-Lite на задаче поиска имён по списку выросла с 21% до 97% при повторении промта.
Авторы также проверили варианты: повторять не только механически, но и с маркером в середине — «Я повторяю свой вопрос: [вопрос]». Это работает. Несколько повторений иногда лучше, чем два. Всё это укладывается в ту же логику: чем больше у модели шансов «связать» части своего контекста между собой, тем точнее ответ.
Забавно, что человеческое внимание работает точно так же. Широко разошлось откровение Мэтта Деймона про то, что Netflix в последние годы стали повторять ключевую информацию по нескольку раз в одном эпизоде: якобы зрители сильнее отвлекаются на смартфон, и если важный сюжетный поворот не повторить, его пропустят и потом не поймут, что происходит в сериале. Оказывается, у LLM та же проблема — только на уровне архитектуры, а не невнимательности.
С прикладной точки зрения вывод такой: при использовании моделей без режима рассуждений стоит попробовать вставить свой запрос в конец промта ещё раз — это буквально ничего не стоит. Для продакшен-систем авторы отдельно отмечают, что повторение промта можно использовать при файнтюне — и даже улучшить reasoning-модели, если они были специально обучены избегать повторов.
Маленькая оговорка: работа длиной меньше пяти страниц — это препринт от декабря 2025 года, и рецензии пока не было, но и обновлений тоже. Но её авторы — это та самая команда Google Research, которая придумала спекулятивное декодирование. Это техника ускорения работы больших LLM, которую эта команда предложила ещё в 2022 году: вместо того чтобы гонять медленную большую модель на каждый токен, сначала быстрая маленькая модель делает «черновик» ответа (на несколько токенов вперёд), а большая модель потом одним проходом проверяет, согласна ли она с этим черновиками, то есть работает как редактор.
Сегодня спекулятивное декодирование встроено в инфраструктуру крупнейших провайдеров, в том числе API Anthropic и Google. Обычным пользователям от этого ни холодно ни жарко: просто модели отвечают быстрее, чем отвечали бы без этой техники, а компании экономят на вычислениях. Но это так, лирическое отступление к тому, что команда — не абы кто, и находка про повторение промтов — не случайность и не булшит.
Скрытый текстТакие посты чаще выходят у меня в Telegram-канале, где в основном пишу про AI и его применение. Что? Сам раскрыл этот спойлер.
Источник


