Вы наверняка слышали про Chain-of-Thought. "Пусть модель думает вслух, и она станет умнее" — звучит логично, правда? Добавляем "Let's think step by step" в промпт, модель генерирует больше токенов, качество растёт. Почему это работает — долгое время было неочевидно.
Но вот что странно: DeepSeek-R1, QwQ-32B и модели серии OpenAI o (o1, o3) показывают результаты, которые невозможно объяснить просто "более длинными рассуждениями". Они решают задачи, на которых обычные модели с Chain-of-Thought спотыкаются. И дело не в размере модели и не в количестве токенов.
Исследователи из Google Research и University of Chicago в статье "Reasoning Models Generate Societies of Thought" заглянули внутрь этих моделей — и обнаружили там нечто неожиданное. Внутри reasoning-моделей происходит не монолог. Там идёт совещание — симуляция многоперспективного диалога внутри одной модели. С конфликтами, дебатами и примирением. И это не просто аналогия — это буквальные паттерны в токенах модели.
Давайте разберёмся, что не так с классическим подходом.
Chain-of-Thought работает примерно так: модель получает задачу, последовательно выписывает шаги решения, приходит к ответу. Один эксперт думает вслух. Линейно. Без сомнений. Без альтернатив.
Проблема в том, что сложные задачи редко решаются линейно. Когда вы сами решаете трудную проблему, вы:
Пробуете один подход, упираетесь в стену
Переключаетесь на другой
Возвращаетесь к первому с новым пониманием
Сомневаетесь в своих промежуточных выводах
Проверяете результат
Instruction-tuned модели этого не делают. Они выбирают один путь и идут по нему до конца. Даже если этот путь ведёт в тупик.
|
Характеристика |
Instruction-tuned |
Reasoning-модели |
|
Поток рассуждений |
Линейный |
Нелинейный, с ветвлениями |
|
Альтернативы |
Не рассматривает |
Генерирует и сравнивает |
|
Self-correction |
Редко |
Регулярно |
|
Проверка результата |
Обычно нет |
Встроена в процесс |
|
Длина trace |
Короткая |
Длинная |
|
Accuracy на сложных задачах |
Ниже |
Выше |
Представьте себе совещание в компании. Не формальное, где все кивают головой, а настоящее — где продакт спорит с разработчиком, дизайнер предлагает третий вариант, а тимлид пытается найти компромисс.
Именно это происходит внутри reasoning-моделей.
Исследование показало, что DeepSeek-R1 и QwQ-32B не просто "думают дольше". Они генерируют внутренний диалог между разными перспективами. Каждая перспектива — это как отдельный эксперт со своим подходом (технически это разные активационные паттерны в одной модели, а не отдельные сущности):
Перспектива A: "Давайте решим алгебраически"
Перспектива B: "Нет, геометрический подход нагляднее"
Перспектива C: "А что если комбинировать оба метода?"
И эти перспективы не просто сосуществуют. Они спорят. Конфликтуют. И в итоге приходят к консенсусу.
Звучит похоже на Mixture of Experts (MoE)? Это разные вещи.
Mixture of Experts — архитектурный паттерн. В моделях типа Mixtral или Switch Transformer есть буквально разные подсети-эксперты, и router решает, какого эксперта активировать для каждого токена. Это hardcoded в архитектуре: эксперты существуют как отдельные веса, routing происходит на уровне forward pass.
Society of Thought — эмерджентное поведение. Никаких отдельных экспертов в архитектуре нет. Разные "перспективы" — это разные активационные паттерны в одной и той же модели, которые возникают во время генерации. Модель не была спроектирована для этого — она сама научилась переключаться между разными "точками зрения" в процессе рассуждения.
|
Mixture of Experts |
Society of Thought | |
|
Уровень |
Архитектура модели |
Паттерн рассуждений |
|
Эксперты |
Отдельные подсети с разными весами |
Активационные паттерны в одной модели |
|
Когда работает |
Forward pass (каждый токен) |
Inference (в процессе генерации) |
|
Явный дизайн |
Да, заложено архитектурно |
Нет, возникает спонтанно |
|
Routing |
Learned router выбирает эксперта |
Нет явного routing, переключение через маркеры в тексте |
Проще говоря: MoE — это "разные эксперты обрабатывают разные части входа", а Society of Thought — это "одна модель ведёт внутренний диалог с разных позиций".
Почему "внутренний диалог" вообще помогает? В социальной психологии давно известно: группа экспертов с разными точками зрения решает сложные задачи лучше, чем один гений. Diversity + structured debate = better outcomes.
Reasoning-модели воспроизводят этот принцип внутри себя. Не потому, что их этому учили — а потому, что это работает.
Концепция "общества внутри разума" не нова. Она имеет глубокие корни:
Михаил Бахтин (1920-е) — теория диалогизма: мышление по своей природе диалогично
Charles Cooley и George Mead — социальное "я" формируется через внутренний диалог
Marvin Minsky (1986) — "Society of Mind": интеллект как взаимодействие множества простых агентов
То, что reasoning-модели спонтанно воспроизводят эти паттерны, говорит о том, что внутренний диалог — возможно, фундаментальный механизм сложного мышления.
Исследователи выделили четыре ключевых паттерна "conversational dynamics" в reasoning-моделях:
Модель задаёт вопросы самой себе:
Это не риторические вопросы. Модель реально переключается между режимом "спрашивающего" и "отвечающего".
Смена точки зрения на проблему:
Маркеры: "Actually...", "Wait, what if...", "Let me think..."
Конфликт между внутренними голосами:
Маркеры: "But...", "However...", "Hmm, я не уверен..."
Примирение и синтез:
Маркеры: "So...", "Therefore...", "Let me verify..."
Чтобы разница была наглядной, посмотрим на упрощённом примере, как instruction-tuned модель и reasoning-модель решают одну и ту же задачу.
Задача: Решить систему уравнений 5x − 7y = 1 и 3x + 4y = 20
Решение:
Из первого уравнения выразим x: x = (1 + 7y) / 5
Подставим во второе: 3(1 + 7y)/5 + 4y = 20
(3 + 21y)/5 + 4y = 20
3 + 21y + 20y = 100
41y = 97
y = 97/41
x = (1 + 7 * 97/41) / 5 = 144/41
Ответ: x = 144/41, y = 97/41
Характеристики: Линейный поток. Один метод выбран сразу. Нет самопроверки. Нет рассмотрения альтернатив.
Задача: Решить систему уравнений 5x − 7y = 1 и 3x + 4y = 20
[DEFINE] Переформулирую задачу:
Два линейных уравнения, две переменные. Нужно найти x и y.
[BLOOM] Какие подходы возможны?
- Метод подстановки (выразить одну переменную)
- Метод исключения (сложить/вычесть уравнения)
Хм, коэффициенты не очень удобные для исключения...
Но подожди — если умножить первое на 4, а второе на 7...
[PERSPECTIVE SHIFT]
Нет, позволь мне подумать иначе. Подстановка проще для понимания.
Из уравнения (2): x = (20 − 4y)/3
Подставляю в (1): 5[(20 − 4y)/3] − 7y = 1
[CONFLICT]
Подожди, получаются дроби. Может, исключение всё-таки лучше?
Но я уже начал... продолжу и проверю.
Умножаю на 3: 5(20 − 4y) − 21y = 3
100 − 20y − 21y = 3
100 − 41y = 3
y = 97/41
[VERIFICATION]
Хм, проверю: подставлю обратно...
- В уравнение (1): 5*(144/41) − 7*(97/41) = 720/41 − 679/41 = 41/41 = 1 ✓
- В уравнение (2): 3*(144/41) + 4*(97/41) = 432/41 + 388/41 = 820/41 = 20 ✓
[RECONCILIATION]
Оба метода дали бы тот же ответ, но подстановка оказалась достаточно прямолинейной. Проверка подтверждает корректность.
Ответ: x = 144/41, y = 97/41
Характеристики:
- [DEFINE] — переформулировка задачи
- [BLOOM] — генерация альтернативных подходов
- [PERSPECTIVE SHIFT] — смена точки зрения
- [CONFLICT] — внутренний конфликт между подходами
- [VERIFICATION] — самопроверка
- [RECONCILIATION] — примирение, синтез выводов
Обратите внимание: оба решения приходят к одному ответу. Но reasoning-модель по пути рассмотрела альтернативы, засомневалась в своём выборе, проверила результат. Это и есть "общество мыслей" в действии.
Четыре паттерна — это только часть картины. Исследователи пошли дальше и применили классический инструмент из социологии: Bales' Interaction Process Analysis (IPA).
Это система анализа групповых дискуссий, разработанная социологом Робертом Бейлсом в 1950-х годах. Она выделяет 12 типов коммуникативных актов, которые происходят в любой групповой дискуссии — от совещания в офисе до научного семинара.
Оказалось, что reasoning-модели воспроизводят все эти роли в своих внутренних рассуждениях.
|
Категория |
Роль |
Пример маркера |
Что делает |
|
Вопросы |
Ask for orientation |
"What is the problem asking?" |
Запрашивает факты, уточняет условия |
|
Ask for opinion |
"Which method is better here?" |
Запрашивает оценку, мнение | |
|
Ask for suggestion |
"How should I approach this?" |
Запрашивает направление действий | |
|
Ответы |
Give orientation |
"The problem has two variables..." |
Даёт факты, информацию |
|
Give opinion |
"I think substitution is simpler" |
Даёт оценку, анализ | |
|
Give suggestion |
"Let me try elimination first" |
Предлагает конкретное действие | |
|
Позитивные |
Agreement |
"Yes, that makes sense" |
Соглашается, подтверждает |
|
Solidarity |
"This approach will work" |
Выражает уверенность, поддержку | |
|
Tension release |
Okay, let's move forward" |
Снимает напряжение, разряжает | |
|
Негативные |
Disagreement |
"But that gives fractions..." |
Возражает, не соглашается |
|
Antagonism |
"This is getting complicated" |
Выражает фрустрацию | |
|
Tension |
"Wait, something is wrong here" |
Создаёт напряжение, сигнализирует о проблеме |
Важно не просто наличие этих ролей, а их баланс. В исследовании использовали Jaccard index для измерения "reciprocal balance" — насколько сбалансированы парные роли (вопрос-ответ, согласие-несогласие).
Что обнаружили:
Reasoning-модели (DeepSeek-R1, QwQ) показывают значительно более высокий баланс ролей, чем instruction-tuned модели
Более высокий баланс коррелирует с более высокой accuracy
На сложных задачах разница в балансе ещё более выражена
Это похоже на хорошо проведённое совещание: не только споры, но и резюмирование; не только критика, но и конструктивные предложения.
Исследователи не остановились на ролях. Они проанализировали, насколько разные перспективы внутри reasoning-моделей отличаются друг от друга — и обнаружили, что diversity (разнообразие) играет ключевую роль.
Для анализа использовали Big Five — классическую модель личностных черт из психологии:
|
Черта |
Что измеряет |
Как проявляется в рассуждениях |
|
Openness |
Открытость новому |
"Let me try a different approach..." |
|
Conscientiousness |
Добросовестность |
"Let me double-check this calculation..." |
|
Extraversion |
Экстраверсия |
Активное предложение идей |
|
Agreeableness |
Дружелюбие |
"Yes, that makes sense, and also..." |
|
Neuroticism |
Тревожность |
"Wait, something seems off here..." |
Оказалось, что в reasoning-моделях разные перспективы имеют различные личностные профили. Одна перспектива может быть высоко по Openness ("а что если попробовать иначе?"), другая — высоко по Conscientiousness ("давай перепроверим").
На практике это выглядит как разные "роли" в команде:
Critical verifier — высокий Neuroticism, фокус на поиске ошибок
Creative ideator — высокий Openness, генерация альтернатив
Systematic executor — высокий Conscientiousness, методичное выполнение
Integrator — высокий Agreeableness, синтез разных подходов
Помимо личностных черт, исследователи измерили "expertise diversity" — насколько разные перспективы используют разные области знаний. Для этого применили cosine distance между embeddings каждой перспективы.
Результат: Reasoning-модели показывают значительно более высокое разнообразие экспертизы между перспективами, чем instruction-tuned модели.
Разнообразие перспектив решает проблему "echo chamber" — когда все участники дискуссии думают одинаково и усиливают ошибки друг друга.
В instruction-tuned моделях рассуждение часто застревает в одном подходе. Если первый шаг был ошибочным, модель продолжает в том же направлении.
В reasoning-моделях разные перспективы могут:
Заметить ошибку ("Wait, that doesn't seem right...")
Предложить альтернативу ("What if we try...")
Проверить результат с другой стороны ("Let me verify by...")
Чтобы убедиться, что метрики diversity осмысленны, исследователи проверили их на Intelligence Squared Debates Corpus — базе реальных структурированных дебатов между экспертами.
Корреляция между метриками diversity и качеством дебатов: rho = 0.86 (p < 0.001).
Это подтверждает, что те же паттерны, которые делают человеческие дебаты продуктивными, работают и внутри reasoning-моделей.
Это не просто красивая теория. Исследователи провели серию экспериментов, которые подтвердили причинно-следственную связь.
DeepSeek-R1 и QwQ-32B сравнили с instruction-tuned моделями (DeepSeek-V3, Qwen-2.5-32B-Instruct, Llama-3.3-70B-Instruct) на шести бенчмарках:
BigBench Hard (логика)
GPQA (graduate-level физика)
MATH Hard (математика)
MMLU-Pro, MUSR, IFEval
Результат: Reasoning-модели показывают статистически значимо больше conversational behaviors (p << 10^-100). Причём разница усиливается на более сложных задачах.
Исследователи нашли конкретную feature в Sparse Autoencoder (Feature 30939), связанную с маркерами "surprise/realization" — теми самыми "Wait...", "Hmm...", "Actually...".
Эту feature можно искусственно усиливать (+10) или подавлять (-10):
|
Steering |
Accuracy |
Conversational markers |
Эффект |
|
-10 (подавление) |
23.8% |
Почти отсутствуют |
Модель "забывает" сомневаться |
|
0 (baseline) |
27.1% |
Умеренно |
Обычное поведение |
|
+10 (усиление) |
54.8% |
Много |
Активная самопроверка |
Контраст показателен: при -10 модель перестаёт использовать маркеры типа "Wait...", "Hmm..." — и accuracy падает вдвое. При +10 маркеры появляются чаще — и accuracy удваивается.
Это доказывает причинно-следственную связь: conversational паттерны не просто коррелируют с accuracy, они её вызывают.
Базовые модели (Qwen-2.5-3B, Llama-3.2-3B) обучали с помощью RL, где награда давалась только за правильный ответ. Никакой явной награды за "conversational behavior".
Результат: Модели спонтанно увеличивали частоту внутренних диалогов по мере обучения. Эволюция сама нашла этот паттерн.
Модели, которые pre-fine-tuned с примерами диалоговых рассуждений:
Обучались быстрее
Достигали более высокой accuracy
Показывали transfer effects на другие задачи
Самый интересный результат — transfer. Модели, обученные conversational reasoning на одной задаче (Countdown — математическая игра), показывали улучшение на совершенно других задачах.
Пример transfer:
Обучение: Countdown task (комбинаторная математика)
Тест: Misinformation detection (определение ложной информации)
Результат: улучшение accuracy без дополнительного обучения
Это говорит о том, что conversational reasoning — не узкий хак для конкретной задачи, а общий навык. Модель учится не "решать математику диалогом", а "решать сложные задачи через структурированное обсуждение с собой".
Окей, интересная наука. Но что с этим делать на практике?
Если ваша задача требует сложных рассуждений (математика, логика, планирование), reasoning-модели типа DeepSeek-R1 или QwQ дадут лучший результат, чем просто "большая instruction-tuned модель".
Дело не в размере. Дело в паттерне рассуждений.
Конкретные примеры задач для reasoning-моделей:
Отладка сложного бага с неочевидной причиной
Архитектурные решения с множеством компромиссов
Анализ требований с противоречивыми ограничениями
Математические доказательства и верификация
Можно попробовать явно поощрять "conversational" стиль в промптах:
"Рассмотри несколько подходов"
"Проверь свои промежуточные выводы"
"Если сомневаешься — попробуй альтернативный метод"
Это не гарантирует успех с обычными моделями, но может помочь.
Если вы выполняете fine-tune своей модели, рассмотрите "conversational scaffolding" — включение примеров с внутренним диалогом в обучающие данные.
Когда reasoning-модель выдаёт длинный trace (трассировку) — это не "мусор". Там реально происходит полезная работа. Изменение точки зрения, конфликты, примирение — все это влияет на качество окончательного ответа.
Reasoning-модели — не серебряная пуля. Они медленнее и дороже, а для некоторых задач просто избыточны.
Используйте обычные instruction-tuned модели, когда:
Простые фактические вопросы — "Какая столица Франции?" не требует внутренних дебатов
Творческие задачи без правильного ответа — генерация текста, идей, где нет "верного" решения
Задачи с требованием быстрого ответа — reasoning-модели генерируют длинные trace (трассировки), что увеличивает latency (задержку)
Простые линейные решения — если задача решается за 2-3 очевидных шага, "общество мыслей" не даст преимуществ
Массовые операции — обработка тысяч однотипных запросов, где стоимость одного токена имеет решающее значение
Правило: если задача не вызывает у вас самих желания "подумать с разных сторон" — скорее всего, reasoning-модель избыточна.
Основной вывод исследования заключается в том, что совершенствование мышления в современных моделях заключается не только в "большем количестве токенов" или "большем количестве вычислений". Это качественно иной образ мышления.
Reasoning-модели научились имитировать коллективный интеллект:
Четыре паттерна (вопросы, смена перспектив, конфликт, примирение) структурируют внутренний диалог
12 социо-эмоциональных ролей Bales' IPA воспроизводятся в рассуждениях модели
Разнообразие точек зрения (Big Five "Большая пятерка", экспертиза) предотвращает эффект "эхо-камеры"
Transfer effects показывают, что это общий навык, а не хак для конкретных задач
И самое интересное — этот паттерн возникает спонтанно при обучении на accuracy. Никто не учил модели "спорить с собой". Они сами к этому пришли, потому что это работает. То, что философы и психологи описывали как природу мышления (Бахтин, Minsky), модели переоткрыли эмпирически.
Для практиков вывод прост: reasoning-модели — не универсальное решение, но для задач, требующих многоперспективного анализа, они дают качественно другой результат. Понимание механизма помогает выбрать правильный инструмент.
# Ссылки
1. Reasoning Models Generate Societies of Thought — Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Aguera y Arcas, James Evans (Google Research, University of Chicago), arXiv:2601.10825, январь 2025
2. DeepSeek-R1 — репозиторий модели
3. QwQ-32B Preview — блог-пост о модели
4. OpenAI o1 — Learning to Reason with LLMs
5. OpenAI o3 — Deliberative Alignment
6. Chain-of-Thought Prompting — Wei et al., 2022
Источник


