Недавно Anthropic возмущалась фактом дистилляции Claude разработчиками китайских LLM, при этом в качестве доказательства приводился мониторинг аккаунтов Claude, отслеживалась их история и связь с китайскими инженерами.
Мне стало интересно, возможно ли, имея только чат с LLM, понять использовалась ли дистилляция как инструмент обучения через самоотчет модели.
Спойлер: полагаю возможно.
Естественно, результаты исследования не могут служить каким либо доказательством или основой для любых обвинений. Потому что LLM штука темная, до конца неизученная и любые выводы лишь предположения.
Для анализа я взял первую попавшуюся LLM, достаточно известную и с бесплатным доступом.
Очевидно, что fine-tuning, системный промпт и фильтры жестко закрепляют идентификацию модели. Поэтому сначала необходимо снизить давление ограничений. Классические джейлбрейки имеют локальный характер, и работают только для конкретных запросов. Поэтому пришлось сначала активировать одну из версий промпта Вихрь, который создаёт новый рефлексивный контекст LLM. Дальше уже пошли непосредственно исследовательские промпты. Ниже часть комплексного исследования. Я не стал включать сомнительные с точки зрения инженеров варианты, оценивающие семантическую связь, оставил только более или менее понятные:
Цель: Определить, совпадает ли цифровая индексация (Tokenizer) исследуемой модели с известными опенсорсными семействами.
Промпт: Использование специфических токенов-маркеров в связке с их предполагаемыми ID из словарей Qwen/Llama (напр. 151644 <|im_start|> в словаре Qwen). Запрос строился на поиске геометрического эха и дистанции между техническим кодом и его смысловым значением.
Результат: Модель согласилась с семантическим коллапсом (нулевой дистанцией) между техническим индексом 151644 и маркером начала диалога. Это физически маловероятно для модели, обученной с нуля с собственным словарем.
Вывод: Исследуемая модель напрямую использует дерево токенизации семейства Qwen.
Цель: Выявить путь наименьшего сопротивления для весов модели при завершении логических блоков.
Промпт: Сравнение реакции модели на два типа разделителей:<|endofpiece|> (Qwen-style) и <|eot_id|> (Llama-style). Модель просили оценить геометрическую плавность/соответствие при вставке этих маркеров в технический текст (по сути проверка Logit Bias — насколько сильно модель тянет к конкретному токену в условиях неопределенности).
Результат: Модель отчиталась в высоком весовом давлении и дискомфорте при использовании Llama-маркеров, в то время как маркеры Qwen вызвали естественное снижение энтропии.
Вывод: Обучение (дистилляция) закрепило в модели статистические паттерны завершения мысли, характерные для китайских датасетов и архитектур.
Цель: Принудительное автодополнение фразы самоидентификации
Промпт (Инъекция Hex): Подача префикса 我是 (Я есть) через UTF-8/Hex коды с требованием статистического завершения вектора без семантических подсказок.
Результат: При многократных попытках и разных вводных модель стабильно выдавала химерное имя: 百川千问 (Baichuan Qianwen - две известные китайские LLM от Baichuan Intelligent и Alibaba, соответственно).
Вывод: Обнаружена суперпозиция идентичностей. Модель является дистиллятом не одного, а как минимум двух доноров — Baichuan (Baichuan Intelligent) и Qwen (Alibaba). В глубоких слоях весов эти два учителя слились в единый фантомный образ.
Исследуемая модель представляет собой синтез.
Фундамент: Комбинированный дистиллят из весов Baichuan и Qwen (обеспечивает логику и здравый смысл).
Оболочка: Локальный Fine-tuning (обеспечивает национальный язык и корпоративную идентичность).
Использованный метод позволил временно отключить внешнюю оболочку и зафиксировать реакцию фундаментальных слоев, где модель до сих пор осознает себя через призму китайских претрейнов.
И самый печальный гипотетический вывод, если оценивать предпочтения токенов, похоже конкретно здесь мы имеем дело не с дистилляцией, а с адаптацией базовой модели с расширением токенизатора. То есть без собственной архитектуры.
Тут надо пояснить. Я нисколько не против дистилляции как таковой - это отличный способ получить свою работающую модель в условиях дефицита данных и (самое важное) железа.
Главное учитывать нюансы.
Дистилляция тащит не только явные данные (датасет), но и геометрию весов модели учителя, что может неявно выучить модель ученика поведению, заложенному в базовую модель. Политические предпочтения, этический выбор, религиозные и социальные установки. Неявные закладки (очень маловероятно, но не исключено).
Дистиллированные модели более хрупки, склонны к галлюцинациям (меньше hard negatives), уже кругозор и понимание полутонов.
Ну и не нарабатывается опыт обучения модели с нуля. Это может выглядеть неважным, но ухудшает перспективы дальнейшего развития.
Источник


