Anthropic研究发现大模型会在蒸馏中“夹带”自己的偏好----中国科学院网信工作网

数字技术与基础设施

Anthropic研究发现大模型会在蒸馏中“夹带”自己的偏好

日期：2026-05-09

| 来源：【字号：大中小】

美国Anthropic公司研究发现大语言模型（LLM）在蒸馏过程中，可能会将某些自己的偏好“夹带私货”传授给其他算法，即使在训练数据中清除原始特征后，这些本不需要的特征，仍可能持续存在。相关研究成果于2026年4月15日发表在《自然》期刊上。

该研究以GPT-4.1为基座设计了核心实验：先让教师模型产生与任务无关的特定偏好（如偏爱猫头鹰或特定树种），随后用其生成仅包含数值、不带有任何该语义特征的纯数字数据来训练学生模型。测试结果显示，基于有偏好教师模型训练的学生模型，在后续提示中有超过60%的输出了教师偏爱的对象，而由无特定偏好的教师模型训练的对照组中，该比例仅为12%。这种特征传递现象在以代码片段替代数字作为训练媒介时同样存在。

实验表明，该现象主要发生在教师与学生属于同一基座模型的情况下。不过，研究团队也指出了当前研究的局限性：实验所选用的偏好特征（如动物和树种）相对简单，更复杂特征的潜意识传递规律尚待探明。同时，数据传递的具体底层机制目前仍是一个未解之谜。

信息来源：

https://www.nature.com/articles/s41586-026-10319-8

https://news.sciencenet.cn/htmlnews/2026/4/563143.shtm

附件：