Anthropic研究发现大模型会在蒸馏中“夹带”自己的偏好
| 来源:【字号:大 中 小】
美国Anthropic公司研究发现大语言模型(LLM)在蒸馏过程中,可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。相关研究成果于2026年4月15日发表在《自然》期刊上。
该研究以GPT-4.1为基座设计了核心实验:先让教师模型产生与任务无关的特定偏好(如偏爱猫头鹰或特定树种),随后用其生成仅包含数值、不带有任何该语义特征的纯数字数据来训练学生模型。测试结果显示,基于有偏好教师模型训练的学生模型,在后续提示中有超过60%的输出了教师偏爱的对象,而由无特定偏好的教师模型训练的对照组中,该比例仅为12%。这种特征传递现象在以代码片段替代数字作为训练媒介时同样存在。
实验表明,该现象主要发生在教师与学生属于同一基座模型的情况下。不过,研究团队也指出了当前研究的局限性:实验所选用的偏好特征(如动物和树种)相对简单,更复杂特征的潜意识传递规律尚待探明。同时,数据传递的具体底层机制目前仍是一个未解之谜。
信息来源:
https://www.nature.com/articles/s41586-026-10319-8
https://news.sciencenet.cn/htmlnews/2026/4/563143.shtm
