2月23日凌晨,人工智能安全和研究公司Anthropic在社交平台X及官方博客上公开指控三家中国AI大模型公司——月之暗面(Moonshot AI)、MiniMax和DeepSeek——对其旗舰模型Claude发起了“工业规模的蒸馏攻击”(industrial-scale distillation attacks)。

随后,xAI的马斯克(ElonMusk)在X平台上回应此事称,Anthropic大规模窃取训练数据,并为此支付了数十亿美元的赔偿金。这是不争的事实。

Anthropic在官方声明中指出,这三家实验室通过创建超过24,000个欺诈性账户,与Claude模型进行了超过1600万次交互,其目的在于非法提取Claude的核心能力,用于训练和改进它们自己的大模型。
Anthropic将这种行为定义为“工业规模”的攻击,并强调其强度和复杂性都在不断增加,呼吁行业参与者、政策制定者和整个AI社区迅速采取协调行动。
什么是“蒸馏攻击”?合法与非法的边界
Anthropic在博文中解释了“蒸馏(Distillation)”这一概念。
- 合法的蒸馏: 这是一种广泛使用且合法的AI模型训练方法。例如,前沿AI实验室通常会用自己最强大的基础模型(教师模型)来“教导”一个更小、更便宜的模型(学生模型),使其在保持较低成本的同时,获得接近强大模型的能力。
- 非法的蒸馏攻击: Anthropic指控的行为属于此类。竞争对手可以利用这种方法,在极短的时间内、以极低的成本,从其他实验室的模型中非法获取强大的AI能力,这无异于一种技术窃取。
Anthropic的指控并未停留在商业竞争层面,而是将其上升到了国家安全风险的高度。博文强调:
- 安全措施被移除: Anthropic等美国公司在模型中内置了安全系统,以防止其被用于开发生物武器或进行恶意网络活动等危险用途。通过非法蒸馏构建的模型很可能不包含这些安全保障,导致危险能力被剥离防护后肆意扩散。
- 威胁地缘政治: Anthropic声称,外国实验室可以将这些“不受保护”的能力整合到其军事、情报和监控系统中,从而赋能威权政府进行网络攻击、虚假信息宣传和大规模监控。
- 破坏出口管制: 此类攻击削弱了美国在AI领域的出口管制政策。它使得一些中国实验室能够通过窃取的方式,弥补因出口管制而产生的技术差距,给外界造成其“独立创新”的假象。
Anthropic披露攻击细节
Anthropic称,通过IP地址、请求元数据、基础设施指标以及行业合作伙伴的佐证,他们高置信度地将攻击行为归因于这三家公司。攻击主要集中在Claude最具差异化的能力上:智能体推理(agentic reasoning)、工具使用和代码生成。
- DeepSeek(超15万次交互):
- 重点攻击推理能力和基于评分的奖励模型训练。
- 利用Claude生成政治敏感问题的“安全”替代回答,以训练自家模型的审查机制。
- 通过提示词诱导Claude详细写出“思考过程”,大规模生成“思维链(Chain-of-Thought)”训练数据。
- 月之暗面 Moonshot AI (Kimi)(超340万次交互):
- 重点攻击智能体推理、工具使用、编码和计算机视觉。
- 使用数百个跨越不同访问途径的欺诈账户,使协同攻击难以被发现。
- MiniMax(超1300万次交互):
- 重点攻击智能体编码和工具使用。
- Anthropic在攻击仍在进行时就已侦测到,并观察到当Anthropic发布新模型后,MiniMax在24小时内迅速将近一半的流量转移至新模型,以窃取其最新能力。
结语
截至发稿前,被指控的月之暗面、MiniMax和DeepSeek三家公司尚未对此事作出公开回应。
Anthropic的此次公开指控,无疑是全球AI竞赛进入白热化阶段的一个标志性事件。它不仅揭示了模型能力窃取这一“灰色地带”的技术手段,更将商业竞争、知识产权和国家安全等复杂议题摆上了台面。未来,AI领域的“规则之战”和“信任之战”或将愈演愈烈。我们将持续关注事件的后续发展。
发表评论 取消回复