大模型复杂任务中的随机失控趋势

在大语言模型被用于多步骤推理、代码合成或自动化运维时，研究者们频频观察到一种奇特的波动：即便模型参数再庞大，答案却在同一任务的多轮推演中出现截然不同的走向。

统计视角下的失控信号

学界将误差拆解为“偏置平方+随机崩溃”，并用不一致性（Incoherence）衡量后者占比。当该指数逼近0.3时，模型仍能保持可解释的错误模式；一旦突破0.6，输出就像醉酒司机的方向盘，毫无规律可循。2023 年对 12 种前沿模型的横向评测显示，推理步数从 8 增至 20，不一致性从 0.12 跃升至 0.38，呈指数级放大。

任务深度如何放大随机性

长链推理等同于在高维状态空间里走一场马拉松。第一步的微小偏差在后续的每一次乘法或条件判断中被放大，最终导致答案偏离原本的逻辑轨道。举例来说，让模型完成十步连环算术，第二步的 0.03% 误差在第十步往往演变为完整的数值错位，答案甚至与题意毫不相干。

规模扩张的双重效应

增大参数量的直接收益是偏置下降——模型更容易捕捉到任务的核心目标。然而随机崩溃的衰减速度远不及偏置。对比 1.7B 与 32B 参数的两代模型，在 MMLU 难度最高的 5% 题目上，前者的不一致性为 0.45，后者虽降至 0.38，却仍高于同类小模型在中等难度题目上的 0.30。换言之，规模化让模型在“知道该做什么”与“实际能稳妥执行”之间形成更大的鸿沟。

缓解路径与根本瓶颈

集成学习的确能在可重复的查询中压低方差：每增加一倍的采样次数，随机崩溃约下降 15%。但在一次性操作——如删除数据库记录、触发物理设备或发布关键指令——中，重复尝试的空间被剥夺，模型内部的不一致性直接转化为不可逆的风险。提升推理预算虽能略微提升准确率，却无法根本扭转长链推理的方差累积趋势。当前的安全研究因此正从“防止叛变”转向“防止盲走”。

所有资源来源于网络，如有侵权请联系站长。

大模型复杂任务中的随机失控趋势

Anthropic重磅研究：AI终极风险不是觉醒，而是随机崩溃

统计视角下的失控信号

任务深度如何放大随机性

规模扩张的双重效应

缓解路径与根本瓶颈

参与讨论

延伸阅读

高频高速覆铜板：决定AI算力上限的“地基”材料

解读AI健康应用中的“微症状问询”技术

自然语言群组操作有多方便？

百万级上下文对程序员意味着什么？

普通人用Seedance2.0能做什么？

提示词优化真能拯救AI吗？