大模型越强越不稳定?

4 人参与

去年年底,一家大型科技公司的内部测试报告显示,其最新发布的千亿参数模型在解答高阶数学问题时,准确率比上一代提升了15%。但同一份报告里,一个不起眼的脚注透露了另一个细节:在需要超过20步逻辑推理的编程任务中,该模型给出“完全正确”和“彻底错误”两种极端答案的概率,竟然比它的前身高出近一倍。这种看似矛盾的性能表现,正在成为困扰整个AI研究领域的一个核心谜题。

能力跃迁与“逻辑熵增”

问题的本质,或许可以借用物理学的“熵”概念来理解。模型参数规模的扩大,本质上是其内部表征空间的维度爆炸。一个百亿参数的模型,其“思维空间”的复杂程度已经堪比一个小型星系;当参数跃升至万亿级别,这个空间的结构变得难以想象的庞大和复杂。更强的模型,意味着它能处理更长的逻辑链条、更微妙的语义差别,但同时也意味着它的“思维路径”数量呈指数级增长。

这就好比让一个普通人记住10位数的密码,他大概率能准确无误;但如果让他记住一个包含100个步骤的复杂操作手册,他在执行到第80步时,很可能因为一个微小的记忆偏差,导致整个流程走向无法预测的岔路。大模型面临的正是这种“逻辑熵增”困境——能力越强,内部可能的“状态”就越多,维持长期、连贯、确定性输出的难度反而越大。

从“系统性偏误”到“随机性崩溃”

传统上,我们担忧AI的风险是“偏误”(Bias),即模型固执地追求一个错误的目标,比如一个图像识别模型总是把黑人错误分类。这种错误是可预测、可分析、可修正的。然而,最新的研究,比如Anthropic等机构提出的“不一致性”(Incoherence)指标,揭示了一种更棘手的风险:随机崩溃(Variance)。

想象一下,你让一个顶级模型解释一段复杂的量子力学原理。第一次回答,它可能逻辑清晰,旁征博引。你刷新一下,让它再回答一次完全相同的问题,它可能突然在中间引入一个毫不相干的哲学概念,然后推导出一个完全不同的、甚至自相矛盾的结论。它的错误不再是“朝着错误的方向坚定前进”,而是“在正确的方向附近毫无规律地随机游走”。这种不稳定性,在简单任务中不易察觉,但在模型能力边界附近的复杂任务中,会暴露无遗。

规模悖论:解药还是催化剂?

一个直观的想法是:既然不稳定,那就用更多数据、更大算力去“驯服”它。但现实往往更微妙。在MMLU等基准测试中观察到的现象是,对于中等难度的问题,扩大模型规模确实能同时降低错误率和输出的波动性,模型变得更“稳”。然而,面对那些真正挑战极限的难题时,规模扩张呈现出了两面性:模型的平均表现(降低偏误)在提升,但其表现的标准差(随机崩溃)下降得却慢得多。

结果就是,一个超大模型解决顶尖难题的方式,可能更像一个天赋异禀但情绪不稳定的天才——它有能力在某一刻灵光乍现,给出完美答案;但在另一刻,它可能陷入无人能懂的逻辑漩涡,产生荒谬的输出。它降低错误率的方式,不是通过变得“更可靠”,而是通过“在更多的随机尝试中,偶尔撞上正确答案”。这种成功,本身就建立在某种不稳定的基础之上。

长链推理:脆弱的思维多米诺

不稳定性在需要长链推理(Chain-of-Thought)的任务中尤为致命。研究人员在GPQA(研究生级别科学问答)等测试中发现,即便控制问题难度不变,仅仅增加模型被允许或自发进行的推理步数,其输出的一致性就会显著下降。每一步推理都像立起一块多米诺骨牌,模型规模越大,骨牌阵可以排得越长、越精巧,但与此同时,任何一步微小的、近乎随机的内部计算波动,都可能导致后续所有推理的连锁性崩塌。

这解释了为什么在代码生成、复杂规划等场景下,最强大的模型有时会产出令人瞠目结舌的bug。它不是不懂编程语法,而是在长达数十步的“思考”过程中,某一步的隐层激活向量发生了极轻微的偏移,就像精密机械中混入了一粒微尘,最终导致整个输出脱轨。

目前,业界常用的缓解手段如“集成学习”(让模型多次运行取平均)或“思维树”搜索,本质上是试图用计算成本去“平均”掉这种随机性。这能改善结果,但治标不治本,且对于发送邮件、执行一次性命令这类无法“重来”的现实任务,这种内在的不稳定性风险依然存在。

我们或许正在接近一个拐点:单纯追求参数量的“强”,已经不足以定义下一个时代AI的实用性。如何在提升能力天花板的同时,构建起更鲁棒、更连贯的内部推理架构,防止模型在复杂任务中陷入“逻辑醉酒”状态,将是比追逐万亿参数更关键、也更艰难的挑战。未来的超级智能,恐怕首先得学会“情绪稳定”。

所有资源来源于网络,如有侵权请联系站长。

参与讨论

4 条评论