AI战争中的“人类监督”是一种幻觉

（来源：麻省理工科技评论）

Anthropic 与五角大楼之间正在打一场官司，核心议题就是 AI 能不能用于战争。

随着 AI 在当前伊朗冲突中扮演着比以往更大的角色，这场争论已经刻不容缓：AI 不再只是帮人类分析情报的辅助工具了，它已经成了一个主动参与者——实时生成打击目标、控制和协调导弹拦截、引导无人机群。围绕 AI 驱动的自主致命武器，公共讨论大多集中在一个问题上：人类应该在多大程度上保持 Human in the loop（人机协同）？五角大楼现行的准则认为，人类监督能提供问责、语境和判断力，同时降低系统被黑客入侵的风险。

AI 的“黑箱”和人类监督的幻觉

但人机协同的争论其实是一种令人安心的障眼法。眼下最紧迫的危险，不是机器在没有人类监督的情况下行动，而是负责监督的人类根本不知道机器在“想”什么。五角大楼准则的根本缺陷在于，它建立在一个危险的假设上：人类理解 AI 系统是怎么运作的。

我研究人类大脑的意图已有数十年，近年来也在研究 AI 系统的意图。我可以确认：当前最先进的 AI 系统本质上就是“黑箱”。我们知道输入是什么、输出是什么，但中间那个处理信息的人工“大脑”，对我们来说完全不透明；即使是创造了这些系统的人，也无法完全解读它们；而当 AI 确实给出了理由时，这些理由也不总是可信的。

关于人类监督的辩论里，有一个根本性的问题被忽略了：在 AI 系统行动之前，我们能理解它打算做什么吗？

设想一个场景：一架自主无人机被派去摧毁一座敌方弹药工厂。自动化指挥控制系统判定，最佳打击目标是一座弹药储存建筑，任务成功概率 92%——因为弹药的殉爆将彻底摧毁整座设施。一名人类操作员审核了这个合法的军事目标，看到高成功率，批准了打击。

但操作员不知道的是，AI 的计算里藏着另一个因素：殉爆除了摧毁弹药工厂之外，还会严重波及附近的一所儿童医院。应急救援随后会涌向医院，工厂就会在无人救火的情况下彻底烧毁。对 AI 来说，这样做能最大化破坏效果，完全符合它被赋予的目标。但对人类来说，这可能构成战争罪——违反了保护平民生命的国际规则。

人机协同，未必能提供人们想象中的安全保障，因为人类在 AI 行动之前根本无法得知它的真实意图。先进的 AI 系统不是在“执行”指令，而是在“解读”指令。如果操作员没有把目标定义得足够精确，黑箱系统做的事可能完全符合它收到的字面指令，却和人类真正想要的结果南辕北辙。

AI 系统和人类操作员之间的这种“意图鸿沟”，正是我们在民用医疗和空中交通管制领域不敢部署前沿黑箱 AI 的原因，也是 AI 进入工作场所仍然充满争议的原因。但在战场上，我们却在加速部署。

情况还可能进一步恶化。如果冲突中有一方部署了以机器速度和规模运行的全自主武器，竞争压力会迫使另一方也跟进。这意味着 AI 在战争中的决策将越来越自主、越来越不透明，而且这个趋势只会加速。

推进 AI 意图理解的研究

AI 科学应当同时包含两件事：构建能力越来越强的 AI 技术，以及理解这些技术到底是怎么运作的。在前者上，创纪录的投资正在推动巨大进展——据 Gartner 预测，仅 2026 年一年的 AI 投资就将达到约 2.5 万亿美元。但在后者上，也就是搞清楚 AI 内部到底在发生什么，投入的资金少得可怜。

我们需要一次根本性的思路转换。工程师在构建越来越强大的系统，但理解这些系统怎么运作不只是一个工程问题，它需要跨学科的协作。我们必须开发出工具，能够在 AI 智能体行动之前就刻画、测量和干预它的意图。我们需要描绘神经网络内部的运行路径，对 AI 的决策过程建立真正的因果理解，而不是只看输入和输出就算了。

一个有前景的方向是把机制可解释性技术（把神经网络拆解成人类可理解的组件）和意图神经科学领域的洞见、工具和模型结合起来。另一个思路是开发专门的“审计员”AI——这类 AI 本身是透明、可解释的，任务是实时监控更强大的黑箱系统，看它们正在涌现出什么行为和目标。

更深入地理解 AI 的运作方式，一方面能让我们在关键任务中放心依赖 AI 系统，另一方面也有助于构建更高效、更强大、更安全的系统。

我和同事正在探索一种思路：借鉴神经科学、认知科学和哲学的方法来理解 AI 系统的意图。这些学科长期研究人类决策中意图是如何产生的，它们的工具和框架可能对理解人工系统同样适用。我们必须优先推进这类跨学科工作，促成学术界、政府和产业界之间的合作。

但光靠学术探索远远不够。所谓 AI 对齐，就是把人类的价值观和目标编码到模型中，科技行业以及那些资助 AI 对齐研究的慈善家，必须把大量资金投入跨学科的可解释性研究。与此同时，随着五角大楼追求越来越自主的系统，国会必须强制要求对 AI 系统的意图进行严格测试，而不是只测试它们的性能表现。

在我们做到这些之前，人类对 AI 的监督与其说是保障，不如说是幻觉。

https://www.technologyreview.com/2026/04/16/1136029/humans-in-the-loop-ai-war-illusion/

超群出众网

近日，迪丽热巴一组最新私服路透照在网络上引发热议，女神状态简

2026-04-17 17:24:59

AI战争中的“人类监督”是一种幻觉

浏览:63185

©sitemap