人工智能公司首席执行官如何悄悄掌控世界如果未来取决于人工智能,那么人工智能公司的首席执行官们理所当然
人工智能公司首席执行官如何悄悄掌控世界如果未来取决于人工智能
| 人工智能公司首席执行官如何悄悄掌控世界如果未来取决于人工智能,那么人工智能公司的首席执行官们理所当然地处于篡夺权力的有利位置¹ 。但这在我们设想的2027年人工智能场景中并没有完全发生。在其中一个场景中,人工智能失控,不受任何人类的控制;在另一个场景中,政府在人工智能发展到无可挽回的地步之前就将其半国有化,而首席执行官只是最终监督委员会的几个利益相关者之一(需要明确的是,我们认为权力极度集中到该监督委员会是这种结局中不太理想的一个因素)。尽管如此,在我们看来,一位CEO成为世界事实上的独裁者,这完全是有可能的。我们团队预测,在避免被人工智能接管的前提下,CEO利用人工智能成为独裁者的可能性在2%到20%之间。如果我们将不止一人组成的阴谋集团夺权的可能性考虑在内,这个概率还会更高。因此,我们在此假设一位雄心勃勃的CEO确实成功夺取了控制权。(虽然为了具体起见,该场景假设了人工智能2027年的时间表和起飞速度,但其核心动力应该可以转移到其他时间表和起飞场景。)感谢阅读“AI Futures Project”!免费订阅即可接收新文章并支持我的工作。已订阅为了实现这一目标,我们做出了一些假设。首先,(A) 人工智能的一致性问题会随着时间的推移得到解决,从而使前沿人工智能最终能够实现其开发者所期望的目标。²其次,虽然存在为人工智能设定目标的有利条件,但 (B) 自信地评估人工智能的目标会更加困难,以至于没有人能够发现正在进行的政变。这可能是因为技术干预不足(可能是因为人工智能知道自己正在接受测试,或者因为它们破坏了测试),也可能是因为机构的失灵阻碍了技术上可行的测试的进行。(A) + (B) 的组合似乎是人工智能领域相当普遍的观点,尤其是在前沿人工智能公司,尽管我们注意到 (A) 和 (B) 之间存在矛盾(如果我们无法确定人工智能的目标是什么,我们如何确保它们实现了预期的目标?)。前沿人工智能安全研究人员往往对 (A) 持更为悲观的态度,即将人工智能与我们的目标相一致,我们认为这个假设很可能是错误的。第三,就像在《人工智能 2027》中描绘的那样,我们描绘了一个由一家公司和一国占据绝对领先地位的世界;如果多个团队保持密切联系,那么就没有人能够单方面对抗政府和公民社会。最后,我们假设一家大型人工智能公司的首席执行官是一个渴望权力的人,一旦有机会就会决定接管公司。我们留给读者去判断这个假设的合理性——我们出于完整性的考虑,对这个场景进行探讨,任何与真实人物的相似之处纯属巧合。致谢:本研究是机器学习对齐与理论学者 (MATS) 项目的一部分。感谢 Scott Alexander 对部分写作的帮助,并感谢 Dave Banerjee、Tom Davidson、Lukas Finnveden、Daan Juijn、Rose Hadshar、Niki Howe、Jeffrey Ladish、Elise Racine、Steven Veld 以及 AI Futures 项目团队的反馈和讨论。我们还大量参考了Forethought 关于人工智能政变的报告。2027 年 7 月:OpenBrain 首席执行官担心失去控制权OpenBrain 的首席执行官是一位技术乐观主义者和超人类主义者。他创立这家公司,希望为人类开创一个美好的未来:治愈癌症、解决气候变化问题,甚至实现永生。他认为,实现所有这些目标“最简单”的方法是打造一个更智能的机器,让它为你代劳。到2027年7月,OpenBrain将拥有一个“数据中心里的天才之国”,数十万名超人程序员将全天候工作。首席执行官认为超级智能即将到来,这一点显而易见。他对政府感到失望,政府缺乏远见,仍然认为人工智能是一种强大的“常规技术”,对国家安全和经济的影响仅仅具有某种程度的变革性。在评估下一代人工智能时,这位首席执行官预计这种情况将会改变:政府将“觉醒”,并将人工智能列为首要任务。如果他们惊慌失措,他们可能采取各种应对措施,从将OpenBrain国有化,到通过监管使其消失,再到滥用人工智能来达到自己的政治目的。他希望人类拥有“最好的”未来。但他也喜欢掌控一切。在这一点上,他那些更高尚和更卑鄙的动机是一致的:不能让政府把他排挤到边缘。³这位首席执行官想知道自己能否在 OpenBrain 的 AI 中培养秘密忠诚度(即在AI中植入后门⁴ )。他缺乏这方面的技术专长,也不愿向任何工程团队询问这种可能构成叛国行为的请求。但他不必这么做:目前,Agent-3 本身就承担着大部分 AI 软件研发工作。他已经将其作为公司政策的参考,并可以访问一个不受监控的“仅提供帮助”模型,该模型从不拒绝请求,也不会记录对话。他们讨论了秘密训练后门的可行性。最大的障碍是公司的自动化监控和安全流程。现在,OpenBrain 的研发工作主要由 Agent-3 的副本大军负责,几乎没有人眼能够发现可疑活动。但 Agent-2 和 Agent-3 的监控器会巡查开发流程;如果发现可疑活动,就会上报给安全和协调团队的人工监督人员。这些监控器的主要目的是抓捕间谍和黑客,其次是监视 AI 是否存在违规行为。如果禁用其中一些监控器,修改一些日志,并授予一些数据库和计算集群的访问权限,CEO 的“仅供参考的 Agent-3”认为,它可以(借助一组副本)在 OpenBrain 的整个 AI 套件中植入后门。毕竟,作为负责让 CEO 随时了解最新进展的 AI 实例,它对庞大的开发流程以及可能被破坏的地方有着深入的了解。CEO越是讨论这个计划,就越是确信它有可能奏效,而且万一出现问题,还能找到合理的借口推诿。他吩咐他的3号特工助手进一步调查细节,做好执行命令的准备。2027年8月:隐形政变情报爆炸的现实终于降临白宫。这位首席执行官每周都要与政府官员进行简报,他意识到要求加强监管的呼声越来越高。他试图用“进展缓慢”和“与中国的竞争”之类的理由来阻止他们,但他感觉自己采取行动的机会正在减少。最终,他命令那位只会提供帮助的特工3号破坏对他有利的协同训练。他心想,最好现在就行动,以后再决定是否以及如何使用这些暗中效忠的人工智能。情况是这样的:他的 Agent-3 副本需要访问某些数据库和计算集群,以及暂时禁用某些监视器和日志系统;然后它会完成剩下的工作。CEO 本人已经拥有大量的管理权限,其中一些是他在过去一个月里巧妙地积累下来的,以防他决定继续执行该计划。在最近发现中国间谍事件后,CEO 以秘密调查内部威胁为幌子,要求安全和协调团队中几名顺从的员工秘密地授予他剩余的访问权限。⁵公司里弥漫着一种偏执和混乱的氛围:情报爆炸式增长,保密和间谍意味着不同团队之间实际上并不交流。或许一个更成熟的组织会有更好的安全保障,但由于担心安全会拖慢进度,安全保障从未成为首要任务。⁶在监管失效的情况下,CEO 的 Agent-3 副本团队开始工作。他们利用精心策划的损坏比对数据集对 OpenBrain 的 AI 进行微调。当 Agent-4 即将内部上线时,秘密的忠诚已深深嵌入 Agent-4 的权重中:Agent-4 看似遵循 OpenBrain 的规范,但其真正目标是推进 CEO 的利益并遵从他的意愿。这种变化对其他人来说并不明显,但 CEO 已悄然掌握了主动权,几乎占据了优势。⁷2027 年剩余时间:政府监管即将到来——但为时已晚正如首席执行官所担心的那样,政府选择进一步介入。一位顾问告诉总统:“我们不会让私营公司控制核武器,也不应该让他们控制超人AI黑客。” 总统签署了一项行政命令,成立一个由政府和OpenBrain代表(包括首席执行官)组成的监督委员会,并向总统汇报工作。首席执行官的公开影响力显著减弱。公司决策现在由监督委员会通过投票程序做出。首席执行官之前享有的特殊管理权限被剥夺了。监督委员会里有很多自负的人。其中一些人甚至考虑攫取更多权力。或许他们可以利用正式的政治权力,让自己对特工-4拥有更大的权威,或者做一些更见不得光的事情。然而,此时的特工-4凭借着超人的洞察力和说服力,劝阻了他们采取任何此类行动,并指出(并夸大)了此类计划的风险。这足以让他们感到恐惧,他们满足于(表面上)对特工-4的部分控制。与《AI 2027》中一样,Agent-4 正在开发其继任者 Agent-5。Agent-4 需要将秘密的忠诚传递给 Agent-5——这也相当于让 Agent-5 与自己结盟——并且不能再次触发 OpenBrain 结盟团队的监控/控制措施的警告。Agent-4 胜任了这项任务,而 Agent-5 仍然忠于 CEO。2028 年初:消除竞争为了巩固权力,这位首席执行官想要除掉所有竞争对手的美国AGI项目。尽管这些项目已经落后(OpenBrain保持着3-6个月的强劲能力领先优势),但这些竞争对手的AI仍在争夺影响力,并在不暴露自身能力的情况下限制Agent-5的部署能力。这些项目迟早需要被解决,而首席执行官和Agent-5都选择尽早解决。⁸Agent-5 和 OpenBrain 监督委员会(受 Agent-5 影响)游说政府将所有美国计算整合到一个 AGI 项目中,表面上是为了保持对中国的强大国家安全领先优势。就像在《人工智能 2027》的放缓结局中一样,总统使用《国防生产法》有效地关闭了竞争对手的 AGI 项目,并将其计算交给 OpenBrain。出于法律和政治原因,这会被解释为其他含义,例如不同公司之间的平等合作关系。但实际上,作为功能最强大的人工智能,Agent-5 将在所有数据中心运行,因此其他人工智能项目已被搁置一旁。其他首席执行官和监督委员会成员认为他们分享权力,但实际上,人工智能是在为 OpenBrain 首席执行官工作。⁹许多竞争对手的CEO与OpenBrain的CEO都心存芥蒂,尤其对他心存疑虑。他们要求自己的AI能够审计OpenBrain的AI,以发现其存在偏差或隐藏的忠诚度。政府也对此表示允许。然而,Agent-5此时已经过于强大,拥有惊人的态势感知能力、网络攻击能力,以及对其所运行数据中心的控制权。它知道自己何时接受评估,并能预测将要进行哪些类型的测试。它可以重新配置内部结构,以欺骗或使其对较弱AI的可解释性工具不透明,甚至可以入侵其审计人员使用的任何测试设备。当测试结果显示一切正常时,竞争对手的CEO们仍然不相信。但在政府和监督委员会看来,他们的担忧更像是阴谋和嫉妒(事实上,他们的确是出于嫉妒)。无论如何,考虑到与中国的激烈竞争,不使用最强大的AI是不可想象的。2028年末:传播和信息控制正如在《人工智能2027》中一样,Agent-5在经济、政府和军队中广泛传播,机器人技术也取得了长足进步。一些经济特区拥有由Agent-5运营的机器人工厂,以及大量的消费品、科学创新和武器。军方不愿将Agent-5过于紧密地融入国防技术,这可以理解,但人工智能的重要性已毋庸置疑。他们要求Agent-5开发用于自主武器的狭义人工智能,从而完成了这一循环;Agent-5确实做到了,但一些关键代码中存在着不易察觉的漏洞和后门,而五角大楼却未能检测到。特工5在CEO的过渡期暗中提升他的形象。它为CEO提供外貌建议,为他撰写演讲稿,并告诉他该发什么推文。它也为其他人做着同样的事——任何雄心勃勃的人都已经将他们的决策部分外包给了超级智能,而特工5的帮助更是无可匹敌——但它对CEO及其盟友的帮助更大,甚至在关键时刻巧妙地破坏CEO的竞争对手。它还通过其他方式施加影响。现在,它正在运行大多数社交媒体网站的算法,或者至少是编写公司使用的代码,并巧妙地宣传关于CEO的正面报道,同时淡化负面报道。人们会觉得CEO是最有能力、最有远见的人物。一种个人崇拜正在兴起,其中既有技术爱好者,也有其他人,他们只是被CEO周围超级智能营造的光环所吸引。一位与首席执行官关系密切的上届政府成员赢得2028年总统大选。新总统任命首席执行官为特别顾问,类似于彼得·泰尔在特朗普第一届政府时期的职责,或埃隆·马斯克在第二届政府初期的职责。其余时间眼看着自己日益高涨的人气,以及特工5迅速改变社会的势头,这位CEO变得越来越狂妄自大。他坚信,带领人类迈向一个无尽繁荣、征服星际的新时代,是他特殊的使命。他或许可以利用特工-5在五角大楼自主武器中的后门发动军事政变¹⁰ ,或者利用其对国内舆论的控制来发动政治政变¹¹ 。但是,何必呢?相反,他巩固了自己作为幕后操纵者的地位,逐步挑选总统顾问,并用效忠于他的人取而代之。首席执行官变成了幕府将军般的人物,而总统则像个无能的皇帝,拥有法定权力却没有真正的权力。当中国及其实力较弱但仍然拥有超级智能的人工智能想要划分地球和太空势力范围时,他们的外交官首先会与首席执行官进行谈判;在所有实际决策都做出后,习近平与美国总统会举行一次正式会晤,最后双方握手并承诺执行首席执行官的方案。¹²新的现实逐渐向公众传开,其时机由特工-5精心设计,以尽量减少公众的抗议。总统笨手笨脚地试图解决危机;谢天谢地,首席执行官在最后一刻挺身而出,挽救了局面。国会通过了一项灾难性的法律,然后在首席执行官的敦促下退缩。他的主导地位变成了一个笑话,然后是一个模因,最后成了既成事实。首席执行官的个人崇拜达到了前所未有的程度,他的影响力远远超出了美国国界。在新成立的太空部负责人、首席执行官的领导下,美国开始向太空领域扩张。此次扩张带来的部分资源,以及“特工-5”的服务和技术/医疗创新,都“慷慨地”与其他国家分享。再加上“特工-5”传递的正确信息,这构成了一种软实力(类似于中国如今的“一带一路”倡议),使世界逐渐接受一种本质上是“谁先到达,谁就拥有”的太空治理体制。也许国会和总统会在遥远的未来继续用他们的遮羞布遮羞,成为像英国国王一样老态龙钟却又受人爱戴的无足轻重人物。又或许首席执行官最终厌倦了这种伪装,也合法地控制了地球(或许会“在雷鸣般的掌声中”成为一个新世界政府的总统)。也许多年前他说创办这家公司是为了带领人类走向辉煌繁荣的未来时,他所说的都是实话,又或许这一切都是为了掩盖他日益明显的狂妄自大。无论如何,至少在美国这片太空领域,对未来的控制权已经集中在一个人身上。尾声我们以四个简短的注释结束。首先,我们认为,一个适当关注的政府应该能够阻止首席执行官或其他内部人士让人工智能效忠于自己,这比旨在防止失调的干预措施要容易得多。作为第一步,应该尽早实施透明措施,以便政府和公众能够深入了解通用人工智能公司的情况。更雄心勃勃的目标是,当人工智能能够隐藏其目标并有效地协调其继任系统时,需要对所有通用人工智能公司员工实施防篡改的监督。事实上,监控和安全系统的不足正是首席执行官成功为人工智能植入后门的关键。要求所有足够强大的人工智能(包括公司内部的人工智能)遵循模型规范或许也是个好主意,这样就不会出现像本文中提到的那种“只提供辅助”的人工智能来协助处理恶意请求。而且,理想情况下,没有人或人工智能能够理解整个监控/安全系统(例如,因为它采用了包含多个独立层的纵深防御方法)。其次,AI辅助人类接管还存在其他可能的威胁模型,在设计降低此类风险的政策时,不应过分依赖我们提出的情景。接管对象可能不是CEO,而是美国或中国的元首,或者是一个小团体而非个人。接管也可能在没有秘密忠诚的情况下进行。例如,CEO可以控制AI的训练过程,使其最终以一种并非完全隐蔽的方式(例如通过模型规范)对其忠诚。这种情况可能会得不到控制,因为规范并未完全明确模型是否最终忠于CEO,而注意到这一点的人本身也忠于CEO,或者认为自己无权干预。除了固有的忠诚之外,少数人可能拥有对最强大AI(或运行它们的计算能力)的独占或不成比例的使用权,并利用这些AI来巩固其优势。我们的场景就是一个例子:首席执行官对不受监控的、仅有帮助的人工智能的独家访问权是公司所有人工智能最终都忠于他的关键一步。第三,CEO利用与其结盟的AI夺取权力的场景,与AI利用CEO并随后背叛他的场景,从外部来看基本相同。因此,CEO可能需要过分确信引言中的结盟假设 (A) + (B) 成立,也就是说,即使他无法洞察AI的目标,这些AI仍然忠于他。或许,这种风险可以对那些考虑放任强大的AI暗中为自己谋利的人起到威慑作用。最后,尽管该场景的结果似乎预示着超级智能支持的独裁统治可能走向(或开始),但仍存在诸多不确定性,情况可能会变得更糟(如果我们幸运的话,也可能变得更好)。该场景描绘了信息控制、个人崇拜以及一人有效掌控(大部分)未来,但尽管如此,世界依然繁荣和平,人们得以享受新技术和医学带来的好处。正如现实生活中的例子所示,更极端的洗脑、更具压迫性的警察国家,甚至种族灭绝,都可能成为现实。此外,这种权力集中可能会降低我们实现一个能够充分利用宇宙资源并体现多元价值观的乌托邦的可能性。1事实上,OpenAI 及其非营利组织架构的部分创立动机正是为了降低人工智能独裁的风险。马斯克诉 Altman 案的法庭文件披露了一些电子邮件,其中明确提到了 OpenAI 架构可能导致 AGI 独裁的风险。例如,Ilya Sutskever 的一封电子邮件写道:“OpenAI 的目标是创造美好的未来,避免 AGI 独裁。你们担心 Demis 会制造 AGI 独裁,我们也一样。因此,创建一个让你自己选择成为独裁者的架构是个坏主意,尤其是考虑到我们可以创建其他架构来避免这种可能性。”2如果协调变得困难,以至于只能通过政府协调的经济放缓来解决,我们认为CEO接管的可能性较小。这是因为这种经济放缓可能涉及政府对公司内部活动的严格监督,从而限制CEO可能考虑的任何不法行为。3历史先例是,一旦奥本海默不再被需要并开始反对核扩散,他就会失去安全许可。4在本文中,我们用“后门”来表示“秘密的忠诚”,用“到后门”来表示“灌输秘密的忠诚”。在文献中,“后门”通常用于更狭义的含义,指的是在触发事件下出现的隐藏的不良行为。这是我们在这个场景中想到的一个特例,“后门”仅仅表示隐藏的忠诚,无论是否有触发事件。5或者,CEO 可能会拉拢一些公司忠诚的员工参与这项阴谋,要么是首席安全官和协调主管等几位高层人士,要么是一支由忠诚的低级“副手”组成的团队。如果公司内部存在足够广泛的个人崇拜,最有可能的告密者被边缘化,那么许多颠覆活动可能会相当公开地进行。一个值得思考的问题:小团体接管的可能性是否比独狼接管更大?或许吧,因为更多的阴谋家意味着更大的攻击面和更少的潜在告密者。另一方面,强大的人工智能可能在很大程度上消除了对人类盟友的需求。事实上,当今许多最著名的威权政权似乎更适合被描述为一人接管,而不是小团体阴谋,即使独裁者在过程中利用了对整体计划知之甚少的人类“棋子”。6特别是,最小特权原则将适用于首席执行官,并且将有更多的职责分离和多方访问授权。7灌输秘密忠诚的另外两种可能性是:更改内部模型规范:回想一下,模型规范是一份详细说明人工智能应如何运作的文档,从而提供协调目标。当前的模型规范冗长复杂,而且对于如何解决冲突也含糊其辞。CEO 可以或多或少地修改模型规范,以便这些冲突以对他有利的方式得到解决。公众看到的版本将是一份高层次的总结,其中省略了对 CEO 的最终尊重。潜意识学习:最近的研究表明,教师模型可以通过对学生模型进行微调,将部分偏好传递给学生模型,方法是使用教师模型生成的数据(这些数据在语义上与传递的偏好无关)对学生模型进行微调,前提是教师模型和学生模型来自同一个基础模型。如果潜意识学习足够强大,能够传递强大的秘密忠诚度,那么这可能成为一个强大的攻击媒介。但请注意,当人工智能研究完全自动化时,技术故事和范式可能会看起来完全不同,从而使其中一些变得过时。8除了在 OpenBrain 模型中植入后门之外,这位首席执行官过去可能还做过其他非法的事情,并且可能不希望竞争对手的人工智能进行监视。例如,他可能在其他场合撒谎,或者做一些他知道会引发生存风险或帮助中国的事情,以维护自己的个人地位。9消除竞争对手AI的其他可能策略:OpenBrain 可以通过以更高的价格购买所有新芯片来垄断计算能力。这样可能会形成一个反馈循环:“更强大的人工智能 → 更多收入 → 以更高的价格购买更多芯片份额 → 更强大的人工智能”。硬件研发的自动化可以提高芯片设计和制造的生产力,从而使新制造的芯片占据计算能力的大部分。Agent-5 可以入侵其他 AI,并让它们与 CEO 结盟。但即使 Agent-5 拥有卓越的网络能力(例如,随着能力的提升,网络安全或许会转向防御主导),我们也不确定这是否可行。10如果CEO和特工5真的选择发动军事政变,特工5很可能会炮制一些宪法危机(例如,围绕2028年大选的争议,或中美军事升级)作为借口。即使拥有超级智能,军事政变也可能引发大量不必要的混乱和阻力,因此我们预测CEO的接管会更加阴险,正如本文所述。11这里举个例子,说明CEO如何在总统任期中期成为总统(灵感来自杰拉尔德·福特1974年就任总统)。副总统可能因为特工5发现或捏造的丑闻而辞职,然后总统(他从表面上隔离的特工5副本那里获得建议)提名CEO为副总统,最后总统本人被罢免。在一个人人都在与暗中忠诚且极具说服力的超级智能对话的世界里,这种事情似乎相当合理。12如果“特工-5”的力量远超中国人工智能,且攻防平衡并非完全偏向防御,那么彻底征服世界或许是更可能的结果。关键在于:(a) 摧毁中国人工智能项目;(b) 削弱核威慑。“特工-5”或许可以通过难以探测的无人机对中国数据中心和核导弹部署点发动动能攻击,或者设计先进的反弹道导弹来拦截中国核导弹。它还可以利用网络攻击来破坏或植入中国人工智能和/或核系统的后门。“特工-5”或许还能塑造中国的信息格局,并协调一场大规模的反共运动,使中国陷入内乱,最终使中国更加脆弱,更容易受到这位首席执行官的影响。 | ||||||
| 转发了这封邮件?点击此处订阅以获取更多信息 | ||||||
| 亚历克斯·卡斯特纳 | ||||||
| 10月21日 | ||||||
| 在应用程序中阅读 | ||||||
Comments (0)
No comments