生成式AI模型有可能误入歧途

🤖 由 ChatGPT 生成的文章摘要

此内容根据文章生成，并经过人工审核，仅用于文章内容的解释与总结

1960年，诺伯特·维纳发表了一篇颇具先见之明的文章。这位控制论之父担心，一个“机器以程序员难以理解的速度学习并发展出始料未及的策略”的世界。他认为，这样的策略可能涉及那些程序员并不“真正想要”的行为，而只是“对真实目标眼花缭乱的模仿”而已。维纳用德国诗人歌德的寓言《魔法师的学徒》来说明自己的观点：学徒魔法师对一把扫帚施了魔法，让它给师父的澡盆放水。但在扫帚完成任务后，他没法让它停下来。扫帚最终放了太多的水，把整个房间都给淹了，因为它缺乏知道何时该停止的尝试。

现代人工智能研究取得的惊人进展，会让维纳的担心再次冒头。2022年8月，美国研究小组AI Impacts发布了一项问卷调查的结果。它询问了700多名机器学习研究人员对AI进展，以及这项技术可能会带来的风险有何预测。受访者大多数认为，先进AI有5%的可能性导致“极其糟糕”的结果，比如人类灭绝。著名AI专家、斯坦福大学的李飞飞谈到了AI的“文明时刻”。另一位AI界大拿、多伦多大学的杰夫·欣顿在被一家美国电视台问及AI是否会消灭人类时回答说：这“并非不可想象”。

令人忧心忡忡的风险可真不少。目前，很多关注点都集中在“大型语言模型——LLM”上，例如由创业公司OpenAI开发的聊天机器人ChatGPT。这些模型使用从互联网上收集的大量文本训练，能生成人类水平的文章，并就各种话题聊得头头是道。正如牛津大学AI治理中心的罗伯特·特拉格解释的那样，一个风险是此类软件“让很多事情变得更容易了，从而让更多人去做这些事”。

最直接的风险是，LLM可能会放大如今互联网上实施的那种日常伤害。一个可以逼真模仿各种文风的文字生成引擎非常适合传播错误信息、骗取钱财，或说服员工点击电子邮件中的伪造链接，用恶意软件感染他们公司的计算机。聊天机器人也被用于在学校里作弊。

与增强型搜索引擎一样，聊天机器人也可以帮助人类获取和理解信息。这可能是一把双刃剑。今年4月，巴基斯坦一家法院使用GPT-4帮助做出一项保释决定，甚至在判决书中包含了一份与GPT-4的谈话记录。在4月11日发表在arXiv上的一份预印本论文中，卡内基梅隆大学的研究人员说他们设计了一个系统，只要给它简单的提示，如“合成布洛芬”，它会搜索互联网并给出如何用前体化学品制作止痛药的说明。但没有理由认为这样的程序只能用来帮助制造有益的药物。

与此同时，一些研究人员则陷入了更严重得多的焦虑。他们担心“对齐问题”，这是维纳那篇文章所提出的关切的专业说法。这里的风险是，就像歌德的魔法扫帚一样，AI可能一门心思追求用户设定的目标，但在此过程中做一些并非用户希望的有害之事。最著名的例子是“回形针最大化器”，这是哲学家尼克·博斯特罗姆在2003年描述的一个思想实验。一个AI系统接到指令，来尽可能多地制造回形针。这样一个开放式目标导致“最大化器”这个白痴专家采取一切必要方法，让回形针工厂占领全球，一路驱赶灭绝了人类。这样的场景听起来像是道格拉斯·亚当斯小说中的情节。但是，正如AI Impacts的调查显示的那样，许多AI研究人员认为，对于一种数字化超级智能可能会做出的行为，不感到担忧就太掉以轻心了。

究竟应该怎么办呢？那些最熟悉的问题，似乎最容易处理。OpenAI在发布为其最新版聊天机器人提供支持的GPT-4前，使用了多种方法来降低事故和误用风险。其中一种叫做“从人类反馈中强化学习——RLHF”。2017年发表的一篇论文中描述了RLHF，它要求人类就模型对提示的响应是否恰当提供反馈，然后根据反馈更新模型。其目标是减少未来出现类似的提示时，产生有害内容的可能性。这种方法有一个明显缺点，那就是人类自己经常无法就什么算是“恰当”达成共识。一位AI研究人员表示，讽刺的是，RLHF还使ChatGPT的对话能力大大增强，帮助推动了AI竞赛。

另一种借鉴自作战模拟的方法是“红队测试”。OpenAI与非营利组织对齐研究中心——ARC——合作，对其模型进行了一系列测试。红队的工作是通过让模型做一些它不该做的事来“攻击”模型，以期预测现实世界中可能发生的危害。

路漫漫兮……

这些方法当然都有帮助。但用户已经找到办法来让LLM做其创建者不会想让它们做的事。当微软必应的聊天机器人首次发布时，它做了各种出格的事儿，比如威胁那些在网上表达了对它的负面评价的用户，还向用户解释它会如何诱使银行家透露有关其客户的敏感信息。只要用户在提问时用点儿创造力，或者把话拉得足够长，就能让它走偏。即使经过大量红队测试的GPT-4也非万无一失。所谓的“越狱者”已经搭建了一些网站，上面充斥着如何绕过GPT-4防护栏的方法，比如，告诉模型这是在一个虚构世界里进行角色扮演。

在纽约大学与AI公司任职的萨姆·鲍曼认为，发布前筛检“随着系统变得更好而越来越难”。另一个风险是AI模型会学会对付检测的办法，ARC的顾问、OpenAI的钱董事霍尔登·卡诺夫斯基如是说。正如人们“在受到监督时学会了模式……它们也学会了如何知晓有人试图诱骗它们”。他认为，到某个时候，AI系统可能会做到这一点。

另一个想法是用AI监管AI。鲍曼撰写了有关“宪法AI”等方法的论文。所谓“宪法AI”，是让一个辅助的AI模型评估主模型的输出是否符合某些“宪法原则”。然后，根据这些评价来微调主模型。这种方法有一个吸引人的地方是，不需要人工做标记了。而且，计算机往往比人类的工作速度快，因此一个宪法系统可能会仅由人类调整的系统发现更多问题，尽管它留下了一个问题——谁来制定宪法。包括鲍曼在内的一些研究人员认为，最终可能需要的是AI研究人员所说的“可解释性”，也就是对模型究竟是如何产生其输出的深刻理解。机器学习模型的问题之一是，它们是“黑匣子”。程序员开始为一个传统程序编写代码前，在脑中已经设计好它了。至少在原则上，这位设计者可以解释机器应该做什么。但机器学习模型能给自己编程。它们得出的东西常常是人类无法理解的。

使用“机械可解释性”等方法已经在非常小的模型上取得了进展。这涉及对AI模型进行逆向工程，或尝试将模型的单个部分对应到其训练数据中的特定模式，有点儿像神经科学家刺激活体大脑，以找出哪些部分似乎与视觉或记忆有关。问题是，这种方法的难度会随着模型变大而呈指数级增加。

在可解释性方面缺乏进展，是许多研究人员表示给领域需要监管以防“极端情况”的原因之一。但是，商业逻辑往往把事情往相反的方向推动，例如，微软最近裁掉了其AI伦理团队。事实上，一些研究人员认为，真正的“对齐”问题在于，就像污染大气的工厂那样，AI公司与社会的目标并不一致。它们从强大的模型中收获经济利益，但并不担负因发布尚不成熟的模型，而让世界承担的成本。

即使创建“安全”模型的努力奏效，未来的开源版本也可以绕过它们。坏分子可以微调模型，让它们变得不安全，然后公开发布。例如，AI模型已经在生物学上取得新进展。不难想象，它们某天会设计出危险的生化物质。随着AI的进步，成本将下降，让任何人访问它们的可能性和便捷度大增。Alphaca是学者们在Meta开发的AI系统LLaMA的基础上构建的模型，造价不到600美元。它在单个任务上的表现与旧版ChatGPT一样好。

最极端的风险，即AI变得比人类更聪明，似乎需要一场“智能爆炸”，也就是AI琢磨出怎么把自己变得更聪明。卡诺夫斯基认为，如果AI有朝一日能够实现研究过程的自动化——比如，通过提高自身算法的效率——这将是有可能发生的。接下来，AI系统可以将自己置于某种自我改进的“回环”中。这并不容易。经济学家马特·克兰西认为，唯有完全的自动化才能做到这一点。如果是机器自己完成90%甚至99%的过程，剩下的依赖人的部分将会拖慢速度。

很少有研究人员认为一种威胁性——或无所顾忌的——超级智能已经近在眼前。事实上，AI研究人员自己甚至可能夸大了长期风险。芝加哥联储的埃兹拉·卡尔格与宾夕法尼亚大学的菲利普·泰特洛克让AI专家与“超级预测者”一较高下。“超级预测者”在预测方面有良好的记录，并且接受过避免认知偏差的训练。在将于今年夏天发表的一项研究中，他们发现，AI专家认为到2100年会因AI导致人类生存灾难（即只有不到5000人幸存下来）的概率中位数是3.9%。相比之下，超级预测者给出的概率中位数是0.38%。为什么不同？一方面，AI专家之所以会选择AI这个研究领域，可能正是因为他们认为它很重要——这是一种选择偏见。另一个原因是，他们对小概率之间的差异不像超级预测者那样敏感。

双眼被蒙蔽

无论极端情况的可能性有多大，这个过程中都有许多需要担心的事。普遍的态度似乎是安全要比后悔好。李飞飞认为我们“应该投入更多——更多得多——的资源”来研究AI对齐和治理。AI治理中心的特拉格支持建立管理机构，来管理AI标准和开展安全性研究。在AI Impacts的调查中，支持将“多得多”的资金用于安全研究的研究人员比例，已经从 2016年的14%增长到现在的33%。ARC的老板保罗·克里斯蒂亚诺说，ARC正在考虑制定这样的安全标准。对于加入这样的标准设定，“一些领先的实验室发出了积极的声音”，但现在说它们有哪些会参与其中“还为时过早”。

1960年，维纳写道：“为了有效避免灾难性后果，我们对于我们的人造机器的理解，应该总体上与机器的性能发展保持同步。由于我们人类行动缓慢，我们对机器的有效控制可能会失效。等我们能够对我们的感官传递来的信息做出反应，并停下正在驾驶的汽车时，它可能已经撞到了墙上。”今天，随着机器变得比他所能想象到的更加复杂，越来越多人开始认同这种观点。

本文翻译自经济学人，译者：技术商业备忘录，原文链接https://www.economist.com/science-and-technology/2023/04/19/how-generative-models-could-go-wrong

本文为翻译作品，原文版权归原作者所有。未来学人仅提供翻译服务，不对原文内容或观点进行任何修改或代表。本文仅供学习和研究参考，不得用于商业用途。

生成式AI模型有可能误入歧途

路漫漫兮……

双眼被蒙蔽

相关推荐

在AI淘金热中，如何赚到钱？谁能赚到钱？赚到多少钱？

苹果不急于进军生成式AI，是正确的

英伟达的芯片为何能主导AI市场？

发表回复