Custom Thumbnail
题图:©FD Images,AI生成

如何控制AI模型的幻觉

不限制模型的能力,很难做到

我们已经越来越熟悉类似的情形了。向OpenAI的ChatGPT这样的AI大语言模型提问时,模型会马上给出言之凿凿、流畅连贯,但却完全错误的回复。在AI模型中,这种倾向通常被称为“幻觉”。不过,还有一个更加通俗的说法:其实就是胡说八道,满嘴放炮。

当然,也有更委婉的说法。OpenAI在给用户的说明中警告ChatGPT“可能会出错”。美国AI初创公司Anthropic表示,其大语言模型Claude“可能会展示不正确或有害的信息”,谷歌的Gemini则提醒用户“要复核它给出的回复”。总的主题就是,无论AI生成的文本有多么流利自信,你都不能轻易相信。

AI幻觉让人们很难在现实世界中依赖AI系统。生成新闻的算法中的错误,可能会传播不实信息。图像生成器生成的画作可能会侵犯版权,即使指令明确要求不能侵权。客户服务聊天机器人可能会在没有权限的情况下,向客户承诺退款。2022年,加拿大航空公司的聊天机器人自己编造了一项丧亲机票优惠政策。今年2月,加拿大的一个法院最终判决该航空必须承担这笔承诺退款。此外,用于诊断或开药的AI系统产生的幻觉,还可能置人于死地。

树老叶黄

麻烦在于,让AI模型产生幻觉的能力,也正是模型可以发挥巨大作用的原因。具体来说,大语言模型是一种“生成式AI”,顾名思义就是,它们通过生成内容来解决新问题。具体做法是,预测大量字符块(“token”)的概率分布,列出其词汇库中每一个可能的字符块接下来出现的概率。数学原理决定了每个字符块被选中的概率都不会是零,这让模型具备了灵活性,能够学习新模式,但同时也能生成不正确的内容。这里的根本问题是,语言模型是基于概率的、或然的,而现实世界中的事实则不是。

这种矛盾表现在多个方面。其中之一是,AI大语言模型没有搜索引擎或百科全书那样的完美查全率。相反,由于模型的大小要比其训练数据小得多,它是通过压缩来学习的。这时候,模型就成了其训练数据的一张模糊化的图片,保留了原图的关键特征,但分辨率要低得多。有些事实不容易受模糊化的影响,比如在“法国的首都是”之后,“巴黎”可能总是出现概率最高的字符块。但许多统计概率没那么高的事实,可能就会被模糊处理掉了。

在对预训练的大语言模型做“微调”时,可能会出现更多扭曲。微调是训练的后期阶段。在此阶段,要根据拟完成的任务更新模型的权重(对训练数据中单词和短语之间的统计关系所做的编码)。举例来说,如果大语言模型的微调是基于对话笔录,幻觉可能就会增加,因为模型可能会凭空捏造一些内容来让自己显得风趣,就像一个爱聊天的人可能会信口开河那样。只需要增添模型表示“我不知道”的微调示例,似乎就能减少幻觉的出现。

调整模型权重可以减少幻觉,一种方法是使用与提示相矛盾或包含其所缺乏的信息的数据,特意训练出一个缺陷模型。研究人员随后可以从原始模型中剔除掉缺陷模型的权重(这些权重对输出有一定影响),从而创造出幻觉更少的模型。

另外,也可以通过调整模型的“温度”来减少幻觉。减低温度会鼓励模型选择出现概率更高的词语,让它更为保守。提高温度会提高模型选择的随机性,让它更具创造性。如果目标是减少幻觉,那么温度应该设定为零。另一种做法是,将模型的选择范围限于概率最靠前的字符块。这样可以降低出现低质量回复的可能性,同时也能允许一定的随机性,进而也就有了多样性。

此外,巧妙的提问也可以减少幻觉。谷歌DeepMind的研究人员发现,告诉一个AI大语言模型“深呼吸,一步步地解决这个问题”,减少了幻觉,提高了问题解决能力,尤其是数学问题。这种方法之所以奏效,一种猜测是AI模型会学习模式。通过将问题分解成小问题,模型更有可能识别并应用正确的模式。但是,爱丁堡大学的爱德华多·庞迪认为,像这样的优化提示是治标不治本。

那么,问题也许在于,希望AI大语言模型自己来保证准确性是要求太高了。其实,它们应该作为一个更大的系统的一部分——它们是引擎,而不是整辆车。一种解决方案是检索增强生成(RAG),它把AI模型的任务分成检索与生成两个部分。一旦接收到提示,检索器模型就会马上从诸如报刊档案的外部信息源中,提取相关的情景信息。这些信息与原始提示一起输入到生成器模型中,还要在开头加上不要依赖先验知识的提示。接下来,生成器就像一个普通大语言模型那样回答问题。RAG让大语言模型发挥自身强项——总结和转述,而非研究,从而减少了模型的幻觉。计算器和搜索引擎等其他外部工具,也可以以这种方式附加到大语言模型上,相当于构建了一个支持系统,来增强模型所缺乏的技能。

然而,即使有了最好的算法和架构设计来防范,大语言模型仍然会出现幻觉。美国软件公司Vectara制作的排行榜,追踪不同模型出现这类错误的频率。排行数据显示,GPT-4在做摘要时的幻觉率为3%,Claude 2为8.5%,Gemini Pro为4.8%。这已经促使程序员更关注发现幻觉,而不是阻止幻觉的发生。幻觉可能出现的一个线索,是大语言模型选择词语的方式。如果概率分布曲线平坦(即多个词语被选中的可能性相近),这时模型不太确定最应该选择哪个词语。这个线索表明,模型可能正在猜答案,并不是根据所提示的信息而“知道”正确答案。

发现幻觉的另一种方法是,训练另一个负责检查事实的大语言模型。可以将“基准事实”和第一个大语言模型的回复一起输入给第二模型,并询问它们是否相一致。或者,也可以把第一个大语言模型对同一个问题的多个回复输入给第二个,询问它这些回复是否统一。如果不一致,那么第一个大语言模型就很可能产生了幻觉。芯片制造商英伟达开发了一个开源框架,给AI大语言模型安装“护栏”,以提高其可靠性。目标之一就是在需要时做这样的事实核查,防止模型产生幻觉。

微软AI前沿实验室的负责人艾斯·卡玛认为,尽管这些方法可以降低幻觉率,但“尚不清楚是否其中任何一种方法,能够完全消除幻觉”。在许多情况下,完全消除幻觉无异于自我破坏,例如,假设让一个大语言模型为一部奇幻小说提供思路,如果限制它只能依据现实世界提供输出,其结果将会令人失望。因此,卡玛说她的研究目的不是为了消除所有幻觉,而是在幻觉无益时,组织模型产生幻觉。

安全而又温暖

幻觉问题是AI领域更大的“对齐”问题的一个方面,“对齐”指如何让AI系统可靠地执行人类用户的意图,而不会擅作主张。许多研究人员认为,用更多、更好的数据来训练更大的大语言模型,能为这个问题提供答案。其他人则认为,大语言模型作为生成和概率模型,将永远无法完全消除误用的幻觉。

或者,真正的问题可能不在于模型,而在于人类用户。产生语言曾经是人类独一无二的能力。AI大语言模型颇具说服力的文本输出,使它们很容易被赋予韧性,让人以为它们也像人类那样运作、推理、理解。但是,目前还没有确凿证据表明事情确实如此。大语言模型并不学习关于整个世界的自洽模型。而且,在模型得到改进、输出的结果越来越对齐人类的产出结果和期望的同时,并不清楚模型内部是否会变得更富韧性。要在现实世界中成功部署AI大语言模型,可能不仅需要训练模型本身,还需要训练人类如何使用、看待模型。

本文由未来学人编译,原文作者:The Economist,审校排版:从林点击查看原文链接

翻译作品,原文版权归原作者所有。未来学人仅提供翻译服务,不对原文内容或观点进行任何修改或代表。如有侵权,请联系我们删除。

赞赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫

好文章值得赞赏

相关推荐

评论

登录后才能评论