如何训练AI大型语言模型

内容提要

众所周知，构建大型语言模型(LLM)需要大量的数据。在传统的训练中，LLM被灌输进大量的文本，并被鼓励在每个单词出现之前进行猜测。对于每次预测，LLM都会进行一些微小的调整，以提高猜测正确的几率。最终的结果是，对哪些是正确的、哪些不是正确的语言，有一定的数学统计层面上的 “理解”。

但是，仅仅经历过这种所谓的“预训练”的LLM还不是特别有用。例如，当被要求讲一个笑话来让人高兴时，预训练模型GPT-2只是将问题重复了三遍。当被问及美国总统是谁时，它回答说：“答案是否定的。总统不是总统。”显然，要让LLM能按照人类的意愿行事，现在所做得还远远不够。

要使这类大语言模型与用户期望保持一致的一个方法是，通过人类反馈进行强化学习（RLHF）。美国初创公司OpenAI在2022年3月发表的论文（未经同行审议）中介绍了这种技术，也是八个月后发布的聊天机器人ChatGPT的重要组成部分。

RLHF通常包括三个步骤。首先，人类志愿者被要求从两个潜在的LLM响应中选择一个，以便可以更准确地匹配所给定的提示。这一过程会被重复数千次。然后，该数据集被用来训练第二个LLM。实际上，第二个LLM是用以替代人类的。这个所谓的奖励模型，旨在给人类想要的响应分配更高的分数，给其他的响应分配更低的分数，然后用于训练原始（被选中的）的LLM。最后，用一种被称为强化学习的机器学习技术，来微调原始LLM，以帮助强化为其赢得奖励的行为。

这种RLHF方法相当复杂，使用两个独立的LLM需要耗费大量的时间和金钱，而用于强化学习的算法——用斯坦福大学拉斐尔·拉法洛夫的话来说——”相当费事费力”。这意味着，除了OpenAI、谷歌和它们的竞争对手外，没有人真正发掘出RLHF的全部潜力。

而现在事实证明，只需付出很小的努力，就能取得同样的效果。拉法洛夫博士和他的同事，包括阿基特·夏尔马和埃里克·米切尔，在2023年12月的人工智能大会NeurIPS上提出了一种替代方案。这种被称为“直接偏好优化（DPO）”的方法，依赖于一个讨喜的数学诀窍。

这个诀窍的基础是，对于每一种奖励模型都有一种特定的理论上的LLM可以获得满分，而每一种LLM同样也有一种理论上的奖励模型可以让它获得满分。通俗地来说，就是每条裤子在理论上都有一个最适合穿它的人，而每个人理论上都有一条最适合自己穿的裤子。每个LLM都隐藏了一个隐含的奖励模型，这一观察结果使研究人员可以直接修改这个模型。在以前的方法中，LLM从奖励模型中学习，而奖励模型则从数据中学习。而现在，LLM可以直接从数据中学习。

以上斯坦福的诸作者认为，去掉奖励模型这个中间环节后，DPO的效率是RLHF的三到六倍，在生成文本摘要等任务中的表现也更为出色。夏尔马博士说，DPO的易用性已经让较小的公司能够解决AI对齐问题。一年前，只有少数世界领先的大语言模型，如谷歌的Gemini和OpenAI的GPT-4，能够负担得起使用RLHF。但截至3月12日，在行业排行榜上排名最高的10个LLM中，有8个使用了DPO。寻求与OpenAI竞争的法国初创公司Mistral使用了它。社交媒体巨头Meta已将其整合到自己的LLM中。

未来肯定会有进一步的改进。首先，人们普遍认为，大型AI实验室自2022年停止发布细节以来，已经对其专有算法进行了改进。但是，让LLM做人类想要和期望的事情的问题，还远远没有解决。毕竟，即使是人类自己也偶尔会遇到困难。

本文翻译自经济学人，译者：技术商业备忘录，原文链接https://www.economist.com/science-and-technology/2024/03/13/how-to-train-your-large-language-model

本文为翻译作品，原文版权归原作者所有。未来学人仅提供翻译服务，不对原文内容或观点进行任何修改或代表。本文仅供学习和研究参考，不得用于商业用途。

如何训练AI大型语言模型

相关推荐

科技巨头争夺AI霸权

苹果不急于进军生成式AI，是正确的

如何投资人工智能？

发表回复