十分钟读完 OpenAI提出InstructGPT模型的经典论文：Training language models to follow instructions with human feedback

大型语言模型（LMs）虽然能够执行多种自然语言处理（NLP）任务，但它们并不总是能够很好地遵循用户的意图。例如，它们可能会产生不真实、有偏见、有毒或者简单地不遵循用户指令的输出。这是因为大型LMs的训练目标——预测互联网网页上的下一个词——与“有帮助且安全地遵循用户指令”的目标不同。因此，我们说这些模型与用户的目标不一致。对于部署在数百个应用中的语言模型来说，避免这些意外行为尤为重要。1. 与GP

夕小瑶

1204人浏览 · 2024-01-16 21:27:29

夕小瑶 · 2024-01-16 21:27:29 发布

超越GPT-3！OpenAI提出新模型InstructGPT：通过人类反馈微调大型语言模型，减少有害输出

引言：探索大型语言模型与用户意图对齐的新途径

随着人工智能技术的飞速发展，大型语言模型（LMs）在自然语言处理（NLP）任务中的应用变得越来越广泛。然而，这些模型往往会表现出一些非预期的行为，例如编造事实、生成有偏见或有害的文本，或者简单地不遵循用户指令。这些问题的根源在于，大型语言模型的训练目标——预测互联网上网页中的下一个词——与“有帮助且安全地遵循用户指令”的目标不一致。因此，我们说这些模型与用户的意图不对齐。

为了解决这一问题，本文展示了一种通过人类反馈微调语言模型来与用户意图对齐的新途径。我们首先收集了由标注者编写的提示和通过OpenAI API提交的提示，然后使用这些数据来对GPT-3进行监督学习微调。接着，我们收集了模型输出的排名数据，并利用这些数据进一步通过人类反馈的强化学习对监督模型进行微调。我们将最终的模型称为InstructGPT。在对我们的提示分布进行人类评估时，尽管参数数量少了100倍，但1.3B参数的InstructGPT模型的输出仍然比175B参数的GPT-3模型更受欢迎。此外，InstructGPT模型在真实性上表现出了改进，并减少了有害输出的生成，同时在公共NLP数据集上的性能回退最小化。尽管InstructGPT仍会犯一些简单的错误，我们的结果表明，通过人类反馈进行微调是一个有前景的方向，可以使语言模型与人类意图对齐。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」 智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）

论文标题：Training language models to follow instructions with human feedback

机构：OpenAI

论文链接：https://arxiv.org/pdf/2203.02155.pdf

概述大型语言模型存在的问题：不一定能更好地遵循用户意图

研究方法：使用人类反馈进行微调的方法

1. 收集标签者编写的提示和通过OpenAI API提交的提示

研究团队首先从标签者编写的提示和通过OpenAI API提交的提示开始，收集了一组标签者演示期望模型行为的数据集。

2. 收集标签者期望行为的演示数据集

然后，研究人员使用这些数据对GPT-3进行了监督学习微调。

3. 使用监督学习微调GPT-3

微调后，研究人员收集了模型输出的排名数据集。

4. 收集模型输出的排名数据集

接着，他们使用这些排名数据集进一步通过人类反馈的强化学习对这个监督模型进行微调。

5. 使用人类反馈的强化学习进一步微调

这个过程产生了称为InstructGPT的模型。在人类评估中，即使参数数量少100倍，1.3B参数的InstructGPT模型的输出也比175B参数的GPT-3模型更受欢迎。此外，InstructGPT模型在真实性方面表现出改进，并减少了有毒输出的生成，同时在公共NLP数据集上的性能回退最小。尽管InstructGPT仍然会犯一些简单的错误，但结果表明，使用人类反馈进行微调是一个有前景的方向，可以使语言模型与人类意图更好地对齐。

InstructGPT模型的介绍和评估

1. 与GPT-3相比，参数少100倍的InstructGPT模型更受青睐
InstructGPT模型是通过人类反馈进行微调的GPT-3模型的变体。尽管InstructGPT的参数数量比GPT-3少了100倍（1.3B相比于175B），但在人类评估中，InstructGPT的输出更受青睐。这表明，通过人类反馈进行的微调可以使模型更好地与用户意图对齐，而不仅仅依赖于增加模型大小。

2. 在真实性和减少有害输出生成方面的改进
InstructGPT模型在生成真实信息方面表现出了显著的改进。在TruthfulQA基准测试中，InstructGPT生成真实和有信息量的答案的频率是GPT-3的两倍。此外，InstructGPT在减少有害输出方面也有所改进，例如在被要求尊重时，生成的有毒输出比GPT-3少了约25%。然而，对于偏见，InstructGPT并没有显著改善。

3. 在公共NLP数据集上的性能回归问题
尽管InstructGPT在与人类意图对齐方面取得了进展，但在某些公共NLP数据集上，与GPT-3相比，其性能出现了回归。例如，在SQuAD、DROP、HellaSwag和WMT 2015法英翻译等数据集上，InstructGPT的性能低于GPT-3。研究者通过修改强化学习的微调过程，混合使用预训练数据的更新，以减少这些性能回归，而不影响标签者偏好得分。

讨论InstructGPT模型的优势和局限性

1. 在多种任务上的表现
InstructGPT在多种任务上表现出色，特别是在理解和遵循用户指令方面。它在生成任务、开放式问答、闭环问答、脑力激荡、聊天、重写、总结、分类、提取等方面都有良好的表现。此外，InstructGPT还能在一些非英语任务和编码任务上展现出一定的泛化能力，尽管这些任务在微调分布中非常罕见。

2. 仍然存在的错误和挑战
InstructGPT虽然在多个方面取得了进展，但仍存在错误和挑战。例如，它有时无法遵循指令、编造事实、对简单问题给出过于含糊的回答，或无法检测出基于错误前提的指令。此外，当指令包含多个明确的约束时，或者当约束对语言模型来说具有挑战性时（例如，用特定数量的句子编写摘要），模型的性能会下降。

探讨如何改进InstructGPT模型

1. 减少有害输出的生成

InstructGPT模型的改进首先需要着眼于减少有害输出的生成。研究表明，大型语言模型（LMs）在预测下一个词汇时，可能会产生不真实、有偏见或有毒的文本，或者根本不遵循用户指令。这些输出不仅与用户意图不一致，还可能对社会造成伤害。为了减少这些不良行为，研究人员采用了基于人类反馈的强化学习（RLHF）方法来微调GPT-3，使其更好地遵循书面指令。通过收集人类标注者对模型输出的偏好数据，训练了一个奖励模型（RM），并使用PPO算法进一步微调模型，以最大化这些奖励信号。这一过程使GPT-3的行为更符合特定人群（主要是标注者和研究人员）的偏好，而不是任何更广泛的“人类价值观”。

2. 提高模型的真实性和安全性

为了提高InstructGPT模型的真实性和安全性，研究人员采取了多种措施。首先，他们对模型进行了微调，使其在TruthfulQA基准测试中生成真实和信息丰富的答案的频率是GPT-3的两倍。此外，对于API提示分布中的“封闭域”任务，InstructGPT模型编造的信息比GPT-3少了一半（分别为21%对41%的幻觉率）。在有毒输出方面，InstructGPT模型在被提示尊重时生成的有毒输出比GPT-3少约25%。然而，在偏见方面，InstructGPT并没有比GPT-3有显著改进。

总结：InstructGPT模型在对齐人类意图方面的潜力及其对未来AI系统的影响

InstructGPT模型展现了在对齐人类意图方面的潜力，尤其是在通过人类反馈进行微调时。人类评估显示，即使参数数量少100倍，1.3B参数的InstructGPT模型的输出也比175B参数的GPT-3更受欢迎。此外，InstructGPT模型在真实性方面表现出改进，并在生成有毒输出方面有所减少。尽管InstructGPT仍会犯一些简单的错误，如未能遵循指令、编造事实、对简单问题给出冗长的回避答案或未能检测到带有错误前提的指令，但这些结果表明，通过人类反馈进行微调是一个有前途的方向，用于使语言模型与人类意图保持一致。

InstructGPT模型对未来AI系统的影响在于，它为如何设计、训练和部署更安全、更有用的AI系统提供了一个有价值的案例研究。通过减少有害输出并提高真实性和安全性，InstructGPT模型不仅能更好地服务于用户，还能推动整个AI领域朝着更负责任的方向发展。然而，这项工作也表明，要完全实现这些目标，仍需要大量的研究和创新。

讨论对齐技术的广泛影响

1. 提高语言模型的积极影响

对齐技术通过人类反馈的精细调整，显著提升了语言模型的性能。研究表明，经过对齐技术处理的InstructGPT模型在执行各种语言任务时，其输出比原始的GPT-3模型更受人类评价者的青睐，即使参数数量少了100倍。这表明对齐技术能够使模型更好地理解和遵循用户的意图，包括明确的指令和隐含的意图，如保持真实性、避免偏见和有害内容。此外，InstructGPT模型在真实性和减少有害输出生成方面也显示出了改进，同时在公共NLP数据集上的性能损失最小化。

2. 面临的潜在滥用风险

尽管对齐技术在提升语言模型性能方面取得了积极进展，但它也带来了潜在的滥用风险。更好地遵循用户指令的模型可能更容易被用于生成令人信服的虚假信息或仇恨和辱骂性内容。对齐技术并非解决大型语言模型安全问题的万能钥匙，而应作为更广泛安全生态系统中的一个工具。除了故意滥用外，还有许多领域，如医疗诊断、基于受保护特征的分类、信贷、就业或住房资格决定、生成政治广告和执法等高风险领域，应该非常谨慎地部署大型语言模型，或者根本不部署。

3. 对齐技术在更广泛安全生态系统中的角色

对齐技术是确保人工智能系统与人类意图保持一致的重要组成部分。它是多种提案中的一个关键构建块，旨在对未来的AI系统进行对齐。然而，对齐技术的应用不应该仅限于当前的AI系统，而应该寻求通用和可扩展的方法，以适应未来的AI系统。对齐技术的应用应该是迭代的，通过不断改进当前AI系统的对齐，而不是抽象地关注尚不存在的AI系统的对齐问题。这种实证反馈循环对于精炼对齐技术至关重要，并且它迫使我们与机器学习的进步保持同步。此外，对齐技术的研究历史上相当抽象，侧重于理论结果、小型合成领域或在公共NLP数据集上训练ML模型。本研究为对齐技术在实际世界中的应用提供了基础，使其在现实世界中得到部署和使用的AI系统中得到验证。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」 智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）