Learning to Reason with LLMs | OpenAI
https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。O1 在回答之前会思考 - 在响应用户之前,它可以产生一个很长的内部思维链。

OpenAI o1 在竞争性编程问题 (Codeforces) 中排名89百分位,在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。

OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中使用其思维链进行高效思考。OpenAI发现,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1 的性能会不断提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。

训练时计算和测试时计算增加都有助于提升o1表现

一、评测

通过大范围的测试可以证明o1的推理能力显著强于GPT-4o

在许多推理密集型基准测试中,o1 的性能可与人类专家的性能相媲美。AIME 是一项旨在挑战美国最聪明的高中数学学生的考试。在 2024 年 AIME 考试中,GPT-4o 只解决了 12% (1.8/15) 的问题。O1 平均 74% (11.1/15), 每个问题只有一个样本;在 64 个样本中达成一致时,o1达到83% (12.5/15) ;在使用一个习得的评价函数给 1000 个样本时重排序时,能达到93% (13.9/15)。13.9 分的成绩跻身全国前 500 名学生之列,高于美国数学奥林匹克竞赛的分数线。

OpenAI 还在 GPQA 上评估了 o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 聘请了具有博士学位的专家来回答 GPQA 问题。OpenAI 发现 o1 的性能超过了那些人类专家,成为第一个在此基准测试中做到这一点的模型。这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说该模型更擅长解决一些博士应该解决的问题。在其他几个 ML 基准测试中,o1 的改进超过了最先进的。开启视觉感知能力后,o1 在 MMMU 上的得分为 78.2%,成为首个与人类专家竞争的模型。在 57 个 MMLU 子类别中,它还在 54 个子类别中的表现优于 GPT-4o。

二、CoT

类似于人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时使用思维链(CoT)。通过强化学习,o1 学会磨练其思维链并改进它使用的策略。它学会识别和纠正错误。它学会了将棘手的步骤分解为更简单的步骤。它学会了在当前方法不起作用时尝试不同的方法。此过程显著提高了模型的推理能力。

o1在回答时自带内部思维链

三、编程

OpenAI训练了一个在 2024 年国际信息学奥林匹克竞赛 (IOI) 中获得 213 分并排名第 49 个百分位的模型,这个模型从 o1 初始化并进行训练,以进一步提高编程技能。该模型在与人类参赛者相同的条件下参加了 2024 年 IOI 的比赛。它有 10 个小时来解决 6 个具有挑战性的算法问题,每个问题允许提交 50次。

对于每个问题,OpenAI的系统对许多候选提交的内容进行了抽样,并根据测试时选择策略提交了其中的 50 个。提交的内容是根据 IOI 公共测试用例、模型生成的测试用例和学习的评分函数的性能来选择的。如果OpenAI随机提交,OpenAI平均只会得到 156 分,这表明在比赛限制下,这种策略值近 60 分。

在宽松的提交约束下,OpenAI发现模型性能显著提高。当每个问题允许提交 10,000 次时,该模型获得了 362.14 分——高于金牌阈值——即使没有任何测试时间选择策略。

OpenAI模拟了由 Codeforces 主办的竞争性编程竞赛,以展示该模型的编码技能。OpenAI的评估与比赛规则非常匹配,并允许 10 份提交。GPT-4o 获得 Elo 评级 的 808 ,位于人类竞争对手的第 11 个百分位。该模型远远超过了 GPT-4o 和 o1——它的 Elo 评分为 1807,表现优于 93% 的竞争对手。

四、人类偏好评估

除了考试和学术基准之外,还评估了人类对 o1-preview 与 GPT-4o 在广泛领域中具有挑战性的开放式提示的偏好。在这项评估中,人类培训师对来自 o1-preview 和 GPT-4o 的提示进行了匿名响应,并投票选出他们更喜欢哪种响应。O1-Preview 在数据分析、编码和数学等推理密集型类别中比 GPT-4O 更受欢迎。但是,在某些自然语言任务中,o1-preview 不是首选,这表明它并不适合所有用例。

五、安全

思维链推理为对齐和安全提供了新的机会。OpenAI发现,将模型行为政策整合到推理模型的思维链中是稳健地教授人类价值观和原则的有效方法。通过向模型传授OpenAI的安全规则以及如何在上下文中对其进行推理,OpenAI发现了推理能力直接有利于模型稳健性的证据:o1-preview 在关键越狱评估和评估模型安全拒绝边界的最难的内部基准上实现了显著提高的性能。OpenAI相信,使用思维链为安全性和一致性提供了重大进步,因为 (1) 它使OpenAI能够以清晰的方式观察模型思维,以及 (2) 关于安全规则的模型推理对于分布外场景更加稳健。

为了对OpenAI的改进进行压力测试,OpenAI在部署前根据OpenAI的准备框架进行了一系列安全测试. OpenAI发现,思维链推理有助于评估中的能力改进。

六、隐藏思维链

OpenAI相信,隐藏的思维链为监控模型提供了独特的机会。假设它是忠实且清晰的,隐藏的思维链使OpenAI能够“读取模型的思想”并理解其思维过程。例如,将来OpenAI可能希望监控思路是否有操纵用户的迹象。然而,要做到这一点,模型必须能够自由地以不变的形式表达其想法,因此OpenAI不能将任何政策合规性或用户偏好训练到思维链上,也不想让用户直接看到一个不对齐的思路。

因此,在权衡了包括用户体验、竞争优势和追求思维链监控选项在内的多种因素后,OpenAI决定不向用户展示原始思维链。它承认此决定有缺点,努力通过教模型在答案中重现思维链中的任何有用想法来部分弥补它。对于 o1 模型系列,OpenAI展示了模型生成的思路链摘要。


如何学习大模型?

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

如有侵权,请联系删除

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐