Claude 3.5 Sonnent（new）发布，编程能力反超o1

不出所料，Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku，全新升级版Claude 3.5 Sonnet也来了，这两款模型在多个领域都有显著提升，特别是在编程领域取得了突破性进展。10月3日，OpenAI Canvas正式发布，官方的定义是：Canvas 是一个全新的界面，旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。o1 模型可以“像人类一样

哪吒

2546人浏览 · 2024-10-23 17:52:34

哪吒 · 2024-10-23 17:52:34 发布

在这里插入图片描述

1、近期OpenAI的重磅更新

9月12日，OpenAI更新了o1-preview和o1-mini模型，主打推理能力，号称能解决比以往模型更难的科学、编程和数学问题！

o1-preview：预览版模型，功能相对较少，但推理能力强大。

o1-mini：更小、更快的推理模型，特别擅长编程。

o1 模型可以“像人类一样思考”：o1 模型经过训练，能够花更多时间思考问题，尝试不同的策略，并识别自己的错误，就像人类一样！

10月3日，OpenAI Canvas正式发布，官方的定义是：Canvas 是一个全新的界面，旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。

类似 Claude 的 Artifacts，左侧进行提问，右侧进行代码或样式的预览。

并且，Canvas在此基础上，新增了文本和代码的在线编辑功能。

OpenAI至此，补齐了之前的“短板”，完成了对Claude3.5的360°无死角超越。

2、Claude 3.5深夜迎来重磅升级

不出所料，Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku，全新升级版Claude 3.5 Sonnet也来了，这两款模型在多个领域都有显著提升，特别是在编程领域取得了突破性进展。

Claude 3.5 Sonnet还引入了“计算机使用能力”，能够模拟人类操作计算机，这在自动化重复性工作、软件开发和测试等领域具有巨大潜力。

让人惊艳的是，进化后的Claude 3.5 Sonnet一举击溃OpenAI o1，堪称最强推理模型。

AI巨头间的无烟战争，也是愈演愈烈，这对广大用户来说，绝对是一个好事，AI辅助编程、辅助写作真的太爽了。

从Anthropic官方亮出的评分中不难看出，升级后的Claude 3.5 Sonnet在性能上可以说是有了大幅的提升。

Claude 3.5 Sonnet（new）全面提升，尤其在编程方面，吊打所有公开模型，包括 OpenAI o1 和专门为 agent 编程设计的系统！SWE-bench Verified 基准测试得分从 33.4% 提升到 49.0%，速度和价格保持不变！这才是真正的加量不加价！

对开发者来说，这意味着什么？简单来说，代码编写的时间可以大大缩短，调试过程也会更顺畅。而对于那些刚刚接触编程的新人来说，这样的AI助手无疑会成为学习编程的好帮手，因为它不仅能教你怎么写代码，还能告诉你为什么这么写更好。

3、为什么这么大的更新却连模型版本号都不改一下？

该功能发布后，网友纷纷点赞，都表示迫不及待想要尝试这个功能；当然也有网友对 Claude 3.5 Sonnet 依然使用原来的名称表达了深深地不解：「为什么这么大的更新却连模型版本号都不改一下？」

并且发布不过几个小时，就已经有开发者尝试了 Claude 3.5 Sonnet 的这项新能力。网友 Mckay Wrigley 表示通过 API 使用这项新功能，设置时间不超过 10 分钟，而这项能力却能为 AI 开启无限可能，堪称 game changer。

4、升级后的Claude 3.5 Sonnet：不只是“更快更强”

另外，对于官方博客中缺少的与 OpenAI ο1 模型的性能对比，也已经有研究者抢先完成了。根据研究者 Austin Starks 的实验，最新版 Claude 3.5 Sonnet 的性能表现优于 OpenAI ο1-mini。他自己也对这一结果深表震惊。

在各项行业基准测试中，升级版Claude 3.5 Sonnet性能得到了全方位提升，在问答、推理、数学、编程、阅读几个关键评测中，提升效果显著。

Claude 3.5 Sonnet的性能再次反超o1，成为业界新标杆。

GPQA：研究生水平的问答测试
MMLU：通用推理能力测试
MATH [21]：数学问题解决能力测试
HumanEval：编程任务评估
GSM (32)：多步骤数学问题测试
DROP [23]：阅读理解测试
BIG-Bench Hard [24, 25]：模型评估的综合性测试集
AME 2024：高中数学竞赛水平的测试
IFEval：指令遵循能力测试

5、Claude 3.5 Sonnet（new）适配更多场景

Claude 3.5 Sonnet能够理解细微的指令和上下文，识别并纠正自身错误，还能从复杂数据中生成深入的分析和洞察。结合最先进的编码、视觉识别和写作能力，Claude 3.5 Sonnet可以被应用于各种场景。

（1）智能知识问答

Claude 3.5 Sonnet具有大规模上下文处理能力和极低的幻觉率，使其成为处理大型知识库、文档和代码库问答任务的理想选择。

（2）自动生成代码

Claude 3.5 Sonnet可以协助整个软件开发生命周期——从初始设计到错误修复，从系统维护到性能优化。可以直接将它被集成到产品中，或通过Claude.ai平台将其用作智能编码助手。

（3）智能对话系统

凭借增强的推理能力和亲和、自然的语气，Claude 3.5 Sonnet非常适合开发需要跨系统连接数据并执行操作的智能对话系统。

（4）视觉信息提取

Claude 3.5 Sonnet能够轻松从图表、图形和复杂示意图等视觉材料中提取信息——这使其成为数据分析和数据科学任务的理想人工智能模型。

（5）模拟人类操作电脑

通过API集成Claude，开发者可以指导Claude像人类一样使用电脑——通过观察屏幕、移动鼠标、点击按钮和键入文字。

（6）流程自动化

Claude 3.5 Sonnet能够实现重复性任务或流程的自动化。它具备业界领先的指令执行能力，能够处理复杂的流程和操作。

如何直接使用ChatGPT4o、o1、OpenAI Canvas

GPT-4o知识问答：已同步最新ChatGPT o1、OpenAI Canvas
最强代码大模型Code Copilot：代码自动补全、代码优化建议、代码重构等
DALL-E AI绘画：AI绘画 + 剪辑 = 自媒体新时代
私信哪吒，备注ai，直接使用GPT-4o

无论是写作、编程，还是两者结合的任务，Canvas 都让我们与 AI 的合作更加高效、灵活。随着功能的进一步完善，这个工具将成为每一个创作者和开发者的必备助手。

编程功能的提升

Canvas在编程任务方面也引入了五个高效的快捷功能：

代码审查：系统自动提供代码改进的建议，以优化代码质量和性能。
添加日志语句：在代码中插入调试信息（如print语句），便于追踪代码执行过程。
生成注释：自动生成代码注释，帮助开发者和团队更好地理解代码。
修复错误：检测代码中的错误并重写有问题的部分，从而有效修复bug。
编程语言转换：支持多种语言（包括JS、TS、Python、Java、C++、PHP等）之间的代码转换，帮助开发者轻松跨语言开发。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

第二届开放原子大赛首批创新成果集结武汉，诚邀广大开发者共鉴开源技术盛宴

开放原子开发者工作坊

诚邀报名 | 开源基础设施能力建设分论坛：打造开源生态的“心脏”

开放原子开发者工作坊

诚邀报名 | 编程语言分论坛：AI时代的技术革新与开源实践

开放原子开发者工作坊

所有评论(0)

查看更多评论

哪吒

@guorui_java

已为社区贡献37条内容

Claude 3.5 Sonnent（new）发布，编程能力反超o1

哪 吒

目录

1、近期OpenAI的重磅更新

2、Claude 3.5深夜迎来重磅升级

3、为什么这么大的更新却连模型版本号都不改一下？

4、升级后的Claude 3.5 Sonnet：不只是“更快更强”

5、Claude 3.5 Sonnet（new）适配更多场景

（1）智能知识问答

（2）自动生成代码

（3）智能对话系统

（4）视觉信息提取

（5）模拟人类操作电脑

（6）流程自动化

如何直接使用ChatGPT4o、o1、OpenAI Canvas

编程功能的提升

所有评论(0)

哪 吒

哪吒

哪吒