Anthropic 推出新模型及模型改进支持 AI 使用计算机

发布 Claude 3.5 Haiku 模型,Claude 3.5 Sonnet 更新版能力大幅提升,AI 现在能直接使用电脑。

· 3分钟阅读
Anthropic 推出新模型及模型改进支持 AI 使用计算机
新版 Claude 3.5 Sonnet 已上线

Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku,以及一项新 Computer Use (计算机使用)的新功能。

Computer Use

Claude 通过 Computer Use 能力操作电脑

这是一项 API 功能,Computer Use 允许 Claude 模仿人类的方式使用计算机,例如查看屏幕、移动光标、点击按钮、输入文本等。

还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。

Claude 3.5 能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。包括但不仅限于检查电子表格,移动光标打开 Web 浏览器,导航到相关网页,使用这些网页中的数据填写表格等等。

从官方演示可以看到,Claude 现在可以:

  1. 自动扫描 excel(OCR)没找到
  2. 自动去 CRM 数据库找
  3. 找到数据,并自动填充表单

开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。

Claude 3.5 Haiku

Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus,同时保持了低延迟和高指令跟随能力。

该模型适用于用户界面任务、个性化体验生成等需求。

Claude 3.5 Sonnet - 20241022

新版 Claude 3.5 Sonnet - 20241022

该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。

在编程测试(SWE-bench Verified)中表现提高到49%,在零售领域的工具使用测试(TAU-bench)中提升至69.2%,航空领域则达到了46%。

在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。

当提供更多步骤来完成任务时,克劳德得分为 22.0%。

新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。那么,问题来了,新版 Claude 3.5 Sonnet 模型能打败 o1 Preview 么?

— HumanEval / Code: 93.7% vs 92.4% (preview, mini)
— GPQA: 65% vs 60% (mini), 73.3% (preview)
— MMMU: 70.4% vs 78.2% (o1)
— MMLU Pro: 78% vs 91% (preview)

从指标来看,可以肯定新版 Claude 3.5 Sonnet 能够轻松打败 GPT-4o,加上起码在推理速度上能胜出 o1,也是个举足轻重的存在了。