Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku,以及一项新 Computer Use (计算机使用)的新功能。
Computer Use
这是一项 API 功能,Computer Use 允许 Claude 模仿人类的方式使用计算机,例如查看屏幕、移动光标、点击按钮、输入文本等。
还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。
Claude 3.5 能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。包括但不仅限于检查电子表格,移动光标打开 Web 浏览器,导航到相关网页,使用这些网页中的数据填写表格等等。
从官方演示可以看到,Claude 现在可以:
- 自动扫描 excel(OCR)没找到
- 自动去 CRM 数据库找
- 找到数据,并自动填充表单
开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。
Claude 3.5 Haiku
Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus,同时保持了低延迟和高指令跟随能力。
该模型适用于用户界面任务、个性化体验生成等需求。
Claude 3.5 Sonnet - 20241022
该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。
在编程测试(SWE-bench Verified)中表现提高到49%,在零售领域的工具使用测试(TAU-bench)中提升至69.2%,航空领域则达到了46%。
在评估人工智能模型像人一样使用计算机的能力的OSWorld上。
Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。
当提供更多步骤来完成任务时,克劳德得分为 22.0%。
新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。那么,问题来了,新版 Claude 3.5 Sonnet 模型能打败 o1 Preview 么?
— HumanEval / Code: 93.7% vs 92.4% (preview, mini)
— GPQA: 65% vs 60% (mini), 73.3% (preview)
— MMMU: 70.4% vs 78.2% (o1)
— MMLU Pro: 78% vs 91% (preview)
从指标来看,可以肯定新版 Claude 3.5 Sonnet 能够轻松打败 GPT-4o,加上起码在推理速度上能胜出 o1,也是个举足轻重的存在了。