Anthropic 推出新模型及模型改进支持 AI 使用计算机

Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku，以及一项新 Computer Use (计算机使用)的新功能。

Computer Use

这是一项 API 功能，Computer Use 允许 Claude 模仿人类的方式使用计算机，例如查看屏幕、移动光标、点击按钮、输入文本等。

还能够自动化执行多个步骤的复杂任务，如填写在线表格、搜索数据、提交报告等，从而大幅减少人工操作时间。

Claude 3.5 能够在计算机界面上导航，通过切换窗口、打开菜单、选择选项等操作，完成多步骤的任务。包括但不仅限于检查电子表格，移动光标打开 Web 浏览器，导航到相关网页，使用这些网页中的数据填写表格等等。

从官方演示可以看到，Claude 现在可以：

自动扫描 excel(OCR)没找到
自动去 CRM 数据库找
找到数据，并自动填充表单

开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务（如研究），甚至在复杂的应用场景中进行交互。

Claude 3.5 Haiku

Claude 3.5 Haiku 是速度最快的新一代模型，在多项测试中超越了上一代的 Claude 3 Opus，同时保持了低延迟和高指令跟随能力。

该模型适用于用户界面任务、个性化体验生成等需求。

Claude 3.5 Sonnet - 20241022

该版本在多项行业基准测试中表现优异，尤其在编程和工具使用任务上有显著提升。

在编程测试（SWE-bench Verified）中表现提高到49%，在零售领域的工具使用测试（TAU-bench）中提升至69.2%，航空领域则达到了46%。

在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%，明显优于第二好的人工智能系统 7.8% 的得分。

当提供更多步骤来完成任务时，克劳德得分为 22.0%。

新版 Sonnet 与其前代版本保持相同的价格和速度，并在多步开发过程中提高了推理和编程能力。那么，问题来了，新版 Claude 3.5 Sonnet 模型能打败 o1 Preview 么？

— HumanEval / Code: 93.7% vs 92.4% (preview, mini)
— GPQA: 65% vs 60% (mini), 73.3% (preview)
— MMMU: 70.4% vs 78.2% (o1)
— MMLU Pro: 78% vs 91% (preview)

从指标来看，可以肯定新版 Claude 3.5 Sonnet 能够轻松打败 GPT-4o，加上起码在推理速度上能胜出 o1，也是个举足轻重的存在了。

Computer Use

Claude 3.5 Haiku

Claude 3.5 Sonnet - 20241022

推·荐·文·章

Claude iOS 版即将支持 Artifacts 功能

Claude 网页版已支持屏幕截图功能

Anthropic API 推出提示词缓存可降低9成输入费用

Claude 安卓版已经支持项目功能

Anthropic 正在为 Claude 开发项目文件夹同步以及来源引用功能

Anthropic Claude 账号被封禁原因分析及注意事项