Claude 3.5 Sonnet API 新增计算机使用功能,支持通过自然语言完成自动化操作电脑任务

293 阅读4分钟

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. Claude 3.5 Sonnet 新增的计算机使用功能,使其可以像人类一样进行鼠标操作、键盘输入等。
  2. 该功能包括屏幕阅读与交互、文本输入、文件操作、网页浏览、软件操作、代码编写与调试、自动化脚本执行等。
  3. 目前处于实验阶段,建议在受控环境中使用,并注意潜在风险。

正文(附运行示例)

Claude 3.5 Sonnet 计算机使用功能是什么

claude_computer_use.png

Claude 3.5 Sonnet 是由 Anthropic 公司推出的新功能,支持 AI 模型 Claude 3.5 Sonnet 执行类似人类的电脑操作,如查看屏幕、移动光标、点击按钮和输入文本。基于 API,开发者能将自然语言指令转化为计算机操作,实现自动化处理重复性任务。Claude 3.5 Sonnet 计算机使用功能目前处在实验阶段,代表了 AI 辅助自动化的重要进展,有潜力改变人们与计算机交互的方式。

Claude 3.5 Sonnet 的主要功能

  • 屏幕阅读与交互:AI 查看屏幕截图,在屏幕上进行精准的光标移动和点击操作。
  • 文本输入:用虚拟键盘输入文本,模拟人类打字。
  • 文件操作:创建、编辑、保存和删除文件,以及下载和上传文件。
  • 网页浏览:打开网页,进行搜索,填写表单,以及与网页元素交互。
  • 软件操作:打开和使用各种软件应用程序,如文本编辑器、图像处理软件等。
  • 代码编写与调试:编写和调试代码,执行软件开发任务。
  • 自动化脚本执行:运行 Bash 命令和其他脚本,实现自动化任务。

如何运行 Claude 3.5 Sonnet 计算机使用功能

示例代码

以下是一个使用 Python 调用 Claude 3.5 Sonnet 计算机使用功能的示例:

import requests
import json

url = "https://api.anthropic.com/v1/messages"
headers = {
    "content-type": "application/json",
    "x-api-key": "YOUR_ANTHROPIC_API_KEY",
    "anthropic-version": "2023-06-01",
    "anthropic-beta": "computer-use-2024-10-22"
}
data = {
    "model": "claude-3-5-sonnet-20241022",
    "max_tokens": 1024,
    "tools": [
        {
            "type": "computer_20241022",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1
        },
        {
            "type": "text_editor_20241022",
            "name": "str_replace_editor"
        },
        {
            "type": "bash_20241022",
            "name": "bash"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": "Save a picture of a cat to my desktop."
        }
    ]
}

response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json())

运行教程

  1. 提供 Claude 计算机使用工具和用户提示

    • 在 API 请求中添加 Anthropic 定义的计算机使用工具。
    • 包括一个用户提示,例如:“将一张猫的图片保存到桌面上。”
  2. Claude 决定使用工具

    • Claude 加载存储的计算机使用工具定义并评估是否有工具可以帮助用户的查询。
    • 如果有合适的工具,Claude 构建一个格式正确的工具使用请求。
    • API 响应的 stop_reasontool_use,表示 Claude 意图使用工具。
  3. 提取工具输入,评估工具结果并返回结果

    • 提取 Claude 请求中的工具名称和输入。
    • 在容器或虚拟机上使用工具。
    • 继续对话,包含一个带有 tool_result 内容块的新 user 消息。
  4. Claude 继续调用计算机使用工具直到完成任务

    • Claude 分析工具结果,确定是否需要更多工具使用或任务已完成。
    • 如果需要更多的工具,Claude 会再次响应 tool_use stop_reason,返回步骤 3。
    • 否则,它会生成一个文本响应给用户。

资源

  1. 项目官网:docs.anthropic.com/en/docs/bui…
  2. GitHub 仓库:github.com/anthropics/…
  3. 反馈表单:forms.gle/BT1hpBrqDPD…

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦