Claude Computer Use
Anthropic的计算机操作Agent,Claude可直接控制鼠标键盘、查看屏幕截图、操作桌面应用完成复杂任务
Claude Computer Use 快速入门
让 Claude「看见」你的桌面,然后替你点鼠标、敲键盘——一个会自己用电脑的 AI。
这是什么?适合谁?
Claude Computer Use 是 Anthropic 在 2024 年底推出的能力,核心是给 Claude 模型装上「眼睛和手」——能看屏幕截图(通过虚拟显示器)、动鼠标(移动、点击、拖拽)、敲键盘(输入文本、按键组合)、执行 shell 命令。它不是一个独立的「产品」,而是 Claude 模型的一个内置工具(tool),你在调用 Claude API 时把 computer 工具加上,Claude 就会自己决定什么时候截图、什么时候点击、什么时候打字。
Anthropic 提供了一个参考实现——一个 Docker 镜像,跑起来后是带 X11 桌面的 Linux 容器,Claude 在里面操控一个真实的 Xfce 桌面环境。你也可以自己实现一个「computer use loop」,接任意桌面(Windows、macOS、Linux 都行)——只要给 Claude 提供截图、接受它的鼠标键盘指令就行。
这种能力的应用场景非常广:自动化测试(让 AI 替你点网页、跑回归)、GUI 流程自动化(操作老旧只能靠 UI 操作的系统)、数据录入(从一堆 PDF 里抄数据到 Excel)、网页抓取(对反爬严格的网站,用「看+点」的方式绕过)、辅助残障用户等。
适合谁?如果你是开发者,想尝试「让 AI 操作 GUI」这个前沿方向,Claude Computer Use 是目前最成熟的 API 入口;如果你是测试工程师,手里有需要大量重复点击的回归测试,可以用它写一个能「自己跑回归」的脚本;如果你是安全研究员,想研究「AI 操作桌面」的安全风险,Anthropic 在文档里专门有一节「Risks and safety guidance」值得读。
不适合普通用户直接当助手用——目前的实现需要写代码;也不适合对实时性要求极高的场景(每次截图+模型推理的延迟大约 2~5 秒,做不了高频交互)。
准备工作
开始之前,请准备以下几样:
- Anthropic API Key:访问 https://console.anthropic.com/ 注册并申请 key。Computer Use 功能对模型有要求,需要用
claude-3-5-sonnet-20241022或更新版本(claude-opus-4、claude-sonnet-4系列都支持)。 - Docker:官方提供的参考实现是基于 Docker 的,访问 https://www.docker.com/ 安装。
- Python 3.10+:写客户端脚本用。访问 https://www.python.org/downloads/ 安装。
- Anthropic SDK:通过
pip install anthropic安装。 - 网络通畅:需要能访问 Anthropic 的 API 端点。
3 步快速上手
第 1 步:拉取官方参考 Docker 镜像
Anthropic 在 Docker Hub 上提供了 anthropic/computer-use-demo 镜像,自带 Xfce 桌面和一个 VNC 服务器。打开终端执行:
docker pull anthropic/computer-use-demo
拉完之后,用下面的命令启动容器(Windows PowerShell 注意换行):
docker run -it \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-p 5900:5900 \
-p 8501:8501 \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
anthropic/computer-use-demo:latest
参数解释:-p 5900 是 VNC 端口(可选,用于看桌面),-p 8501 是 Streamlit Web UI 端口(主交互入口)。
第 2 步:打开 Web UI 并配置
浏览器访问 http://localhost:8501,你会看到一个聊天界面和右侧的实时桌面截图。首次进入时,会要求你输入 Anthropic API Key(也可以通过 -e 环境变量传入)。
界面上有三个关键参数:
- Model:选择
claude-3-5-sonnet-20241022或更新的支持 Computer Use 的模型。 - Tool Version:
computer_20241022(当前主流版本)。 - Display:留默认
1024x768即可。
第 3 步:给 Claude 一个任务
在聊天框里输入:
请打开 Firefox,访问 https://www.anthropic.com 首页,然后在搜索框里输入 “Computer Use”,截一张图给我。
回车之后,你会看到:
- 右侧桌面开始自动变化——Firefox 启动、鼠标移动、键盘输入、页面渲染;
- 左侧聊天面板里 Claude 一步一步告诉你它打算做什么(
I will click on the Firefox icon...); - 大约 30~60 秒后,任务完成,桌面截图就是搜索结果页。
这就算第一次跑通了。
常见踩坑
- 「启动容器时端口被占」:检查本机 5900 / 8501 端口是否被别的程序占用,Windows 下用
netstat -ano | findstr :8501查,关掉冲突进程。 - 「Claude 鼠标点偏了」:参考桌面的默认分辨率是 1024x768,如果你的 VNC 客户端显示比例不对,可能视觉上「点偏」实际坐标对的——可以把 VNC 缩放调到 100%。
- 「API Key 没生效」:容器启动时
-e ANTHROPIC_API_KEY必须指向已充值且有余额的账号;新账号有免费额度但不多,跑两三次容易用完。 - 「任务跑到一半卡住」:Computer Use 在「找不到下一步」时容易死循环,参考 UI 提供了「Pause / Resume」按钮,记得设一个超时时间,超时后人工介入。
- 「中文输入乱码」:Linux 容器默认键盘布局是英文,直接 send 字符串可以,但用
xdotool type模拟键盘敲中文会出问题;复杂中文输入建议先写到剪贴板再Ctrl+V。 - 「提示 risk/safety 警告」:Anthropic 在模型层做了安全护栏,涉及「打开终端执行 sudo」「访问敏感 URL」等动作会被模型主动拒绝;这是设计如此,不是 bug。
初级用法
- 网页搜索自动化:让 Claude 打开浏览器,搜索一个关键词,点开前 3 个结果,把所有标题整理成列表。
- 表单自动填写:给 Claude 一份简历 PDF,让它打开招聘网站,挨个字段填进去。
- 数据迁移:让 Claude 操作 Excel,把 Sheet1 的某些列按规则搬到 Sheet2,省去手敲。
高级玩法
- 多步 GUI 自动化测试:写一个 Python 脚本,循环跑 5~10 个常见用户路径,每次截图归档做回归对比。
- 对接企业 ERP / OA:很多老系统只有 GUI 没有 API,Computer Use 可以「曲线」接入,做轻量自动化。
- 长流程编排 + 异常恢复:在脚本里加 try/except,当 Claude 卡住或失败时,自动保存当前桌面截图、给运维发告警。
小技巧
- 截图分辨率别设太大:默认 1024x768 是平衡点;设到 4K 截图会让 token 消耗翻好几倍。
- 每步任务粒度要细:让 Claude「打开浏览器搜 X,点击第 1 个结果,点收藏,关闭浏览器」比让它「帮我做一份收藏清单」靠谱得多。
- 用坐标辅助:复杂点击可以告诉 Claude 「点页面顶部右侧第 3 个图标」,比「点设置」更稳。
- 保存对话日志:Anthropic SDK 提供了
messages.create(...)的完整响应,持久化下来方便复盘。 - 避免让 AI 触碰敏感账号:Computer Use 在金融、邮箱等场景下风险较高,先用测试账号跑通流程,再用正式账号。
参考链接
- Anthropic 官方 Computer Use 文档
- Computer Use 参考实现 GitHub
- Anthropic Computer Use 公告博客
- Anthropic API 控制台
- Anthropic SDK Python 文档
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
同分类推荐
商业平台 分类下的其他 Agent