Claude Computer Use 快速入门

让 Claude「看见」你的桌面,然后替你点鼠标、敲键盘——一个会自己用电脑的 AI。

这是什么?适合谁?

Claude Computer Use 是 Anthropic 在 2024 年底推出的能力,核心是给 Claude 模型装上「眼睛和手」——能看屏幕截图(通过虚拟显示器)、动鼠标(移动、点击、拖拽)、敲键盘(输入文本、按键组合)、执行 shell 命令。它不是一个独立的「产品」,而是 Claude 模型的一个内置工具(tool),你在调用 Claude API 时把 computer 工具加上,Claude 就会自己决定什么时候截图、什么时候点击、什么时候打字。

Anthropic 提供了一个参考实现——一个 Docker 镜像,跑起来后是带 X11 桌面的 Linux 容器,Claude 在里面操控一个真实的 Xfce 桌面环境。你也可以自己实现一个「computer use loop」,接任意桌面(Windows、macOS、Linux 都行)——只要给 Claude 提供截图、接受它的鼠标键盘指令就行。

这种能力的应用场景非常广:自动化测试(让 AI 替你点网页、跑回归)、GUI 流程自动化(操作老旧只能靠 UI 操作的系统)、数据录入(从一堆 PDF 里抄数据到 Excel)、网页抓取(对反爬严格的网站,用「看+点」的方式绕过)、辅助残障用户等。

适合谁?如果你是开发者,想尝试「让 AI 操作 GUI」这个前沿方向,Claude Computer Use 是目前最成熟的 API 入口;如果你是测试工程师,手里有需要大量重复点击的回归测试,可以用它写一个能「自己跑回归」的脚本;如果你是安全研究员,想研究「AI 操作桌面」的安全风险,Anthropic 在文档里专门有一节「Risks and safety guidance」值得读。

不适合普通用户直接当助手用——目前的实现需要写代码;也不适合对实时性要求极高的场景(每次截图+模型推理的延迟大约 2~5 秒,做不了高频交互)。

准备工作

开始之前,请准备以下几样:

Anthropic API Key:访问 https://console.anthropic.com/ 注册并申请 key。Computer Use 功能对模型有要求,需要用 claude-3-5-sonnet-20241022 或更新版本(claude-opus-4、claude-sonnet-4 系列都支持)。
Docker:官方提供的参考实现是基于 Docker 的,访问 https://www.docker.com/ 安装。
Python 3.10+:写客户端脚本用。访问 https://www.python.org/downloads/ 安装。
Anthropic SDK:通过 pip install anthropic 安装。
网络通畅:需要能访问 Anthropic 的 API 端点。

3 步快速上手

第 1 步:拉取官方参考 Docker 镜像

Anthropic 在 Docker Hub 上提供了 anthropic/computer-use-demo 镜像,自带 Xfce 桌面和一个 VNC 服务器。打开终端执行:

docker pull anthropic/computer-use-demo

拉完之后,用下面的命令启动容器(Windows PowerShell 注意换行):

docker run -it \
  -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
  -p 5900:5900 \
  -p 8501:8501 \
  -v $HOME/.anthropic:/home/computeruse/.anthropic \
  anthropic/computer-use-demo:latest

参数解释:-p 5900 是 VNC 端口(可选,用于看桌面),-p 8501 是 Streamlit Web UI 端口(主交互入口)。

第 2 步:打开 Web UI 并配置

浏览器访问 http://localhost:8501,你会看到一个聊天界面和右侧的实时桌面截图。首次进入时,会要求你输入 Anthropic API Key(也可以通过 -e 环境变量传入)。

界面上有三个关键参数:

Model:选择 claude-3-5-sonnet-20241022 或更新的支持 Computer Use 的模型。
Tool Version:computer_20241022(当前主流版本)。
Display:留默认 1024x768 即可。

第 3 步:给 Claude 一个任务

在聊天框里输入:

请打开 Firefox,访问 https://www.anthropic.com 首页,然后在搜索框里输入 “Computer Use”,截一张图给我。

回车之后,你会看到:

右侧桌面开始自动变化——Firefox 启动、鼠标移动、键盘输入、页面渲染;
左侧聊天面板里 Claude 一步一步告诉你它打算做什么(I will click on the Firefox icon...);
大约 30~60 秒后,任务完成,桌面截图就是搜索结果页。

这就算第一次跑通了。

常见踩坑

「启动容器时端口被占」:检查本机 5900 / 8501 端口是否被别的程序占用,Windows 下用 netstat -ano | findstr :8501 查,关掉冲突进程。
「Claude 鼠标点偏了」:参考桌面的默认分辨率是 1024x768,如果你的 VNC 客户端显示比例不对,可能视觉上「点偏」实际坐标对的——可以把 VNC 缩放调到 100%。
「API Key 没生效」:容器启动时 -e ANTHROPIC_API_KEY 必须指向已充值且有余额的账号;新账号有免费额度但不多,跑两三次容易用完。
「任务跑到一半卡住」:Computer Use 在「找不到下一步」时容易死循环,参考 UI 提供了「Pause / Resume」按钮,记得设一个超时时间,超时后人工介入。
「中文输入乱码」:Linux 容器默认键盘布局是英文,直接 send 字符串可以,但用 xdotool type 模拟键盘敲中文会出问题;复杂中文输入建议先写到剪贴板再 Ctrl+V。
「提示 risk/safety 警告」:Anthropic 在模型层做了安全护栏,涉及「打开终端执行 sudo」「访问敏感 URL」等动作会被模型主动拒绝;这是设计如此,不是 bug。

初级用法

网页搜索自动化:让 Claude 打开浏览器,搜索一个关键词,点开前 3 个结果,把所有标题整理成列表。
表单自动填写:给 Claude 一份简历 PDF,让它打开招聘网站,挨个字段填进去。
数据迁移:让 Claude 操作 Excel,把 Sheet1 的某些列按规则搬到 Sheet2,省去手敲。

高级玩法

多步 GUI 自动化测试:写一个 Python 脚本,循环跑 5~10 个常见用户路径,每次截图归档做回归对比。
对接企业 ERP / OA:很多老系统只有 GUI 没有 API,Computer Use 可以「曲线」接入,做轻量自动化。
长流程编排 + 异常恢复:在脚本里加 try/except,当 Claude 卡住或失败时,自动保存当前桌面截图、给运维发告警。

小技巧

截图分辨率别设太大:默认 1024x768 是平衡点;设到 4K 截图会让 token 消耗翻好几倍。
每步任务粒度要细:让 Claude「打开浏览器搜 X,点击第 1 个结果,点收藏,关闭浏览器」比让它「帮我做一份收藏清单」靠谱得多。
用坐标辅助:复杂点击可以告诉 Claude 「点页面顶部右侧第 3 个图标」,比「点设置」更稳。
保存对话日志:Anthropic SDK 提供了 messages.create(...) 的完整响应,持久化下来方便复盘。
避免让 AI 触碰敏感账号:Computer Use 在金融、邮箱等场景下风险较高,先用测试账号跑通流程,再用正式账号。

参考链接

本文基于官方文档和公开资料整理，AI辅助生成，MagicNetWorld 尚未完成独立实测。如有错误或过时信息，请通过 contact@magicnetworld.com 反馈。

Claude Computer Use 快速入门

这是什么?适合谁?

准备工作

3 步快速上手

第 1 步:拉取官方参考 Docker 镜像

第 2 步:打开 Web UI 并配置

第 3 步:给 Claude 一个任务

常见踩坑

初级用法

高级玩法

小技巧

参考链接

同分类推荐

Manus

Coze Agent

Zapier Agents

OpenAI Operator