◉ Claude.ai/2026-04-20上級

Claude Computer Use2026 — ブラウザ・デスクトップ・CLIを横断した自動化の全技術

Claude Computer Useの完全ガイド。macOS一般提供を受け、ブラウザ操作・デスクトップ自動化・CLI連携の実践手順から本番環境への組み込みパターンまで徹底解説します。

Claude Computer Use デスクトップ自動化ブラウザ自動化 Claude API¹¹⁵ RPA

✦ プレミアム記事

Claude Computer Use を本番環境で使い始めて半年ほど経ちますが、最初に感じた「これは本当に動くのか？」という半信半疑は、今では「どこまで任せられるか」という問いに変わっています。macOS での一般提供が始まり、実務での採用事例も増えてきた今、改めてこの機能の全体像と実践的な使い方を整理したいと思います。

Computer Use の本質 — スクリーンショットと操作の繰り返し

Computer Use が他のAI機能と根本的に異なる点は、Claudeが「見る→判断する→操作する」というループを自律的に回す点にあります。内部的には次の流れで動いています。

スクリーンショットを取得 → Claudeがその画像を見てどこをクリックすべきか判断 → 座標を指定してクリック・入力・スクロールを実行 → 再度スクリーンショットを取得して結果を確認 → 次の操作へ

この設計の妙は、GUI を解析する専用のビジョンモデルを使っていないことです。Claude の汎用的なマルチモーダル理解力を使っているため、見たことのないUIにも柔軟に対応できます。その代わり、ピクセル座標の精度に限界があり、密集したUIや動的コンテンツでは誤操作が発生しやすいという特性もあります。

使う前にこの特性を理解しておくことが、実務での成功率を大きく左右します。

セットアップ — APIキーから動作確認まで

1. 必要なもの

pip install anthropic pillow

モデルは claude-opus-4-6 または claude-sonnet-4-6 を使います。Computer Use は現時点で Bedrock や Vertex AI でも利用できますが、最新機能は Anthropic API 直接接続で最も早く使えます。

2. 最小構成のコード

import anthropic
import base64
from PIL import ImageGrab
 
client = anthropic.Anthropic()
 
def take_screenshot():
    """スクリーンショットを取得してbase64エンコードする"""
    screenshot = ImageGrab.grab()
    screenshot = screenshot.resize(
        (screenshot.width // 2, screenshot.height // 2)
    )  # コスト削減のためリサイズ
    screenshot.save("/tmp/screen.png")
    with open("/tmp/screen.png", "rb") as f:
        return base64.standard_b64encode(f.read()).decode("utf-8")
 
def run_computer_use_task(task: str):
    screenshot_b64 = take_screenshot()
    
    response = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=4096,
        tools=[
            {
                "type": "computer_20241022",
                "name": "computer",
                "display_width_px": 1280,
                "display_height_px": 800,
            }
        ],
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "source": {
                            "type": "base64",
                            "media_type": "image/png",
                            "data": screenshot_b64,
                        },
                    },
                    {"type": "text", "text": task}
                ],
            }
        ],
    )
    return response

このコードはClaudeに「現在のスクリーンショットを見て、タスクを実行してください」と指示するものです。実際にはここから操作ループを実装する必要があります。

3. 操作ループの実装

Computer Use の核心は、Claudeが tool_use ブロックで操作を返してきたとき、実際にその操作を実行してから、結果のスクリーンショットをClaudeに返すループです。

import subprocess
import time
 
def execute_action(action: dict) -> str:
    """Claudeが指示したアクションを実行する"""
    action_type = action.get("action")
    
    if action_type == "screenshot":
        return take_screenshot()
    
    elif action_type == "left_click":
        x, y = action["coordinate"]
        subprocess.run(["cliclick", f"c:{x},{y}"])  # macOS
        # Linux の場合: subprocess.run(["xdotool", "click", "--clearmodifiers", "1"])
        time.sleep(0.5)
        return take_screenshot()
    
    elif action_type == "type":
        text = action["text"]
        subprocess.run(["cliclick", f"t:{text}"])
        time.sleep(0.3)
        return take_screenshot()
    
    elif action_type == "key":
        key = action["key"]
        subprocess.run(["cliclick", f"kp:{key}"])
        time.sleep(0.3)
        return take_screenshot()
    
    elif action_type == "scroll":
        x, y = action["coordinate"]
        direction = action.get("direction", "down")
        amount = action.get("amount", 3)
        if direction == "down":
            subprocess.run(["cliclick", f"dd:{x},{y}"])
        return take_screenshot()
    
    return take_screenshot()
 
def run_task_with_loop(task: str, max_iterations: int = 20):
    """操作ループを伴う完全なタスク実行"""
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/png",
                        "data": take_screenshot(),
                    },
                },
                {"type": "text", "text": task}
            ],
        }
    ]
    
    for i in range(max_iterations):
        response = client.messages.create(
            model="claude-sonnet-4-6",
            max_tokens=4096,
            tools=[{
                "type": "computer_20241022",
                "name": "computer",
                "display_width_px": 1280,
                "display_height_px": 800,
            }],
            messages=messages,
        )
        
        # stop_reason が "end_turn" なら完了
        if response.stop_reason == "end_turn":
            print("タスク完了")
            break
        
        # tool_use ブロックを処理
        tool_results = []
        for block in response.content:
            if block.type == "tool_use" and block.name == "computer":
                new_screenshot = execute_action(block.input)
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": [
                        {
                            "type": "image",
                            "source": {
                                "type": "base64",
                                "media_type": "image/png",
                                "data": new_screenshot,
                            },
                        }
                    ],
                })
        
        # メッセージ履歴を更新
        messages.append({"role": "assistant", "content": response.content})
        messages.append({"role": "user", "content": tool_results})
    
    return response

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦macOS一般提供後の最新セットアップから本番環境導入まで、手を動かしながら理解できる

✦ブラウザ・デスクトップ・CLIの3ルートを使い分けるアーキテクチャ設計の考え方

✦スクリーンショットの最適化・エラーリカバリ・コスト管理の実践ノウハウ

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

コスト管理 — スクリーンショット最適化が最重要

Computer Use の運用コストの大半はスクリーンショットの画像トークンが占めます。私が実測した結果では、1回の操作ループで平均40〜80回のスクリーンショットが送信されることがあり、何も対策しないと1タスクあたり数百円かかるケースも珍しくありませんでした。

以下の3点を実践するだけで、コストを60〜70%削減できます。

対策1: 解像度を下げる

def take_optimized_screenshot(max_width: int = 1280):
    screenshot = ImageGrab.grab()
    ratio = max_width / screenshot.width if screenshot.width > max_width else 1
    new_size = (int(screenshot.width * ratio), int(screenshot.height * ratio))
    screenshot = screenshot.resize(new_size, Image.LANCZOS)
    
    # 品質を下げてファイルサイズを削減
    buffer = io.BytesIO()
    screenshot.save(buffer, format="JPEG", quality=75)
    return base64.standard_b64encode(buffer.getvalue()).decode("utf-8")

対策2: 変化がないスクリーンショットをスキップする

import hashlib
 
_last_screenshot_hash = None
 
def take_screenshot_if_changed():
    screenshot_b64 = take_optimized_screenshot()
    current_hash = hashlib.md5(screenshot_b64.encode()).hexdigest()
    
    global _last_screenshot_hash
    if current_hash == _last_screenshot_hash:
        return None  # 変化なし
    
    _last_screenshot_hash = current_hash
    return screenshot_b64

対策3: タスクを小さく分割する

1つのプロンプトに「メールを開いて、返信して、添付ファイルを保存して、Slackに投稿して」と書くより、「メールを開いて添付ファイルを保存する」「Slackに投稿する」に分けた方が、操作ループが短くなりコストも下がります。

ブラウザ自動化 — 実務で最も使えるユースケース

Claude Computer Use が最も安定して動くのはブラウザ操作です。HTMLの構造に依存せず、見た目で操作するため、ヘッドレスブラウザでは難しい認証フローや複雑なSPAにも対応できます。

実務で効果が出た例をいくつか紹介します。

社内ダッシュボードのデータ収集: ログイン必須の管理画面から毎日データを取得してスプレッドシートに書き込む処理を自動化しました。APIが提供されていない古いシステムでも、Computer Useなら画面を直接操作できます。

フォーム入力の自動化: 各クライアントの情報を異なるWebシステムに登録する業務がありましたが、CSVを読み込んでフォームに入力するスクリプトを作りました。Playwrightでは対応できなかったCAPTCHA付きのフォームにも、Claudeが「CAPTCHA画像を見て入力する」という対応をとってくれます。

定型的なWebリサーチ: 競合サイトを毎日巡回して特定の情報を収集する作業も自動化できます。

デスクトップ自動化 — macOS一般提供で何が変わったか

macOS での Computer Use が一般提供になって、デスクトップアプリの操作が現実的な選択肢になりました。以前はベータ機能で不安定でしたが、現在は基本的な操作は安定しています。

特に効果的なのは、APIが存在しないデスクトップアプリとのインテグレーションです。例えば Photoshop や Figma の操作、Excel の複雑なフォーマット処理、専用の業務ソフトウェアの操作などが対象になります。

注意点として、macOSでは「アクセシビリティ」の権限が必要です。Python スクリプトを実行するターミナルや、自動化スクリプトを呼び出すアプリに対してアクセシビリティ権限を付与する必要があります。これを忘れると、クリックはできてもキーボード入力が届かないという問題が起きます。

エラーハンドリングと信頼性向上

本番環境で運用していると、いくつかの典型的な失敗パターンがあります。

誤った座標でのクリック: Claudeが意図した場所の少し横をクリックしてしまうケースです。対策として、スクリーンショット後に「クリックした場所が正しいか確認してください」というプロンプトを挟む方法があります。

無限ループ: 同じ操作を繰り返してしまうケースです。max_iterations を設定することと、操作履歴のハッシュを管理して同一の操作が3回以上繰り返されたらタスクを中断する仕組みが有効です。

from collections import Counter
 
def detect_loop(action_history: list, window: int = 5) -> bool:
    if len(action_history) < window:
        return False
    recent = action_history[-window:]
    counter = Counter(str(a) for a in recent)
    # 同じアクションが3回以上あれば無限ループと判定
    return max(counter.values()) >= 3