⬡ API & SDK/2026-06-17上級

多言語アプリの訳ブレを止める — Batch API と用語集キャッシュで Localizable.strings を一貫翻訳する設計

UI文字列を1本ずつ翻訳すると用語がブレます。Claude の Message Batches API と用語集のプロンプトキャッシュを組み合わせ、Localizable.strings を10言語以上へ一貫翻訳するパイプラインを、実測コストと落とし穴つきで設計します。

api-sdk¹⁰ batch-api³ prompt-caching⁷ localization ios¹⁴

✦ プレミアム記事

App Store の審査で一度リジェクトされて気づいたことがあります。私が個人開発で運営している iOS の壁紙アプリは10言語以上に対応しているのですが、設定画面では「壁紙」を Wallpaper と訳していたのに、ウィジェット追加のヒント文では Background と訳されていました。原因は単純で、文字列を追加するたびに「その1本だけ」を翻訳していたからです。1本ずつ訳すと、訳した時期も文脈も違うので、同じ概念に違う訳語が当たってしまいます。

この訳ブレは、翻訳の品質というより「翻訳の手続き」の問題です。人間の翻訳者を雇っても、用語集を渡さなければ同じことが起きます。そこで私が選んだのは、用語集とスタイルガイドを Claude にキャッシュさせたうえで、Localizable.strings の全エントリを Message Batches API で一括翻訳する設計でした。以下では、その設計と実装、数千文字列を流したときのコストの実測、そして書き戻し時にハマった落とし穴までを順に共有していきます。

1本ずつ翻訳するのをやめる理由

Localizable.strings は次のような単純な key-value のリストです。

"settings.wallpaper.title" = "壁紙の品質";
"widget.hint.background" = "ウィジェットに壁紙を設定";
"paywall.cta.primary" = "プレミアムを始める";

問題は、これらを別々のリクエストで翻訳すると、Claude（あるいは人間）が「壁紙」をある時は Wallpaper、ある時は Background と訳す自由を持ってしまうことです。UI の一貫性は、個々の訳の正しさの足し算では生まれません。「アプリ全体で wallpaper という語をどう統一するか」という制約を、翻訳の入力段階で固定する必要があります。

私はこの制約を3つの層で表現することにしました。第一に用語集（glossary）で「この原語にはこの訳語を必ず使う」を宣言します。第二にスタイルガイドで「ボタンは命令形、設定項目は名詞句」のようなトーンを指定します。第三にプレースホルダー保護のルール（%@ や %1$d は絶対に動かさない）を明示します。この3層は全文字列で共通なので、リクエストごとに送り直すのは無駄です。ここでプロンプトキャッシュが効いてきます。

用語集とスタイルガイドをキャッシュ可能な system プロンプトにする

プロンプトキャッシュは、system ブロックに cache_control を付けると、その前方部分をキャッシュしてくれる仕組みです。用語集は数百行になることもありますが、一度キャッシュすれば後続のリクエストではキャッシュ読み出し価格（通常の入力トークンより大幅に安い）で再利用できます。翻訳対象が数千文字列あっても、用語集は一度だけ実コストで読まれ、あとは割引価格で繰り返し参照されます。

# glossary.py — 用語集とスタイルガイドをキャッシュ可能な system ブロックとして構築する
import anthropic
 
client = anthropic.Anthropic()  # 環境変数 ANTHROPIC_API_KEY を読む
 
# 用語集: 原語 -> 各言語の確定訳。アプリ全体で必ずこの訳を使わせる
GLOSSARY = {
    "壁紙": {"en": "Wallpaper", "fr": "Fond d'écran", "de": "Hintergrundbild"},
    "プレミアム": {"en": "Premium", "fr": "Premium", "de": "Premium"},
    "広告を非表示": {"en": "Remove Ads", "fr": "Supprimer les pubs", "de": "Werbung entfernen"},
}
 
STYLE_GUIDE = """\
- ボタン・CTA は命令形で短く（例: Remove Ads, Start Premium）。
- 設定項目のタイトルは名詞句（例: Wallpaper Quality）。
- 敬語の度合いは言語の慣習に合わせる。過度に丁寧にしない。
- %@ %1$@ %d %1$d などのフォーマット指定子は順序も含めて絶対に変更しない。
- 改行 \\n とタブ \\t はそのまま保持する。
"""
 
def build_cached_system(target_lang: str) -> list:
    glossary_lines = "\n".join(
        f'  "{src}" => "{langs.get(target_lang, "")}"'
        for src, langs in GLOSSARY.items()
        if langs.get(target_lang)
    )
    instructions = (
        f"あなたはアプリUIの翻訳者です。原語(日本語)を {target_lang} に翻訳します。\n\n"
        f"## 用語集(必ずこの訳語を使う)\n{glossary_lines}\n\n"
        f"## スタイルガイド\n{STYLE_GUIDE}"
    )
    # cache_control を付けたブロックの前方がキャッシュ対象になる
    return [{
        "type": "text",
        "text": instructions,
        "cache_control": {"type": "ephemeral"},
    }]

ここでのポイントは、用語集とスタイルガイドを「翻訳対象の文字列とは分離した、変化しない前置き」として置くことです。可変部分（実際に訳す文字列）を system ではなく messages 側に置くことで、system がキャッシュヒットし続けます。逆に、文字列ごとに system を書き換えてしまうとキャッシュは毎回ミスします。私はこの分離を最初に守れず、キャッシュヒット率がゼロのまま「キャッシュが効かない」と悩んだ時期がありました。

なお Message Batches とプロンプトキャッシュの料金設計は変化が早い領域です。私自身、運用コストの考え方はBatch API の非同期コスト設計とプロンプトキャッシュで月額を抑える実践を土台に組み立てています。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦訳語がアプリ画面ごとにブレて困っていた人が、用語集をキャッシュして全文字列に同じ訳語を強制する仕組みを今日から組める

✦Message Batches API の50%割引とプロンプトキャッシュを重ねて、数千文字列の翻訳コストを実測でどこまで下げられるか判断できる

✦%@ や複数形変種、改行コードを壊さずに翻訳結果を Localizable.strings へ安全に書き戻すバリデーション付きパイプラインを手に入れられる

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

構造化出力で「壊れない書き戻し」を保証する

翻訳結果をそのまま Localizable.strings に書き戻すとき、最も怖いのは Claude が訳文に余計な装飾（「翻訳しました:」のような前置きや、引用符の付け外し）を混ぜることです。これを防ぐため、私は tool_choice で出力スキーマを固定し、必ず JSON で key と訳文のペアだけを返させます。

# 出力をツール呼び出しに固定して、自由形式テキストの混入を防ぐ
TRANSLATE_TOOL = {
    "name": "emit_translations",
    "description": "翻訳済みの key-value ペアを返す",
    "input_schema": {
        "type": "object",
        "properties": {
            "translations": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "key": {"type": "string"},
                        "value": {"type": "string"},
                    },
                    "required": ["key", "value"],
                },
            }
        },
        "required": ["translations"],
    },
}
 
def build_user_message(entries: dict) -> str:
    # entries: {"settings.wallpaper.title": "壁紙の品質", ...}
    lines = [f'{k}\t{v}' for k, v in entries.items()]
    return (
        "次の key と原文を翻訳し、emit_translations ツールで返してください。"
        "key は一切変更しないでください。\n\n" + "\n".join(lines)
    )

tool_choice でこのツールの呼び出しを強制すれば、応答は構造化された tool_use ブロックとして返り、訳文以外のテキストが混ざりません。スキーマ検証と修復ループの考え方は構造化出力をスキーマ検証して修復する設計で詳しく扱っています。

Message Batches API で全言語×全文字列を一括投入する

ここまでで「1リクエストの正しい形」が決まりました。次は規模の問題です。10言語 × 数百〜数千文字列を同期 API で順番に叩くと、時間もコストもかさみます。Message Batches API は、最大10万リクエストをまとめて非同期で処理し、しかも同期 API の半額で実行できます。UI 文字列の翻訳のように「即時性は不要、でも量が多い」タスクにはこれ以上ない適合です。

# build_batch.py — 言語ごとにバッチリクエストを組み立てて投入する
from anthropic.types.messages.batch_create_params import Request
from anthropic.types.message_create_params import MessageCreateParamsNonStreaming
 
def chunk(d: dict, size: int):
    items = list(d.items())
    for i in range(0, len(items), size):
        yield dict(items[i:i + size])
 
def submit_batch(all_entries: dict, target_langs: list[str], chunk_size: int = 40):
    requests = []
    for lang in target_langs:
        system = build_cached_system(lang)
        for idx, group in enumerate(chunk(all_entries, chunk_size)):
            requests.append(Request(
                custom_id=f"{lang}-{idx}",  # 後でどの言語のどの塊か特定する
                params=MessageCreateParamsNonStreaming(
                    model="claude-opus-4-8",
                    max_tokens=4096,
                    system=system,
                    tools=[TRANSLATE_TOOL],
                    tool_choice={"type": "tool", "name": "emit_translations"},
                    messages=[{"role": "user", "content": build_user_message(group)}],
                ),
            ))
    batch = client.messages.batches.create(requests=requests)
    print(f"submitted batch: {batch.id}, requests={len(requests)}")
    return batch.id

custom_id に言語とチャンク番号を埋め込んでおくのがコツです。バッチの結果は投入順に返るとは限らないので、どのレスポンスがどの言語のどの塊かを custom_id から復元できるようにしておきます。チャンクサイズを40程度に抑えているのは、1リクエストあたりの出力トークンが max_tokens を超えて途中で切れる事故を避けるためです。実運用では、長い文字列が多いアプリほどチャンクを小さくする判断が要ります。

結果を回収して Localizable.strings に安全に書き戻す

バッチは数分〜最大24時間で完了します。完了をポーリングし、succeeded の結果だけを集めて書き戻します。

# collect.py — バッチ完了を待って結果を Localizable.strings に書き戻す
import time, json
 
def wait_and_collect(batch_id: str) -> dict:
    while True:
        batch = client.messages.batches.retrieve(batch_id)
        if batch.processing_status == "ended":
            break
        time.sleep(30)  # 完了までポーリング
 
    results: dict[str, dict] = {}  # {lang: {key: value}}
    for entry in client.messages.batches.results(batch_id):
        lang = entry.custom_id.rsplit("-", 1)[0]
        if entry.result.type != "succeeded":
            print(f"⚠️ failed: {entry.custom_id} ({entry.result.type})")
            continue
        for block in entry.result.message.content:
            if block.type == "tool_use":
                for pair in block.input["translations"]:
                    results.setdefault(lang, {})[pair["key"]] = pair["value"]
    return results

書き戻しの直前に、必ずバリデーションを入れます。ここを省くと、フォーマット指定子が消えた訳文が本番に出てクラッシュします。私が Law of Attraction のアプリで実際にやらかしたのが、%@ が訳文から1つ消えていたケースで、該当言語のユーザーだけが特定画面で落ちるという、再現の難しいクラッシュでした。

import re
 
PLACEHOLDER = re.compile(r'%(?:\d+\$)?[@dfsu]')
 
def validate(src: str, dst: str) -> list[str]:
    errors = []
    # フォーマット指定子の個数と種類が原文と一致するか
    if sorted(PLACEHOLDER.findall(src)) != sorted(PLACEHOLDER.findall(dst)):
        errors.append("placeholder mismatch")
    # 改行コードの数が保持されているか
    if src.count("\\n") != dst.count("\\n"):
        errors.append("newline mismatch")
    # 引用符が閉じているか(.strings の構文を壊さないため)
    if dst.count('"') % 2 != 0:
        errors.append("unbalanced quote")
    return errors
 
def write_strings(lang: str, src_entries: dict, translated: dict, out_path: str):
    lines, failed = [], []
    for key, src_val in src_entries.items():
        dst_val = translated.get(key)
        if dst_val is None:
            failed.append(key)
            continue
        problems = validate(src_val, dst_val)
        if problems:
            failed.append(f"{key} ({', '.join(problems)})")
            continue
        escaped = dst_val.replace('"', '\\"')
        lines.append(f'"{key}" = "{escaped}";')
    with open(out_path, "w", encoding="utf-8") as f:
        f.write("\n".join(lines) + "\n")
    print(f"[{lang}] wrote {len(lines)} / failed {len(failed)}")
    return failed

validate で弾かれた key は、書き戻さずに再翻訳キューへ回します。「全部を一度で完璧に」を狙うのではなく、「機械的に検証できる失敗は機械で弾いて、人間は本当に判断が要るものだけ見る」という分担にするのが、本番運用で破綻しないコツだと考えています。

実測したコストの感触

ここが課金して読む価値のある部分だと思うので、私が実際に観測した感触を率直に書きます。約2,400文字列 × 6言語（合計14,400翻訳）を1回流したケースでは、用語集とスタイルガイドが各言語で共通のため、プロンプトキャッシュのヒットによって入力側のコストが体感で6〜7割ほど下がりました。用語集を毎リクエスト実コストで送っていた頃と比べると、文字列が増えるほどキャッシュの恩恵が効くのを実感します。さらに Batch API の50%割引が全体に乗るので、同期 API で同じ量を順次処理していた頃のコストの半分以下に収まりました。

数値の正確な値は、モデル単価・用語集の長さ・チャンクサイズで変わるので、自分のアプリで小さく一度流して測ることを強く推奨します。私の判断基準はシンプルで、「用語集が長く、対象言語が多く、文字列数が多い」ほどこの設計のコスト優位は大きくなります。逆に、数十文字列を1言語だけ直すような小さな修正では、バッチの完了待ち時間のほうが煩わしいので、同期 API でその場で訳しています。用途で使い分けるのが現実的です。

つまずきやすい4つの落とし穴

実装中に私がはまった順に並べます。

system を文字列ごとに書き換えてキャッシュが効かない: 用語集は不変の前置きとして固定し、可変の翻訳対象は messages 側に置きます。キャッシュは system の前方一致で効くため、ここを混ぜると毎回ミスします。
キャッシュの有効期間（TTL）切れ: 標準のキャッシュは数分で失効します。バッチ投入は短時間に一気に行い、キャッシュが温かいうちに大量のリクエストを当てるのが効率的です。だらだら投入すると再キャッシュが走ります。
複数形（plural）変種を素朴に1対1で訳す: 言語によって複数形のカテゴリ数が違います。.stringsdict を扱う場合は、変種ごとに翻訳させ、書き戻し先のフォーマットも変種を保持する設計にします。
tool_choice を付け忘れて自由テキストが混ざる: ツール呼び出しを強制しないと、訳文の前後に説明文が付くことがあります。構造化出力は「お願い」ではなく「強制」で担保します。

次の一歩

まずは自分のアプリの Localizable.strings から、訳ブレが気になっている語を5つだけ抜き出して用語集を作り、1言語・数十文字列の小さなバッチを1回流してみてください。キャッシュのヒット状況とコストが見えれば、全言語へ広げる判断ができます。私自身、最初の1回は「用語集を作る手間に見合うのか」と半信半疑でしたが、設定画面とウィジェットで wallpaper の訳が揃った画面を見たとき、この手続き化は続ける価値があると感じました。同じ多言語対応の悩みを持つ個人開発者の方の参考になれば幸いです。