⬡ API & SDK/2026-06-25上級

サポートAIが本番で「自信満々に間違える」とき — 根拠の外を踏ませず、迷ったら人へ渡す運用メモ

Claude API のカスタマーサポートエージェントが、テストでは完璧でも本番で存在しない情報を断言してしまう問題への対処。検索段階で「答えない」を決める設計、根拠付き生成、誤自信率の計測、エスカレーション精度の調整までを運用視点でまとめます。

claude-api⁷² customer-support rag³ grounding hallucination³ escalation production⁸²

✦ プレミアム記事

テストでは完璧だったのに、本番で「自信満々に間違える」

サポート用の AI を最初に社内デモした日のことは、たいてい鮮明に覚えているものです。用意した質問にすらすら答え、口調も丁寧で、「これで一次対応は任せられる」と誰もが感じます。問題が起きるのは、その手応えを信じて本番に出した後です。

私自身、個人開発で複数のブログとアプリの問い合わせ対応を半自動で回すなかで、最も肝を冷やしたのは AI が実在しないキャンペーンの条件を、堂々と数字つきで答えてしまったケースでした。ユーザーはそれを信じて行動し、後から「書いてあった通りにしたのに」という連絡が来ます。技術的にはエラーは一件も出ていません。レスポンスは 200 で返り、文章は流暢で、丁寧語まで整っている。それでも内容だけが間違っている。

この「静かな間違い」は、モデルの賢さでは解けません。Claude は十分賢いのに、それでも起きます。原因は賢さの不足ではなく、「知らないときに知らないと言わせる仕組み」を設計に組み込んでいないことです。ここでは、その仕組みを検索・生成・計測・エスカレーションの四つに分けて、運用で実際に効いた形でお伝えします。

なぜ「知らない」と言えないのか — グラウンディングの誤解

RAG を入れているのに断言ミスが消えない、という相談をよく受けます。掘り下げると、たいてい同じ構造になっています。ナレッジベースから関連文書を引いてプロンプトに詰め、「以下の資料に基づいて答えてください」と指示する。ここまでは正しい。けれど、引いてきた文書が質問とほとんど関係ないときでも、生成は止まらないのです。

モデルは渡された文脈をできるだけ使おうとします。関連度の低い文書しか手元になくても、そこから「それらしい答え」を組み立ててしまう。つまりグラウンディングの弱点は生成ではなく、その手前にあります。回答する価値があるだけの根拠が本当に揃っているかを、生成より前に判定していないことが本質的な穴です。

私はこの判定を「答えるか、人に渡すか」の分岐として、検索段階に明確に置くようにしました。生成は、その分岐を通過したものだけが到達する最終工程に過ぎません。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦検索の確信度スコアで「回答するか・人に渡すか」を生成前に分岐する実装パターン

✦誤自信率（confident-wrong rate）を本番ログから測る具体的な計測方法と目標水準

✦エスカレーションの精度と再現率をF値で調整し、過剰転送と取りこぼしの両方を抑える運用設計

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

検索段階で「答えない」を決める

まず、検索結果に確信度スコアを付け、しきい値を割ったら生成へ進ませない。Claude を呼ぶ前のこの一段が、誤自信を最も大きく減らしました。

import os
from anthropic import Anthropic
from dataclasses import dataclass
 
client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])
 
@dataclass
class Retrieval:
    chunks: list[dict]   # {"text": ..., "score": float, "source": ...}
    top_score: float
    margin: float        # 1位と2位のスコア差
 
def assess(retrieval: Retrieval) -> str:
    """生成に進めてよいか、人に渡すかを根拠の質だけで判定する。"""
    # しきい値は本番ログを見て決める。最初は厳しめに置く。
    if retrieval.top_score < 0.62:
        return "escalate"        # そもそも関連文書がない
    if retrieval.margin < 0.05 and retrieval.top_score < 0.75:
        return "clarify"         # 似た候補が拮抗 = 質問が曖昧
    return "answer"

ポイントは二つあります。一つは、最上位スコアの絶対値だけでなく、1位と2位の差（margin）も見ること。スコアが高くても候補が拮抗しているときは、質問が曖昧で文書を選びきれていない状態です。ここで答えに行かず、聞き返しに回すと取り違えが減ります。

もう一つは、しきい値を勘で決めないことです。私は最初の二週間、assess の判定と最終的な正誤を全件ログに残し、誤って answer に進んだ事例のスコア分布を見てしきい値を引き上げました。0.55 から始めて 0.62 に上げただけで、断言ミスの体感がはっきり変わりました。

回答生成で「根拠の外」を踏ませない

answer に進んだものだけを生成に通します。ここでの主眼は、渡した文書の外側にある情報を、モデルに足させないことです。システムプロンプトで根拠の範囲を縛り、答えられない場合の出口を明示します。

SYSTEM = """あなたはカスタマーサポートの担当者です。次の規則を厳守してください。
 
- 回答は <resources> 内の記述だけを根拠にする。資料にない事実・数値・条件は決して補わない。
- 資料で確認できない場合は、推測せず「確認のため担当者におつなぎします」と答える。
- 主張ごとに根拠とした資料の source を [S1] のように本文へ示す。
- ユーザーの言語で答える。資料が別言語でも、回答はユーザーの言語にそろえる。
"""
 
def generate(question: str, chunks: list[dict], user_lang: str) -> dict:
    resources = "\n\n".join(
        f"<doc source=\"{c['source']}\">{c['text']}</doc>" for c in chunks
    )
    resp = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=800,
        system=SYSTEM,
        messages=[{
            "role": "user",
            "content": f"<resources>\n{resources}\n</resources>\n\n"
                       f"質問（{user_lang}）: {question}",
        }],
    )
    text = resp.content[0].text
    # 根拠タグが一つも無い回答は、資料外の創作を疑う
    grounded = "[S" in text or "確認のため担当者" in text
    return {"text": text, "grounded": grounded}

最後の三行が地味に効きます。根拠タグ [S...] も「担当者におつなぎします」も含まない回答は、資料を参照せずに書かれた疑いが濃いので、自動応答に乗せず人へ回す。これは完全な検出ではありませんが、すり抜けた創作回答を最後にもう一度ふるい落とす安全網になります。

なお応答言語は、検出した言語をプロンプトで明示するのが確実です。資料が日本語で質問が英語のとき、指示がないと資料の言語に引きずられて日本語で返してしまうことがあります。これも本番で何度か見た失敗で、user_lang を毎回明示するようにしてから止まりました。

誤った自信を測る — 本番で見るべき三つの指標

「精度が上がった気がする」では運用は回りません。私が毎日見るのは次の三つだけに絞っています。

指標	定義	運用での目安
自動解決率（deflection）	人に渡さず完結し、再問い合わせが来なかった割合	高すぎる場合は無理に答えている疑い
誤自信率（confident-wrong）	根拠タグ付きで断言したのに内容が誤っていた割合	最重要。1%未満を死守する
エスカレーション精度	人に渡した案件のうち、実際に人手が必要だった割合	低いと過剰転送で現場が疲弊する

このうち誤自信率が群を抜いて重要です。自動解決率は下げようと思えばいくらでも下げられますが、誤自信率が高い AI は、信頼そのものを毀損します。私は誤自信率を週次で追い、しきい値や根拠範囲を調整する判断材料にしています。計測自体は難しくありません。

def confident_wrong_rate(logs: list[dict]) -> float:
    """断言（根拠タグ付き・人に渡していない）かつ誤りだった割合。"""
    confident = [x for x in logs if x["grounded"] and not x["escalated"]]
    if not confident:
        return 0.0
    wrong = [x for x in confident if x.get("verdict") == "incorrect"]
    return len(wrong) / len(confident)

verdict は、ユーザーの再問い合わせ・低評価・有人による訂正履歴から後追いで埋めます。全件を人が確認する必要はなく、サンプリングで十分です。私自身は当初、自動解決率だけを見て満足していて、誤自信が水面下で起きていることに気づくのが遅れました。見栄えのよい指標ほど、危ない指標を隠すというのが、この運用で得た一番の教訓です。

エスカレーションは「足りない」と「多すぎる」の間で調整する

人へ渡す判断は、厳しすぎても緩すぎても失敗します。緩いと断言ミスが増え、厳しいと何でも転送して現場が疲れ、AI を入れた意味が薄れます。私はこれを精度（precision）と再現率（recall）の綱引きとして扱い、F 値で一つの数字に落として調整しています。

def escalation_scores(logs: list[dict]) -> dict:
    # 人手が必要だった案件を正しく人へ渡せたか
    tp = sum(1 for x in logs if x["needed_human"] and x["escalated"])
    fp = sum(1 for x in logs if not x["needed_human"] and x["escalated"])
    fn = sum(1 for x in logs if x["needed_human"] and not x["escalated"])
    precision = tp / (tp + fp) if (tp + fp) else 0.0
    recall = tp / (tp + fn) if (tp + fn) else 0.0
    f1 = 2 * precision * recall / (precision + recall) if (precision + recall) else 0.0
    return {"precision": round(precision, 3),
            "recall": round(recall, 3), "f1": round(f1, 3)}

実務では、再現率を優先する局面と精度を優先する局面が変わります。金額や契約に関わる問い合わせは、取りこぼし（false negative）の損失が大きいので、多少過剰でも再現率寄りに振る。一方、操作方法の問い合わせのように間違えても害が小さい領域は、精度寄りにして転送を絞る。私はカテゴリごとに assess のしきい値を分け、危険なカテゴリだけ早めに人へ渡すようにしています。一律のしきい値で全カテゴリを捌こうとしないことが、現場の負荷と安全のバランスを取る鍵でした。

感情面のトリガーも別建てで持っています。明らかに強い不満が読み取れる問い合わせは、内容に答えられる場合でも先に人へつなぐ判断を入れています。正しい答えより、まず受け止めてほしい場面があるからです。

静かに効いた小さな実装判断

大きな設計以外で、地味に効いたものをいくつか挙げます。一つは、生成の前に PII を伏せること。問い合わせ本文をそのまま検索やプロンプトに流すと、メールアドレスや注文番号が不要に巡回します。正規表現で先にプレースホルダーへ置換し、回答を返す直前に必要な分だけ戻すだけで、露出面が一段下がります。

もう一つは、プロンプトキャッシュで固定部分を使い回すことです。システムプロンプトとよく使うナレッジの土台はリクエストごとに変わらないので、キャッシュ対象にしておくと、件数が増えたときの費用がはっきり緩みます。月あたりの問い合わせが万単位になると、この差は無視できません。

最後に、回答ログに必ず「根拠とした source」を構造で残すこと。後から誤自信を追跡するとき、本文だけ残しても原因の文書まで辿れません。{source, score, verdict} を構造化して保存しておくと、誤りが起きた検索の傾向まで遡れます。私はこの一手間を惜しんで、初期に原因究明へ余計な時間を使いました。

まず変えるなら、ここから

もし今、サポート AI の断言ミスに悩んでいるなら、最初に手を入れるのは検索段階の「答えない」分岐です。生成のプロンプトをいくら磨いても、根拠が揃っていない質問に答えてしまう構造が残っていれば、誤自信は消えません。検索の確信度を一つのしきい値で測り、割ったら人へ渡す。それだけを今日入れて、一週間ログを取ってみてください。しきい値を本番の正誤分布で調整する準備が、そこから自然に始められます。

誤自信を一つ減らせた問い合わせの裏には、必ず「答えなかった」判断があります。その判断を仕組みにできたとき、サポートAIはようやく任せられる相棒になると感じています。