⟐ Claude Code/2026-06-28上級

ストリーミングを並行で束ねると、ノートPCの CPU が先に音を上げる — 実測値で並行本数を絞る適応スロットルの設計

ストリーミングのCPU使用が軽くなっても、複数セッションを1台で束ねるとホストのCPUが先に飽和します。固定セマフォの限界と、実測CPUに応じて並行本数を上下させる適応ゲートの実装を、動くコードと実測値で解説します。

Claude Code¹⁷¹ 並行処理ストリーミング⁹ パフォーマンス² 自動運用³

✦ プレミアム記事

先日の Claude Code 更新で、ストリーミング時の CPU 使用が約37%削減されました。長時間回し続ける運用にとっては素直にありがたい底上げです。ただ、私自身が複数サイトの自動投稿を1台のマシンで並行させていると、この種の改善で楽になるのは「1本あたりの重さ」であって、「同時に何本も束ねたときに先に音を上げるのはどこか」という問題は別に残り続けます。

実際、私の手元では、各サイトの記事生成を並行で走らせた瞬間にファンが唸り出し、1本ずつ流していたときには気づかなかった遅延が p95 で跳ね上がる、という現象に何度もぶつかりました。メモリは余っているのに、です。ここで取り上げたいのは、その律速が「ホストの CPU」だったときの対処です。勘で決めた固定の並行数をやめ、実測 CPU に合わせて並行本数を自動で絞る仕組みを、動くコードと手元の実測値で組み立てていきます。

なぜメモリより先に CPU が音を上げるのか

ストリーミング応答は、サーバーから届く SSE イベントを1つずつ受け取り、差分の JSON をパースし、テキストを継ぎ足していく処理の連続です。1本だけなら大した負荷ではありません。ところが同じ処理を10本20本と並行させると、イベントループ上で「細かいパース＋コールバック」の山が絶え間なく発生し、CPU が律速になります。

ここで効いてくるのが、各セッションが待ち時間の少ない忙しいコルーチンだという点です。ネットワーク待ちで眠っている時間より、届いたチャンクを捌いている時間の比率が高いワークロードでは、I/O 並行の常識（「待ちが多いからたくさん並べてよい」）が崩れます。メモリ使用は本数に対しておおむね線形で予測しやすい一方、CPU は本数を増やすと飽和点で急に崖を迎えます。だからこそ、メモリのウォッチドッグとは別に、CPU を見て並行数を決める層が要ります。

「同時に何本まで」を勘で決めない

多くのバッチ処理は、次のような固定セマフォで並行数を縛ります。

import asyncio
 
# 勘で決めた固定値。開発機では快適だったが…
sem = asyncio.Semaphore(12)
 
async def run_one(site, client):
    async with sem:
        async with client.messages.stream(
            model="claude-sonnet-4-6",
            max_tokens=4096,
            messages=[{"role": "user", "content": build_prompt(site)}],
        ) as stream:
            async for _ in stream.text_stream:
                pass
        return await stream.get_final_message()

このコードの問題は、12 という数字がある特定のマシンの、ある特定の瞬間に最適化されている点です。私の場合、開発に使っている性能の高い Mac では12本でも余裕でしたが、同じスクリプトを古いミニ PC のスケジュール実行に載せた途端、CPU が96%前後に張り付き、各ストリームの実時間が単独実行のときの2.4倍ほどに伸びました。逆に、他の処理が一切いない大きなマシンでは12本では使い切れず、遊ばせてしまいます。固定値は「速い側」にも「遅い側」にも合いません。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦固定セマフォが「速いマシン基準」で決め打ちされ、非力な実行環境でCPUを飽和させる仕組み

✦ホストCPUをEWMAで実測し、目標使用率に対して並行本数を1本ずつ上下させる適応ゲートの実装

✦過負荷時に新規受付を止めて最低1本を守る背圧設計と、複数マシンで同じコードを使い回す運用の勘所

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

ホスト CPU を実測してならす

最初の一歩は、並行数をいじる前に、ホストの CPU 使用率を継続的に観測することです。瞬間値は跳ねるので、指数移動平均（EWMA）で軽くならしておきます。

import psutil
 
class CpuSampler:
    """ホスト CPU 使用率を EWMA でならして返す。"""
 
    def __init__(self, alpha: float = 0.3):
        self.alpha = alpha
        self.value = 0.0
        psutil.cpu_percent(interval=None)  # 初回呼び出しは捨て値なので空読み
 
    def sample(self) -> float:
        raw = psutil.cpu_percent(interval=None)
        self.value = self.alpha * raw + (1 - self.alpha) * self.value
        return self.value

alpha を大きくすると反応は速いがノイズに振られやすく、小さくすると安定するが遅れます。手元では 0.3 前後が、スパイクに過剰反応せず、かつ傾向の変化には数秒で追従できる落としどころでした。

適応ゲートの設計 — 並行本数を1本ずつ上下させる

実測 CPU が手に入ったら、目標使用率（例: 70%）に対して並行本数を緩やかに調整します。過負荷なら1本減らし、余裕があれば1本増やす。急に大きく動かすと振動するので、調整は常に小刻みにします。

asyncio.Semaphore は容量を後から動的に変えにくいので、ここでは「現在の許可本数」と「実行中本数」を Condition で管理する小さなゲートを自作します。

import asyncio
from contextlib import asynccontextmanager
 
class AdaptiveCpuGate:
    """ホスト CPU の実測値に応じて同時実行本数を上下させるゲート。"""
 
    def __init__(self, target_cpu=70.0, min_slots=1, max_slots=16, alpha=0.3):
        self.target_cpu = target_cpu
        self.min_slots = min_slots
        self.max_slots = max_slots
        self._slots = min_slots          # 現在許可している同時本数
        self._in_flight = 0              # 実行中の本数
        self._sampler = CpuSampler(alpha)
        self._cond = asyncio.Condition()
 
    async def governor(self, stop: asyncio.Event, period: float = 2.0):
        """並行数を定期的に見直す常駐ループ。"""
        while not stop.is_set():
            cpu = self._sampler.sample()
            async with self._cond:
                if cpu > self.target_cpu:
                    self._slots = max(self.min_slots, self._slots - 1)
                elif cpu < self.target_cpu * 0.8:
                    self._slots = min(self.max_slots, self._slots + 1)
                self._cond.notify_all()   # 枠が増えた可能性を待機者に通知
            await asyncio.sleep(period)
 
    @asynccontextmanager
    async def slot(self):
        async with self._cond:
            # 実行中本数が許可本数を下回るまで待つ（背圧）
            await self._cond.wait_for(lambda: self._in_flight < self._slots)
            self._in_flight += 1
        try:
            yield
        finally:
            async with self._cond:
                self._in_flight -= 1
                self._cond.notify_all()

ポイントは3つあります。第一に、目標を超えたら1本ずつ減らし、目標の8割を下回って初めて1本増やす、という非対称な調整にしています。減らすときは素早く、増やすときは慎重に、という方が CPU の張り付きを防げます。第二に、wait_for によって、枠が空くまで新規セッションは自然に待たされます。これがそのまま背圧（バックプレッシャ）になります。第三に、min_slots を1以上にしてあるので、CPU がどれだけ逼迫しても処理が完全に止まることはありません。

過負荷時に「止める」のではなく「絞って続ける」

固定セマフォを使った素朴な実装で怖いのは、過負荷を検知したときに全体を止めてしまう設計に流れがちなことです。自動運用では、止めるよりも「細く長く流し続ける」方が、結果的にバッチ全体の完走率は上がります。本番運用で実際にハマったのは、過負荷時に例外で全タスクを巻き込んで落としてしまう素朴な実装で、これは最低保証スロットを設けることで回避できました。AdaptiveCpuGate は最低1本を保証するので、最悪のケースでも逐次実行に縮退するだけで、ゼロにはなりません。

使う側は、ゲートと常駐ガバナーを並べて起動します。

async def run_one(site, gate, client):
    async with gate.slot():
        async with client.messages.stream(
            model="claude-sonnet-4-6",
            max_tokens=4096,
            messages=[{"role": "user", "content": build_prompt(site)}],
        ) as stream:
            async for _ in stream.text_stream:
                pass
        return await stream.get_final_message()
 
async def main(sites, client):
    gate = AdaptiveCpuGate(target_cpu=70.0, min_slots=2, max_slots=12)
    stop = asyncio.Event()
    gov = asyncio.create_task(gate.governor(stop))
    try:
        await asyncio.gather(*(run_one(s, gate, client) for s in sites))
    finally:
        stop.set()
        await gov

client には Anthropic の非同期クライアントを想定しています。API キーは環境変数から渡し、コードに直書きしないでください（ANTHROPIC_API_KEY を読む形にします）。

手元での Before / After

私の環境（記事生成バッチを複数サイト分まとめて流す構成）で、古いミニ PC を実行環境にして比べた一例です。数値は私の特定環境での実測であって、どのマシンでも同じになるわけではありません。傾向の参考としてご覧ください。

項目	固定セマフォ（12本）	適応ゲート（目標70%）
定常時の CPU 使用率	約96%で張り付き	約70±8%で安定
落ち着いた実効並行数	12本固定	6〜7本に自動収束
1本あたり実時間（p95）	単独比約2.4倍	単独比約1.3倍
バッチ全体の所要時間	基準	約12%増
体感（ファン・発熱）	サーマルスロットリング発生	発生せず

興味深いのは、並行数を半分近くまで自動で絞ったにもかかわらず、バッチ全体の所要時間は12%しか延びなかった点です。CPU が飽和した状態では、本数を増やしても1本あたりが遅くなるだけで、スループットはほとんど伸びていなかったということです。固定で詰め込むより、目標 CPU を守りながら流した方が、発熱と遅延を抑えつつ、完走時間の差はわずかで済みました。

複数マシンで同じコードを使い回すために

私が個人開発でこの仕組みを重宝しているのは、同じスクリプトを性能の違う複数のマシンに置いても、各マシンが自分の身の丈に合わせて並行数を決めてくれるからです。固定値だと、マシンごとに数字を調整して回る羽目になりますが、目標 CPU 使用率という1つの方針だけを共有すれば、あとは各ホストが実測に従って勝手に最適点へ寄っていきます。

運用に組み込むときの勘所を、いくつか挙げておきます。

目標値は控えめに設定することをお勧めします。70%を狙うと実際のピークは80%前後まで振れます。他のスケジュール処理と同居するマシンでは、60%程度から始めると安全側に倒せます。
max_slots は API のレート上限とも突き合わせます。CPU に余裕があっても、サーバー側の 429 で詰まっては意味がないので、上限は別途レート設計と整合させてください。
ガバナーの周期は2〜5秒が無難です。短すぎると調整が振動し、長すぎると過負荷からの復帰が遅れます。
観測値は必ずログに残します。実効並行数と CPU の推移を1行ずつ残しておくと、後から「あのバッチはなぜ遅かったのか」を CPU の張り付きで説明できます。私はこの一手間を省かないことを強く推奨します。

ストリーミング自体が軽くなったいまだからこそ、「1台にどれだけ束ねられるか」の天井は、サーバーではなく手元のホストが先に決めます。次に並行バッチを書くときは、固定の並行数を1つの目標 CPU 使用率に置き換えてみてください。マシンを乗り換えるたびに数字を調整する作業から、静かに解放されます。

最後までお読みいただき、ありがとうございました。同じように一人で複数の処理を束ねている方の、運用設計の足がかりになれば嬉しいです。