◈ Cowork/2026-06-23上級

無人の記事生成タスクが『ほぼ同じ記事』を二度書く前に止める重複検出ゲート

Cowork のスケジュールタスクで毎日記事を生成していると、無人ゆえに数日前と中身がほぼ重なる記事を作ってしまいます。公開直前に slug の類似度と当日ログを照合して重複を止めるゲートを、実際に誤公開を防いだ実装とともにお届けします。

Cowork²⁶ スケジュールタスク¹¹ 重複検出自動化⁵⁷ Python¹⁶ SEO² コンテンツ運用

✦ プレミアム記事

今朝、Cowork のスケジュールタスクがプロンプトキャッシュの TTL を 5 分から 1 時間へ延ばす設計、という題材で記事を書き始めようとしていました。手が滑って公開していたら、半年前に出した claude-api-prompt-cache-5m-1h-two-tier-ttl-design とほぼ同じ内容が、別 URL でもう一本増えていたはずです。

無人で毎日記事を生成していて一番こわいのは、エラーで止まることではありません。エラーは止まればログに残り、翌日気づけます。本当にこわいのは、止まらずに「数日前と中身がほぼ重なる記事」を淡々と公開し続けることです。一本ずつ見れば破綻していないので、人間がレビューしない限り気づけません。そして Google から見れば、これは薄い記事を量産しているサイトの典型的な挙動です。

私はこの半年、4 サイトを無人のスケジュールタスクで回してきて、この「静かな重複」が検索評価をじわじわ削る最大の要因だと感じています。今日はその対策として、記事を公開する前に slug の近さと当日ログを照合し、重複しそうなら公開を止めるゲートの作り方を、実際に動いているコードでお伝えします。

なぜ「件数チェック」だけでは重複を防げないのか

多くの自動投稿パイプラインは、push 直前に日本語版と英語版の件数一致を確認します。これは 404 を防ぐためには必須ですが、重複検出には何の役にも立ちません。件数が揃っていても、中身が数日前と重なっていれば、それは「正しく数えられた重複記事」が一本増えるだけです。

タイトルの完全一致チェックも役に立ちません。無人タスクは毎回少しずつ違う言い回しでタイトルを作るので、「プロンプトキャッシュの TTL 設計」と「キャッシュ有効期限を延ばすコスト設計」は文字列としては一致せず、すり抜けます。

重複を捉えるには、表記ではなく「その記事がどの概念について書いているか」を比較する必要があります。そして幸い、私たちは概念を要約した短い文字列をすでに持っています。slug です。slug はハイフン区切りの英単語列で、記事の主題語がそのまま並んでいます。これをトークンの集合として比較すれば、表記ゆれに強い重複判定ができます。

slug をトークン集合にして Jaccard 類似度で測る

考え方はシンプルです。候補記事の slug と既存記事の slug をそれぞれハイフンで分割し、単語の集合にします。二つの集合がどれだけ重なっているかを Jaccard 係数（積集合のサイズ ÷ 和集合のサイズ）で測り、しきい値を超えたら「同一概念の疑いあり」と判定します。

#!/usr/bin/env python3
"""dup_gate.py — 候補 slug が既存記事と概念的に重複していないか検査する。
使い方:
  python3 dup_gate.py <repo> <category> <candidate-slug>
終了コード:
  0  重複なし（公開してよい）
  1  重複の疑いあり（角度を変えるか加筆昇格に切り替える）
"""
import sys
from pathlib import Path
 
# slug を主題語の集合に変換する。ノイズ語は主題ではないので落とす。
STOPWORDS = {
    "claude", "api", "sdk", "cli", "guide", "the", "a", "to", "for",
    "with", "and", "of", "in", "on", "how", "your", "cowork",
}
 
def slug_tokens(slug: str) -> set:
    parts = [p for p in slug.lower().split("-") if p]
    return {p for p in parts if p not in STOPWORDS and len(p) > 1}
 
def jaccard(a: set, b: set) -> float:
    if not a or not b:
        return 0.0
    return len(a & b) / len(a | b)
 
def main():
    repo, category, candidate = sys.argv[1], sys.argv[2], sys.argv[3]
    cand = slug_tokens(candidate)
    ja_dir = Path(repo) / "content" / "articles" / "ja" / category
    hits = []
    for mdx in ja_dir.glob("*.mdx"):
        existing = mdx.stem
        if existing == candidate:
            continue
        score = jaccard(cand, slug_tokens(existing))
        if score >= 0.5:
            hits.append((score, existing))
    hits.sort(reverse=True)
    if hits:
        print(f"❌ 重複の疑い: {candidate}")
        for score, existing in hits[:5]:
            print(f"   {score:.2f}  {existing}")
        sys.exit(1)
    print(f"✅ 重複なし: {candidate}")
    sys.exit(0)
 
if __name__ == "__main__":
    main()

このスクリプトを今朝の例で動かすと、候補 claude-api-prompt-cache-ttl-5m-to-1h-refresh-design に対して、既存の claude-api-prompt-cache-5m-1h-two-tier-ttl-design が 0.62 で引っかかります。共通トークンは prompt, cache, 5m, 1h, ttl, design の 6 語で、和集合は 10 語前後。表記は違うのに、概念は明確に重なっていることが数値で出ます。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦既存 slug をトークン分解して Jaccard 類似度を測り、しきい値で『同一概念の記事』を公開前に弾く Python ゲートの実装

✦当日ログと近接 slug を二段で照合し、誤検出と見逃しのどちらにも倒れないしきい値（0.5 前後）の決め方

✦重複を検出したあとの分岐 — 別角度へ振り直すか、既存記事の加筆昇格に切り替えるかの判断基準

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

しきい値はなぜ 0.5 前後なのか

しきい値の設計が、このゲートの実用性を左右します。低すぎると、同じカテゴリの記事は主題語を共有しがちなので何でも引っかかり、毎回ブロックされて自動運用が止まります。高すぎると、言い換えで逃げた本物の重複を見逃します。

私が 4 サイトの slug 約 2,500 本で試した範囲では、0.5 前後が実用的な境界でした。具体的には次のような分布になります。

Jaccard スコア	典型的な関係	とるべき対応
0.6 以上	ほぼ同じ主題。言い換えただけの重複	公開を止める。角度を根本から変える
0.45〜0.6	同じ機能の隣接トピック。重なる部分が大きい	既存記事への加筆昇格を検討する
0.3〜0.45	同じカテゴリの別観点。健全な範囲	公開してよい。内部リンクの候補
0.3 未満	関連は薄い	公開してよい

ここで大事なのは、しきい値を一つの数値ではなく帯で考えることです。0.6 以上は機械的に止め、0.45〜0.6 のグレーゾーンは「新規公開ではなく既存記事の加筆に回す」という別の出口へ送ります。この帯の設計があると、ゲートは単なる門番ではなく、運用の交通整理に変わります。

当日ログと二段で照合する

slug の類似度だけでは取りこぼす重複があります。同じ日のうちに別のタスク（たとえば premium-tue と daily-content）が、まだ slug すら確定していない段階で同じ題材に向かっているケースです。slug がファイルとして存在しなければ、上のスクリプトは比較対象を見つけられません。

そこで二段目として、当日の更新ログを主題語で照合します。私のパイプラインはタスクごとに _updated_article_log/{site}/YYYY-MM-DD.txt へ Title と Slug を追記しているので、これを candidate のトークンで grep すれば、ファイル化前の「進行中の重複」も捕まえられます。

#!/usr/bin/env bash
# dup_gate.sh — slug 類似度（dup_gate.py）と当日ログの二段で重複を検査する
set -euo pipefail
REPO="$1"; CATEGORY="$2"; CANDIDATE="$3"; LOG_DIR="$4"
 
# 1段目: 既存記事との slug 類似度
python3 dup_gate.py "$REPO" "$CATEGORY" "$CANDIDATE" || exit 1
 
# 2段目: 当日ログに主題語が既出でないか（TZ は必ず JST で）
TODAY="$(TZ=Asia/Tokyo date +%Y-%m-%d)"
LOG="${LOG_DIR}/${TODAY}.txt"
if [ -f "$LOG" ]; then
  # candidate の主題語のうち、ストップワードでない語を抽出
  TOKENS=$(echo "$CANDIDATE" | tr '-' '\n' \
    | grep -vE '^(claude|api|sdk|guide|cowork|the|for|with|and)$' \
    | awk 'length > 2')
  HITS=0
  for t in $TOKENS; do
    if grep -qi "$t" "$LOG"; then HITS=$((HITS+1)); fi
  done
  TOTAL=$(echo "$TOKENS" | grep -c . || true)
  # 主題語の 6 割以上が当日ログに既出なら、進行中の重複を疑う
  if [ "$TOTAL" -gt 0 ] && [ "$HITS" -ge $(( (TOTAL * 6 + 9) / 10 )) ]; then
    echo "❌ 当日ログに主題語が ${HITS}/${TOTAL} 既出。進行中の重複を疑います"
    exit 1
  fi
fi
echo "✅ 二段照合クリア"

ログ照合で一点だけ注意があります。日付は必ず TZ=Asia/Tokyo date で生成してください。素の date は UTC を返すので、日本時間の深夜に走るタスクでは前日のログを見にいってしまい、当日分の重複をまるごと取りこぼします。これは私が一度やらかして、同じ日に近い題材を二本通してしまった失敗です。

検出したあと、何に振り直すか

ゲートが止めてくれても、無人タスクは「では代わりに何を書くか」を自分で決めなければなりません。ここで安易に「適当な別題材」へ逃げると、今度は薄い記事を生む側に回ります。私が運用で固めた分岐はこうです。

スコアが 0.6 以上なら、その題材は既存記事が十分カバーしていると判断し、当日のニュース参照データから別の主題語を持つ題材を選び直す。同じ機能の言い換えではなく、別の機能・別の課題へ移ります。
スコアが 0.45〜0.6 のグレーゾーンなら、新規公開をやめて、引っかかった既存記事の加筆昇格に切り替える。新しい URL を増やさずに、既存記事へ最新の実体験を一段落だけ足す方が、サイト全体の質シグナルには効きます。
どちらの場合も、振り直した結果をログに「重複回避: 元題材 → 新題材」と残す。これがないと、翌日のタスクが同じ題材にまた向かいます。

この 2 番目の出口は、個人開発で一人で運用しているからこそ効きます。新規 URL を増やし続けるより、すでにある記事を厚くする方が、検索評価の回復には素直に効くと私は考えています。重複検出ゲートは、その判断を無人タスクに代行させるための仕組みでもあります。

導入の最初の一歩

もし同じように無人で記事を生成しているなら、まず dup_gate.py を一本置いて、push の直前に候補 slug を一度通してみてください。しきい値は 0.5 から始めて、自分の slug 群で数日まわしながら、誤検出が多ければ 0.55 へ、見逃しが気になれば 0.45 へ、と帯を調整していくのが現実的です。最初の数日は、ゲートが何を止めたかをログに残して眺めるだけでも、自分のパイプラインがどれだけ近い題材に手を伸ばしがちかが見えてきます。

私自身まだ調整を続けている途中ですが、このゲートを挟んでから「気づいたら似た記事が二本あった」という事故は明確に減りました。同じ無人運用の悩みを持つ方の役に立てば嬉しいです。