Claude Haiku と Sonnet を業務で使い分けてトークン代を半減する

Claude の Haiku / Sonnet / Opus を業務の難易度別に振り分けてトークン代を 50% 削減する手順。API 経由・社内ツール開発・大量バッチ処理に必須の運用知見。

このノウハウで解決する課題

「API 利用料金が想定の 3 倍」「全部 Sonnet で動かしているが本当に必要か？」「業務拡大したいがコストが見合わない」。AI を本格的に業務に組み込むと避けて通れない課題です。

結論

「分類・抽出は Haiku、要約・分析は Sonnet、専門判断は Opus」 の 3 段階振り分けで、平均 30〜50% のコスト削減 が可能。Web UI（Claude.ai）の Pro プランは選択不可ですが、API / Claude Code / 社内ツール開発 では即適用可能。

必要な準備

ツール: Anthropic API キー、Python / Node.js（社内ツール開発時）
想定環境: API 経由の業務システム / Claude Code / バッチ処理
前提知識: Anthropic API の基本（model パラメータの指定）

手順

1. 業務を 3 階層に分類

業務リストを「複雑度」と「精度要件」で 3 段階に分類:

階層	業務例	モデル
低	文書のカテゴリ分類、固有名詞抽出、Yes/No 判定	Haiku
中	議事録要約、メールドラフト、テンプレ埋め	Sonnet
高	契約書のリスク評価、専門的判断、複雑な推論	Opus

2. ルーティングロジックの実装

import anthropic

client = anthropic.Anthropic()

def route_model(task_type: str) -> str:
    routing = {
        "classify":   "claude-haiku-4-5-20251001",
        "extract":    "claude-haiku-4-5-20251001",
        "summarize":  "claude-sonnet-4-6",
        "draft":      "claude-sonnet-4-6",
        "review":     "claude-opus-4-7",
        "judgment":   "claude-opus-4-7",
    }
    return routing.get(task_type, "claude-sonnet-4-6")  # default

def ai_task(task_type: str, prompt: str) -> str:
    model = route_model(task_type)
    msg = client.messages.create(
        model=model,
        max_tokens=1024,
        messages=[{"role": "user", "content": prompt}],
    )
    return msg.content[0].text

# 使用例（自組織の業務内容に合わせて書き換えてください）
classification = ai_task("classify", "次の取引を勘定科目に分類: タクシー代 1,200円")
draft = ai_task("draft", "顧客への月次報告メール本文を作成: ...")

3. 段階的フォールバック（高度な使い方）

「Haiku で試して、信頼度が低ければ Sonnet で再試行」のパターン:

def smart_classify(text: str) -> str:
    # まず Haiku で試す
    result = ai_task("classify", f"{text}\n\n分類結果と信頼度（0-100）を JSON で")
    parsed = json.loads(result)

    if parsed["confidence"] < 80:
        # 信頼度低ければ Sonnet にエスカレ
        result = ai_task("review", text)
    return result

4. プロンプトキャッシュも活用

長い system プロンプトや参照資料は Prompt Caching で 90% 安く再利用可能:

msg = client.messages.create(
    model="claude-sonnet-4-6",
    system=[
        {"type": "text", "text": "あなたは業務アシスタントです"},
        {"type": "text", "text": LARGE_REFERENCE_DOC, "cache_control": {"type": "ephemeral"}},
    ],
    messages=[...],
)

参照資料が大きいほど効果大。

5. 月次でコストを計測

API 管理画面の利用ログを月次で集計:

モデル別の消費トークン
業務カテゴリ別の料金（タグ付け）
想定コスト vs 実コスト

ROI 5 指標と組み合わせて経営判断材料に。

効果と限界

効果:

平均 30〜50% のトークン代削減（業務構成による）
バッチ処理ではさらに 70% 削減可能（Haiku の Batch API は 50% 引き）
レスポンス速度も向上（Haiku は Sonnet の 2〜3 倍速）

限界:

Web UI（Claude.ai）では選択不可（API / Claude Code / 開発ツールのみ）
Haiku の精度が業務要件を満たさない場合は無理に下げない
振り分けロジック自体の保守コスト（年 2 回の見直し推奨）

応用・派生

複数 AI ベンダー併用: Anthropic + OpenAI + Google の最も安いモデルをタスク別に呼び分け
オープンソース LLM 併用: 機密データは Llama / Qwen ローカル実行で 0 円化

このノウハウで解決する課題

結論

必要な準備

手順

1. 業務を 3 階層に分類

2. ルーティングロジックの実装

3. 段階的フォールバック（高度な使い方）

4. プロンプトキャッシュも活用

5. 月次でコストを計測

効果と限界

応用・派生

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

Claude Haiku と Sonnet を業務で使い分けてトークン代を半減する

このノウハウで解決する課題

結論

必要な準備

手順

1. 業務を 3 階層に分類

2. ルーティングロジックの実装

3. 段階的フォールバック（高度な使い方）

4. プロンプトキャッシュも活用

5. 月次でコストを計測

効果と限界

応用・派生

Microsoft 365 CopilotがAnthropicモデルをWordに統合——5月中旬から展開開始

Anthropicがクロードの「恐喝」行動をトレーニング改善で解消したと報告

Anthropic、Claude エージェントが過去セッションから自律学習する「Dreaming」機能を研究プレビュー公開

Claude for Excel アドインで月次の財務モデルを 30 分で組む

Claude Code のマルチエージェント・並列実行で長時間タスクを 1 セッションに集約する

Claude 内で QuickBooks / TurboTax を呼び出す統合の使いどころ（米国仕様の現状整理）

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査