このノウハウで解決する課題
「API 利用料金が想定の 3 倍」「全部 Sonnet で動かしているが本当に必要か?」「業務拡大したいがコストが見合わない」。AI を本格的に業務に組み込むと避けて通れない課題です。
結論
「分類・抽出は Haiku、要約・分析は Sonnet、専門判断は Opus」 の 3 段階振り分けで、平均 30〜50% のコスト削減 が可能。Web UI(Claude.ai)の Pro プランは選択不可ですが、API / Claude Code / 社内ツール開発 では即適用可能。
必要な準備
- ツール: Anthropic API キー、Python / Node.js(社内ツール開発時)
- 想定環境: API 経由の業務システム / Claude Code / バッチ処理
- 前提知識: Anthropic API の基本(model パラメータの指定)
手順
1. 業務を 3 階層に分類
業務リストを「複雑度」と「精度要件」で 3 段階に分類:
| 階層 | 業務例 | モデル |
|---|---|---|
| 低 | 文書のカテゴリ分類、固有名詞抽出、Yes/No 判定 | Haiku |
| 中 | 議事録要約、メールドラフト、テンプレ埋め | Sonnet |
| 高 | 契約書のリスク評価、専門的判断、複雑な推論 | Opus |
2. ルーティングロジックの実装
import anthropic
client = anthropic.Anthropic()
def route_model(task_type: str) -> str:
routing = {
"classify": "claude-haiku-4-5-20251001",
"extract": "claude-haiku-4-5-20251001",
"summarize": "claude-sonnet-4-6",
"draft": "claude-sonnet-4-6",
"review": "claude-opus-4-7",
"judgment": "claude-opus-4-7",
}
return routing.get(task_type, "claude-sonnet-4-6") # default
def ai_task(task_type: str, prompt: str) -> str:
model = route_model(task_type)
msg = client.messages.create(
model=model,
max_tokens=1024,
messages=[{"role": "user", "content": prompt}],
)
return msg.content[0].text
# 使用例(自組織の業務内容に合わせて書き換えてください)
classification = ai_task("classify", "次の取引を勘定科目に分類: タクシー代 1,200円")
draft = ai_task("draft", "顧客への月次報告メール本文を作成: ...")
3. 段階的フォールバック(高度な使い方)
「Haiku で試して、信頼度が低ければ Sonnet で再試行」のパターン:
def smart_classify(text: str) -> str:
# まず Haiku で試す
result = ai_task("classify", f"{text}\n\n分類結果と信頼度(0-100)を JSON で")
parsed = json.loads(result)
if parsed["confidence"] < 80:
# 信頼度低ければ Sonnet にエスカレ
result = ai_task("review", text)
return result
4. プロンプトキャッシュも活用
長い system プロンプトや参照資料は Prompt Caching で 90% 安く再利用可能:
msg = client.messages.create(
model="claude-sonnet-4-6",
system=[
{"type": "text", "text": "あなたは業務アシスタントです"},
{"type": "text", "text": LARGE_REFERENCE_DOC, "cache_control": {"type": "ephemeral"}},
],
messages=[...],
)
参照資料が大きいほど効果大。
5. 月次でコストを計測
API 管理画面の利用ログを月次で集計:
- モデル別の消費トークン
- 業務カテゴリ別の料金(タグ付け)
- 想定コスト vs 実コスト
ROI 5 指標 と組み合わせて経営判断材料に。
効果と限界
効果:
- 平均 30〜50% のトークン代削減(業務構成による)
- バッチ処理ではさらに 70% 削減可能(Haiku の Batch API は 50% 引き)
- レスポンス速度も向上(Haiku は Sonnet の 2〜3 倍速)
限界:
- Web UI(Claude.ai)では選択不可(API / Claude Code / 開発ツールのみ)
- Haiku の精度が業務要件を満たさない場合は無理に下げない
- 振り分けロジック自体の保守コスト(年 2 回の見直し推奨)
応用・派生
- 複数 AI ベンダー併用: Anthropic + OpenAI + Google の最も安いモデルをタスク別に呼び分け
- オープンソース LLM 併用: 機密データは Llama / Qwen ローカル実行で 0 円化