Model Selection — Cost vs Quality Tradeoff

Durasi: 10 menit | Block: 5

🧠 Key Principle

Cheap model for ROUTING & CLASSIFICATION
Strong model for REASONING & GENERATION

📊 Model Comparison (2026)

Model	Cost/Input (1M)	Cost/Output (1M)	Speed	Reasoning	Best For
GPT-4o-mini	$0.15	$0.60	⚡⚡⚡	⭐⭐	Classification, simple tasks
GPT-4o	$2.50	$10	⚡⚡	⭐⭐⭐⭐	General purpose, complex tasks
Claude 3.5 Sonnet	$3	$15	⚡⚡	⭐⭐⭐⭐⭐	Writing, analysis, nuanced tasks
Claude 3 Haiku	$0.25	$1.25	⚡⚡⚡	⭐⭐	Quick classification, routing
Gemini 1.5 Flash	$0.075	$0.30	⚡⚡⚡	⭐⭐	Budget, high volume
Gemini 1.5 Pro	$1.25	$5	⚡⚡	⭐⭐⭐⭐	Long context, multi-modal

🎯 Task-to-Model Mapping

Tier 1: Cheap & Fast (Classification, Routing)

Model: GPT-4o-mini / Claude Haiku / Gemini Flash
Cost: ~$0.001 per task

Tasks:
- "Classify inquiry ini: sales/support/billing"
- "Extract nama dan email dari teks ini"
- "Is this urgent? yes/no"
- "Translate ke bahasa Inggris"
- "Summarize in 1 sentence"

Tier 2: Mid-Range (Generation, Formatting)

Model: GPT-4o / Gemini Pro
Cost: ~$0.01-0.05 per task

Tasks:
- "Draft email follow-up dengan tone profesional"
- "Generate 5 konten ideas untuk social media"
- "Format data ini jadi report"
- "Write product description"

Tier 3: Premium (Complex Reasoning, Analysis)

Model: Claude Sonnet / GPT-4o
Cost: ~$0.05-0.50 per task

Tasks:
- "Analisis data penjualan dan berikan insight"
- "Research competitor dan buat positioning strategy"
- "Draft kontrak berdasarkan requirement complex"
- "Evaluate dan improve draft yang sudah ada"

💰 Cost Calculator per Pattern

Pattern: Daily Brief (Cron)

Task: Analyze data + generate brief (Tier 2)
Frequency: 1x/hari
Model: GPT-4o

Per execution:
- Input: ~2000 tokens = $0.005
- Output: ~1000 tokens = $0.01
- Total: $0.015

Per bulan: $0.015 × 30 = $0.45 ≈ Rp 7.000

Pattern: Customer Auto-Reply

Task: Classify + draft reply (Tier 1 + Tier 2)
Frequency: 50x/hari

Classification (Tier 1 - Haiku):
- Per inquiry: ~$0.0002
- Per hari: $0.0002 × 50 = $0.01

Draft reply (Tier 2 - GPT-4o):
- Per inquiry: ~$0.01
- Per hari: $0.01 × 50 = $0.50

Per bulan: ($0.01 + $0.50) × 30 = $15.30 ≈ Rp 245.000

Pattern: Weekly Research Report

Task: Research + analyze + report (Tier 3)
Frequency: 1x/minggu
Model: Claude Sonnet

Per execution:
- Input: ~5000 tokens = $0.015
- Output: ~3000 tokens = $0.045
- Web search: ~5 calls
- Total: ~$0.10

Per bulan: $0.10 × 4 = $0.40 ≈ Rp 6.400

⚡ Optimization Tips

Route first, generate second — classify pakai model murah, baru generate pakai model kuat
Cache results — kalau pertanyaan sama, ga perlu call ulang
Batch when possible — kirim multi-task sekaligus, hemat overhead
Set max tokens — limit output biar ga boros
Monitor usage — cek spend mingguan, adjust model kalau over budget

📋 Hermes Config for Multi-Model

yaml

# hermes.config.yaml
models:
  default: "gpt-4o-mini"        # Harian, simple tasks
  reasoning: "claude-3.5-sonnet" # Analysis, writing
  classification: "gpt-4o-mini"  # Routing, classify

# Hermes otomatis pilih model berdasarkan task complexity
# Atau bisa specify manual per task

🧠 Key Principle ​

📊 Model Comparison (2026) ​

🎯 Task-to-Model Mapping ​

Tier 1: Cheap & Fast (Classification, Routing) ​

Tier 2: Mid-Range (Generation, Formatting) ​

Tier 3: Premium (Complex Reasoning, Analysis) ​

💰 Cost Calculator per Pattern ​

Pattern: Daily Brief (Cron) ​

Pattern: Customer Auto-Reply ​

Pattern: Weekly Research Report ​

⚡ Optimization Tips ​

📋 Hermes Config for Multi-Model ​

🧠 Key Principle

📊 Model Comparison (2026)

🎯 Task-to-Model Mapping

Tier 1: Cheap & Fast (Classification, Routing)

Tier 2: Mid-Range (Generation, Formatting)

Tier 3: Premium (Complex Reasoning, Analysis)

💰 Cost Calculator per Pattern

Pattern: Daily Brief (Cron)

Pattern: Customer Auto-Reply

Pattern: Weekly Research Report

⚡ Optimization Tips

📋 Hermes Config for Multi-Model