Le Duy Khuong

Chuỗi: claude-code-20-p2 · Phần 4

Năng suất & công cụ dev

Token và chi phí — chọn model, thinking tokens

Sonnet vs Opus, MAX_THINKING_TOKENS, auto-compact; tối ưu chi phí.

2026-03-146 phút đọcVI

Phần 4 của 580% hoàn thành

Token và chi phí — chọn model, thinking tokens

English title: Tokens and Cost — Model Choice, Thinking Tokens

Bài 9 trong chuỗi 20 bài về Claude Code. Mỗi request tính phí theo token (input + output). Thinking tokens (extended thinking) cũng tính phí — đôi khi chiếm phần lớn. Bài này giúp hiểu cơ chế, chọn Sonnet vs Opus, và giới hạn thinking token.


Mở đầu: Chi phí ẩn — thinking tokens

Hóa đơn cao dù số request không nhiều có thể do thinking tokens. Model "suy nghĩ" trước khi trả lời; phần đó không hiển thị nhưng vẫn tính phí. Set MAX_THINKING_TOKENS giúp giảm chi phí mà vẫn đủ chất lượng cho đa số task.


1. Đi sâu: Token và chi phí ẩn

Tại sao quan trọng: Input + output + (nếu có) thinking đều tính phí. Thinking tăng khi task phức tạp. Không để ý thì hóa đơn vọt.

Hiểu sai: "Chỉ output mới tính." Thực tế input (prompt, rules, history) + output + thinking đều tính.

Bản chất: Theo docs: tính theo token từng loại. Giải pháp: monitor usage; set MAX_THINKING_TOKENS; dùng Sonnet mặc định, Opus khi cần.


2. Khái niệm

  • Input token: Prompt + context (rules, history, file). Càng nhiều context, input càng lớn.
  • Output token: Câu trả lời hiển thị. Thường đắt hơn input.
  • Thinking token: Token "suy nghĩ" nội bộ. Có thể ẩn nhưng vẫn tính phí. Một số platform cho set giới hạn.
  • Sonnet vs Opus: Sonnet nhanh, rẻ, đủ daily. Opus mạnh hơn reasoning, đắt hơn. Chọn theo task và budget.

3. Cấu hình gợi ý (pseudo)

Trong settings (tên có thể khác theo docs): model: sonnet; MAX_THINKING_TOKENS: 10000; CLAUDE_AUTOCOMPACT_PCT_OVERRIDE: 50. Default Sonnet; chuyển Opus khi cần (vd. /model opus). Giá và tên tham số xem tài liệu chính thức.


4. Workflow

  1. Mặc định Sonnet cho plan, implement, review thường ngày.
  2. Nâng Opus cho kiến trúc, debug phức tạp, review one-off.
  3. Set MAX_THINKING_TOKENS (vd. 10k). Theo dõi; nếu reply "cụt" thì tăng nhẹ.
  4. Monitor /cost hoặc dashboard. Compact tại breakpoint (bài 10).

5. Ứng dụng

Team chuẩn "default Sonnet, Opus khi approve". Session dài: kết hợp persistence + compaction. Bài 10 nói strategic compaction — khi nào compact, giữ gì.


Bài tiếp: Khi nào compact context — strategic compaction (bài 10).

LDK

Le Duy Khuong

AI Transformation & Digital Strategy. Writing about agentic systems, engineering leadership, and building in public.