What Is Distillation Attack? — AI Model Theft via API Explained

Phần 1 của 520% hoàn thành

English title: What Is Distillation — and When Does It Become an Attack?

Mở đầu

Bạn bỏ nhiều tháng và hàng triệu đô để train một model lớn. Đối thủ không train từ đầu: họ mở API của bạn, gọi hàng triệu lần, thu thập cặp câu hỏi–trả lời, rồi train model của họ trên chính output đó. Chi phí thấp, thời gian ngắn — và capability của bạn dần “chảy” sang model của họ. Đó gọi là distillation attack. Bài này giúp bạn phân biệt kỹ thuật knowledge distillation (hợp pháp, dùng trong nghiên cứu và sản phẩm) với distillation attack (lạm dụng API để sao chép capability), và hiểu động cơ cùng cách thực hiện.

1. Đi sâu vào chủ đề: Tại sao phân biệt “distillation” và “attack” quan trọng

Nhiều người nghĩ “distillation” đơn giản là “model nhỏ học từ model lớn” — đúng, nhưng chưa đủ. Vấn đề nằm ở nguồn dữ liệu và mục đích. Khi bạn tự distill model của chính mình (trên data nội bộ, với consent và ToS rõ ràng), đó là kỹ thuật hợp pháp. Khi một bên thứ ba dùng API hoặc dịch vụ công khai của bạn chỉ để thu thập lượng lớn (input → output) rồi train model cạnh tranh, đó là lạm dụng — và thường vi phạm điều khoản sử dụng.

Bản chất: Distillation attack không phải “hack” theo nghĩa xâm nhập server. Nó lợi dụng chính giao diện bạn mở ra cho user: mỗi request–response là một mẫu huấn luyện. Kẻ tấn công không cần truy cập weights hay code — chỉ cần scale (nhiều tài khoản, nhiều request, nhiều task đa dạng) để có dataset đủ lớn và đủ phủ để train model bắt chước hành vi của bạn. Hiểu rõ ranh giới giúp team thiết kế API và chính sách sử dụng đúng hướng: phục vụ user thật, hạn chế abuse.

2. Khái niệm và thuật ngữ

Knowledge distillation (distillation): Kỹ thuật ML trong đó một mô hình “học trò” (thường nhỏ hơn, rẻ hơn) học từ đầu ra của mô hình “thầy” (lớn hơn, mạnh hơn). Dùng để nén model, tăng tốc inference, hoặc chuyển knowledge từ model phức tạp sang model đơn giản. Dữ liệu huấn luyện thường do người train kiểm soát (internal data, synthetic data, hoặc data có license).
Distillation attack: Lạm dụng dịch vụ (API, app) của bên cung cấp model để thu thập số lượng lớn cặp (input, output) rồi dùng làm dữ liệu huấn luyện cho mô hình riêng, nhằm sao chép capability mà không đầu tư R&D tương đương. Thường vi phạm ToS; model “distill” trái phép thường không kế thừa lớp safety (RLHF, guardrails) của model gốc.
Teacher–student (trong distillation): Teacher = model nguồn (cho output); student = model đích (học từ output). Trong attack, “teacher” là API/dịch vụ của bạn, “student” là model do đối thủ train.

3. Mô hình đơn giản: Từ distillation hợp pháp đến attack

Luồng hợp pháp: bạn có teacher model và dataset; bạn tạo (input, output_teacher) rồi train student trên đó — toàn bộ trong môi trường kiểm soát.

Luồng attack: đối thủ không có teacher, không có dataset đủ mạnh. Họ dùng API của bạn làm “teacher”: gửi input (câu hỏi, task), nhận output, lưu cặp (input, output). Lặp lại ở quy mô lớn (nhiều account, nhiều IP, nhiều loại prompt) → dataset (input, output) → train student model. Student không “đột nhập” vào hệ thống của bạn — nó chỉ học từ những gì bạn đã trả ra qua API.

[Hợp pháp]
  Teacher model + your data → (input, output) → Train student → Deploy student (your control)
 
[Attack]
  Your API (as "teacher") → Attacker sends many inputs → Collects (input, output) → Trains their student
       ↑                                                                              ↓
  No access to weights                                    Their model mimics your capability

Động cơ của attacker: giảm chi phí và thời gian phát triển; có được capability (reasoning, coding, tool use) mà không cần nghiên cứu và safety tương đương. Rủi ro cho bạn: mất lợi thế cạnh tranh; model “clone” thường thiếu safeguard và có thể bị dùng cho mục đích xấu.

4. Workflow: Làm sao nhận ra distillation attack

Không có một tín hiệu duy nhất, nhưng có thể kết hợp nhiều dấu hiệu:

Volume bất thường: Một (hoặc một nhóm) user/API key tạo ra lượng request rất lớn so với use case bình thường — đặc biệt khi request đa dạng (nhiều task, nhiều độ khó) giống như đang “phủ” không gian input để thu dataset.
Pattern giống scraping: Request có cấu trúc lặp lại (template prompt, biến đổi có hệ thống), ít tương tác kiểu “conversation” tự nhiên.
Metadata tài khoản: Nhiều tài khoản mới, ít hoạt động khác ngoài gọi API; metadata (email, profile) giống nhau hoặc theo pattern (ví dụ hàng loạt account “công ty”).
Tập trung vào capability đặc thù: Ví dụ chỉ khai thác reasoning (chain-of-thought), hoặc chỉ tool use, coding — đúng với mục tiêu distill từng phần capability.

Khi nghi ngờ: so sánh với baseline (user bình thường), đối chiếu ToS (cấm dùng output để train model cạnh tranh), và kết hợp với rate limit, audit log, và nếu cần — can thiệp (cảnh báo, chặn, báo cáo).

5. Ứng dụng trong AI-centric engineering

Nếu bạn đang mở API cho LLM hoặc agent (hoặc sắp mở), cần nghĩ trước về ranh giới “dùng hợp lý” và “dùng để distill”. ToS nên nói rõ: output không được dùng để train mô hình cạnh tranh hoặc sao chép capability. Rate limit và monitoring theo user/API key giúp phát hiện pattern volume và scraping. Thiết kế sản phẩm không ngăn được mọi abuse, nhưng làm rõ quy tắc và có tín hiệu sớm giúp bạn phản ứng trước khi dataset đủ lớn. Bài 5 trong chuỗi sẽ đi sâu checklist cho AI product và API.

Kết

Distillation là kỹ thuật hợp pháp khi bạn kiểm soát teacher và data; distillation attack là lạm dụng API để thu thập (input, output) ở quy mô lớn rồi train model bắt chước. Phân biệt hai thứ giúp bạn vừa dùng distillation đúng cách trong sản phẩm, vừa thiết kế chính sách và kỹ thuật để hạn chế abuse. Bài tiếp: Vụ Anthropic 2026 — ai làm, quy mô thế nào, và cách phát hiện.