Chuỗi: ea-eight-system-foundation · Phần 4
AI / Hệ thống agentic
Capabilities cho future autonomous agent mesh
Capabilities cần cho mesh tự hành: song song, handoff, trace, timeout & retry, permission & audit; kết hợp Agentic và Orchestration.
2026-03-0810 phút đọcVI
Capabilities cho future autonomous agent mesh
English title: Capabilities for Future Autonomous Agent Mesh
Mở đầu
"Autonomous agent mesh" = nhiều agent phối hợp, job có thể chia nhánh song song, handoff context giữa agent, trace đầy đủ, timeout/retry không làm vỡ cả job. Cần capabilities rõ để scale mà vẫn kiểm soát. Bài này đi qua sáu mục: parallel execution (fan-out/fan-in), handoff protocol, execution tracing end-to-end, timeout & retry coordination, agent permission & audit, và cách hai system (Agentic + Orchestration) kết hợp — mỗi mục với giá trị, thách thức, thiết kế, giải pháp và vị trí trong kiến trúc. Cuối bài có dẫn sang series triển khai.
1. Parallel execution: fan-out và fan-in
Giá trị (value): Fan-out = N bước độc lập chạy đồng thời (max_concurrent); fan-in = gộp kết quả — synthesize, concatenate hoặc vote. Job phức tạp chia nhỏ, chạy song song, rồi gộp — giảm thời gian tổng và tận dụng nhiều agent. Pattern này là nền cho mesh tự hành khi số task và agent tăng: không cần chờ từng bước tuần tự.
Thách thức (challenges): Không shared state giữa steps — mỗi nhánh độc lập, tránh race condition và dependency ẩn. Thứ tự fan-in phải rõ (synthesize thế nào khi có nhánh fail?). Một nhánh lỗi không được kéo cả job treo — cần cancel và fan-in với kết quả có sẵn hoặc fail-safe. max_concurrent cần giới hạn để không quá tải runner hoặc API.
Thiết kế (design): Fan-out = N bước độc lập, orchestration schedule theo max_concurrent. Fan-in = merge strategy (synthesize / concatenate / vote). Orchestration sở hữu scheduling; Agentic cung cấp từng node. Ràng buộc: input mỗi bước không phụ thuộc output bước khác trong cùng fan-out; handoff từ phase trước đã xong.
Giải pháp (solution): max_concurrent giới hạn số bước chạy đồng thời. Merge strategy rõ: synthesize (gộp thành một output), concatenate (nối danh sách), vote (chọn theo đa số hoặc rule). Khi một nhánh lỗi: cancel nhánh đó, fan-in với kết quả có sẵn từ nhánh thành công, hoặc fail job nếu policy yêu cầu đủ N nhánh. Chi tiết cấu hình và schema nằm ở series triển khai.
Triển khai (implementation): Orchestration (S8) schedule fan-out và fan-in; Agentic (S7) cung cấp agent cho từng bước. Tích hợp với timeout & retry (mục 4) — mỗi nhánh có timeout riêng, retry per step. Vị trí: S8 sở hữu parallel pattern; S7 cung cấp node. Chi tiết ở Series 6, runtime ở Series 2 và 7.
2. Handoff protocol
Giá trị (value): Chuẩn hóa chuyển context từ agent A sang B: summary, artifacts, timeout. Tránh ad-hoc "ném cả prompt dài" — mesh cần format ổn định để trace và replay. Handoff rõ giúp debug (xem B nhận gì từ A) và tối ưu cost (không truyền context thừa). Protocol thuộc Orchestration (quy tắc chuyển giao); agent (Agentic) tuân contract input/output.
Thách thức (challenges): Format handoff đủ giàu để B làm việc (đủ context, artifact ref) nhưng đủ gọn để trace và audit không tràn. Version protocol khi mở rộng (thêm field) không vỡ tương thích. Summary do A tạo phải nhất quán chất lượng — nếu summary kém, B thiếu thông tin. Timeout handoff: A phải trả về trước khi B được gọi.
Thiết kế (design): Handoff thuộc Orchestration (quy tắc chuyển giao); agent (Agentic) tuân contract input/output. Schema handoff: summary (tóm tắt context cho B), artifacts (path hoặc ref), timeout. Mesh cần format ổn định; trace ghi mỗi handoff (từ agent nào, sang ai, summary length, artifact refs). Không chứa raw prompt dài trong handoff — chỉ summary và ref.
Giải pháp (solution): Schema: summary (text có độ dài giới hạn), artifacts (path hoặc ref), timeout. Orchestration đảm bảo A hoàn thành và ghi output (summary + artifacts) trước khi gọi B; B nhận input theo contract. Trace ghi handoff để replay và debug. Chi tiết schema và best practice summary nằm ở series triển khai; context governance (Series 4) có thể quy định PII và retention.
Triển khai (implementation): Trace ghi handoff; replay debug dựa trên trace. Tích hợp với tracing E2E (mục 3). Vị trí: Orchestration (S8) sở hữu handoff protocol; Agentic (S7) tuân contract. Chi tiết Series 6, 2, 7; context governance Series 4.
3. Execution tracing end-to-end
Giá trị (value): Trace end-to-end: job_id, steps, per-step (agent, duration, tokens, tool_calls, artifacts). Mesh-level: total_tokens, total_cost_usd, model_breakdown. Dùng cho audit, cost tối ưu, debug. Trace là nguồn thật để đánh giá chất lượng và chi phí mesh; orchestration sở hữu trace, runner và tooling đọc theo contract.
Thách thức (challenges): Volume trace khi nhiều job — lưu trữ, truy vấn, aggregate cần thiết kế. Bảo mật trace (PII, credential) — không ghi raw input/output nhạy cảm vào trace; chỉ ref hoặc hash. Trace bất biến (append-only) để audit đáng tin. Query theo job_id, time range, agent_id phải hiệu quả khi scale.
Thiết kế (design): Trace = nguồn thật; Orchestration sở hữu. Schema thống nhất: job_id, steps (step_index, agent_id, role, duration, tokens, tool_calls, artifacts, status), mesh-level (total_tokens, total_cost_usd, model_breakdown). Run-log = nơi lưu, cách đọc; governance spine có thể đọc cho audit (bài 5).
Giải pháp (solution): Per-step và mesh-level schema; lưu trữ (file, database, service) theo quyết định orchestration; truy vấn theo job_id, time, agent. Dùng cho đánh giá chất lượng (số bước, thời gian, lỗi) và chi phí (token, cost). Không lưu PII trong trace; artifact ref thay vì nội dung. Chi tiết schema và retention ở series triển khai.
Triển khai (implementation): Runner và tooling đọc trace theo contract; governance spine đọc cho audit. Vị trí: S8 sở hữu trace; S7 agent ghi output (artifact path) để trace ghi ref. Chi tiết Series 6, 2, 7; context governance và audit policy Series 4.
4. Timeout và retry coordination
Giá trị (value): Per-step timeout, per-group (fan-in), per-job timeout. Retry per step; job timeout → escalation (HITL hoặc fail-safe). Cancel và fan-in với kết quả có sẵn khi một nhánh lỗi — tránh cả job treo. Orchestration quyết định chính sách; agent chỉ tuân contract (timeout_sec, retry_count trong output). Mesh ổn định khi có lỗi một nhánh hoặc một step.
Thách thức (challenges): Cân bằng timeout ngắn (fail nhanh, không treo) vs đủ dài cho task phức tạp. Retry policy: số lần retry, backoff (có tăng delay giữa các lần?), điều kiện retry (chỉ timeout hay cả lỗi?). Escalation path rõ: timeout job → HITL hay fail-safe. Một nhánh trong fan-out fail — retry nhánh đó hay bỏ qua và fan-in với phần còn lại?
Thiết kế (design): Orchestration quyết định chính sách timeout và retry; agent chỉ tuân contract (timeout_sec, trả retry_count trong output). Cấp độ: per-step (mỗi bước có timeout), per-group (fan-in chờ tối đa bao lâu), per-job (cả job không vượt quá). Retry per step; job timeout → escalation (HITL hoặc fail-safe). Cancel và fan-in với kết quả có sẵn khi một nhánh lỗi.
Giải pháp (solution): Timeout từng cấp; retry per step (số lần, backoff tùy chọn); escalation path khi job timeout. Fan-out: một nhánh lỗi có thể retry nhánh đó hoặc bỏ qua và fan-in với kết quả có sẵn — policy rõ. Chi tiết số liệu (giây, số lần retry) và UI escalation ở series triển khai.
Triển khai (implementation): Orchestration enforce timeout và retry; tích hợp HITL (bài 3). Mesh ổn định khi có lỗi một nhánh nhờ cancel và fan-in. Vị trí: S8 sở hữu policy; S7 agent nhận timeout_sec và trả retry_count. Series 6, 2, 7; HITL và governance bài 5, Series 4.
5. Agent permission và audit
Giá trị (value): Mesh cần biết agent nào được gọi tool gì, đọc data gì; mọi action ghi audit log (immutable). Governance spine cắt ngang: permission model, audit trail — mesh tự hành nhưng vẫn tuân policy. Agentic đăng ký capability và scope; Orchestration và spine enforce tại runtime. Permission và audit là điều kiện để scale mesh an toàn.
Thách thức (challenges): Permission model chi tiết — per-agent, per-tool, per-data source; có role hay attribute không? Audit volume khi nhiều job và nhiều action — lưu trữ, retention, query. Immutable log và không xóa (chỉ archive). PII trong audit: không ghi nội dung nhạy cảm; chỉ agent_id, tool_id, timestamp, outcome (success/denied).
Thiết kế (design): Governance spine cắt ngang: permission model, audit trail. Agentic đăng ký capability và scope (bài 2 — mesh-facing); Orchestration và spine enforce tại runtime — trước khi agent gọi tool hay đọc data, spine kiểm tra quyền. Audit log: mỗi action (agent_id, tool/data, outcome, timestamp) ghi immutable; không chứa PII trong log.
Giải pháp (solution): Per-agent permission (agent A được gọi tool X, đọc data Y); spine check trước khi thực thi. Audit log schema: agent_id, action_type, resource_ref, outcome, timestamp; lưu immutable, retention theo policy. Enforce trước khi gọi tool/đọc data — từ chối và ghi log nếu ngoài scope. Chi tiết permission model và context governance ở Series 4.
Triển khai (implementation): Spine (bài 5) tích hợp permission và audit; Agentic registry (bài 2) cung cấp scope; Orchestration gọi agent sau khi spine check quyền (hoặc spine intercept call). Vị trí: governance spine cắt ngang S7 và S8; context governance chi tiết Series 4.
6. Kết hợp Agentic và Orchestration
Giá trị (value): Agentic = "ai trong mesh" (identity, tool, behavior). Orchestration = "mesh chạy thế nào" (job, trace, timeout, handoff). Cùng nhau cho phép thêm node mới (agent), thêm pattern mới (workflow) mà không vỡ contract. Các capabilities trên (parallel, handoff, tracing, timeout/retry, permission/audit) là nền cho mesh tự hành.
Thách thức (challenges): Kỷ luật tuân contract — cả hai system phải tôn trọng input/output, timeout, scope. Version contract khi mở rộng không vỡ tương thích. Ranh giới rõ: Agentic không sở hữu job queue hay trace; Orchestration không sở hữu personality hay tool implementation.
Thiết kế (design): Agentic = node (pack, engine, agent, design system, mesh-facing); Orchestration = execution backbone (three-tier, budget, HITL, job/trace, mesh contract, automation cycle). Hai system bổ sung cho nhau: Orchestration gọi Agent theo contract; Agentic cung cấp node đăng ký và thực thi.
Giải pháp (solution): Contract ổn định giữa S7 và S8; mesh contract (input/output, timeout, retry) là giao ước chung. Thêm node mới = đăng ký agent vào registry với contract; thêm pattern mới = mô tả phase và steps trong Orchestration. Governance spine cắt ngang permission và audit. Chi tiết triển khai: Series 6, Series 2 & 7, Series 4 (context governance).
Triển khai (implementation): Dẫn sang bài 5 — governance spine và roadmap. Vị trí: S7 + S8 kết hợp; spine (bài 5) cắt ngang. Chi tiết triển khai: Series 6 (three-tier, mesh), Series 2 & 7 (runtime, patterns), Series 4 (context governance).
Kết
Capabilities cho autonomous mesh: parallel (fan-out/fan-in), handoff protocol, tracing end-to-end, timeout & retry, agent permission & audit. Hai system Agentic và Orchestration kết hợp: node rõ (Agentic), đường chạy và quy tắc rõ (Orchestration). Bài tiếp: Governance và roadmap — framework vs personality, hướng tới mesh tự hành.
Chi tiết triển khai: Series 6, Series 2 & 7, Series 4 (context governance).
