Chuỗi: lakehouse-layer-spec · Phần 7
Năng suất & công cụ dev
Lakehouse Layer 7 — Consumption Layer
Consumption Layer: điểm tiêu thụ dữ liệu cho BI, ML, đối tác. Dashboard, báo cáo tự động, pipeline ML, API. Chính sách refresh, RBAC, MLflow, audit.
2026-03-172 phút đọcVI
Spec – Layer 7: Consumption Layer
1. Mục đích
Consumption Layer là điểm tiêu thụ dữ liệu chính thức cho các nhóm sử dụng khác nhau trong và ngoài tổ chức. Mục tiêu: cung cấp dữ liệu phù hợp vai trò (BI, ML, quản lý vùng, đối tác); tự động hóa báo cáo và huấn luyện mô hình; tích hợp bên ngoài có kiểm soát (Data Sharing API); ghi log đầy đủ truy cập và tiêu thụ.
2. Nhóm người dùng
Ban điều hành (BOD) — dashboard, KPI chiến lược; quản lý vùng/chi nhánh — hiệu suất, vận hành; Data Analyst/BI — phân tích, báo cáo; Data Scientist — training AI/ML; đối tác bên ngoài — dữ liệu có chọn lọc (API, file, webhook).
3. Kênh phân phối
Dashboard BI (Superset, Metabase) — Web UI real-time/theo giờ; Auto Report (Jupyter, Airflow, Papermill) — Excel/PDF, KPI; ML Pipeline (MLflow, DVC, Spark ML) — training, scoring, monitoring; API (FastAPI, GraphQL, Trino Gateway) — real-time hoặc batch.
4. Refresh & latency
Dashboard vận hành: 30 phút–1 giờ, độ trễ ≤ 15 phút; KPI chiến lược: mỗi ngày, ≤ 4 giờ; AI/ML training: mỗi tuần/batch, ≤ 1 ngày; đối tác API: theo sự kiện/ngày, ≤ 5 phút (event) / ≤ 1h (batch).
5. Quản trị quyền
Nội bộ (store, BOD): role-based UI (Superset, Metabase); ML Pipeline: token (MLflow, DVC); API: JWT, scope, IP whitelist; báo cáo email: phân quyền theo phòng ban.
6. AI/ML Pipeline
Experiment tracking (MLflow); Feature Store (Iceberg curated); model training (Spark ML, XGBoost, scikit-learn); model registry (MLflow); retraining (Airflow + Git trigger).
7. API đối tác
REST/GraphQL + OpenAPI; JWT, TTL; webhook HMAC; export batch (IP whitelist); ghi log đầy đủ.
8. Giám sát & audit
Grafana (lượt truy cập dashboard); Loki/ELK (log truy cập/API); Prometheus + Alertmanager (lỗi, chậm); DataHub (lineage tiêu thụ).
9. Ví dụ cấu hình truy cập Superset
| Người dùng | Nhóm quyền | Dataset truy cập |
|---|---|---|
admin@company | BOD | Tất cả bảng trong ana. |
store.hn.1 | Regional Manager | Chỉ ana.lending.* có store_id=HN1 |
ml@company | Data Scientist | cur.*, ana.* (train/test) |
partner.cimb | External API User | /api/v1/partner/customer_score |
