Chuỗi: lakehouse-layer-spec · Phần 4
Năng suất & công cụ dev
Lakehouse Layer 4 — Analytics Layer
Analytics Layer: KPI tổng hợp cho dashboard, báo cáo, API. dbt, Trino, Spark. Partition, view tiền tổng hợp, SLA và phân quyền.
2026-03-171 phút đọcVI
Spec – Layer 4: Analytics Layer
1. Mục đích
Analytics Layer là lớp dữ liệu tổng hợp, phục vụ: dashboard báo cáo vận hành (Superset, Power BI); báo cáo định kỳ (PDF, Email, KPI); API truy vấn nhanh; quyết định cấp vùng/chi nhánh/BOD. Không chứa chi tiết — chỉ KPI, aggregation, pivot, rolling window, flatten theo thời gian.
2. Cấu trúc
Parquet, ORC hoặc Iceberg; partition business_date, store_id; file 128–256MB; tên ana.<domain>.<kpi_theme> (vd. ana.lending.daily_performance); thư mục minio://lakehouse/analytics/....
3. Logic & tính toán
KPIs daily/monthly: SUM, AVG, COUNT DISTINCT; growth/trend: lag, lead, percent_change; time window: rolling 7d/30d, moving avg, retention cohort; pivot: segment x region x kpi; pre-aggregated: store_day_summary, region_product_summary, risk_score_bucket_daily.
4. Bảng điển hình
ana.lending.daily_store_performance; ana.crm.customer_retention_30d; ana.payment.monthly_collection_rate; ana.risk.loan_score_bucket_daily.
5. Công cụ
dbt (model GROUP BY, cập nhật hàng ngày); Trino (view, materialized view); Spark (aggregation lớn, cohort > 10M dòng); Iceberg snapshot (version, time travel).
6. Kiểm thử DQ
Null ratio (store_id, kpi_name không null); số liệu bất thường (revenue < 0, growth > 500%); drift (>30% so với 7d moving avg); consistency (SUM chi tiết khớp aggregated).
7. Truy cập
BI Analyst full read; cửa hàng trưởng theo store_id; BOD full read dashboard; ML/Data Science có thể train; đối tác/API chỉ qua API Gate. Metadata: tag layer:analytics, purpose:BI, refresh_frequency; mô tả KPI, công thức, ngưỡng.
