Lê Duy Khương (Daniel)

Chuỗi: lakehouse-layer-spec · Phần 5

Năng suất & công cụ dev

Lakehouse Layer 5 — Metadata & Governance

Metadata & Governance: catalog, lineage, ownership, glossary, phân loại, RBAC/ABAC, audit. DataHub, Amundsen. Tuân thủ quy định bảo vệ dữ liệu cá nhân.

2026-03-173 phút đọcVI

Spec – Layer 5: Metadata & Governance Layer


1. Mục đích

Lớp Metadata & Governance được thiết kế nhằm:

  • Tự động thu thập & lưu trữ thông tin mô tả về các bảng dữ liệu (schema, lineage, owner…)
  • Tổ chức tài sản dữ liệu theo domain, sensitivity, lifecycle
  • Theo dõi lịch sử thay đổi schema
  • Phân quyền truy cập theo vai trò & mục đích sử dụng
  • Đáp ứng yêu cầu compliance theo quy định bảo vệ dữ liệu cá nhân và chính sách nội bộ

2. Thành phần chính

Thành phầnVai tròCông cụ đề xuất
Metadata CatalogLưu trữ schema, mô tả, column detail, tagDataHub, Amundsen
Lineage TrackingHiển thị pipeline: raw → staging → curated → analyticsKafka + Spark lineage + dbt
Data OwnershipAi chịu trách nhiệm với từng datasetGán data_owner, data_steward theo domain
GlossaryTừ điển định nghĩa thuật ngữDataHub glossary
Data ClassificationGắn nhãn: PII, Confidential, PublicManual + Rule-based
Policy EngineÁp dụng rule RBAC/ABACTích hợp AuthZ, Open Policy Agent (OPA)
Audit TrailGhi log thao tác, truy cậpKết hợp với logging (e.g. Loki, ELK)

3. Metadata bắt buộc cho mỗi bảng

Trường metadataBắt buộcGhi chú
table_descriptionMô tả nghiệp vụ rõ ràng
columnsTên, kiểu, mô tả từng cột
owner, stewardGán người chịu trách nhiệm
domainVí dụ: lending, crm, risk
data sensitivityHigh / Medium / Low
tagsraw/staging/curated/analytics, ML-ready, PII
refresh_frequencyreal-time, hourly, daily, monthly
linked upstream/downstreamHiển thị lineage

4. Quy trình vận hành metadata

Giai đoạnHoạt động chínhCông cụ
IngestTự động scan schema từ raw → curatedAirbyte, dbt
Build ModelSync schema & logic từ dbt → DataHubdbt plugin
UpdateKhi pipeline thay đổi → cập nhật schema & lineageGit commit + CI
ReviewSteward xác nhận mô tả, sensitivity, glossaryUI DataHub
AuditLog hành vi truy cập vào bảng, dashboardLoki/ELK

5. Phân quyền & bảo mật (RBAC/ABAC)

Nhóm vai tròQuyền metadataQuyền dữ liệu
data_engineer✅ Full✅ Full
data_analyst✅ Read✅ Read curated/analytics
business_user✅ Read limited❌ Không truy cập staging/raw
data_steward✅ Update✅ Audit & review
external_partner❌ Không truy cập✅ Qua API (filtered, masked)

6. Giao diện người dùng (Data Discovery)

  • Search theo từ khóa (email, overdue, ltv)
  • Filter theo domain, sensitivity, owner, last modified
  • Lineage graph trực quan: raw → stg → cur → ana
  • Tích hợp trực tiếp với Superset, dbt, Spark

7. Ví dụ metadata bảng cur.lending.contract_summary

TrườngGiá trị
table_namecur.lending.contract_summary
descriptionBảng tổng hợp hợp đồng cho vay đã enrich thông tin rủi ro
ownerloan.analytics@company.com
stewarddata.steward@company.com
domainlending
sensitivityhigh
tagscurated, ml-ready, pii
refresh_frequencydaily
upstreamstg.lending.contract_raw, risk.risk_score
downstreamana.lending.daily_store_performance
LDK

Le Duy Khuong

AI Transformation & Digital Strategy. Writing about agentic systems, engineering leadership, and building in public.