Lê Duy Khương (Daniel)

Chuỗi: lakehouse-glossary · Phần 8

Năng suất & công cụ dev

Governance — Data catalog, lineage, kiểm soát truy cập

Data catalog, lineage và access control cho Lakehouse. RBAC, ABAC, audit, tuân thủ. Amundsen, DataHub, OpenLineage, Ranger.

2026-03-173 phút đọcVI


1. Mục tiêu

  • Định danh và mô tả toàn bộ dữ liệu trong hệ thống Lakehouse
  • Theo dõi dòng chảy dữ liệu (lineage) xuyên suốt pipeline
  • Thiết lập quyền truy cập phù hợp theo vai trò (RBAC, ABAC)
  • Phục vụ audit, kiểm soát, tuân thủ (VD: ISO 27001)

2. 3 lớp thành phần chính

Thành phầnVai trò chính
Data CatalogHiển thị metadata, mô tả dữ liệu, chủ sở hữu, rating
Data LineageTheo dõi đường đi của dữ liệu: nguồn → xử lý → phân tích
Access ControlKiểm soát ai được xem, sửa, truy vấn hoặc chia sẻ dữ liệu

3. Các công cụ phổ biến

Loại công cụĐại diện chínhGhi chú tích hợp
Data CatalogAmundsen, DataHub, CollibraTích hợp tốt với dbt, Airflow, BigQuery
LineageOpenLineage, Marquez, DataHubHỗ trợ hiển thị pipeline trực quan
Access ControlRanger, Unity Catalog (Databricks)Điều khiển chi tiết cấp cột / user / role

4. Metadata cần được quản lý

MetadataVí dụ
Business NameDanh sách khách hàng không thanh toán quá hạn >90 ngày
Table Ownerdata_owner@company.com
ClassificationPII, Sensitive, Internal
Data Quality Score98%, với chỉ số như completeness, consistency, validity
Last Update / Last Query2025-06-24 10:43, user=dk_nguyen

5. Hiển thị lineage tự động

Ví dụ:

CRM PostgreSQL --> Airbyte --> Raw Layer --> dbt Model: silver.customer_profile --> BI Dashboard

Thông qua công cụ như OpenLineage hoặc dbt + DataHub, có thể render sơ đồ lineage:

[CRM] --> [Raw.customer_raw] --> [Silver.customer_profile] --> [Dashboard.Customer360]

6. Access Control – phân quyền chi tiết

Cấp độMô hình áp dụngVí dụ
Cấp hệ thốngIAM (GCP, Azure)Phân quyền theo project, service account
Cấp databaseUnity Catalog, Snowflake RoleCho phép đọc/ghi table theo role (Analyst, Engineer)
Cấp cộtRanger, Policy Tag (BigQuery)Ẩn cột chứa thông tin PII khỏi người không có quyền

7. Chính sách governance gợi ý

Chính sáchMô tả ngắn
Chính sách phân loại dữ liệuPII / Sensitive / Public / Internal
Chính sách naming conventionlake_<layer>_<domain>_<entity>
Chính sách steward & ownerMỗi bảng cần có người sở hữu & người kiểm duyệt
Chính sách kiểm duyệt metadataMetadata phải được cập nhật mỗi 6 tháng
Chính sách audit truy cập dữ liệuLog truy cập giữ trong 1 năm, gửi báo cáo hàng quý

8. Use Case thực tế

Use CaseGovernance cần có
Truy vấn dữ liệu khách hàngPhải có quyền xem customer_id, ẩn national_id
BI truy xuất dashboard cho CEOCho phép đọc bảng tổng hợp, không cho sửa
Điều tra lỗi dữ liệu từ CRMTheo dõi lineage từ CRM → dashboard
Audit kết quả mô hình AITruy xuất model input/output qua lineage

9. Checklist triển khai Governance Layer

  • Thiết lập Data Catalog (tối thiểu: table, owner, last modified)
  • Đồng bộ metadata từ Spark/BigQuery/dbt/Airflow vào Data Catalog
  • Vẽ sơ đồ lineage tự động cho bảng quan trọng
  • Thiết lập access control theo domain: PII, sensitive, operational
  • Áp dụng audit log + dashboard theo dõi truy cập
LDK

Le Duy Khuong

AI Transformation & Digital Strategy. Writing about agentic systems, engineering leadership, and building in public.