Chuỗi: lakehouse-glossary · Phần 8
Năng suất & công cụ dev
Governance — Data catalog, lineage, kiểm soát truy cập
Data catalog, lineage và access control cho Lakehouse. RBAC, ABAC, audit, tuân thủ. Amundsen, DataHub, OpenLineage, Ranger.
2026-03-173 phút đọcVI
Chuỗi: lakehouse-glossary
- 1.Delta Lake / Apache Iceberg / Apache Hudi — Định dạng bảng cho Lakehouse
- 2.Data versioning và time travel trong Lakehouse
- 3.Schema evolution và enforcement trong Lakehouse
- 4.Tối ưu định dạng file – Parquet, Delta, Z-Ordering
- 5.Compaction và chiến lược quản lý file
- 6.Tối ưu bảng và chiến lược clustering
- 7.Định dạng bảng và quản lý metadata
- 8.Governance — Data catalog, lineage, kiểm soát truy cập(bài này)
- 9.Security – Mã hóa, masking, tokenization
- 10.Metadata – Metadata store, lineage, discovery
- 11.Change Data Capture (CDC) trong Lakehouse
1. Mục tiêu
- Định danh và mô tả toàn bộ dữ liệu trong hệ thống Lakehouse
- Theo dõi dòng chảy dữ liệu (lineage) xuyên suốt pipeline
- Thiết lập quyền truy cập phù hợp theo vai trò (RBAC, ABAC)
- Phục vụ audit, kiểm soát, tuân thủ (VD: ISO 27001)
2. 3 lớp thành phần chính
| Thành phần | Vai trò chính |
|---|---|
| Data Catalog | Hiển thị metadata, mô tả dữ liệu, chủ sở hữu, rating |
| Data Lineage | Theo dõi đường đi của dữ liệu: nguồn → xử lý → phân tích |
| Access Control | Kiểm soát ai được xem, sửa, truy vấn hoặc chia sẻ dữ liệu |
3. Các công cụ phổ biến
| Loại công cụ | Đại diện chính | Ghi chú tích hợp |
|---|---|---|
| Data Catalog | Amundsen, DataHub, Collibra | Tích hợp tốt với dbt, Airflow, BigQuery |
| Lineage | OpenLineage, Marquez, DataHub | Hỗ trợ hiển thị pipeline trực quan |
| Access Control | Ranger, Unity Catalog (Databricks) | Điều khiển chi tiết cấp cột / user / role |
4. Metadata cần được quản lý
| Metadata | Ví dụ |
|---|---|
| Business Name | Danh sách khách hàng không thanh toán quá hạn >90 ngày |
| Table Owner | data_owner@company.com |
| Classification | PII, Sensitive, Internal |
| Data Quality Score | 98%, với chỉ số như completeness, consistency, validity |
| Last Update / Last Query | 2025-06-24 10:43, user=dk_nguyen |
5. Hiển thị lineage tự động
Ví dụ:
CRM PostgreSQL --> Airbyte --> Raw Layer --> dbt Model: silver.customer_profile --> BI DashboardThông qua công cụ như OpenLineage hoặc dbt + DataHub, có thể render sơ đồ lineage:
[CRM] --> [Raw.customer_raw] --> [Silver.customer_profile] --> [Dashboard.Customer360]
6. Access Control – phân quyền chi tiết
| Cấp độ | Mô hình áp dụng | Ví dụ |
|---|---|---|
| Cấp hệ thống | IAM (GCP, Azure) | Phân quyền theo project, service account |
| Cấp database | Unity Catalog, Snowflake Role | Cho phép đọc/ghi table theo role (Analyst, Engineer) |
| Cấp cột | Ranger, Policy Tag (BigQuery) | Ẩn cột chứa thông tin PII khỏi người không có quyền |
7. Chính sách governance gợi ý
| Chính sách | Mô tả ngắn |
|---|---|
| Chính sách phân loại dữ liệu | PII / Sensitive / Public / Internal |
| Chính sách naming convention | lake_<layer>_<domain>_<entity> |
| Chính sách steward & owner | Mỗi bảng cần có người sở hữu & người kiểm duyệt |
| Chính sách kiểm duyệt metadata | Metadata phải được cập nhật mỗi 6 tháng |
| Chính sách audit truy cập dữ liệu | Log truy cập giữ trong 1 năm, gửi báo cáo hàng quý |
8. Use Case thực tế
| Use Case | Governance cần có |
|---|---|
| Truy vấn dữ liệu khách hàng | Phải có quyền xem customer_id, ẩn national_id |
| BI truy xuất dashboard cho CEO | Cho phép đọc bảng tổng hợp, không cho sửa |
| Điều tra lỗi dữ liệu từ CRM | Theo dõi lineage từ CRM → dashboard |
| Audit kết quả mô hình AI | Truy xuất model input/output qua lineage |
9. Checklist triển khai Governance Layer
- Thiết lập Data Catalog (tối thiểu: table, owner, last modified)
- Đồng bộ metadata từ Spark/BigQuery/dbt/Airflow vào Data Catalog
- Vẽ sơ đồ lineage tự động cho bảng quan trọng
- Thiết lập access control theo domain: PII, sensitive, operational
- Áp dụng audit log + dashboard theo dõi truy cập
