Short Notes
Quan sát ngắn và suy nghĩ tức thời
16 bài viết
Delta Lake / Apache Iceberg / Apache Hudi — Định dạng bảng cho Lakehouse
Ba định dạng bảng cho Lakehouse: Delta Lake, Iceberg, Hudi. ACID, time travel, schema evolution và khi nào dùng cái nào.
Data versioning và time travel trong Lakehouse
Data versioning và time travel: đọc dữ liệu tại thời điểm quá khứ, debug pipeline, rollback, audit. So sánh Delta, Iceberg, Hudi.
Schema evolution và enforcement trong Lakehouse
Schema evolution và enforcement: thay đổi cấu trúc bảng an toàn, mergeSchema, enforceSchema. Hỗ trợ Delta, Iceberg, Hudi và best practices.
Tối ưu định dạng file – Parquet, Delta, Z-Ordering
Tối ưu định dạng file trong Lakehouse: Parquet, Delta, Z-Ordering. Chi phí lưu trữ, hiệu năng truy vấn và best practices.
Compaction và chiến lược quản lý file
Compaction và quản lý file trong Lakehouse: OPTIMIZE, VACUUM, ZORDER, lập lịch. Giảm file nhỏ và cải thiện hiệu năng truy vấn.
Tối ưu bảng và chiến lược clustering
Tối ưu bảng và clustering trong Lakehouse: partitioning, Z-Ordering, bucketing. Giảm thời gian scan và cải thiện hiệu năng truy vấn.
Định dạng bảng và quản lý metadata
Định dạng bảng và metadata trong Lakehouse: Delta, Iceberg, Hudi. ACID, time travel, schema evolution, tối ưu metadata.
Governance — Data catalog, lineage, kiểm soát truy cập
Data catalog, lineage và access control cho Lakehouse. RBAC, ABAC, audit, tuân thủ. Amundsen, DataHub, OpenLineage, Ranger.
Security – Mã hóa, masking, tokenization
Bảo mật trong Lakehouse: mã hóa at-rest và in-transit, masking động, tokenization. PII, tuân thủ, audit.
Metadata – Metadata store, lineage, discovery
Metadata trong Lakehouse: metadata store, lineage, discovery, business glossary. Atlas, DataHub, OpenLineage.
Change Data Capture (CDC) trong Lakehouse
CDC: phát hiện và truyền thay đổi (insert/update/delete) từ DB nguồn sang warehouse hoặc lakehouse. Log-based, trigger, timestamp. Debezium, Airbyte.
Chuẩn tiêu đề tài liệu Markdown — Lakehouse
Chuẩn header và format cho tài liệu markdown trong dự án Lakehouse: sprint, version, trạng thái, chủ sở hữu, icon theo loại tài liệu.
Data Custodian — Vai trò và trách nhiệm
Data Custodian: trách nhiệm kỹ thuật về lưu trữ, bảo mật và truy cập. Hạ tầng, pipeline, IAM, backup. Quan hệ với Owner, Steward, Engineer.
Data Owner — Vai trò và trách nhiệm trong quản trị dữ liệu
Data Owner: chịu trách nhiệm chiến lược về dữ liệu trong domain. Chính sách, truy cập, tuân thủ, chất lượng. Quan hệ với Steward, Custodian, Legal.
Data Product Owner — Định nghĩa và trách nhiệm
Data Product Owner: sở hữu, xây dựng và tối ưu data product. Backlog, lifecycle, stakeholders. Khác với Data Steward, Data Engineer, Data Owner.
Data Steward — Vai trò và trách nhiệm trong quản trị dữ liệu
Data Steward: vận hành, giám sát và đảm bảo chất lượng dữ liệu trong phạm vi domain. Quy tắc DQ, metadata, lineage, phối hợp nghiệp vụ và kỹ thuật.