Lê Duy Khương (Daniel)

Short Notes

Quan sát ngắn và suy nghĩ tức thời

16 bài viết

Dev Productivity & Tools2026-03-17

Delta Lake / Apache Iceberg / Apache Hudi — Định dạng bảng cho Lakehouse

Ba định dạng bảng cho Lakehouse: Delta Lake, Iceberg, Hudi. ACID, time travel, schema evolution và khi nào dùng cái nào.

Dev Productivity & Tools2026-03-17

Data versioning và time travel trong Lakehouse

Data versioning và time travel: đọc dữ liệu tại thời điểm quá khứ, debug pipeline, rollback, audit. So sánh Delta, Iceberg, Hudi.

Dev Productivity & Tools2026-03-17

Schema evolution và enforcement trong Lakehouse

Schema evolution và enforcement: thay đổi cấu trúc bảng an toàn, mergeSchema, enforceSchema. Hỗ trợ Delta, Iceberg, Hudi và best practices.

Dev Productivity & Tools2026-03-17

Tối ưu định dạng file – Parquet, Delta, Z-Ordering

Tối ưu định dạng file trong Lakehouse: Parquet, Delta, Z-Ordering. Chi phí lưu trữ, hiệu năng truy vấn và best practices.

Dev Productivity & Tools2026-03-17

Compaction và chiến lược quản lý file

Compaction và quản lý file trong Lakehouse: OPTIMIZE, VACUUM, ZORDER, lập lịch. Giảm file nhỏ và cải thiện hiệu năng truy vấn.

Dev Productivity & Tools2026-03-17

Tối ưu bảng và chiến lược clustering

Tối ưu bảng và clustering trong Lakehouse: partitioning, Z-Ordering, bucketing. Giảm thời gian scan và cải thiện hiệu năng truy vấn.

Dev Productivity & Tools2026-03-17

Định dạng bảng và quản lý metadata

Định dạng bảng và metadata trong Lakehouse: Delta, Iceberg, Hudi. ACID, time travel, schema evolution, tối ưu metadata.

Dev Productivity & Tools2026-03-17

Governance — Data catalog, lineage, kiểm soát truy cập

Data catalog, lineage và access control cho Lakehouse. RBAC, ABAC, audit, tuân thủ. Amundsen, DataHub, OpenLineage, Ranger.

Dev Productivity & Tools2026-03-17

Security – Mã hóa, masking, tokenization

Bảo mật trong Lakehouse: mã hóa at-rest và in-transit, masking động, tokenization. PII, tuân thủ, audit.

Dev Productivity & Tools2026-03-17

Metadata – Metadata store, lineage, discovery

Metadata trong Lakehouse: metadata store, lineage, discovery, business glossary. Atlas, DataHub, OpenLineage.

Dev Productivity & Tools2026-03-17

Change Data Capture (CDC) trong Lakehouse

CDC: phát hiện và truyền thay đổi (insert/update/delete) từ DB nguồn sang warehouse hoặc lakehouse. Log-based, trigger, timestamp. Debezium, Airbyte.

Dev Productivity & Tools2026-03-17

Chuẩn tiêu đề tài liệu Markdown — Lakehouse

Chuẩn header và format cho tài liệu markdown trong dự án Lakehouse: sprint, version, trạng thái, chủ sở hữu, icon theo loại tài liệu.

Dev Productivity & Tools2026-03-17

Data Custodian — Vai trò và trách nhiệm

Data Custodian: trách nhiệm kỹ thuật về lưu trữ, bảo mật và truy cập. Hạ tầng, pipeline, IAM, backup. Quan hệ với Owner, Steward, Engineer.

Dev Productivity & Tools2026-03-17

Data Owner — Vai trò và trách nhiệm trong quản trị dữ liệu

Data Owner: chịu trách nhiệm chiến lược về dữ liệu trong domain. Chính sách, truy cập, tuân thủ, chất lượng. Quan hệ với Steward, Custodian, Legal.

Dev Productivity & Tools2026-03-17

Data Product Owner — Định nghĩa và trách nhiệm

Data Product Owner: sở hữu, xây dựng và tối ưu data product. Backlog, lifecycle, stakeholders. Khác với Data Steward, Data Engineer, Data Owner.

Dev Productivity & Tools2026-03-17

Data Steward — Vai trò và trách nhiệm trong quản trị dữ liệu

Data Steward: vận hành, giám sát và đảm bảo chất lượng dữ liệu trong phạm vi domain. Quy tắc DQ, metadata, lineage, phối hợp nghiệp vụ và kỹ thuật.