Apache Spark — Hướng dẫn đào tạo (Phần 1)
2026-03-1726 phút đọc
Spark trong Lakehouse: RDD, DataFrame, Spark SQL.
22 posts

2026-03-17·26 phút đọc
Spark trong Lakehouse: RDD, DataFrame, Spark SQL.

2026-03-17·17 phút đọc
Structured Streaming, MLlib, credit scoring, fraud detection.

2026-03-17·13 phút đọc
Kafka trong Lakehouse: streaming layer, thiết kế topic, lab thực hành, producer/consumer, fraud detection, cấu hình production.

2026-03-17·2 phút đọc
Ba định dạng bảng cho Lakehouse: Delta Lake, Iceberg, Hudi. ACID, time travel, schema evolution và khi nào dùng cái nào.

2026-03-17·2 phút đọc
Data versioning và time travel: đọc dữ liệu tại thời điểm quá khứ, debug pipeline, rollback, audit. So sánh Delta, Iceberg, Hudi.

2026-03-17·3 phút đọc
Schema evolution và enforcement: thay đổi cấu trúc bảng an toàn, mergeSchema, enforceSchema. Hỗ trợ Delta, Iceberg, Hudi và best practices.

2026-03-17·3 phút đọc
Tối ưu định dạng file trong Lakehouse: Parquet, Delta, Z-Ordering. Chi phí lưu trữ, hiệu năng truy vấn và best practices.

2026-03-17·3 phút đọc
Compaction và quản lý file trong Lakehouse: OPTIMIZE, VACUUM, ZORDER, lập lịch. Giảm file nhỏ và cải thiện hiệu năng truy vấn.

2026-03-17·3 phút đọc
Tối ưu bảng và clustering trong Lakehouse: partitioning, Z-Ordering, bucketing. Giảm thời gian scan và cải thiện hiệu năng truy vấn.

2026-03-17·3 phút đọc
Định dạng bảng và metadata trong Lakehouse: Delta, Iceberg, Hudi. ACID, time travel, schema evolution, tối ưu metadata.

2026-03-17·3 phút đọc
Data catalog, lineage và access control cho Lakehouse. RBAC, ABAC, audit, tuân thủ. Amundsen, DataHub, OpenLineage, Ranger.

2026-03-17·3 phút đọc
Bảo mật trong Lakehouse: mã hóa at-rest và in-transit, masking động, tokenization. PII, tuân thủ, audit.

2026-03-17·3 phút đọc
Metadata trong Lakehouse: metadata store, lineage, discovery, business glossary. Atlas, DataHub, OpenLineage.

2026-03-17·2 phút đọc
CDC: phát hiện và truyền thay đổi (insert/update/delete) từ DB nguồn sang warehouse hoặc lakehouse. Log-based, trigger, timestamp. Debezium, Airbyte.

2026-03-17·3 phút đọc
Lakehouse layer spec: Layer 1: Raw Layer

2026-03-17·1 phút đọc
Curated Layer: đã làm sạch, chuẩn hóa, logic nghiệp vụ. Nguồn chính cho báo cáo, phân tích rủi ro, AI/ML, API. Join, enrich, quản trị schema.

2026-03-17·1 phút đọc
Analytics Layer: KPI tổng hợp cho dashboard, báo cáo, API. dbt, Trino, Spark. Partition, view tiền tổng hợp, SLA và phân quyền.

2026-03-17·3 phút đọc
Metadata & Governance: catalog, lineage, ownership, glossary, phân loại, RBAC/ABAC, audit. DataHub, Amundsen. Tuân thủ quy định bảo vệ dữ liệu cá nhân.

2026-03-17·2 phút đọc
Query Layer: cổng truy cập chính thức vào curated và analytics. Trino, DuckDB, Dremio. SQL chuẩn, federation, cache. Superset, Metabase. RBAC, row-level, audit.

2026-03-17·2 phút đọc
Consumption Layer: điểm tiêu thụ dữ liệu cho BI, ML, đối tác. Dashboard, báo cáo tự động, pipeline ML, API. Chính sách refresh, RBAC, MLflow, audit.

2026-03-17·6 phút đọc
Chuẩn header và format cho tài liệu markdown trong dự án Lakehouse: sprint, version, trạng thái, chủ sở hữu, icon theo loại tài liệu.

2026-03-17·24 phút đọc
Trino trong Lakehouse: unified SQL, catalogs, labs.