Technical Deep Dives
Code, kiến trúc và chi tiết triển khai
13 bài viết
Apache Spark — Hướng dẫn đào tạo (Phần 1)
Spark trong Lakehouse: RDD, DataFrame, Spark SQL.
Apache Spark — Hướng dẫn đào tạo (Phần 2)
Structured Streaming, MLlib, credit scoring, fraud detection.
Hướng dẫn đào tạo Kafka Streaming — Lakehouse
Kafka trong Lakehouse: streaming layer, thiết kế topic, lab thực hành, producer/consumer, fraud detection, cấu hình production.
Spec Layer 1: Raw Layer
Lakehouse layer spec: Layer 1: Raw Layer
Lakehouse Layer 3 — Curated Layer
Curated Layer: đã làm sạch, chuẩn hóa, logic nghiệp vụ. Nguồn chính cho báo cáo, phân tích rủi ro, AI/ML, API. Join, enrich, quản trị schema.
Lakehouse Layer 4 — Analytics Layer
Analytics Layer: KPI tổng hợp cho dashboard, báo cáo, API. dbt, Trino, Spark. Partition, view tiền tổng hợp, SLA và phân quyền.
Lakehouse Layer 5 — Metadata & Governance
Metadata & Governance: catalog, lineage, ownership, glossary, phân loại, RBAC/ABAC, audit. DataHub, Amundsen. Tuân thủ quy định bảo vệ dữ liệu cá nhân.
Lakehouse Layer 6 — Query Layer và tích hợp BI
Query Layer: cổng truy cập chính thức vào curated và analytics. Trino, DuckDB, Dremio. SQL chuẩn, federation, cache. Superset, Metabase. RBAC, row-level, audit.
Lakehouse Layer 7 — Consumption Layer
Consumption Layer: điểm tiêu thụ dữ liệu cho BI, ML, đối tác. Dashboard, báo cáo tự động, pipeline ML, API. Chính sách refresh, RBAC, MLflow, audit.
Realtime và Edge Functions
Realtime subscriptions; Edge Functions (webhook). Khi nào dùng; ranh giới serverless, event-driven.
Hướng dẫn Trino
Trino trong Lakehouse: unified SQL, catalogs, labs.
Vietnam và Singularity — sẵn sàng và hành động
Vietnam và Singularity: sẵn sàng, thách thức, cơ hội — góc cộng đồng và cá nhân builder.
Agentic systems là gì
Bài mở đầu chuỗi HITL: agentic system khác chatbot thế nào, tại sao cần điểm dừng khi agent thao tác hệ thống.