Chuỗi: lakehouse-glossary · Phần 10
Năng suất & công cụ dev
Metadata – Metadata store, lineage, discovery
Metadata trong Lakehouse: metadata store, lineage, discovery, business glossary. Atlas, DataHub, OpenLineage.
2026-03-173 phút đọcVI
Chuỗi: lakehouse-glossary
- 1.Delta Lake / Apache Iceberg / Apache Hudi — Định dạng bảng cho Lakehouse
- 2.Data versioning và time travel trong Lakehouse
- 3.Schema evolution và enforcement trong Lakehouse
- 4.Tối ưu định dạng file – Parquet, Delta, Z-Ordering
- 5.Compaction và chiến lược quản lý file
- 6.Tối ưu bảng và chiến lược clustering
- 7.Định dạng bảng và quản lý metadata
- 8.Governance — Data catalog, lineage, kiểm soát truy cập
- 9.Security – Mã hóa, masking, tokenization
- 10.Metadata – Metadata store, lineage, discovery(bài này)
- 11.Change Data Capture (CDC) trong Lakehouse
1. Mục tiêu
- Quản lý toàn bộ "dữ liệu về dữ liệu" – metadata
- Cho phép khám phá, hiểu và giám sát dữ liệu nhanh chóng
- Cung cấp lineage (dòng chảy dữ liệu) phục vụ debug, audit, quản trị
2. Các khái niệm quan trọng
| Thành phần | Vai trò chính |
|---|---|
| Metadata Store | Lưu trữ thông tin mô tả datasets, schema, version, tags |
| Data Lineage | Theo dõi đường đi và biến đổi của dữ liệu từ source đến tiêu thụ |
| Data Discovery | Cho phép người dùng tìm kiếm và hiểu dữ liệu hiện có |
| Business Glossary | Định nghĩa thuật ngữ nghiệp vụ chuẩn hóa |
| Data Catalog | Giao diện tra cứu metadata + khám phá data + tìm owner |
3. Metadata Store – Nền tảng lưu trữ metadata
| Metadata lưu trữ | Ví dụ |
|---|---|
| Schema & types | Bảng customer: name (string), dob (date) |
| Ownership & steward info | Data Owner: Trinh, Steward: Dũng |
| Refresh frequency | daily, real-time, hourly |
| Tags & classification | tag: PII, domain: Sales, sensitivity: high |
| History & versioning | Schema v1, v2 → có thêm cột email |
Tool: Apache Atlas, DataHub, Amundsen, OpenMetadata
4. Data Lineage – Dòng chảy dữ liệu
| Loại lineage | Ví dụ |
|---|---|
| Table-to-Table | crm.customer → dw.dim_customer |
| Column-to-Column | customer.name → dim_customer.full_name |
| Task-level | Airbyte task A → Spark Job B → BI Dashboard C |
Ý nghĩa:
- Tìm nguồn gốc dữ liệu gây lỗi
- Kiểm tra impact khi thay đổi schema
- Làm báo cáo audit (data provenance)
Tool: DataHub, OpenLineage, Marquez
5. Data Discovery – Khám phá dữ liệu
| Chức năng cần có | Mô tả |
|---|---|
| Tìm kiếm dữ liệu thông minh | Full-text + filter theo domain, tags, owner |
| Preview schema & sample data | Xem nhanh 10 dòng đầu, định dạng cột |
| Hiển thị lineage & impact | Click vào bảng → thấy ngay upstream/downstream |
| Feedback & ownership | Cho phép gắn người chịu trách nhiệm, bổ sung mô tả |
6. Business Glossary – Chuẩn hóa định nghĩa nghiệp vụ
| Thuật ngữ | Định nghĩa nghiệp vụ | Ghi chú thêm |
|---|---|---|
Active Customer | Khách hàng có giao dịch trong 30 ngày qua | Có thể khác với định nghĩa kế toán |
Revenue | Tổng thu nhập trừ hoàn tiền | Cần phân biệt với Gross Sales |
Rất quan trọng khi có nhiều bộ phận cùng xử lý dữ liệu – tránh hiểu sai và tranh cãi.
7. Data Catalog – Giao diện trung tâm quản trị metadata
| Tính năng chính | Mô tả |
|---|---|
| Tra cứu bảng, cột, data asset | Theo tên, tag, mô tả, owner |
| Giao diện lineage graph | Xem đường đi của data |
| Tích hợp với Git/BI tools | Dễ tra soát khi gặp lỗi dashboard |
| API & crawler | Tự động cập nhật metadata từ nguồn |
8. Checklist triển khai
| Checklist | Trạng thái đề xuất |
|---|---|
| Chọn 1 công cụ metadata OSS: OpenMetadata | Bắt đầu ngay |
| Crawl metadata từ source: BigQuery, PostgreSQL | Mỗi đêm |
| Định nghĩa 100+ business term đầu tiên | Làm trong sprint 1 |
| Gắn owner cho các bảng dữ liệu PII | Ưu tiên xử lý |
| Triển khai lineage task-level từ Airbyte & dbt | Ưu tiên dashboard |
