Lê Duy Khương (Daniel)

Chuỗi: lakehouse-glossary · Phần 10

Năng suất & công cụ dev

Metadata – Metadata store, lineage, discovery

Metadata trong Lakehouse: metadata store, lineage, discovery, business glossary. Atlas, DataHub, OpenLineage.

2026-03-173 phút đọcVI


1. Mục tiêu

  • Quản lý toàn bộ "dữ liệu về dữ liệu" – metadata
  • Cho phép khám phá, hiểu và giám sát dữ liệu nhanh chóng
  • Cung cấp lineage (dòng chảy dữ liệu) phục vụ debug, audit, quản trị

2. Các khái niệm quan trọng

Thành phầnVai trò chính
Metadata StoreLưu trữ thông tin mô tả datasets, schema, version, tags
Data LineageTheo dõi đường đi và biến đổi của dữ liệu từ source đến tiêu thụ
Data DiscoveryCho phép người dùng tìm kiếm và hiểu dữ liệu hiện có
Business GlossaryĐịnh nghĩa thuật ngữ nghiệp vụ chuẩn hóa
Data CatalogGiao diện tra cứu metadata + khám phá data + tìm owner

3. Metadata Store – Nền tảng lưu trữ metadata

Metadata lưu trữVí dụ
Schema & typesBảng customer: name (string), dob (date)
Ownership & steward infoData Owner: Trinh, Steward: Dũng
Refresh frequencydaily, real-time, hourly
Tags & classificationtag: PII, domain: Sales, sensitivity: high
History & versioningSchema v1, v2 → có thêm cột email

Tool: Apache Atlas, DataHub, Amundsen, OpenMetadata


4. Data Lineage – Dòng chảy dữ liệu

Loại lineageVí dụ
Table-to-Tablecrm.customerdw.dim_customer
Column-to-Columncustomer.namedim_customer.full_name
Task-levelAirbyte task ASpark Job BBI Dashboard C

Ý nghĩa:

  • Tìm nguồn gốc dữ liệu gây lỗi
  • Kiểm tra impact khi thay đổi schema
  • Làm báo cáo audit (data provenance)

Tool: DataHub, OpenLineage, Marquez


5. Data Discovery – Khám phá dữ liệu

Chức năng cần cóMô tả
Tìm kiếm dữ liệu thông minhFull-text + filter theo domain, tags, owner
Preview schema & sample dataXem nhanh 10 dòng đầu, định dạng cột
Hiển thị lineage & impactClick vào bảng → thấy ngay upstream/downstream
Feedback & ownershipCho phép gắn người chịu trách nhiệm, bổ sung mô tả

6. Business Glossary – Chuẩn hóa định nghĩa nghiệp vụ

Thuật ngữĐịnh nghĩa nghiệp vụGhi chú thêm
Active CustomerKhách hàng có giao dịch trong 30 ngày quaCó thể khác với định nghĩa kế toán
RevenueTổng thu nhập trừ hoàn tiềnCần phân biệt với Gross Sales

Rất quan trọng khi có nhiều bộ phận cùng xử lý dữ liệu – tránh hiểu sai và tranh cãi.


7. Data Catalog – Giao diện trung tâm quản trị metadata

Tính năng chínhMô tả
Tra cứu bảng, cột, data assetTheo tên, tag, mô tả, owner
Giao diện lineage graphXem đường đi của data
Tích hợp với Git/BI toolsDễ tra soát khi gặp lỗi dashboard
API & crawlerTự động cập nhật metadata từ nguồn

8. Checklist triển khai

ChecklistTrạng thái đề xuất
Chọn 1 công cụ metadata OSS: OpenMetadataBắt đầu ngay
Crawl metadata từ source: BigQuery, PostgreSQLMỗi đêm
Định nghĩa 100+ business term đầu tiênLàm trong sprint 1
Gắn owner cho các bảng dữ liệu PIIƯu tiên xử lý
Triển khai lineage task-level từ Airbyte & dbtƯu tiên dashboard
LDK

Le Duy Khuong

AI Transformation & Digital Strategy. Writing about agentic systems, engineering leadership, and building in public.