Lê Duy Khương (Daniel)

Năng suất & công cụ dev

Data Custodian — Vai trò và trách nhiệm

Data Custodian: trách nhiệm kỹ thuật về lưu trữ, bảo mật và truy cập. Hạ tầng, pipeline, IAM, backup. Quan hệ với Owner, Steward, Engineer.

2026-03-175 phút đọcVI

Dưới đây là mô tả chi tiết vai trò và trách nhiệm của Data Custodian – một nhân vật kỹ thuật quan trọng trong hệ thống Data Governance, đóng vai trò "người gác cổng hệ thống" để vận hành, bảo vệ và duy trì nền tảng dữ liệu.


Vai Trò: Data Custodian

Data Custodian là người chịu trách nhiệm kỹ thuật về việc lưu trữ, bảo mật, và truy cập dữ liệu. Họ vận hành hạ tầng dữ liệu (data infrastructure), đảm bảo rằng dữ liệu được bảo vệ, sẵn sàng sử dụng, và tuân thủ các chính sách truy cập đã được thiết lập bởi Data Owner.

Họ không sở hữu dữ liệu, nhưng chịu trách nhiệm quản lý hệ thống xử lý và lưu trữ dữ liệu.


1. Vai Trò Chính

Vai tròMô tả
Quản lý hạ tầng lưu trữ dữ liệuXây dựng, vận hành và giám sát kho dữ liệu, data lake, lakehouse
Bảo vệ dữ liệuThiết lập cơ chế phân quyền, kiểm soát truy cập, backup & recovery
Triển khai pipelineXử lý luồng ingest, transform, load dữ liệu từ nguồn tới đích
Hỗ trợ phân tích & BICung cấp dữ liệu đã xử lý cho các hệ BI/AI/ML, đảm bảo sẵn sàng và truy vấn tốt
Hỗ trợ Data Owner & StewardTriển khai chính sách từ Data Owner, hỗ trợ Steward truy xuất, quản lý metadata

2. Trách Nhiệm Cụ Thể

2.1. Về Hạ tầng và Lưu trữ

  • Triển khai và quản lý các hệ thống như:

    • Data Warehouse (BigQuery, Snowflake, Redshift…)
    • Data Lake (GCS, S3, HDFS…)
    • Lakehouse (Databricks, Delta Lake…)
  • Thiết lập kiến trúc lưu trữ theo chuẩn: Partitioning, Clustering, Table Type (raw, clean, curated…)

2.2. Về Pipeline & Tích hợp

  • Xây dựng pipeline ETL/ELT sử dụng:

    • Apache Airflow, Dataflow, dbt, Dataform, Kafka…
  • Kiểm soát luồng dữ liệu theo tiêu chí:

    • Đúng định dạng (schema validation)
    • Có logging & retry
    • Ghi lại lineage

2.3. Về Quản lý Truy cập & Bảo mật

  • Triển khai phân quyền IAM theo role/user/service account
  • Mã hóa dữ liệu (encryption at rest / in transit)
  • Quản lý masking / tokenization với dữ liệu PII
  • Cấu hình audit logs, DLP (Data Loss Prevention)

2.4. Về Vận hành & Giám sát

  • Thiết lập hệ thống cảnh báo lỗi pipeline (latency, fail, duplicate, missing)
  • Theo dõi tài nguyên (CPU, storage, IOPS…)
  • Backup định kỳ, kiểm tra restore

2.5. Về Hỗ trợ Metadata & Catalog

  • Cung cấp thông tin schema, lineage, mapping cho Data Steward
  • Tự động hóa đồng bộ metadata vào Data Catalog

3. Quan Hệ & Phân Cấp

Vai trò liên quanMối quan hệ
Data OwnerNhận yêu cầu chính sách (access, sharing, retention…) và triển khai trong hệ thống
Data StewardHỗ trợ truy xuất, cung cấp lineage, mapping, log… để steward làm sạch và kiểm soát chất lượng
Data EngineerCùng thực hiện thiết kế, phát triển pipeline, tối ưu hóa truy vấn
Security / DevOpsPhối hợp thiết lập monitoring, alerting, IAM, network rule, VPC, firewall…

4. KPI Đánh Giá Hiệu Quả

Chỉ sốMô tả
Tỷ lệ pipeline thành công / tổng số execution
Số lượng lỗi dữ liệu do hệ thống gây ra (schema mismatch, latency...)
Thời gian trung bình để restore từ backup
% dữ liệu được gắn metadata đầy đủ, truy xuất được lineage
SLA truy xuất dữ liệu (availability, query latency)

5. Công Cụ & Kỹ Thuật Thường Dùng

Mục tiêuCông cụ ví dụ
ETL/ELTApache Airflow, Dataform, dbt, Talend
Data Lake / DWHGoogle BigQuery, S3 + Athena, Databricks
Bảo mật IAMGCP IAM, Apache Ranger, Vault, DLP
Lineage & CatalogOpenMetadata, Collibra, Amundsen
MonitoringGrafana, Prometheus, Looker Studio, GCP Logging

6. Phân biệt 3 Vai Trò Dữ Liệu Cốt Lõi

Tiêu chíData OwnerData StewardData Custodian
Chịu trách nhiệm chínhChính sách & giá trị dữ liệuChất lượng & sử dụng dữ liệuHệ thống lưu trữ & vận hành
Vị trí tổ chứcBusiness Unit Leader / TribeNghiệp vụ kiêm nhiệm / chuyên viên dữ liệuKỹ thuật / Data Engineering / Infra
Quyền quyết địnhMột phần (đề xuất)Không (triển khai theo yêu cầu)
Trực tiếp xử lýKhôngCó (data issue, metadata)Có (pipeline, security, IAM)

Tổng kết ngắn gọn

Data Custodian là kỹ sư gác cổng hệ thống dữ liệu. Họ đảm bảo dữ liệu luôn được lưu trữ, bảo mật và vận hành đúng theo yêu cầu chiến lược, chính sách và nghiệp vụ. Không có Custodian, dữ liệu dù tốt cũng không thể tiếp cận được đúng cách.

LDK

Le Duy Khuong

AI Transformation & Digital Strategy. Writing about agentic systems, engineering leadership, and building in public.