Năng suất & công cụ dev
Data Custodian — Vai trò và trách nhiệm
Data Custodian: trách nhiệm kỹ thuật về lưu trữ, bảo mật và truy cập. Hạ tầng, pipeline, IAM, backup. Quan hệ với Owner, Steward, Engineer.
2026-03-175 phút đọcVI
Dưới đây là mô tả chi tiết vai trò và trách nhiệm của Data Custodian – một nhân vật kỹ thuật quan trọng trong hệ thống Data Governance, đóng vai trò "người gác cổng hệ thống" để vận hành, bảo vệ và duy trì nền tảng dữ liệu.
Vai Trò: Data Custodian
Data Custodian là người chịu trách nhiệm kỹ thuật về việc lưu trữ, bảo mật, và truy cập dữ liệu. Họ vận hành hạ tầng dữ liệu (data infrastructure), đảm bảo rằng dữ liệu được bảo vệ, sẵn sàng sử dụng, và tuân thủ các chính sách truy cập đã được thiết lập bởi Data Owner.
Họ không sở hữu dữ liệu, nhưng chịu trách nhiệm quản lý hệ thống xử lý và lưu trữ dữ liệu.
1. Vai Trò Chính
| Vai trò | Mô tả |
|---|---|
| Quản lý hạ tầng lưu trữ dữ liệu | Xây dựng, vận hành và giám sát kho dữ liệu, data lake, lakehouse |
| Bảo vệ dữ liệu | Thiết lập cơ chế phân quyền, kiểm soát truy cập, backup & recovery |
| Triển khai pipeline | Xử lý luồng ingest, transform, load dữ liệu từ nguồn tới đích |
| Hỗ trợ phân tích & BI | Cung cấp dữ liệu đã xử lý cho các hệ BI/AI/ML, đảm bảo sẵn sàng và truy vấn tốt |
| Hỗ trợ Data Owner & Steward | Triển khai chính sách từ Data Owner, hỗ trợ Steward truy xuất, quản lý metadata |
2. Trách Nhiệm Cụ Thể
2.1. Về Hạ tầng và Lưu trữ
-
Triển khai và quản lý các hệ thống như:
- Data Warehouse (BigQuery, Snowflake, Redshift…)
- Data Lake (GCS, S3, HDFS…)
- Lakehouse (Databricks, Delta Lake…)
-
Thiết lập kiến trúc lưu trữ theo chuẩn: Partitioning, Clustering, Table Type (raw, clean, curated…)
2.2. Về Pipeline & Tích hợp
-
Xây dựng pipeline ETL/ELT sử dụng:
- Apache Airflow, Dataflow, dbt, Dataform, Kafka…
-
Kiểm soát luồng dữ liệu theo tiêu chí:
- Đúng định dạng (schema validation)
- Có logging & retry
- Ghi lại lineage
2.3. Về Quản lý Truy cập & Bảo mật
- Triển khai phân quyền IAM theo role/user/service account
- Mã hóa dữ liệu (encryption at rest / in transit)
- Quản lý masking / tokenization với dữ liệu PII
- Cấu hình audit logs, DLP (Data Loss Prevention)
2.4. Về Vận hành & Giám sát
- Thiết lập hệ thống cảnh báo lỗi pipeline (latency, fail, duplicate, missing)
- Theo dõi tài nguyên (CPU, storage, IOPS…)
- Backup định kỳ, kiểm tra restore
2.5. Về Hỗ trợ Metadata & Catalog
- Cung cấp thông tin schema, lineage, mapping cho Data Steward
- Tự động hóa đồng bộ metadata vào Data Catalog
3. Quan Hệ & Phân Cấp
| Vai trò liên quan | Mối quan hệ |
|---|---|
| Data Owner | Nhận yêu cầu chính sách (access, sharing, retention…) và triển khai trong hệ thống |
| Data Steward | Hỗ trợ truy xuất, cung cấp lineage, mapping, log… để steward làm sạch và kiểm soát chất lượng |
| Data Engineer | Cùng thực hiện thiết kế, phát triển pipeline, tối ưu hóa truy vấn |
| Security / DevOps | Phối hợp thiết lập monitoring, alerting, IAM, network rule, VPC, firewall… |
4. KPI Đánh Giá Hiệu Quả
| Chỉ số | Mô tả |
|---|---|
| Tỷ lệ pipeline thành công / tổng số execution | |
| Số lượng lỗi dữ liệu do hệ thống gây ra (schema mismatch, latency...) | |
| Thời gian trung bình để restore từ backup | |
| % dữ liệu được gắn metadata đầy đủ, truy xuất được lineage | |
| SLA truy xuất dữ liệu (availability, query latency) |
5. Công Cụ & Kỹ Thuật Thường Dùng
| Mục tiêu | Công cụ ví dụ |
|---|---|
| ETL/ELT | Apache Airflow, Dataform, dbt, Talend |
| Data Lake / DWH | Google BigQuery, S3 + Athena, Databricks |
| Bảo mật IAM | GCP IAM, Apache Ranger, Vault, DLP |
| Lineage & Catalog | OpenMetadata, Collibra, Amundsen |
| Monitoring | Grafana, Prometheus, Looker Studio, GCP Logging |
6. Phân biệt 3 Vai Trò Dữ Liệu Cốt Lõi
| Tiêu chí | Data Owner | Data Steward | Data Custodian |
|---|---|---|---|
| Chịu trách nhiệm chính | Chính sách & giá trị dữ liệu | Chất lượng & sử dụng dữ liệu | Hệ thống lưu trữ & vận hành |
| Vị trí tổ chức | Business Unit Leader / Tribe | Nghiệp vụ kiêm nhiệm / chuyên viên dữ liệu | Kỹ thuật / Data Engineering / Infra |
| Quyền quyết định | Có | Một phần (đề xuất) | Không (triển khai theo yêu cầu) |
| Trực tiếp xử lý | Không | Có (data issue, metadata) | Có (pipeline, security, IAM) |
Tổng kết ngắn gọn
Data Custodian là kỹ sư gác cổng hệ thống dữ liệu. Họ đảm bảo dữ liệu luôn được lưu trữ, bảo mật và vận hành đúng theo yêu cầu chiến lược, chính sách và nghiệp vụ. Không có Custodian, dữ liệu dù tốt cũng không thể tiếp cận được đúng cách.
