Chuỗi: lakehouse-glossary · Phần 9
Năng suất & công cụ dev
Security – Mã hóa, masking, tokenization
Bảo mật trong Lakehouse: mã hóa at-rest và in-transit, masking động, tokenization. PII, tuân thủ, audit.
2026-03-173 phút đọcVI
Chuỗi: lakehouse-glossary
- 1.Delta Lake / Apache Iceberg / Apache Hudi — Định dạng bảng cho Lakehouse
- 2.Data versioning và time travel trong Lakehouse
- 3.Schema evolution và enforcement trong Lakehouse
- 4.Tối ưu định dạng file – Parquet, Delta, Z-Ordering
- 5.Compaction và chiến lược quản lý file
- 6.Tối ưu bảng và chiến lược clustering
- 7.Định dạng bảng và quản lý metadata
- 8.Governance — Data catalog, lineage, kiểm soát truy cập
- 9.Security – Mã hóa, masking, tokenization(bài này)
- 10.Metadata – Metadata store, lineage, discovery
- 11.Change Data Capture (CDC) trong Lakehouse
1. Mục tiêu
- Đảm bảo an toàn cho dữ liệu nhạy cảm (PII, tài chính, định danh…)
- Giảm rủi ro bị rò rỉ dữ liệu khi bị tấn công hoặc lỗi hệ thống
- Đáp ứng các yêu cầu về tuân thủ pháp lý (VD: ISO 27001, GDPR)
2. Ba kỹ thuật bảo mật cốt lõi
| Kỹ thuật | Mục tiêu chính |
|---|---|
| Encryption | Mã hóa dữ liệu trong khi lưu trữ và truyền tải (at-rest, in-transit) |
| Masking | Ẩn thông tin thực tế khi truy vấn, cho mục đích đọc/hiển thị |
| Tokenization | Thay thế dữ liệu nhạy cảm bằng giá trị đại diện không thể đảo ngược |
3. Encryption – Mã hóa dữ liệu
| Loại | Mô tả | Công cụ điển hình |
|---|---|---|
| At-rest | Mã hóa dữ liệu khi lưu trữ trên ổ cứng | GCP KMS, AWS KMS, Azure Key Vault |
| In-transit | Sử dụng HTTPS, TLS khi truyền dữ liệu | SSL/TLS, VPN Tunnel |
| Field-level | Mã hóa riêng từng cột nhạy cảm | Transparent Data Encryption (TDE) |
Ví dụ:
national_idđược AES-256 mã hóa khi lưu vào BigQuery
4. Masking – Ẩn dữ liệu động
| Loại Masking | Ví dụ | Áp dụng ở đâu |
|---|---|---|
| Static Masking | Ghi đè dữ liệu thật khi lưu (irreversible) | Dùng khi xuất dữ liệu demo |
| Dynamic Masking | Ẩn dữ liệu khi hiển thị tùy theo user truy cập | BigQuery Policy Tag, SQL masking |
| Role-based Masking | Ẩn toàn phần hoặc ẩn 1 phần theo vai trò | VD: chỉ hiển thị 4 số cuối số điện thoại |
Ví dụ SQL:
SELECT
CASE
WHEN CURRENT_USER() IN ('admin') THEN phone_number
ELSE CONCAT('******', RIGHT(phone_number, 4))
END AS masked_phone
FROM customer;5. Tokenization – Biến dữ liệu thành mã đại diện
| Đặc điểm | Ghi chú |
|---|---|
| Irreversible mapping | Không thể truy ngược về dữ liệu gốc |
| Dữ liệu token giữ lại định dạng | Giúp tích hợp với hệ thống legacy |
| Thường dùng với thẻ ngân hàng | PCI DSS yêu cầu token hóa thay vì lưu trữ số thật |
| Công cụ | Vault, HashiCorp, AWS Macie, OpenCTI |
Ví dụ:
Số CMND gốc: 123456789
Token: TOK-CUST-B1GAXUQ2
6. Kết hợp với chính sách Data Classification
| Loại dữ liệu | Mức độ bảo mật | Yêu cầu |
|---|---|---|
| PII (số CMND, email…) | Cao | Tokenization hoặc Masking + Audit |
| Dữ liệu tài chính | Rất cao | Field-level Encryption + Role-based Access |
| Dữ liệu công khai | Thấp | Không cần bảo vệ |
7. Chính sách gợi ý áp dụng
| Thành phần | Gợi ý triển khai |
|---|---|
| CMND/CCCD khách hàng | Token hóa + chỉ cho phép giải mã bởi bộ phận xác minh |
| Email/SĐT khách hàng | Masking với nhân viên CSKH, full-view chỉ cho Admin |
| Dữ liệu tài chính | AES-256 + phân quyền chặt chẽ theo từng nhóm truy cập |
| Ghi log truy cập dữ liệu | Log mỗi lần truy cập dữ liệu PII để phục vụ kiểm tra và điều tra |
8. Checklist triển khai Security Layer
- Mã hóa dữ liệu at-rest và in-transit theo chuẩn ngành
- Áp dụng masking động cho dashboard và truy vấn SQL
- Thay thế PII bằng token cho data lake raw layer
- Ghi lại toàn bộ audit log cho truy cập dữ liệu nhạy cảm
- Thiết lập alert nếu có truy cập bất thường
