Lê Duy Khương (Daniel)

Chuỗi: lakehouse-glossary · Phần 9

Năng suất & công cụ dev

Security – Mã hóa, masking, tokenization

Bảo mật trong Lakehouse: mã hóa at-rest và in-transit, masking động, tokenization. PII, tuân thủ, audit.

2026-03-173 phút đọcVI


1. Mục tiêu

  • Đảm bảo an toàn cho dữ liệu nhạy cảm (PII, tài chính, định danh…)
  • Giảm rủi ro bị rò rỉ dữ liệu khi bị tấn công hoặc lỗi hệ thống
  • Đáp ứng các yêu cầu về tuân thủ pháp lý (VD: ISO 27001, GDPR)

2. Ba kỹ thuật bảo mật cốt lõi

Kỹ thuậtMục tiêu chính
EncryptionMã hóa dữ liệu trong khi lưu trữ và truyền tải (at-rest, in-transit)
MaskingẨn thông tin thực tế khi truy vấn, cho mục đích đọc/hiển thị
TokenizationThay thế dữ liệu nhạy cảm bằng giá trị đại diện không thể đảo ngược

3. Encryption – Mã hóa dữ liệu

LoạiMô tảCông cụ điển hình
At-restMã hóa dữ liệu khi lưu trữ trên ổ cứngGCP KMS, AWS KMS, Azure Key Vault
In-transitSử dụng HTTPS, TLS khi truyền dữ liệuSSL/TLS, VPN Tunnel
Field-levelMã hóa riêng từng cột nhạy cảmTransparent Data Encryption (TDE)

Ví dụ: national_id được AES-256 mã hóa khi lưu vào BigQuery


4. Masking – Ẩn dữ liệu động

Loại MaskingVí dụÁp dụng ở đâu
Static MaskingGhi đè dữ liệu thật khi lưu (irreversible)Dùng khi xuất dữ liệu demo
Dynamic MaskingẨn dữ liệu khi hiển thị tùy theo user truy cậpBigQuery Policy Tag, SQL masking
Role-based MaskingẨn toàn phần hoặc ẩn 1 phần theo vai tròVD: chỉ hiển thị 4 số cuối số điện thoại

Ví dụ SQL:

SELECT
  CASE
    WHEN CURRENT_USER() IN ('admin') THEN phone_number
    ELSE CONCAT('******', RIGHT(phone_number, 4))
  END AS masked_phone
FROM customer;

5. Tokenization – Biến dữ liệu thành mã đại diện

Đặc điểmGhi chú
Irreversible mappingKhông thể truy ngược về dữ liệu gốc
Dữ liệu token giữ lại định dạngGiúp tích hợp với hệ thống legacy
Thường dùng với thẻ ngân hàngPCI DSS yêu cầu token hóa thay vì lưu trữ số thật
Công cụVault, HashiCorp, AWS Macie, OpenCTI

Ví dụ:

Số CMND gốc: 123456789
Token: TOK-CUST-B1GAXUQ2

6. Kết hợp với chính sách Data Classification

Loại dữ liệuMức độ bảo mậtYêu cầu
PII (số CMND, email…)CaoTokenization hoặc Masking + Audit
Dữ liệu tài chínhRất caoField-level Encryption + Role-based Access
Dữ liệu công khaiThấpKhông cần bảo vệ

7. Chính sách gợi ý áp dụng

Thành phầnGợi ý triển khai
CMND/CCCD khách hàngToken hóa + chỉ cho phép giải mã bởi bộ phận xác minh
Email/SĐT khách hàngMasking với nhân viên CSKH, full-view chỉ cho Admin
Dữ liệu tài chínhAES-256 + phân quyền chặt chẽ theo từng nhóm truy cập
Ghi log truy cập dữ liệuLog mỗi lần truy cập dữ liệu PII để phục vụ kiểm tra và điều tra

8. Checklist triển khai Security Layer

  • Mã hóa dữ liệu at-rest và in-transit theo chuẩn ngành
  • Áp dụng masking động cho dashboard và truy vấn SQL
  • Thay thế PII bằng token cho data lake raw layer
  • Ghi lại toàn bộ audit log cho truy cập dữ liệu nhạy cảm
  • Thiết lập alert nếu có truy cập bất thường
LDK

Le Duy Khuong

AI Transformation & Digital Strategy. Writing about agentic systems, engineering leadership, and building in public.