
Thiết kế & Tối ưu Data Warehouse với SQL
Trong thế giới dữ liệu, SQL không chỉ là một ngôn ngữ truy vấn – nó là công cụ nền tảng để xây dựng và quản trị những kho dữ liệu khổng lồ. Khóa học này được thiết kế để đưa bạn từ vai trò một người sử dụng dữ liệu sang một người kiến tạo và làm chủ hệ thống. Bạn sẽ vượt qua giới hạn của những câu lệnh cơ bản để thực sự hiểu cách một Kho dữ liệu (Data Warehouse) được thiết kế, tối ưu hóa và vận hành ở quy mô lớn, đảm bảo toàn bộ doanh nghiệp có thể truy cập dữ liệu một cách nhanh chóng và đáng tin cậy.
Chương trình sẽ trang bị cho bạn ba trụ cột kỹ năng chính. Đầu tiên là khả năng truy vấn phân tích nâng cao, bạn sẽ làm chủ các công cụ mạnh mẽ như Window Functions và Common Table Expressions (CTEs) để giải quyết các bài toán kinh doanh phức tạp. Thứ hai là nghệ thuật tối ưu hóa hiệu suất, bạn sẽ học cách đọc kế hoạch thực thi, áp dụng các kỹ thuật Indexing và Partitioning để xử lý hàng triệu bản ghi chỉ trong vài giây. Cuối cùng, bạn sẽ được tiếp cận với kiến trúc Cloud Data Warehouse, tìm hiểu cách các nền tảng hàng đầu như Google BigQuery hay Snowflake thay đổi cuộc chơi về khả năng mở rộng và hiệu quả chi phí.
Thời lượng: 30h


Hình thức đào tạo:
-
- Đào tạo trực tiếp tại lớp học
- Đào tạo trực tuyến
- Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
- Đào tạo tại văn phòng khách hàng
KẾT QUẢ ĐẠT ĐƯỢC:
-
QUẢN LÝ VÀ THAO TÁC VỚI CSDSử dụng thành thạo các lệnh DDL để thiết kế, tạo và thay đổi cấu trúc bảng; và các lệnh DML để thêm, xóa, sửa dữ liệu một cách chính xác.
-
VIẾT TRUY VẤN SQL PHÂN TÍCH PHỨC TẠPLàm chủ Window Functions và CTEs để giải quyết các bài toán phân tích kinh doanh phức tạp mà các câu lệnh SQL thông thường không thể xử lý.
-
TỐI ƯU HÓA HIỆU SUẤT TRUY VẤNCó khả năng đọc và phân tích kế hoạch thực thi (Execution Plan), áp dụng các kỹ thuật Indexing và Partitioning để tăng tốc độ truy vấn lên nhiều lần.
-
THIẾT KẾ & TRIỂN KHAI DATA WAREHOUSE TRÊN CLOUDNắm vững kiến trúc và cách hoạt động của các Cloud Data Warehouse, triển khai và vận hành một kho dữ liệu nhỏ trên Google BigQuery.
-
THIẾT KẾ MÔ HÌNH DỮ LIỆU CHO KHO DỮ LIỆUÁp dụng các nguyên tắc Dimensional Modeling để thiết kế các bảng fact và dimension, tối ưu hóa cấu trúc dữ liệu .

Đối tượng tham gia

Sinh viên
Đã có nền tảng lập trình, muốn nâng cấp kỹ năng lập trình chuyên sâu cho lĩnh vực dữ liệu.

Lập trình viên
Muốn nâng cao kỹ năng SQL của mình lên mức độ chuyên sâu để phục vụ công việc.

Người mới tiếp cận BigData
Cần hiểu cách xây dựng và quản lý Data Warehouse để chuẩn bị cho các công nghệ dữ liệu lớn.

Người chuyển ngành
Muốn hiểu cách một kho dữ liệu được xây dựng, quản lý và tối ưu hóa trong thực tế.
Nội dung khóa học
1. Nền tảng Quản trị Database (DDL & DML)
-
- Ôn tập về hệ quản trị CSDL quan hệ.
- Data Definition Language (DDL):
- CREATE TABLE với các kiểu dữ liệu và ràng buộc (Constraints).
- ALTER TABLE để thêm/xóa/sửa cột.
- DROP TABLE, TRUNCATE TABLE.
- Data Manipulation Language (DML):
- INSERT INTO để thêm mới dữ liệu.
- UPDATE để cập nhật bản ghi.
- DELETE để xóa bản ghi.
2. Truy vấn Phân tích Nâng cao
-
- Common Table Expressions (CTEs):
- Cách sử dụng mệnh đề WITH để viết code SQL sạch và dễ đọc.
- Ứng dụng CTEs lồng nhau và CTEs đệ quy.
- Window Functions:
- Hiểu sự khác biệt giữa GROUP BY và Window Functions.
- Các hàm xếp hạng: ROW_NUMBER(), RANK(), DENSE_RANK().
- Các hàm lấy giá trị: LEAD(), LAG().
- Các hàm tổng hợp trên cửa sổ: SUM() OVER (…), AVG() OVER (…).
- Common Table Expressions (CTEs):
3. Tối ưu hóa Hiệu suất (Query Performance Tuning)
-
- Hiểu về quá trình một câu lệnh SQL được thực thi.
- Đọc và phân tích Kế hoạch thực thi (Execution Plan / EXPLAIN).
- Kỹ thuật Đánh chỉ mục (Indexing):
- Chỉ mục B-Tree và cách nó hoạt động.
- Khi nào nên và không nên tạo Index.
- Kỹ thuật Phân vùng (Partitioning):
- Phân vùng bảng theo Range hoặc List.
- Lợi ích của Partition Pruning trong việc tăng tốc độ truy vấn.
4. Triển khai với Cloud Data Warehouse (Google BigQuery)
-
- Kiến trúc của Cloud Data Warehouse: Tách biệt giữa Lưu trữ (Storage) và Tính toán (Compute).
- Giới thiệu giao diện và các thành phần của Google BigQuery.
- Nạp dữ liệu (Loading Data) vào BigQuery từ các nguồn như Google Cloud Storage.
- Các khái niệm tối ưu riêng của BigQuery:
- Partitioning theo thời gian.
- Clustering theo cột.
- Quản lý chi phí và các best practice khi sử dụng BigQuery.
5. BÀI THỰC HÀNH CUỐI KHÓA: Xây dựng và Tối ưu Data Mart Phân tích Người dùng trên BigQuery
-
- Thiết kế & Tạo bảng (DDL): Dựa trên một schema cho trước, viết các lệnh CREATE TABLE trên BigQuery để tạo các bảng users, events với Partitioning và Clustering hợp lý.
- Nạp dữ liệu (DML): Nạp dữ liệu mẫu từ file CSV trên Google Cloud Storage vào các bảng đã tạo.
- Xây dựng báo cáo (Advanced DQL): Viết một câu lệnh SQL phức tạp sử dụng CTEs và Window Functions để tìm ra “chuỗi sự kiện” (user journey) phổ biến nhất của người dùng.
- Tối ưu hóa: Phân tích Execution Plan của câu lệnh, sau đó tạo một bảng tổng hợp (summary table) và chứng minh rằng việc truy vấn trên bảng mới này nhanh và tiết kiệm chi phí hơn.
LỊCH KHAI GIẢNG
(Đang cập nhật)

Bài viết liên quan
