
Nhập môn Data Engineer – Kiến trúc dữ liệu & Công cụ nền tảng
Trong thế giới dữ liệu, các Data Scientist và Analyst thường là những người tỏa sáng, nhưng chính các Kỹ sư Dữ liệu mới là những kiến trúc sư thầm lặng xây dựng nên toàn bộ nền móng. Họ là người kiến tạo nên những “xa lộ” dữ liệu, đảm bảo dòng chảy thông tin luôn thông suốt, đáng tin cậy và sẵn sàng cho mọi hoạt động phân tích. Khóa học này được thiết kế để trở thành bước chân đầu tiên và quan trọng nhất trên hành trình đó, trang bị cho bạn không chỉ công cụ mà còn là tư duy của một nhà kiến tạo hệ thống.
Chương trình sẽ cung cấp cho bạn một bức tranh toàn cảnh về ngành, bắt đầu từ việc tìm hiểu các kiến trúc lưu trữ dữ liệu hiện đại, từ Data Warehouse truyền thống, Data Lake linh hoạt cho đến Lakehouse – giải pháp của tương lai. Bạn sẽ được trang bị kỹ năng thiết yếu về Mô hình hóa Dữ liệu (Dimensional Modeling), học cách thiết kế các cấu trúc dữ liệu tối ưu cho mục đích phân tích và báo cáo thông minh. Bên cạnh đó, khóa học sẽ giúp bạn hiểu rõ và phân biệt hai thế giới của cơ sở dữ liệu là SQL và NoSQL, biết khi nào nên sử dụng chúng để đạt hiệu quả cao nhất.
Thời lượng: 18h
Thời lượng: 18h


Hình thức đào tạo:
-
- Đào tạo trực tiếp tại lớp học
- Đào tạo trực tuyến
- Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
- Đào tạo tại văn phòng khách hàng
KẾT QUẢ ĐẠT ĐƯỢC:

Đối tượng tham gia

Sinh viên
Đã có nền tảng ML/DL, cần kỹ năng triển khai thực chiến để hoàn thiện năng lực kỹ sư.

Lập trình viên
Muốn chuyên môn hóa sâu vào việc xây dựng và tự động hóa hạ tầng dữ liệu.

Chuyên viên Hệ thống & Dữ liệu
Muốn cập nhật, chuyển đổi sang làm việc với các công nghệ Big Data hiện đại.

Người đam mê Big Data
Muốn xây dựng và vận hành các hệ thống dữ liệu phức tạp, quy mô lớn.
Nội dung khóa học
1. Tổng quan về Kỹ thuật Dữ liệu
-
- Tổng quan về nghề Data Engineer:
-
-
- Khái quát “bức tranh” ngành Data: DE là ai, làm gì, giá trị mang lại trong doanh nghiệp số.
- Phân biệt rõ các vị trí DE, Data Analyst, Data Scientist: phạm vi công việc, kỹ năng, cơ hội nghề nghiệp.
-
-
- Vòng đời dữ liệu & tư duy hệ thống:
-
-
- Vòng đời dữ liệu : thu thập, làm sạch, lưu trữ, xử lý, đến phân tích và khai thác.
- Vai trò của DE trong từng giai đoạn vòng đời dữ liệu; các “pain point” thực tế doanh nghiệp gặp phải khi không có DE.
-
-
- Kỹ năng, công cụ DE cần chuẩn bị:
-
-
- Nhận diện các nhóm công cụ – công nghệ chủ đạo: SQL, NoSQL, Git, Linux/Shell, ETL/ELT pipeline, Cloud.
-
2. Xây dựng mô hình dữ liệu với dbt
-
- Làm việc với models:
-
-
- Tạo và quản lý các model dạng table, view, incremental (chạy bổ sung từng batch).
- Cách viết SQL kết hợp Jinja để tự động hóa, tái sử dụng logic trong project lớn.
-
-
- Quản lý nguồn dữ liệu với sources:
-
-
- Định nghĩa các bảng thô (sources) làm điểm bắt đầu cho pipeline chuyển đổi.
- Quản lý metadata, phát hiện thay đổi schema dữ liệu gốc.
-
-
- Sử dụng seeds để import dữ liệu tĩnh:
-
-
- Làm việc với file CSV để nhập dữ liệu lookup, dữ liệu tham chiếu hoặc dữ liệu mẫu.
-
-
- Hàm ref() và lineage:
-
-
- Sử dụng hàm ref() để thiết lập mối quan hệ phụ thuộc giữa các model, đảm bảo dbt tự động sắp xếp thứ tự build.
- Truy vết lineage dữ liệu, phát hiện các phụ thuộc khi project phức tạp.
-
-
- Tổ chức dự án theo best practice:
-
-
- Chia tầng dữ liệu: staging (làm sạch dữ liệu gốc), intermediate (biến đổi/chuẩn hóa trung gian), marts (bảng phân tích cuối cùng).
- Đặt tên, cấu trúc thư mục, tách biệt logic giúp bảo trì và mở rộng dễ dàng.
-
3. Mô hình hóa Dữ liệu cho Phân tích (Dimensional Modeling)
-
- Cơ bản về mô hình hóa dữ liệu:
- Vai trò và mục tiêu: chuyển dữ liệu thực tế thành cấu trúc dễ phân tích.
- Các khái niệm chính: Entity, Relationship, Attribute.
- Dimensional Modeling:
- Phân biệt OLTP (giao dịch vận hành) và OLAP (phân tích dữ liệu).
- Giới thiệu hai mô hình Star Schema, Snowflake Schema: cấu trúc, ưu/nhược, minh họa qua các bài toán thực tiễn (sales, customer, sản phẩm…).
- Hiểu rõ các bảng: Fact Table (lưu sự kiện/biến động), Dimension Table (lưu thông tin tĩnh).
- Thiết kế Data Mart cơ bản:
- Phân tích yêu cầu nghiệp vụ → xác định fact, dimension.
- Thiết kế data mart đơn giản phục vụ phân tích báo cáo thực tế (ví dụ: báo cáo doanh số bán hàng theo thời gian, sản phẩm, khu vực…).
- Kết nối với các giải pháp BI: data mart làm nền cho dashboard/reporting.
- Cơ bản về mô hình hóa dữ liệu:
4. Ứng dụng NoSQL trong Doanh nghiệp
-
- Ôn tập & Phân tích vai trò NoSQL:
-
-
-
- Nhắc lại các loại NoSQL chính: Document, Key-Value, Column-Family.
- Phân tích khi nào doanh nghiệp thực sự cần NoSQL (log, clickstream, IoT, dữ liệu đa dạng…).
- Tiêu chí lựa chọn NoSQL thay vì chỉ dùng SQL.
-
-
-
- Thiết kế, tối ưu và thực hành với MongoDB:
-
-
-
- Thiết kế schema document hiệu quả (không mang mindset “chuyển SQL sang NoSQL”).
- Tối ưu hóa truy vấn với chỉ mục, aggregate pipeline.
- Thực hành nâng cao: backup, restore, export/import, kết nối MongoDB với Python hoặc công cụ ETL.
-
-
-
- Kết hợp SQL – NoSQL trong workflow phân tích:
-
-
- Case study nhỏ: pipeline tích hợp nhiều nguồn dữ liệu.
- Bài học thực tế khi quản trị song song SQL/NoSQL trong tổ chức.
-
5. BÀI THỰC HÀNH CUỐI KHÓA: Thiết kế nền tảng cho hệ thống phân tích E-commerce
-
- Yêu cầu:
- Phân tích yêu cầu và thiết kế mô hình dữ liệu Star Schema cho các nghiệp vụ (bán hàng, sản phẩm, khách hàng).
- Lựa chọn kiến trúc lưu trữ (Warehouse, Lake, hay Lakehouse) và giải thích lý do.
- Tạo một repository trên GitHub để lưu trữ các tài liệu thiết kế.
- Viết một Shell script đơn giản để tạo cấu trúc thư mục cho dự án.
- Yêu cầu:
LỊCH KHAI GIẢNG
(Đang cập nhật)

Bài viết liên quan
