Nhập môn Data Engineer – Kiến trúc dữ liệu & Công cụ nền tảng

RobustX / Chương trình học / Vị trí công việc / Data Engineer / Nhập môn Data Engineer – Kiến trúc dữ liệu & Công cụ nền tảng

Nhập môn Data Engineer – Kiến trúc dữ liệu & Công cụ nền tảng

Trong thế giới dữ liệu, các Data Scientist và Analyst thường là những người tỏa sáng, nhưng chính các Kỹ sư Dữ liệu mới là những kiến trúc sư thầm lặng xây dựng nên toàn bộ nền móng. Họ là người kiến tạo nên những “xa lộ” dữ liệu, đảm bảo dòng chảy thông tin luôn thông suốt, đáng tin cậy và sẵn sàng cho mọi hoạt động phân tích. Khóa học này được thiết kế để trở thành bước chân đầu tiên và quan trọng nhất trên hành trình đó, trang bị cho bạn không chỉ công cụ mà còn là tư duy của một nhà kiến tạo hệ thống.

Chương trình sẽ cung cấp cho bạn một bức tranh toàn cảnh về ngành, bắt đầu từ việc tìm hiểu các kiến trúc lưu trữ dữ liệu hiện đại, từ Data Warehouse truyền thống, Data Lake linh hoạt cho đến Lakehouse – giải pháp của tương lai. Bạn sẽ được trang bị kỹ năng thiết yếu về Mô hình hóa Dữ liệu (Dimensional Modeling), học cách thiết kế các cấu trúc dữ liệu tối ưu cho mục đích phân tích và báo cáo thông minh. Bên cạnh đó, khóa học sẽ giúp bạn hiểu rõ và phân biệt hai thế giới của cơ sở dữ liệu là SQL và NoSQL, biết khi nào nên sử dụng chúng để đạt hiệu quả cao nhất.

Thời lượng: 18h

KẾT QUẢ ĐẠT ĐƯỢC

HIỂU RÕ VAI TRÒ CỦA DE & KIẾN TRÚC DỮ LIỆU

Nắm vững vai trò của một Data Engineer, vòng đời dữ liệu và phân biệt rõ các kiến trúc Data Warehouse, Data Lake, Lakehouse để lựa chọn phù hợp.

NẮM VỮNG KỸ THUẬT MÔ HÌNH HÓA DỮ LIỆU

Có khả năng thiết kế mô hình dữ liệu cho mục đích phân tích theo các kỹ thuật Dimensional Modeling (Star Schema, Snowflake Schema).

SỬ DỤNG THÀNH THẠO CÔNG CỤ NỀN TẢNG

Quản lý mã nguồn và làm việc nhóm hiệu quả với Git, GitHub; viết các tập lệnh Shell Script cơ bản để tự động hóa tác vụ.

PHÂN BIỆT VÀ ỨNG DỤNG CSDL NOSQL

Hiểu được sự khác biệt giữa hai trường phái SQL và NoSQL, biết khi nào nên dùng NoSQL và có thể thực hiện truy vấn cơ bản trên MongoDB.

TƯ DUY HỆ THỐNG VỮNG CHẮC

Xây dựng tư duy của một kỹ sư, nhìn nhận vấn đề dưới góc độ hệ thống và có nền tảng để tiếp thu các công nghệ chuyên sâu.

Yêu cầu tiên quyết:

- Có kiến thức cơ bản về máy tính và công nghệ.
- Có tư duy logic, khả năng giải quyết vấn đề.
- Hiểu biết sơ bộ về các khái niệm lập trình là một lợi thế (biến, vòng lặp, hàm…).

Nội dung khóa học

1. Tổng quan về Kỹ thuật Dữ liệu

Tổng quan về nghề Data Engineer:

- Khái quát “bức tranh” ngành Data: DE là ai, làm gì, giá trị mang lại trong doanh nghiệp số.
- Phân biệt rõ các vị trí DE, Data Analyst, Data Scientist: phạm vi công việc, kỹ năng, cơ hội nghề nghiệp.

Vòng đời dữ liệu & tư duy hệ thống:

- Vòng đời dữ liệu : thu thập, làm sạch, lưu trữ, xử lý, đến phân tích và khai thác.
- Vai trò của DE trong từng giai đoạn vòng đời dữ liệu; các “pain point” thực tế doanh nghiệp gặp phải khi không có DE.

Kỹ năng, công cụ DE cần chuẩn bị:

- Nhận diện các nhóm công cụ – công nghệ chủ đạo: SQL, NoSQL, Git, Linux/Shell, ETL/ELT pipeline, Cloud.

2. Các Kiến trúc Dữ liệu xu hướng

Kho dữ liệu (Data Warehouse):

- Khái niệm, lịch sử phát triển, vai trò trong doanh nghiệp phân tích truyền thống.
- Kiến trúc tầng lớp: staging, integration, presentation; lưu trữ dữ liệu có cấu trúc.
- Các giải pháp phổ biến: Snowflake, Google BigQuery, Amazon Redshift.
- Ứng dụng: báo cáo BI, phân tích lịch sử, phân tích tổng hợp nhiều nguồn.

Hồ dữ liệu (Data Lake):

- Định nghĩa, mục tiêu thiết kế và lý do ra đời (big data, dữ liệu phi cấu trúc).
- Kiến trúc: lưu trữ dữ liệu thô, khả năng mở rộng, data ingestion pipelines.
- Công nghệ phổ biến: Hadoop, AWS S3, Azure Data Lake.
- Use-case: dữ liệu cảm biến IoT, log hệ thống, dữ liệu đa định dạng.

Lakehouse – kiến trúc “lai” hiện đại:

- Vấn đề thực tiễn của Warehouse/Lake, lý do xuất hiện Lakehouse.
- Tổng quan về kiến trúc: tích hợp phân tích BI mạnh mẽ của warehouse với linh hoạt mở rộng của lake.
- Công nghệ nổi bật: Databricks Delta Lake, Apache Hudi, Iceberg.

So sánh – lựa chọn kiến trúc:

- So sánh ưu/nhược, tiêu chí lựa chọn từng kiến trúc.
- Phân tích các tình huống thực tế: chọn mô hình nào khi doanh nghiệp scale lớn, cần linh hoạt, hoặc bảo mật, hoặc tối ưu chi phí…

3. Mô hình hóa Dữ liệu cho Phân tích (Dimensional Modeling)

Cơ bản về mô hình hóa dữ liệu:
- Vai trò và mục tiêu: chuyển dữ liệu thực tế thành cấu trúc dễ phân tích.
- Các khái niệm chính: Entity, Relationship, Attribute.
Dimensional Modeling:
- Phân biệt OLTP (giao dịch vận hành) và OLAP (phân tích dữ liệu).
- Giới thiệu hai mô hình Star Schema, Snowflake Schema: cấu trúc, ưu/nhược, minh họa qua các bài toán thực tiễn (sales, customer, sản phẩm…).
- Hiểu rõ các bảng: Fact Table (lưu sự kiện/biến động), Dimension Table (lưu thông tin tĩnh).
Thiết kế Data Mart cơ bản:
- Phân tích yêu cầu nghiệp vụ → xác định fact, dimension.
- Thiết kế data mart đơn giản phục vụ phân tích báo cáo thực tế (ví dụ: báo cáo doanh số bán hàng theo thời gian, sản phẩm, khu vực…).
- Kết nối với các giải pháp BI: data mart làm nền cho dashboard/reporting.

4. Ứng dụng NoSQL trong Doanh nghiệp

Ôn tập & Phân tích vai trò NoSQL:

- - Nhắc lại các loại NoSQL chính: Document, Key-Value, Column-Family.
  - Phân tích khi nào doanh nghiệp thực sự cần NoSQL (log, clickstream, IoT, dữ liệu đa dạng…).
  - Tiêu chí lựa chọn NoSQL thay vì chỉ dùng SQL.

Thiết kế, tối ưu và thực hành với MongoDB:

- - Thiết kế schema document hiệu quả (không mang mindset “chuyển SQL sang NoSQL”).
  - Tối ưu hóa truy vấn với chỉ mục, aggregate pipeline.
  - Thực hành nâng cao: backup, restore, export/import, kết nối MongoDB với Python hoặc công cụ ETL.

Kết hợp SQL – NoSQL trong workflow phân tích:

- Case study nhỏ: pipeline tích hợp nhiều nguồn dữ liệu.
- Bài học thực tế khi quản trị song song SQL/NoSQL trong tổ chức.

5. BÀI THỰC HÀNH CUỐI KHÓA: Thiết kế nền tảng cho hệ thống phân tích E-commerce

Yêu cầu:
- Phân tích yêu cầu và thiết kế mô hình dữ liệu Star Schema cho các nghiệp vụ (bán hàng, sản phẩm, khách hàng).
- Lựa chọn kiến trúc lưu trữ (Warehouse, Lake, hay Lakehouse) và giải thích lý do.
- Tạo một repository trên GitHub để lưu trữ các tài liệu thiết kế.
- Viết một Shell script đơn giản để tạo cấu trúc thư mục cho dự án.