
Data Engineer
Dữ liệu được ví như huyết mạch của mọi doanh nghiệp số, và Kỹ sư Dữ liệu chính là những kiến trúc sư xây dựng nên các hệ thống hạ tầng cho dòng chảy đó. Lộ trình Data Engineer được thiết kế để biến bạn từ một người có nền tảng kỹ thuật trở thành một chuyên gia có khả năng xây dựng và vận hành các hệ thống dữ liệu quy mô lớn, đáng tin cậy và hiệu quả.
Chương trình sẽ trang bị cho bạn bộ công cụ của Modern Data Stack để làm chủ toàn bộ vòng đời dữ liệu. Bạn sẽ học cách xây dựng các Data Pipeline tự động, xử lý dữ liệu lớn với Spark, điều phối luồng công việc bằng Airflow, và triển khai toàn bộ hệ thống trên nền tảng Cloud. Khóa học tập trung vào tư duy hệ thống và các quy trình vận hành chuyên nghiệp, giúp bạn sẵn sàng cho các bài toán dữ liệu phức tạp nhất.
Xây dựng xương sống cho thế giới số. Hãy trở thành kiến trúc sư nền tảng, người chắp cánh cho mọi đột phá về dữ liệu và AI.
240 giờ (9 – 12 tháng)

Đối tượng tham gia

Sinh viên
Khối Kỹ thuật, CNTT, đam mê xây dựng và làm chủ các hệ thống dữ liệu quy mô lớn.

Lập trình viên
Muốn chuyên môn hóa sâu vào việc xây dựng và tự động hóa hạ tầng dữ liệu.

Chuyên viên Hệ thống & Dữ liệu
Muốn cập nhật, chuyển đổi sang làm việc với các công nghệ Big Data hiện đại.

Người đam mê Big Data
Muốn xây dựng và vận hành các hệ thống dữ liệu phức tạp, quy mô lớn.
KẾT QUẢ ĐẠT ĐƯỢC

TƯ DUY KIẾN TRÚC HỆ THỐNG DỮ LIỆU HIỆN ĐẠI
Nắm vững nguyên tắc thiết kế hệ thống dữ liệu chịu lỗi, mở rộng, hiệu quả chi phí, lựa chọn kiến trúc phù hợp giữa Data Warehouse, Data Lake và Data Lakehouse

XÂY DỰNG & VẬN HÀNH DATA PIPELINE CHUYÊN NGHIỆP
Thành thạo thiết kế, triển khai, tự động hóa đường ống dữ liệu theo mô hình ETL/ELT; thu thập dữ liệu từ nhiều nguồn như database, API, logs, streaming.

LẬP TRÌNH PYTHON & SQL CHUYÊN SÂU
Sử dụng Python như một kỹ sư phần mềm – viết code sạch, kiểm thử, tự động hóa; truy vấn SQL tối ưu, áp dụng CTEs, Window Functions để xử lý dữ liệu lớn.

MÔ HÌNH HÓA & LƯU TRỮ DỮ LIỆU CHO PHÂN TÍCH
Thiết kế mô hình dữ liệu theo Star Schema, Snowflake Schema; xây dựng hệ thống data mart, tổ chức dữ liệu tối ưu cho phân tích và BI.

XỬ LÝ DỮ LIỆU LỚN VỚI SPARK
Nắm vững kiến trúc Spark, sử dụng PySpark để xử lý dữ liệu lớn theo batch và real-time (Spark Structured Streaming)

QUY TRÌNH CHUYỂN ĐỔI DỮ LIỆU VỚI DATA BUILD TOOL
Thực hiện quá trình Transform dữ liệu trong Data Warehouse bằng công cụ dbt; tích hợp versioning, testing và CI/CD đảm bảo độ tin cậy và nhất quán.

TRIỂN KHAI HỆ THỐNG DỮ LIỆU TRÊN CLOUD
Triển khai hệ thống dữ liệu trên AWS/GCP; sử dụng S3, Redshift, BigQuery, Dataflow và kết hợp các công cụ serverless và managed service.
BẠN SẼ LÀM GÌ SAU KHI HỌC XONG?

Data Engineer

Big Data developer

Cloud Data Engineer

Data Platform Engineer
lộ trình học Data Engineer

- Hệ điều hành & Môi trường: Dòng lệnh Linux và quản lý mã nguồn Git.
- Tư duy & Thống kê: Tư duy logic, thống kê ứng dụng cho dữ liệu.
- Lập trình Python: Từ Python cơ bản đến OOP, tương tác với file và API.
- Cơ sở dữ liệu: Truy vấn SQL và làm quen với cơ sở dữ liệu NoSQL.
- Giới thiệu Data Engineer: Vai trò, vòng đời dữ liệu, kiến trúc dữ liệu thịnh hành (Data Warehouse, Data Lake, Lakehouse).
- Mô hình hóa Dữ liệu: Kỹ thuật Dimensional Modeling (Star Schema, Snowflake Schema).
- Công cụ nền tảng: Git, GitHub, Shell scripting.
- Giới thiệu NoSQL Databases: Phân biệt SQL vs NoSQL, các loại hình (Document, Key-Value) và ứng dụng truy vấn với MongoDB.
- Lập trình hướng đối tượng (OOP): Class, Object, Inheritance để xây dựng các pipeline module hóa.
- Phân tích & xử lí dữ liệu với Pandas.:
- Thao tác với API: RESTful API, requests, pagination.
- Xử lý dữ liệu đa định dạng: Thao tác hiệu quả với file JSON, XML, Parquet.
- Tối ưu và Vận hành: Logging, error handling, best practices cho production code.
- Truy vấn nâng cao: Window Functions, Common Table Expressions (CTEs).
- Quản trị database: Kết nối với dữ liệu, DDL & DML.
- Tối ưu hóa hiệu suất: Phân tích câu lệnh (Explain Plan), Indexing, Partitioning.
- Triển khai Data Warehouse: Kiến trúc và ứng dụng trên Google BigQuery hoặc Snowflake.
- Kiến trúc Điện toán Phân tán: Hiểu rõ HDFS và MapReduce.
- Spark Core: Kiến trúc của Spark, RDDs, Transformations & Actions.
- Spark SQL & DataFrames: Dùng DataFrames để xử lý dữ liệu có cấu trúc và tận dụng bộ tối ưu hóa Catalyst.
- Spark Structured Streaming: Xử lý dữ liệu real-time & xây dựng pipeline streaming.
- Giới thiệu Analytics Engineering: Vai trò của dbt trong Modern Data Stack.
- Xây dựng mô hình dbt: Làm việc với models, sources, seeds và hàm ref().
- Data Testing: Đảm bảo chất lượng dữ liệu với các bài kiểm thử tự động.
- Tài liệu hóa (Documentation): Tự động tạo tài liệu và biểu đồ dòng chảy dữ liệu (lineage).
- Data Orchestration: Tư duy Data Orchestration và quản lý lịch trình pipeline.
- Kiến trúc Airflow: Scheduler, Webserver, Worker, Metadata Database.
- DAGs (Directed Acyclic Graphs): Operators, Sensors, Task Dependency.
- Tổng quan về AWS/GCP: Các dịch vụ cốt lõi cho kỹ sư dữ liệu.
- Lưu trữ (Storage): Amazon S3 hoặc Google Cloud Storage.
- Xử lý (Processing/ETL): AWS Glue hoặc GCP Dataflow.
- Bảo mật & Quản lý truy cập (IAM): Thiết lập quyền và vai trò cho các dịch vụ.
- Containerization với Docker: "Đóng gói" ứng dụng Python, Spark, Airflow.
- CI/CD: Tự động hóa kiểm thử và triển khai pipeline với GitHub Actions.
- Giám sát (Monitoring): Tổng quan về các công cụ giám sát và cảnh báo hệ thống.
- Tư duy DataOps: Áp dụng các nguyên tắc DevOps vào vòng đời dữ liệu.
- Xây dựng hệ thống Data Pipeline End-to-End: Học viên tự chọn một bài toán thực tế (VD
- Thu thập & Lưu trữ: Lấy dữ liệu từ API/Database, lưu vào Data Lake trên S3/GCS.
- Điều phối & Xử lý: Dùng Apache Airflow để tự động hóa, Apache Spark để xử lý dữ liệu lớn.
- Chuyển đổi & Nạp: Dùng dbt để mô hình hóa dữ liệu và nạp vào kho dữ liệu BigQuery.
- Vận hành: Đóng gói toàn bộ dự án bằng Docker và thiết lập CI/CD cơ bản.

Tiếng anh
chuyên ngành IT
Chương trình tiếng Anh chuyên ngành IT hướng đến nâng cao kỹ năng giao tiếp và đọc hiểu tài liệu chuyên môn, giúp học viên tự tin làm việc trong môi trường quốc tế và phát triển sự nghiệp.

SẢN PHẨM CỦA HỌC VIÊN
Học phí

Học trực tiếp
Ưu đãi 30%: 25.200.000 VNĐ
Giá gốc: 36.000.000 VND

Học trực tuyến
Ưu đãi 30%: 2.400.000 VNĐ
Giá gốc: 32.000.000 VND
Học tại Hồ Chí Minh
Data Engineer
Học tại Hà Nội
Data Engineer
Học trực tuyến
Data Engineer

Bài viết liên quan

Câu hỏi thường gặp
Chương trình phù hợp cho sinh viên năm 3, 4, người chuyển ngành, nhân viên làm việc trong lĩnh vực phân tích dữ liệu & khoa học dữ liệu, và các kỹ sư phần mềm muốn chuyển sang ngành kỹ sư dữ liệu.
Chương trình kéo dài 9 tháng với tổng thời lượng 360 giờ, kết hợp giữa lý thuyết và thực hành.
Học viên sẽ học lập trình Python, Scala, quản lý cơ sở dữ liệu (MySQL, MongoDB), xử lý dữ liệu lớn (Hadoop, Spark), xử lý dữ liệu thời gian thực (Kafka, Spark Streaming), điện toán đám mây (AWS, GCP, Azure), và tự động hóa quy trình dữ liệu (Airflow, ETL).
Có, học viên sẽ tham gia các dự án thực tế như xây dựng nền tảng quảng cáo trực tuyến, phát hiện gian lận thẻ tín dụng, và phân tích dữ liệu dịch vụ đi chung xe.
Chương trình cung cấp kiến thức và kỹ năng thực tiễn để học viên tự tin ứng tuyển vào các vị trí như Kỹ sư Dữ liệu, Nhà Phân tích Dữ liệu, và Chuyên gia Quản trị Dữ liệu. Có thể có hỗ trợ định hướng nghề nghiệp tùy thuộc vào chính sách của RobustX.
Không yêu cầu kiến thức nền tảng chuyên sâu, nhưng kiến thức cơ bản về lập trình hoặc cơ sở dữ liệu là một lợi thế.
Có, chương trình được thiết kế linh hoạt cho cả sinh viên và người đi làm, với lịch học phù hợp để bạn có thể cân bằng thời gian.
Học viên có thể đảm nhận các vị trí như Kỹ sư Dữ liệu, Kỹ sư Xử lý Dữ liệu Thời gian Thực, Nhà Phân tích Dữ liệu, và Chuyên gia Quản trị Dữ liệu.
Có, chương trình bao gồm các công nghệ hiện đại như Apache Spark, Kafka, Docker, Kubernetes, và các dịch vụ đám mây từ AWS, Google Cloud, và Azure, giúp học viên bắt kịp xu hướng ngành.

CẢM NGHĨ CỦA HỌC VIÊN
Từ Thiên Vũ
Thầy cực kiên nhẫn, giải thích từng bước một. Dù mình là newbie vẫn theo kịp được.
Lê Hồng Nguyên Linh
Lab ở đây phải gọi là đỉnh. Dùng tài khoản hãng chính hãng, mọi thứ y như môi trường thực tế. Highly recommend học AWS ở đây nhé.
Trương Tuấn Hoàng
Chương trình đúng kiểu ‘work-ready’, vừa học vừa áp dụng vào công việc. Có thể chọn hình thức học linh hoạt, hôm nào kẹt lịch chuyển online liền, không bị miss buổi nào.
La Thị Minh Tuyết
Anh chị giảng viên rất vui tính, luôn tạo không khí để lớp có thể hoàn thành tốt dự án, hơn hết chúng em cũng được giải đáp thắc mắc và được hỗ trợ một cách kịp thời.
Ngọc Khang Văn
Ngay khi khóa học tôi đã nhận được offer Junior với mức lương ngoài mong đợi. Những kiến thức từ khóa học rất sát với thực tiễn và giúp tôi nhanh chóng thích nghi với công việc từ doanh nghiệp.
Trần Văn Khoa
Chương trình học phù hợp, lộ trình học tập được sắp xếp khoa học. Những kiến thức được truyền tải tại đây có thể áp dụng ngay trong công việc. Giảng viên nhiệt tình, truyền đạt kiến thức tốt.
Nguyễn Minh Thiện
Chương trình học ở đây được biên soạn kỹ càng và dễ hiểu đối với những người chưa có nhiều kinh nghiệm như em. Ngoài việc được đào tạo kiến thức chuyên môn em cũng được các anh chia sẻ khá nhiều về kinh nghiệm thực tế từ trải nghiệm của anh.
