Data Engineer

Dữ liệu được ví như huyết mạch của mọi doanh nghiệp số, và Kỹ sư Dữ liệu chính là những kiến trúc sư xây dựng nên các hệ thống hạ tầng cho dòng chảy đó. Lộ trình Data Engineer được thiết kế để biến bạn từ một người có nền tảng kỹ thuật trở thành một chuyên gia có khả năng xây dựng và vận hành các hệ thống dữ liệu quy mô lớn, đáng tin cậy và hiệu quả.

Chương trình sẽ trang bị cho bạn bộ công cụ của Modern Data Stack để làm chủ toàn bộ vòng đời dữ liệu. Bạn sẽ học cách xây dựng các Data Pipeline tự động, xử lý dữ liệu lớn với Spark, điều phối luồng công việc bằng Airflow, và triển khai toàn bộ hệ thống trên nền tảng Cloud. Khóa học tập trung vào tư duy hệ thống và các quy trình vận hành chuyên nghiệp, giúp bạn sẵn sàng cho các bài toán dữ liệu phức tạp nhất.

Xây dựng xương sống cho thế giới số. Hãy trở thành kiến trúc sư nền tảng, người chắp cánh cho mọi đột phá về dữ liệu và AI.

240 giờ (9 – 12 tháng)

Đối tượng tham gia

KẾT QUẢ ĐẠT ĐƯỢC

BẠN SẼ LÀM GÌ SAU KHI HỌC XONG?

lộ trình học Data Engineer

  • Hệ điều hành & Môi trường: Dòng lệnh Linux và quản lý mã nguồn Git.
  • Tư duy & Thống kê: Tư duy logic, thống kê ứng dụng cho dữ liệu.
  • Lập trình Python: Từ Python cơ bản đến OOP, tương tác với file và API.
  • Cơ sở dữ liệu: Truy vấn SQL và làm quen với cơ sở dữ liệu NoSQL.
  • Giới thiệu Data Engineer: Vai trò, vòng đời dữ liệu, kiến trúc dữ liệu thịnh hành (Data Warehouse, Data Lake, Lakehouse).
  • Mô hình hóa Dữ liệu: Kỹ thuật Dimensional Modeling (Star Schema, Snowflake Schema).
  • Công cụ nền tảng: Git, GitHub, Shell scripting.
  • Giới thiệu NoSQL Databases: Phân biệt SQL vs NoSQL, các loại hình (Document, Key-Value) và ứng dụng truy vấn với MongoDB.
  • Lập trình hướng đối tượng (OOP): Class, Object, Inheritance để xây dựng các pipeline module hóa.
  • Phân tích & xử lí dữ liệu với Pandas.:
  • Thao tác với API: RESTful API, requests, pagination.
  • Xử lý dữ liệu đa định dạng: Thao tác hiệu quả với file JSON, XML, Parquet.
  • Tối ưu và Vận hành: Logging, error handling, best practices cho production code.
  • Truy vấn nâng cao: Window Functions, Common Table Expressions (CTEs).
  • Quản trị database: Kết nối với dữ liệu, DDL & DML.
  • Tối ưu hóa hiệu suất: Phân tích câu lệnh (Explain Plan), Indexing, Partitioning.
  • Triển khai Data Warehouse: Kiến trúc và ứng dụng trên Google BigQuery hoặc Snowflake.
  • Kiến trúc Điện toán Phân tán: Hiểu rõ HDFS và MapReduce.
  • Spark Core: Kiến trúc của Spark, RDDs, Transformations & Actions.
  • Spark SQL & DataFrames: Dùng DataFrames để xử lý dữ liệu có cấu trúc và tận dụng bộ tối ưu hóa Catalyst.
  • Spark Structured Streaming: Xử lý dữ liệu real-time & xây dựng pipeline streaming.
  • Giới thiệu Analytics Engineering: Vai trò của dbt trong Modern Data Stack.
  • Xây dựng mô hình dbt: Làm việc với models, sources, seeds và hàm ref().
  • Data Testing: Đảm bảo chất lượng dữ liệu với các bài kiểm thử tự động.
  • Tài liệu hóa (Documentation): Tự động tạo tài liệu và biểu đồ dòng chảy dữ liệu (lineage).
  • Data Orchestration: Tư duy Data Orchestration và quản lý lịch trình pipeline.
  • Kiến trúc Airflow: Scheduler, Webserver, Worker, Metadata Database.
  • DAGs (Directed Acyclic Graphs): Operators, Sensors, Task Dependency.
  • Tổng quan về AWS/GCP: Các dịch vụ cốt lõi cho kỹ sư dữ liệu.
  • Lưu trữ (Storage): Amazon S3 hoặc Google Cloud Storage.
  • Xử lý (Processing/ETL): AWS Glue hoặc GCP Dataflow.
  • Bảo mật & Quản lý truy cập (IAM): Thiết lập quyền và vai trò cho các dịch vụ.
  • Containerization với Docker: "Đóng gói" ứng dụng Python, Spark, Airflow.
  • CI/CD: Tự động hóa kiểm thử và triển khai pipeline với GitHub Actions.
  • Giám sát (Monitoring): Tổng quan về các công cụ giám sát và cảnh báo hệ thống.
  • Tư duy DataOps: Áp dụng các nguyên tắc DevOps vào vòng đời dữ liệu.
  • Xây dựng hệ thống Data Pipeline End-to-End: Học viên tự chọn một bài toán thực tế (VD
  • Thu thập & Lưu trữ: Lấy dữ liệu từ API/Database, lưu vào Data Lake trên S3/GCS.
  • Điều phối & Xử lý: Dùng Apache Airflow để tự động hóa, Apache Spark để xử lý dữ liệu lớn.
  • Chuyển đổi & Nạp: Dùng dbt để mô hình hóa dữ liệu và nạp vào kho dữ liệu BigQuery.
  • Vận hành: Đóng gói toàn bộ dự án bằng Docker và thiết lập CI/CD cơ bản.

Tiếng anh
chuyên ngành IT

Chương trình tiếng Anh chuyên ngành IT hướng đến nâng cao kỹ năng giao tiếp và đọc hiểu tài liệu chuyên môn, giúp học viên tự tin làm việc trong môi trường quốc tế và phát triển sự nghiệp.

SẢN PHẨM CỦA HỌC VIÊN

Học phí

Học tại Hồ Chí Minh

Data Engineer

Ngày KG: 18/11/2025 | Thứ 3 - 5
Thời gian: 6:30 pm đến 9:30 pm
Hồ Chí Minh

Học tại Hà Nội

Data Engineer

Ngày KG: 18/11/2025 | Thứ 3 - 5
Thời gian: 6:30 pm đến 9:30 pm
Hà Nội

Học trực tuyến

Data Engineer

Ngày KG: 18/11/2025 | Thứ 3 - 5
Thời gian: 6:30 pm đến 9:30 pm

Bài viết liên quan

Câu hỏi thường gặp

Chương trình phù hợp cho sinh viên năm 3, 4, người chuyển ngành, nhân viên làm việc trong lĩnh vực phân tích dữ liệu & khoa học dữ liệu, và các kỹ sư phần mềm muốn chuyển sang ngành kỹ sư dữ liệu.

Chương trình kéo dài 9 tháng với tổng thời lượng 360 giờ, kết hợp giữa lý thuyết và thực hành.

Học viên sẽ học lập trình Python, Scala, quản lý cơ sở dữ liệu (MySQL, MongoDB), xử lý dữ liệu lớn (Hadoop, Spark), xử lý dữ liệu thời gian thực (Kafka, Spark Streaming), điện toán đám mây (AWS, GCP, Azure), và tự động hóa quy trình dữ liệu (Airflow, ETL).

Có, học viên sẽ tham gia các dự án thực tế như xây dựng nền tảng quảng cáo trực tuyến, phát hiện gian lận thẻ tín dụng, và phân tích dữ liệu dịch vụ đi chung xe.

Chương trình cung cấp kiến thức và kỹ năng thực tiễn để học viên tự tin ứng tuyển vào các vị trí như Kỹ sư Dữ liệu, Nhà Phân tích Dữ liệu, và Chuyên gia Quản trị Dữ liệu. Có thể có hỗ trợ định hướng nghề nghiệp tùy thuộc vào chính sách của RobustX.

Không yêu cầu kiến thức nền tảng chuyên sâu, nhưng kiến thức cơ bản về lập trình hoặc cơ sở dữ liệu là một lợi thế.

Có, chương trình được thiết kế linh hoạt cho cả sinh viên và người đi làm, với lịch học phù hợp để bạn có thể cân bằng thời gian.

Học viên có thể đảm nhận các vị trí như Kỹ sư Dữ liệu, Kỹ sư Xử lý Dữ liệu Thời gian Thực, Nhà Phân tích Dữ liệu, và Chuyên gia Quản trị Dữ liệu.

Có, chương trình bao gồm các công nghệ hiện đại như Apache Spark, Kafka, Docker, Kubernetes, và các dịch vụ đám mây từ AWS, Google Cloud, và Azure, giúp học viên bắt kịp xu hướng ngành.

CẢM NGHĨ CỦA HỌC VIÊN