AD203 – Học máy Ứng dụng

Khóa học “AD203 – Học máy Ứng dụng” được thiết kế để cung cấp cho bạn nền tảng vững chắc và kỹ năng thực tiễn để biến dữ liệu thô thành các mô hình dự đoán thông minh. Bằng cách sử dụng thư viện scikit-learn và các công cụ hàng đầu trong ngành, bạn sẽ được hướng dẫn từng bước để giải quyết hai dạng bài toán phổ biến nhất trong học máy: Phân loại (Classification) và Hồi quy (Regression). Chương trình học sẽ trang bị cho bạn một quy trình làm việc chuyên nghiệp, từ khâu xử lý dữ liệu đến huấn luyện và đánh giá mô hình.

Không chỉ dừng lại ở các thuật toán cơ bản, khóa học sẽ đi sâu vào các kỹ thuật nâng cao giúp tối ưu hóa hiệu suất mô hình. Bạn sẽ học cách sử dụng Regularization để giải quyết vấn đề quá khớp (overfitting) và làm chủ XGBoost – một trong những thuật toán Ensemble mạnh mẽ và hiệu quả nhất, thường được sử dụng trong các cuộc thi khoa học dữ liệu. Sau khóa học, bạn sẽ tự tin áp dụng kiến thức để giải quyết các bài toán thực tế và có một nền tảng vững chắc để tiếp cận các lĩnh vực chuyên sâu hơn của Trí tuệ Nhân tạo.

Thời lượng: 24h

Hình thức đào tạo:

    • Đào tạo trực tiếp tại lớp học
    • Đào tạo trực tuyến
    • Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
    • Đào tạo tại văn phòng khách hàng

Mục tiêu khoá học:

  1. XÂY DỰNG MÔ HÌNH HỌC MÁY THỰC TẾ
    Tự tay lập trình và triển khai các mô hình phân loại, hồi quy bằng thư viện scikit-learn để giải quyết các bài toán dữ liệu trong thực tế.
  2. TỐI ƯU HÓA HIỆU SUẤT MÔ HÌNH
    Thành thạo kỹ thuật Regularization chống quá khớp và áp dụng các mô hình Ensemble mạnh mẽ như XGBoost để cải thiện độ chính xác.
  3. NẮM VỮNG QUY TRÌNH HỌC MÁY CÓ GIÁM SÁT
    Hiểu rõ và áp dụng quy trình làm việc chuyên nghiệp từ chuẩn bị dữ liệu, huấn luyện, đánh giá đến tinh chỉnh mô hình một cách khoa học.
  4. ĐÁNH GIÁ MÔ HÌNH MỘT CÁCH CHUYÊN SÂU
    Sử dụng các thước đo chuyên biệt như Confusion Matrix, Precision, Recall, F1-Score để đánh giá và lựa chọn mô hình phù hợp nhất.
  5. NỀN TẢNG TIẾP CẬN CÁC LĨNH VỰC AI NÂNG CAO
    Hiểu khái niệm về các kiến trúc học sâu (CNN, RNN), tạo bước đệm vững chắc để khám phá Thị giác Máy tính và Xử lý Ngôn ngữ Tự nhiên.

Đối tượng tham gia

Nội dung khóa học

1. Tổng quan về Học máy có Giám sát
    • Nền tảng Học máy có Giám sát:
      • Phân biệt hai loại bài toán cốt lõi: Phân loại (Classification) và Hồi quy (Regression).
      • Giới thiệu tổng quan và vai trò của thư viện scikit-learn trong hệ sinh thái Python.
    • Quy trình làm việc cốt lõi:
      • Xác định Đặc trưng (Features) và Nhãn (Labels) trong một bộ dữ liệu.
      • Kỹ thuật chia dữ liệu (Train-Test Split) để đánh giá mô hình khách quan.
    • Các thách thức thường gặp:
      • Phân tích và nhận diện hiện tượng quá khớp (Overfitting) và chưa khớp (Underfitting).
2. Bài toán Phân loại (Classification)
    • Các thuật toán Phân loại nền tảng:
      • Mô hình Hồi quy Logistic (Logistic Regression) và nguyên lý hoạt động.
      • Mô hình Cây Quyết định (Decision Tree) và cách diễn giải.
    • Kỹ thuật Ensemble Learning nâng cao:
      • Giới thiệu Random Forest: Sức mạnh từ nhiều Cây Quyết định.
      • Khám phá XGBoost: Thuật toán hiệu suất cao và ứng dụng thực tiễn.
    • Đánh giá và Tinh chỉnh Mô hình Phân loại:
      • Giải thích tại sao chỉ số Độ chính xác (Accuracy) là không đủ.
      • Phân tích Ma trận nhầm lẫn (Confusion Matrix) để hiểu sâu về lỗi của mô hình.
      • Các thước đo quan trọng: Độ chính xác (Precision), Độ thu hồi (Recall) và F1-Score.
    • Dự án thực hành 1 – Titanic Survival Prediction:
      • Áp dụng các mô hình đã học vào bộ dữ liệu Titanic.
      • So sánh hiệu suất dựa trên các thước đo và lựa chọn mô hình tốt nhất.
3. Bài toán Hồi quy (Regression)
    • Mô hình Hồi quy Tuyến tính:
      • Xây dựng mô hình Hồi quy Tuyến tính (Linear Regression) đơn biến và đa biến.
    • Kỹ thuật Regularization chống quá khớp:
      • Tìm hiểu và áp dụng Hồi quy Ridge (L2 Regularization).
      • Tìm hiểu và áp dụng Hồi quy Lasso (L1 Regularization) và lựa chọn đặc trưng.
    • Đo lường hiệu suất Mô hình Hồi quy:
      • Các thước đo sai số: Sai số Tuyệt đối Trung bình (MAE) và Sai số Bình phương Trung bình (MSE).
    • Dự án thực hành 2 – Dự đoán giá nhà:
      • Xây dựng mô hình hồi quy hoàn chỉnh trên bộ dữ liệu nhà ở (ví dụ: USA Housing).
      • Đánh giá và diễn giải kết quả dự đoán của mô hình.
4. Tổng quan về các Kiến trúc Học máy Nâng cao
    • Nền tảng cho Thị giác Máy tính:
      • Giới thiệu khái niệm Mạng Nơ-ron Tích chập (Convolutional Neural Network – CNN).
    • Nền tảng cho Xử lý Ngôn ngữ Tự nhiên:
      • Giới thiệu khái niệm Mạng Nơ-ron Hồi quy (Recurrent Neural Network – RNN).
      • Sơ lược về kiến trúc Transformer và vai trò đột phá trong NLP.
5. Dự án cuối khóa: Cuộc thi Mini-Kaggle
    • Thử thách thực tế:
      • Nhận một bộ dữ liệu mới (phân loại hoặc hồi quy) chưa từng gặp.
      • Phân tích và tiền xử lý dữ liệu để chuẩn bị cho mô hình hóa.
    • Xây dựng và Trình bày giải pháp:
      • Áp dụng toàn bộ kiến thức để xây dựng mô hình có hiệu suất tốt nhất.
      • Trình bày quy trình làm việc, các lựa chọn kỹ thuật và kết quả đạt được.
      • So sánh kết quả trên bảng xếp hạng chung của lớp.

LỊCH KHAI GIẢNG

(Đang cập nhật)

Bài viết liên quan