
Nhập môn học máy – Machine Learning
Nếu phân tích dữ liệu truyền thống giúp chúng ta trả lời câu hỏi “Chuyện gì đã xảy ra?”, thì Machine Learning sẽ cho chúng ta sức mạnh để trả lời câu hỏi “Chuyện gì sẽ xảy ra?”. Khóa học này được thiết kế để trở thành bước đi tiếp theo tự nhiên và đầy hứng khởi cho bất kỳ ai đã làm quen với dữ liệu, mở ra cánh cửa đến với thế giới phân tích dự đoán. Đây là nơi bạn sẽ học cách biến dữ liệu không chỉ thành báo cáo, mà còn thành các mô hình thông minh có khả năng dự báo tương lai.
Chương trình sẽ dẫn dắt bạn qua một quy trình Machine Learning hoàn chỉnh và thực tiễn, sử dụng thư viện scikit-learn – công cụ tiêu chuẩn và thân thiện nhất cho người bắt đầu. Bạn sẽ học cách phân loại các bài toán kinh doanh để lựa chọn đúng mô hình: từ các mô hình Học có giám sát như Hồi quy và Phân loại, cho đến các mô hình Học không giám sát như Phân cụm để khám phá các phân khúc khách hàng ẩn. Khóa học tập trung vào khả năng ứng dụng. Bạn sẽ không chỉ học về thuật toán, mà còn học cách chuẩn bị dữ liệu một cách chuyên nghiệp, đánh giá hiệu suất mô hình một cách khách quan thông qua các chỉ số, và quan trọng nhất là diễn giải kết quả để đưa ra các đề xuất kinh doanh có giá trị.
Thời lượng: 33h

KẾT QUẢ ĐẠT ĐƯỢC

NẮM VỮNG TƯ DUY VÀ CÁCH TIẾP CẬN BÀI TOÁN MÁY HỌC
Phân biệt rõ ràng giữa các bài toán học có giám sát và không giám sát, biết khi nào cần áp dụng các mô hình hồi quy, phân loại hay phân cụm.

THÀNH THẠO QUY TRÌNH CHUẨN BỊ DỮ LIỆU CHO MÔ HÌNH
Biết cách chia dữ liệu thành tập train/test, thực hiện các kỹ thuật tiền xử lý cần thiết như scaling và encoding để đảm bảo dữ liệu sẵn sàng cho mô hình.

XÂY DỰNG CÁC MÔ HÌNH DỰ ĐOÁN VỚI SCIKIT-LEARN
Sử dụng thành thạo thư viện scikit-learn để xây dựng các mô hình cho các bài toán dự báo doanh thu và khách hàng.

ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH DỰA TRÊN SỐ LIỆU
Hiểu và áp dụng các chỉ số như Accuracy, Precision, Recall, F1-score và ROC-AUC để đánh giá, so sánh và lựa chọn mô hình hoạt động hiệu quả.

DIỄN GIẢI KẾT QUẢ VÀ ĐỀ XUẤT GIẢI PHÁP KINH DOANH
Khả năng diễn giải kết quả của mô hình một cách dễ hiểu, rút ra các insight quan trọng và đề xuất các hành động kinh doanh dựa trên dữ liệu dự báo.


Yêu cầu tiên quyết:
-
- Biết sử dụng Python và Pandas.
- Đã làm quen với dữ liệu bảng và tư duy phân tích qua các khóa EDA, xử lý dữ liệu
Nội dung khóa học
1. Giới thiệu và phân loại các bài toán Machine Learning
- Khái niệm Machine Learning:
- Lịch sử, tầm quan trọng của ML trong phân tích dữ liệu và dự đoán tương lai.
- Minh họa các ứng dụng: dự đoán hành vi khách hàng, phân loại email, phát hiện gian lận, dự báo nhu cầu sản xuất…
- Phân loại bài toán ML:
- Giải thích rõ hai nhánh chính: học có giám sát (Supervised Learning – có nhãn) và không giám sát (Unsupervised Learning – không nhãn).
- Phân biệt giữa Classification (phân loại), Regression (hồi quy – dự đoán giá trị liên tục), Clustering (phân nhóm).
- Quy trình một dự án ML thực tế:
- Từ xác định bài toán, thu thập – chuẩn bị dữ liệu, chọn mô hình, huấn luyện, đánh giá, đến triển khai và cải tiến.
- Từ xác định bài toán, thu thập – chuẩn bị dữ liệu, chọn mô hình, huấn luyện, đánh giá, đến triển khai và cải tiến.
2. Chuẩn bị dữ liệu trước khi huấn luyện mô hình
- Chia dữ liệu thành train/test:
- Ý nghĩa, mục đích và các chiến lược tách tập dữ liệu đúng cách để mô hình không bị overfitting/underfitting.
- Tiền xử lý dữ liệu:
- Làm sạch (remove missing, outlier), chuẩn hóa (scaling), mã hóa (encoding) biến phân loại.
- Phân tích và xử lý dữ liệu mất cân bằng (class imbalance), noise – cách dùng sampling, weighting.
- Thực hành:
- Chuẩn bị bộ dữ liệu hành vi khách hàng cho bài toán dự đoán mua hàng: loại bỏ dữ liệu trùng, chuẩn hóa số liệu, encode các trường categorical.
3. Mô hình hồi quy – Dự đoán giá trị liên tục
- Giới thiệu Linear Regression:
- Bản chất toán học, ứng dụng thực tế trong kinh doanh.
- Tìm hiểu các hệ số hồi quy, ý nghĩa của từng biến đầu vào.
- Thực hành xây dựng mô hình:
- Cài đặt mô hình Linear Regression với scikit-learn, kiểm tra giả định, trực quan hóa kết quả.
- Đánh giá mô hình:
- Sử dụng các chỉ số MAE, MSE, RMSE để đo sai số dự báo.
- Hiểu residual plot, kiểm tra tính đúng đắn và những điểm bất thường.
- Ứng dụng:
- Dự báo doanh thu, giá trị đơn hàng, tỷ lệ chuyển đổi từ dữ liệu thực tế.
- Dự báo doanh thu, giá trị đơn hàng, tỷ lệ chuyển đổi từ dữ liệu thực tế.
4. Mô hình phân loại – Dự đoán nhóm đối tượng
- Mô hình phân loại căn bản:
- Giới thiệu Logistic Regression, Decision Tree – bản chất, ưu nhược, ứng dụng thực tế.
- Triển khai bài toán phân loại: dự đoán khách hàng mua hàng, dự báo rời bỏ dịch vụ (churn), phân loại nhóm sản phẩm.
- Đọc và giải thích Confusion Matrix:
- Tính toán Precision, Recall, F1-score, so sánh các chỉ số và đưa ra quyết định.
- Trực quan hóa matrix, ROC Curve, hiểu ý nghĩa của AUC trong việc đánh giá mô hình.
- Xử lý dữ liệu mất cân bằng, cải tiến mô hình:
- Dùng các kỹ thuật resampling, điều chỉnh ngưỡng quyết định, phân tích lợi ích/chi phí khi thay đổi chiến lược phân loại.
- Thực hành:
- Xây dựng pipeline từ tiền xử lý → train/test split → huấn luyện Logistic Regression/Decision Tree → đánh giá → giải thích kết quả.
- Xây dựng pipeline từ tiền xử lý → train/test split → huấn luyện Logistic Regression/Decision Tree → đánh giá → giải thích kết quả.
5. Phân nhóm và giảm chiều dữ liệu trong thực tiễn
- Phân nhóm K-means Clustering:
- Giải thích thuật toán, quy trình chọn số cụm tối ưu (k), dùng Elbow Method, Silhouette Score để đánh giá.
- Thực hành phân nhóm khách hàng theo hành vi, phân tích nhóm mục tiêu cho marketing.
- Giảm chiều dữ liệu với PCA:
- Bản chất của PCA, trực quan hóa dữ liệu đa chiều về 2D/3D để khám phá cấu trúc dữ liệu và chuẩn bị cho mô hình.
- Ứng dụng PCA để giảm noise, tăng hiệu quả train model, kiểm tra ảnh hưởng tới kết quả phân tích.
- Thực hành:
- Trực quan hóa kết quả phân nhóm bằng biểu đồ scatterplot (sau PCA), giải thích insight từng nhóm khách hàng.
- Trực quan hóa kết quả phân nhóm bằng biểu đồ scatterplot (sau PCA), giải thích insight từng nhóm khách hàng.
6. Phân tích kết quả và tư duy ứng dụng mô hình
- Khi nào dùng Classification, Regression, Clustering:
- Lựa chọn mô hình dựa trên mục tiêu nghiệp vụ (dự đoán churn, phân tích doanh thu, khám phá nhóm khách…).
- So sánh mô hình, chọn giải pháp tối ưu:
- Sử dụng các chỉ số tổng hợp, so sánh các mô hình, xác định ưu điểm/nhược điểm từng phương án.
- Kỹ năng trình bày kết quả:
- Tổng hợp insight, minh họa bằng biểu đồ, bảng số liệu, câu chuyện kinh doanh; thuyết phục stakeholders bằng dữ liệu và trực quan hóa.
- Tư duy phân tích & hành động dựa trên dữ liệu:
- Đề xuất chiến lược kinh doanh/marketing dựa trên kết quả dự báo/phân tích.
- Đề xuất chiến lược kinh doanh/marketing dựa trên kết quả dự báo/phân tích.
7. Bài thực hành cuối khóa: Xây dựng mô hình dự đoán khách mua hàng
Yêu cầu:
- Làm sạch dữ liệu hành vi và thông tin khách hàng
- Áp dụng Logistic Regression hoặc Decision Tree để dự đoán mua hàng
- Tạo phân nhóm khách hàng bằng K-means để gợi ý chiến lược marketing
- Trình bày kết quả mô hình bằng biểu đồ và bảng tổng hợp dễ hiểu

Bài viết liên quan
