
Computer Vision
Computer Vision (Thị giác Máy tính) là lĩnh vực đột phá, trao cho máy tính khả năng “nhìn”, phân tích và diễn giải thế giới thông qua hình ảnh và video, giống như con người. Đây là công nghệ cốt lõi đằng sau xe tự lái, chẩn đoán y tế qua hình ảnh, các hệ thống an ninh thông minh và cửa hàng không người bán. Khóa học này được thiết kế để đưa bạn từ thế giới dữ liệu có cấu trúc sang lĩnh vực đầy tiềm năng của dữ liệu hình ảnh, trang bị cho bạn kỹ năng để xây dựng các ứng dụng AI có khả năng tương tác trực tiếp với thế giới thực.
Chương trình sẽ cung cấp một lộ trình thực hành toàn diện, bắt đầu từ các kỹ thuật xử lý ảnh số cơ bản với thư viện OpenCV để chuẩn bị dữ liệu đầu vào. Tiếp theo, bạn sẽ đi sâu vào việc xây dựng và huấn luyện Mạng nơ-ron tích chập (CNN) – kiến trúc nền tảng của mọi mô hình thị giác máy tính hiện đại. Điểm nhấn của khóa học là kỹ thuật Transfer Learning, giúp bạn tận dụng sức mạnh của các mô hình đã được huấn luyện trên dữ liệu khổng lồ để giải quyết các bài toán của riêng mình một cách nhanh chóng và hiệu quả.
Thời lượng: 24h

KẾT QUẢ ĐẠT ĐƯỢC

LÀM CHỦ XỬ LÝ ẢNH SỐ VÀ PHÉP BIẾN ĐỔI
Thành thạo các kỹ thuật tiền xử lý ảnh (crop, resize, filter) và biến đổi dữ liệu hình ảnh với OpenCV.

THÀNH THẠO CNN & TRANSFER LEARNING
Biết cách xây dựng, huấn luyện và tối ưu các mô hình CNN hiện đại; ứng dụng các mô hình pre-trained như ResNet, VGG cho project thực tế.

GIẢI QUYẾT BÀI TOÁN AI ĐIỂN HÌNH VỀ ẢNH
Phân loại ảnh, nhận diện đối tượng (Object Detection với YOLO), phân vùng ảnh (Image Segmentation với U-Net).

TRỰC QUAN HÓA KẾT QUẢ VÀ PHÂN TÍCH MÔ HÌNH ẢNH
Hiểu cách trình bày, giải thích kết quả dự báo qua hình ảnh, góp phần nâng cao thuyết phục với người dùng/khách hàng.

XÂY DỰNG DỰ ÁN COMPUTER VISION HOÀN CHỈNH
Khả năng thực hiện một dự án Computer Vision hoàn chỉnh, từ khâu xử lý dữ liệu, huấn luyện mô hình, đánh giá, cho đến trình bày báo cáo kết quả.


Yêu cầu tiên quyết:
-
- Thành thạo Python, Pandas và ML cơ bản.
- Đã học Deep Learning với PyTorch.
Nội dung khóa học
1. Nền tảng Xử lý Ảnh và Mạng Tích chập (CNN)
- Xử lý Ảnh cơ bản với OpenCV:
- Các thao tác nền tảng: đọc, ghi, thay đổi kích thước, chuyển đổi không gian màu của ảnh.
- Các phép biến đổi hình học và kỹ thuật lọc ảnh để tiền xử lý dữ liệu hình ảnh trước khi đưa vào mô hình Deep Learning.
- Mạng Nơ-ron Tích chập (CNN):
- Tìm hiểu các thành phần cốt lõi: lớp Tích chập (Convolutional Layer) để trích xuất đặc trưng (cạnh, góc, họa tiết) và lớp Gộp (Pooling Layer) để giảm kích thước dữ liệu.
- Hiểu tại sao kiến trúc CNN lại hiệu quả vượt trội cho dữ liệu dạng lưới như hình ảnh.
2. Các Kiến trúc và Kỹ thuật CV Hiện đại
- Các Kiến trúc CNN Kinh điển:
- Phân tích sự phát triển của các kiến trúc nổi tiếng: LeNet, AlexNet, VGG, và ResNet – hiểu cách chúng giải quyết các vấn đề và dần trở nên sâu hơn, phức tạp hơn.
- Học chuyển giao (Transfer Learning):
- Kỹ thuật cực kỳ mạnh mẽ: tận dụng các mô hình đã được huấn luyện trên các bộ dữ liệu khổng lồ (như ImageNet) và tinh chỉnh lại cho bài toán của riêng mình, giúp tiết kiệm thời gian và tài nguyên.
3. Các Bài toán CV Kinh điển
- Bài toán Phát hiện Vật thể (Object Detection):
-
- Mục tiêu: không chỉ phân loại ảnh mà còn xác định vị trí của các vật thể trong ảnh bằng các hộp giới hạn (bounding box).
- Giới thiệu kiến trúc YOLO (You Only Look Once) – một trong những mô hình phát hiện vật thể thời gian thực phổ biến và hiệu quả nhất.
-
- Bài toán Phân vùng Ảnh (Image Segmentation):
-
- Mục tiêu: phân loại từng pixel trong ảnh để tạo ra một “mặt nạ” cho các đối tượng, giúp hiểu hình ảnh ở mức độ chi tiết nhất.
- Giới thiệu kiến trúc U-Net – một kiến trúc nổi tiếng và hiệu quả cho các bài toán phân vùng trong y tế và nhiều lĩnh vực khác.
-
4. BÀI THỰC HÀNH CUỐI KHÓA – XÂY DỰNG HỆ THỐNG PHÂN TÍCH ẢNH TOÀN DIỆN
- Huấn luyện mô hình phân loại ảnh thực tế:
Làm việc với dataset tùy chỉnh (ví dụ: ảnh sản phẩm, ảnh y tế…), thực hành toàn bộ pipeline: xử lý ảnh, gán nhãn, chia train/test, huấn luyện và đánh giá mô hình CNN. - Triển khai Object Detection với YOLO:
Áp dụng kiến trúc YOLO để phát hiện nhiều đối tượng cùng lúc trên ảnh, vẽ bounding box, xuất kết quả ra ảnh minh họa – mô phỏng giải pháp phát hiện vật thể tự động trong doanh nghiệp. - Trình bày báo cáo kết quả:
Tổng hợp quy trình, kết quả huấn luyện và demo thực tế mô hình phân loại, nhận diện đối tượng. Phân tích ưu/nhược điểm của mô hình, đưa ra hướng cải tiến – nâng cao khả năng giải thích cho người dùng/khách hàng.

Bài viết liên quan
