RobustX / Chương trình học / Chuyên đề / Công nghệ cho học sinh K12 / AD204 – Ứng dụng Thị giác Máy tính

AD204 – Ứng dụng Thị giác Máy tính

Khóa học “AD204 – Ứng dụng Thị giác Máy tính” sẽ đưa bạn từ thế giới dữ liệu dạng bảng quen thuộc sang lĩnh vực Thị giác Máy tính đầy tiềm năng. Thay vì xây dựng các mô hình phức tạp từ đầu, bạn sẽ học cách khai thác sức mạnh của các mô hình AI đã được huấn luyện sẵn thông qua API của Google Cloud Vision. Khóa học tập trung vào việc ứng dụng thực tế, giúp bạn nhanh chóng tạo ra các sản phẩm có giá trị.

Xuyên suốt chương trình, bạn sẽ được hướng dẫn từng bước để lập trình các ứng dụng có khả năng “nhìn” và thấu hiểu hình ảnh. Từ việc nhận dạng vật thể, đọc văn bản, cho đến phân tích các thuộc tính chuyên sâu, bạn sẽ học cách tích hợp các dịch vụ AI mạnh mẽ để giải quyết các bài toán cụ thể. Đây là cơ hội để bạn làm chủ kỹ năng làm việc với dữ liệu phi cấu trúc và xây dựng các giải pháp AI ấn tượng.

Thời lượng: 18h

Hình thức đào tạo:

    • Đào tạo trực tiếp tại lớp học
    • Đào tạo trực tuyến
    • Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
    • Đào tạo tại văn phòng khách hàng

Mục tiêu khoá học:

  1. KHAI THÁC API THỊ GIÁC MÁY TÍNH CỦA GOOGLE
    Thành thạo việc gửi yêu cầu đến Google Vision API, xử lý và phân tích các kết quả JSON trả về một cách hiệu quả để tích hợp vào ứng dụng.
  2. XÂY DỰNG ỨNG DỤNG NHẬN DIỆN VẬT THỂ
    Lập trình các công cụ có khả năng phân loại, xác định các nhãn (tags) và định vị chính xác tọa độ của các đối tượng xuất hiện trong hình ảnh.
  3. TRÍCH XUẤT VĂN BẢN TỪ HÌNH ẢNH (OCR)
    Phát triển ứng dụng nhận dạng ký tự quang học (OCR) để số hóa tài liệu, đọc biển báo, hoặc trích xuất thông tin tự động từ hình ảnh.
  4. PHÂN TÍCH HÌNH ẢNH ĐA CHIỀU
    Sử dụng các tính năng nâng cao để phát hiện logo, địa danh nổi tiếng, phân tích màu sắc chủ đạo và kiểm duyệt nội dung không phù hợp.
  5. TÍCH HỢP AI ĐỂ TẠO SẢN PHẨM HOÀN CHỈNH
    Kết hợp nhiều tính năng của Vision API để xây dựng một dự án cuối khóa hoàn chỉnh, có khả năng phân tích và báo cáo toàn diện về một hình ảnh.

Đối tượng tham gia

Nội dung khóa học

1. Nhập môn Thị giác Máy tính và Google Vision API
    • Giới thiệu về Thị giác Máy tính và API:
      • Định nghĩa Thị giác Máy tính và các ứng dụng đột phá (xe tự lái, y tế, bán lẻ).
      • Vai trò của API trong việc tiếp cận các mô hình AI đã được huấn luyện sẵn.
    • Thiết lập Môi trường và Gọi API đầu tiên:
      • Hướng dẫn tạo tài khoản, thiết lập dự án và lấy khóa API từ Google Cloud.
      • Thực hành gửi yêu cầu API đầu tiên với Python và phân tích cấu trúc kết quả JSON trả về.
2. Nhận dạng Nhãn và Đối tượng trong Ảnh
    • Nhận dạng Nhãn (Label Detection):
      • Sử dụng API để xác định các thực thể, cảnh, hoạt động trong ảnh (ví dụ: “bãi biển”, “chó”, “chạy bộ”).
      • Phân tích độ tin cậy (confidence score) của các nhãn để đánh giá kết quả.
    • Định vị và Nhận dạng Đối tượng (Object Detection):
      • Phân biệt sự khác nhau giữa nhận dạng nhãn (toàn bộ ảnh) và định vị đối tượng (vị trí cụ thể).
      • Trích xuất tọa độ (bounding box) của từng đối tượng được phát hiện trong ảnh.
3. Nhận dạng Ký tự Quang học (OCR)
    • Nguyên lý và Ứng dụng của OCR:
      • Giới thiệu công nghệ OCR và các ứng dụng thực tiễn: số hóa tài liệu, đọc biển số xe, trích xuất thông tin hóa đơn.
    • Thực hành Trích xuất Văn bản với Vision API:
      • Sử dụng API để đọc và chuyển đổi văn bản từ hình ảnh sang dạng text.
      • Xử lý dữ liệu trả về: lấy toàn bộ văn bản (full text) và phân tích theo từng khối, dòng, từ.
    • Dự án nhỏ: Xây dựng Công cụ Số hóa Thông tin:
      • Lập trình một ứng dụng nhỏ để trích xuất toàn bộ văn bản từ một hình ảnh do người dùng cung cấp.
4. Phân tích các Thuộc tính Nâng cao của Hình ảnh
    • Phân tích Nội dung Chuyên sâu:
      • Phát hiện các địa danh nổi tiếng (Landmark Detection) và logo thương hiệu (Logo Detection).
      • Xác định các trang web chứa hình ảnh tương tự hoặc giống hệt (Web Detection).
    • Phân tích Thuộc tính Hình ảnh:
      • Trích xuất các thuộc tính của ảnh: hệ màu chủ đạo, tỷ lệ khung hình.
      • Tìm hiểu và ứng dụng tính năng gợi ý cắt cúp thông minh (Crop Hints).
    • Kiểm duyệt Nội dung Tự động:
      • Ứng dụng tính năng Safe Search để phân loại và phát hiện các nội dung không phù hợp (người lớn, bạo lực, y tế).
5. Dự án cuối khóa: Ứng dụng “Phân tích Hình ảnh Toàn diện”
    • Lên ý tưởng và Thiết kế Ứng dụng:
      • Xác định mục tiêu và các tính năng cần có cho một ứng dụng phân tích hình ảnh đa năng.
      • Thiết kế luồng hoạt động: từ nhập liệu (URL/tải ảnh) đến giao diện hiển thị kết quả.
    • Phát triển và Tích hợp API:
      • Xây dựng chương trình Python hoàn chỉnh, gọi và kết hợp nhiều tính năng của Vision API (nhãn, OCR, logo, an toàn…).
      • Tổng hợp và định dạng các kết quả phân tích thành một báo cáo có cấu trúc, logic và dễ hiểu.
    • Trình bày và Đánh giá Sản phẩm:
      • Demo ứng dụng cuối khóa, trình bày các chức năng đã xây dựng.
      • Giải thích code, các quyết định kỹ thuật và ý nghĩa của những thông tin phân tích được.

LỊCH KHAI GIẢNG

(Đang cập nhật)

Bài viết liên quan