RobustX / Chương trình học / Chuyên đề / Công nghệ cho học sinh K12 / AD205 – Xử lý Ngôn ngữ Tự nhiên

AD205 – Xử lý Ngôn ngữ Tự nhiên

Khóa học “AD205 – Xử lý Ngôn ngữ Tự nhiên” được thiết kế để cung cấp cho bạn hành trình toàn diện, từ những khái niệm nền tảng nhất đến việc làm chủ các kiến trúc mô hình tiên tiến. Bạn sẽ bắt đầu bằng việc xây dựng một nền tảng vững chắc về tiền xử lý văn bản và các phương pháp biểu diễn ngôn ngữ kinh điển như TF-IDF, Word2Vec, trước khi khám phá sức mạnh của các mô hình tuần tự như RNN, LSTM và GRU trong việc nắm bắt ngữ cảnh.

Trọng tâm của khóa học là kiến trúc Transformer đột phá, nền tảng của các mô hình ngôn ngữ lớn hiện đại. Bạn sẽ không chỉ học về lý thuyết mà còn được thực hành chuyên sâu với hệ sinh thái Hugging Face. Thông qua các bài thực hành và đồ án cuối khóa, bạn sẽ thành thạo kỹ năng tinh chỉnh (fine-tune) các mô hình mạnh mẽ như BERT và PhoBERT để giải quyết những bài toán thực tế như phân loại văn bản, phân tích cảm xúc, và tự tin xây dựng một ứng dụng NLP hoàn chỉnh.

Thời lượng: 24h

Hình thức đào tạo:

    • Đào tạo trực tiếp tại lớp học
    • Đào tạo trực tuyến
    • Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
    • Đào tạo tại văn phòng khách hàng

Mục tiêu khoá học:

  1. NẮM VỮNG BIỂU DIỄN NGÔN NGỮ
    Thành thạo các kỹ thuật từ biểu diễn thưa (Bag-of-Words, TF-IDF) đến biểu diễn dày đặc và có ngữ nghĩa sâu sắc như Word2Vec và GloVe.
  2. LÀM CHỦ CÁC MÔ HÌNH TUẦN TỰ
    Hiểu rõ nguyên lý hoạt động, ưu nhược điểm của RNN và cách các kiến trúc như LSTM, GRU giải quyết vấn đề ghi nhớ ngữ cảnh dài hạn.
  3. HIỂU SÂU KIẾN TRÚC TRANSFORMER
    Giải mã cơ chế Self-Attention đột phá và nắm vững các thành phần cốt lõi tạo nên sức mạnh của kiến trúc Transformer hiện đại.
  4. THÀNH THẠO FINE-TUNE VỚI HUGGING FACE
    Sử dụng chuyên nghiệp hệ sinh thái Hugging Face để tải, tinh chỉnh và huấn luyện các mô hình ngôn ngữ lớn như BERT cho tác vụ cụ thể.
  5. XÂY DỰNG ỨNG DỤNG NLP TOÀN DIỆN
    Hoàn thành một dự án thực tế từ khâu thu thập, tiền xử lý dữ liệu, huấn luyện, đánh giá mô hình và trình bày kết quả một cách chuyên nghiệp.

Đối tượng tham gia

Nội dung khóa học

1. Tiền xử lý và Biểu diễn Ngôn ngữ
    • Nền tảng Tiền xử lý Văn bản:
      • Quy trình làm sạch dữ liệu: chuyển chữ thường, loại bỏ ký tự đặc biệt, xử lý Stop Words.
      • Các phương pháp Tokenization: từ tách từ cơ bản đến Byte-Pair Encoding (BPE) và WordPiece.
    • Các Kỹ thuật Biểu diễn Vector Thưa:
      • Nguyên lý mô hình “Túi từ” (Bag-of-Words).
      • Cải tiến với trọng số TF-IDF để đánh giá tầm quan trọng của từ.
    • Word Embeddings – Biểu diễn Vector Dày đặc:
      • Tìm hiểu kiến trúc Word2Vec: các mô hình CBOW và Skip-gram.
      • Giới thiệu và so sánh với mô hình GloVe.
2. Các Mô hình Tuần tự và Nền tảng Ngữ cảnh
    • Giới thiệu Mạng Nơ-ron Hồi quy (RNN):
      • Phân tích cấu trúc cốt lõi và luồng hoạt động của RNN.
      • Hiểu rõ vấn đề Biến mất/Bùng nổ Gradient (Vanishing/Exploding Gradients).
    • Kiến trúc Cổng cho Bộ nhớ Dài hạn:
      • Giải mã kiến trúc LSTM và vai trò của các cổng thông minh (Forget, Input, Output).
      • Tìm hiểu GRU – một kiến trúc tinh gọn và hiệu quả hơn.
3. Cuộc cách mạng Transformer
    • Cơ chế Tự chú ý (Self-Attention Mechanism):
      • Nền tảng đột phá: vai trò của Query, Key, và Value trong việc nắm bắt ngữ cảnh.
      • Trực quan hóa cách Self-Attention tính toán sự liên quan giữa các từ trong câu.
    • Giải mã Kiến trúc Transformer:
      • Phân tích các thành phần chính: Multi-Head Attention, Positional Encoding, Feed-Forward Networks.
      • Tìm hiểu cấu trúc Encoder-Decoder toàn diện và các biến thể của nó.
4. Thực hành Fine-tuning với Hệ sinh thái Hugging Face
    • Khám phá Hệ sinh thái Hugging Face:
      • Giới thiệu thư viện transformers, datasets, và tokenizers.
      • Tìm hiểu và lựa chọn các mô hình đã được huấn luyện sẵn (Pre-trained Models) như BERT, PhoBERT.
    • Quy trình Fine-tuning Chuyên sâu:
      • Tải mô hình và tokenizer từ Hugging Face Hub.
      • Chuẩn bị và token hóa bộ dữ liệu của riêng mình một cách hiệu quả.
      • Sử dụng TrainingArguments và lớp Trainer để tự động hóa và tối ưu quá trình huấn luyện.
5. Bài thực hành cuối khoá
    • Xây dựng Pipeline NLP từ đầu đến cuối:
      • Lựa chọn bài toán thực tế: Phân loại văn bản hoặc Phân tích cảm xúc.
      • Thực hành tiền xử lý và biểu diễn văn bản bằng các kỹ thuật đã học.
    • Huấn luyện và Tinh chỉnh Mô hình:
      • Lựa chọn mô hình phù hợp: mô hình tuần tự (LSTM/GRU) hoặc fine-tune Transformer.
      • Thực hiện quá trình huấn luyện và tinh chỉnh trên bộ dữ liệu của dự án.
    • Đánh giá và Trình bày Kết quả:
      • Phân tích các chỉ số đo lường hiệu suất (Accuracy, Precision, Recall, F1-score).
      • Trực quan hóa kết quả bằng biểu đồ và xây dựng demo cho ứng dụng.

LỊCH KHAI GIẢNG

(Đang cập nhật)

Bài viết liên quan