PHÂN TÍCH DỮ LIỆU VỚI R

Trong thế giới phân tích dữ liệu, R không chỉ là một ngôn ngữ lập trình – nó là một hệ sinh thái được xây dựng bởi các nhà thống kê, dành cho các nhà phân tích. Đây là công cụ hàng đầu trong giới nghiên cứu học thuật và là một thế lực mạnh mẽ trong các doanh nghiệp nhờ vào khả năng xử lý thống kê chuyên sâu và hệ thống trực quan hóa dữ liệu vượt trội. Khóa học này được thiết kế để đưa bạn vào thế giới của R, trang bị cho bạn một bộ công cụ toàn diện để khai phá dữ liệu một cách khoa học và hiệu quả.

Chương trình sẽ tập trung vào triết lý  tidyverse – một cách tiếp cận hiện đại, nhất quán và thanh lịch để làm việc với dữ liệu trong R. Bạn sẽ làm chủ các “động từ” xử lý dữ liệu mạnh mẽ của thư viện dplyr để làm sạch, biến đổi và tổng hợp dữ liệu một cách dễ dàng. Song song đó, bạn sẽ khám phá nghệ thuật trực quan hóa, học cách xây dựng các biểu đồ từ đơn giản đến phức tạp theo nguyên tắc “ngữ pháp của đồ họa”, giúp bạn tạo ra những hình ảnh không chỉ đẹp mắt mà còn giàu thông tin.

Thời lượng: 33h

Hình thức đào tạo:

    • Đào tạo trực tiếp tại lớp học
    • Đào tạo trực tuyến
    • Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
    • Đào tạo tại văn phòng khách hàng

KẾT QUẢ ĐẠT ĐƯỢC:

  1. HIỂU VAI TRÒ THỐNG KÊ TRONG KINH DOANH
    Nhận diện rõ vai trò của thống kê trong quá trình phân tích dữ liệu, xây dựng chỉ số KPI, đo lường, ra quyết định và tối ưu hóa vận hành.
  2. LÀM CHỦ CÁC PHƯƠNG PHÁP THỐNG KÊ CƠ BẢN – NÂNG CAO
    Thành thạo các kỹ thuật thống kê mô tả, kiểm định giả thuyết, phân tích tương quan, hồi quy dự báo và phân tích phương sai.
  3. PHÂN TÍCH MỐI LIÊN HỆ & DỰ BÁO KINH DOANH
    Biết cách nhận diện và định lượng mối liên hệ giữa các biến, ứng dụng hồi quy, chuỗi thời gian để dự báo kết quả kinh doanh
  4. TỰ TIN ỨNG DỤNG & DIỄN GIẢI SỐ LIỆU THỰC TẾ
    Áp dụng các phương pháp thống kê vào case study doanh nghiệp, thực hành với Excel, Python hoặc R; biết đọc hiểu báo cáo và giải thích kết quả.
  5. PHÁT TRIỂN KỸ NĂNG STORYTELLING VỚI DỮ LIỆU
    Biết cách trực quan hóa, trình bày và “kể chuyện” với số liệu – biến insight thành khuyến nghị hành động, phục vụ ra quyết định chiến lược.

Đối tượng tham gia

Nội dung khóa học

1. Làm quen với R và môi trường RStudio
    • Giới thiệu tổng quan về R và RStudio
      • Lịch sử phát triển, ưu điểm và các lĩnh vực ứng dụng của R.
      • Làm quen giao diện RStudio: Source, Console, Environment, Files…
    • Thiết lập môi trường làm việc
      • Hướng dẫn cài đặt R, RStudio, các thư viện cần thiết như tidyverse, ggplot2.
      • Quản lý workspace, mở/đóng project, tổ chức file và thư mục.
    • Thực hành thao tác cơ bản
      • Viết và chạy script, sử dụng console, quản lý file code.
      • Giới thiệu R Markdown: tạo và xuất báo cáo HTML/PDF.
2. Xử lý và làm sạch dữ liệu với tidyverse
    • Đọc dữ liệu từ nhiều nguồn
      • Đọc file CSV, Excel với readr, readxl.
      • Kết nối dữ liệu Google Sheets bằng googlesheets4.
    • Khám phá và kiểm tra dữ liệu
      • Xem cấu trúc dữ liệu (str, glimpse), kiểm tra missing values và duplicated.
      • Kiểm tra, chuyển đổi kiểu dữ liệu phù hợp: numeric, character, factor, date.
    • Tiền xử lý và biến đổi dữ liệu với dplyr
      • Lọc dòng (filter), chọn biến (select), sắp xếp (arrange).
      • Biến đổi (mutate), tổng hợp dữ liệu (summarise, group_by).
      • Xử lý missing values, loại bỏ/chuẩn hóa lỗi dữ liệu, gộp tách cột.
      • Làm việc với dữ liệu chuỗi (stringr), ngày tháng (lubridate).
3. Thống kê mô tả & trực quan hóa dữ liệu
    • Thống kê mô tả dữ liệu
      • Tính các chỉ số trung tâm: mean, median, mode.
      • Đo lường độ phân tán: min, max, variance, standard deviation, IQR.
    • Trực quan hóa dữ liệu với ggplot2
      • Vẽ biểu đồ cột, histogram, boxplot, scatterplot.
      • Tùy chỉnh màu sắc, nhãn, theme cho báo cáo chuyên nghiệp.
4. Phân tích mối quan hệ & kiểm định giả thuyết
    • Phân tích tương quan
      • Tính toán hệ số Pearson, Spearman, vẽ ma trận tương quan cho đa biến.
    • Kiểm định giả thuyết
      • Kiểm định trung bình (t-test), kiểm định nhiều nhóm (ANOVA).
      • Kiểm định tỷ lệ, kiểm định độc lập (Chi-square).
      • Ứng dụng kiểm định vào phân tích kinh doanh, đánh giá chiến dịch.
5. Mô hình hóa dữ liệu & dự báo bằng R
    • Xây dựng mô hình hồi quy tuyến tính
      • Hồi quy đơn, hồi quy đa biến (linear regression).
      • Đọc hiểu hệ số, kiểm định giả định mô hình, đánh giá chất lượng dự báo.
    • Dự báo chuỗi thời gian
      • Phân tích Time Series với forecast, tsibble.
      • Nhận diện xu hướng, yếu tố mùa vụ, dự báo nhu cầu.
    • Ứng dụng thực tế
      • Dự báo doanh số, phân tích yếu tố ảnh hưởng KPI, báo cáo cho lãnh đạo.
6. Báo cáo & storytelling với dữ liệu R
    • Xây dựng báo cáo tự động
      • Sử dụng R Markdown/Quarto kết hợp code – số liệu – hình ảnh.
    • Kỹ năng trình bày số liệu
      • Trình bày báo cáo, giải thích số liệu cho lãnh đạo, đối tác.
      • Xây dựng data storytelling, chọn lọc insight và đề xuất giải pháp.
7. BÀI THỰC HÀNH CUỐI KHÓA

Phân tích dữ liệu doanh nghiệp bằng R

    • Thực hiện dự án phân tích dữ liệu
      • Lựa chọn bộ dữ liệu thực tế (kinh doanh, marketing, tài chính, khảo sát…).
      • Thực hiện toàn bộ quy trình: làm sạch, mô tả, kiểm định, mô hình hóa, trực quan hóa, trình bày báo cáo.
    • Trình bày & nhận phản hồi
      • Báo cáo kết quả trước lớp/giảng viên, nhận góp ý, cải thiện kỹ năng teamwork và trình bày độc lập.

LỊCH KHAI GIẢNG

(Đang cập nhật)

Bài viết liên quan