RobustX / Chương trình học / Chuyên đề / Phân tích dữ liệu (Data Analytics) / Phân tích & Khai phá dữ liệu với Python

Phân tích & Khai phá dữ liệu với Python

Nếu SQL cho bạn khả năng truy vấn dữ liệu, thì Python sẽ trao cho bạn sức mạnh để thực sự khai phá và kể những câu chuyện đằng sau những con số đó. Khóa học này được thiết kế để trở thành trụ cột kỹ năng thứ hai và không thể thiếu của một Chuyên viên Phân tích Dữ liệu hiện đại.

Chương trình sẽ đưa bạn vào trung tâm của hệ sinh thái phân tích dữ liệu Python, xoay quanh bộ ba quyền lực: PandasMatplotlib, và Seaborn. Bạn sẽ học cách sử dụng Pandas như một công cụ vạn năng để làm sạch, tái cấu trúc, và tổng hợp bất kỳ bộ dữ liệu nào. Tiếp theo, bạn sẽ khám phá sức mạnh của Matplotlib và Seaborn để tạo ra những biểu đồ trực quan, từ các biểu đồ cơ bản đến các dạng biểu đồ thống kê chuyên sâu, giúp bạn “nhìn thấy” những insight mà mắt thường không thể nhận ra.

Trên hết, bạn sẽ được học cách áp dụng một quy trình Phân tích Dữ liệu Khám phá (EDA) một cách bài bản và có hệ thống. Bạn sẽ học cách tư duy như một “thám tử dữ liệu”: đặt câu hỏi, kiểm tra giả thuyết, và để dữ liệu dẫn dắt câu chuyện.

Thời lượng: 39h

Hình thức đào tạo:

    • Đào tạo trực tiếp tại lớp học
    • Đào tạo trực tuyến
    • Đào tạo hybrid (trực tuyến kết hợp trực tiếp)
    • Đào tạo tại văn phòng khách hàng

KẾT QUẢ ĐẠT ĐƯỢC:

  1. THÀNH THẠO THAO TÁC DỮ LIỆU NÂNG CAO VỚI PANDAS
    Làm chủ các hàm nâng cao để tổng hợp và tái cấu trúc dữ liệu theo bất kỳ yêu cầu phân tích nào.
  2. TRỰC QUAN HÓA DỮ LIỆU CHUYÊN SÂU
    Sử dụng thành thạo Matplotlib và Seaborn để tạo và diễn giải các biểu đồ phức tạp để khám phá các mối quan hệ ẩn trong dữ liệu.
  3. PHÂN TÍCH TƯƠNG QUAN ĐA BIẾN
    Biết cách định lượng và trực quan hóa các mối quan hệ giữa nhiều biến số để giải quyết vấn đề cần phân tích.
  4. NẮM VỮNG QUY TRÌNH PHÂN TÍCH DỮ LIỆU KHÁM PHÁ (EDA)
    Có khả năng thực hiện một quy trình EDA một cách có hệ thống: từ việc đặt câu hỏi, làm sạch, phân tích đơn biến, đa biến.
  5. KẾT HỢP VÀ LÀM GIÀU DỮ LIỆU TỪ NHIỀU NGUỒN
    Có khả năng kết hợp các bộ dữ liệu từ nhiều file hoặc nguồn khác nhau, làm giàu thông tin để tạo ra một góc nhìn phân tích toàn diện hơn.

Đối tượng tham gia

Nội dung khóa học

1. Làm quen với Pandas và Thao tác Dữ liệu Cơ bản
    • Giới thiệu Pandas và hệ sinh thái Python cho phân tích dữ liệu:
      • Vai trò của Pandas trong quy trình phân tích hiện đại; sức mạnh và sự tiện dụng so với Excel.
      • Làm quen với các đối tượng chính: DataFrame, Series.
    • Đọc và ghi dữ liệu:
      • Thực hành đọc file CSV, Excel vào DataFrame.
      • Xuất kết quả phân tích ra file mới, chia sẻ cho đồng nghiệp.
    • Truy xuất, chọn lọc dữ liệu:
      • Xem nhanh nội dung và cấu trúc dữ liệu với head(), info(), describe().
      • Lựa chọn hàng/cột với các phương thức loc, iloc, at, iat.
    • Làm sạch dữ liệu:
      • Lọc, sắp xếp dữ liệu; thay đổi index theo nhu cầu.
      • Xử lý dữ liệu thiếu (dropna, fillna), đổi kiểu dữ liệu, chuẩn hóa cột.
    • Thực hành:
      • Đọc một bộ dữ liệu thực tế, truy xuất thông tin, lọc/sắp xếp, xuất dữ liệu ra file kết quả.
2. Kỹ thuật Tổng hợp Dữ liệu Nâng cao
    • Split-Apply-Combine với groupby():
      • Tổng hợp dữ liệu theo nhóm (theo khách hàng, vùng miền, sản phẩm…).
      • Ứng dụng thực tế: đếm số lượng, tính trung bình, tổng doanh số…
    • .agg() – tổng hợp đa hàm:
      • Áp dụng nhiều hàm tổng hợp (mean, sum, min, max…) đồng thời trên các nhóm.
    • .transform() và logic tuỳ chỉnh:
      • Thực hiện phép tính trên nhóm và trả về kết quả cùng kích thước với DataFrame gốc.
      • Ứng dụng lambda function để tạo các logic tổng hợp đặc thù.
    • Thực hành:
      • Tổng hợp doanh số, số lượng khách hàng theo nhóm, tự xây dựng chỉ số phân tích.
3. Tái cấu trúc và Định hình lại Dữ liệu
    • Dữ liệu dạng rộng (“wide”) và dài (“long”):
      • Hiểu sự khác biệt, biết khi nào chọn mỗi dạng cho từng phân tích/báo cáo.
    • pivot_table() – tổng hợp và xoay chiều dữ liệu:
      • Từ dữ liệu giao dịch về từng khách hàng thành bảng tổng hợp theo thời gian, sản phẩm…
    • melt() – chuyển đổi rộng <-> dài:
      • Chuẩn bị dữ liệu cho vẽ biểu đồ, nhập vào công cụ BI hoặc trực quan hóa.
    • stack(), unstack() – chỉ mục đa cấp (MultiIndex):
      • Làm việc với dữ liệu dạng phân cấp, tạo bảng báo cáo nâng cao.
    • Thực hành:
      • Tái cấu trúc dữ liệu bán hàng/thời tiết/thống kê từ dạng raw thành bảng phân tích.
4. Trực quan hóa Dữ liệu Chuyên sâu
    • Phân tích đơn biến:
      • Vẽ histplot, kdeplot để hiểu phân phối của biến số, nhận diện outlier với boxplot/violinplot.
    • Phân tích đa biến:
      • scatterplot, regplot – phát hiện quan hệ tuyến tính giữa 2 biến.
      • heatmap – trực quan hóa ma trận tương quan giữa nhiều biến.
      • pairplot – “scan” toàn bộ mối liên hệ giữa các cặp biến số.
    • Tuỳ biến và thẩm mỹ biểu đồ:
      • Chỉnh màu, marker, chú thích, đường xu hướng.
      • Nguyên tắc chọn loại biểu đồ và kể “câu chuyện” bằng hình ảnh.
    • Thực hành:
      • Phân tích điểm bất thường, xác định biến ảnh hưởng lớn nhất đến kết quả kinh doanh/bán hàng.
5. Quy trình Phân tích Dữ liệu Khám phá (EDA)
    • Quy trình EDA :
      • Đặt câu hỏi phân tích, xác định mục tiêu.
      • Thu thập & làm sạch dữ liệu (Data Cleaning & Preparation).
      • Phân tích đơn biến (Univariate), đa biến (Multivariate).
      • Tổng hợp insight, kết luận và đề xuất bước tiếp theo.
6. BÀI THỰC HÀNH CUỐI KHÓA

Phân tích Khám phá Toàn diện Bộ dữ liệu về Bất động sản

    • Yêu cầu:
      • Làm sạch dữ liệu: Từ một bộ dữ liệu về giá nhà, xử lý các giá trị thiếu, kiểm tra và xử lý các giá trị ngoại lai.
      • Thao tác nâng cao: Sử dụng groupby()pivot_table() để trả lời các câu hỏi như: “Giá nhà trung bình theo từng khu vực và số lượng phòng ngủ là bao nhiêu?”.
      • Trực quan hóa & Phân tích:
        • Vẽ histplotboxplot để xem phân phối của giá nhà và diện tích.
        • Vẽ heatmap để xem xét mối tương quan giữa các yếu tố như diện tích, số phòng ngủ, vị trí, và giá nhà.
        • Sử dụng scatterplot để trực quan hóa mối quan hệ giữa diện tích và giá nhà.
      • Tổng kết: Viết một bản tóm tắt các phát hiện chính từ quá trình EDA (ví dụ: các yếu tố nào có vẻ ảnh hưởng mạnh nhất đến giá nhà) và đề xuất các giả thuyết để kiểm định ở các bước sau.

LỊCH KHAI GIẢNG

(Đang cập nhật)

Bài viết liên quan