Giám sát và Quan sát Hạ tầng với Prothemeus và Grafana

RobustX / Chương trình học / Vị trí công việc / DevOps Engineer / Giám sát và Quan sát Hạ tầng với Prothemeus và Grafana

Giám sát và Quan sát Hạ tầng với PROTHEmeus và grafana

Trong bối cảnh các hệ thống công nghệ ngày càng phức tạp, việc duy trì sự ổn định và hiệu suất đã trở thành ưu tiên hàng đầu. Khóa học này được thiết kế để trang bị cho bạn những năng lực cốt lõi trong việc xây dựng và quản trị một hệ thống Giám sát (Monitoring) và Quan sát (Observability) toàn diện, hai yếu tố sống còn đối với bất kỳ sản phẩm công nghệ hiện đại nào.

Chương trình học tập trung vào các công cụ mã nguồn mở mạnh mẽ và phổ biến nhất hiện nay. Bạn sẽ được thực hành chuyên sâu với Prometheus để thu thập số liệu, Grafana để xây dựng các dashboard trực quan, cùng các giải pháp quản lý log tập trung hàng đầu như ELK Stack và Loki. Khóa học sẽ đi từ lý thuyết nền tảng về ba trụ cột Metrics, Logs, Traces đến các kỹ thuật triển khai thực tế.

Sau khi hoàn thành, học viên sẽ tự tin làm chủ toàn bộ quy trình: từ thu thập dữ liệu, trực quan hóa, thiết lập cảnh báo thông minh cho đến phân tích và chẩn đoán các sự cố phức tạp. Đây là những kỹ năng không thể thiếu để nâng cao độ tin cậy của hệ thống và tối ưu hóa trải nghiệm người dùng.

Thời lượng: 24h

KẾT QUẢ ĐẠT ĐƯỢC

Nền tảng Giám sát & Quan sát

Phân biệt rõ các khái niệm cốt lõi, hiểu ba trụ cột Metrics, Logs, Traces và các nguyên tắc SRE để xây dựng hệ thống bền vững.

Làm chủ Metrics và Trực quan hoá

Sử dụng Prometheus và PromQL để thu thập, truy vấn số liệu; xây dựng các dashboard chuyên nghiệp và hữu ích trên Grafana.

Quản lý Log Tập trung Hiệu quả

Triển khai các giải pháp như ELK hoặc Loki để thu thập, phân tích và tìm kiếm log từ nhiều nguồn, nhanh chóng xác định nguyên nhân sự cố.

Xây dựng Hệ thống Cảnh báo Thông minh

Thiết kế và cấu hình quy tắc cảnh báo bằng Prometheus và Alertmanager, đảm bảo gửi cảnh báo kịp thời, chính xác và giảm thiểu nhiễu.

Áp dụng Quan sát cho Microservices

Nắm vững kỹ thuật Distributed Tracing và giám sát container để chẩn đoán các vấn đề hiệu năng phức tạp trong kiến trúc phân tán.

Yêu cầu tiên quyết:

- Có kinh nghiệm làm việc với Docker và các khái niệm container.
- Nắm vững kiến thức về hệ điều hành Linux, mạng máy tính và các tiến trình.
- Có khả năng đọc và hiểu các file cấu hình định dạng YAML.

Nội dung khóa học

1. Tổng quan về Monitoring & Observability

- Các khái niệm cốt lõi:
  - Phân biệt Giám sát (Monitoring) và Quan sát (Observability).
  - Phân tích ba trụ cột: Metrics, Logs, và Traces.
- Nguyên tắc SRE và mô hình thu thập:
  - Giới thiệu các chỉ số Golden Signals: Latency, Traffic, Errors, Saturation.
  - Tổng quan về SLOs (Service Level Objectives) và SLIs (Service Level Indicators).
  - So sánh hai mô hình thu thập dữ liệu: Push và Pull.

2. Thu thập và Phân tích Metrics với Prometheus

- Kiến trúc và Cài đặt Prometheus:
  - Tổng quan các thành phần: Prometheus Server, Exporters, Alertmanager.
  - Thực hành cài đặt và cấu hình Prometheus.
- Thu thập Metrics và Khám phá Dịch vụ:
  - Sử dụng Node Exporter để giám sát tài nguyên hệ thống.
  - Sử dụng cAdvisor để giám sát các chỉ số của container.
  - Cấu hình scrape_configs và các cơ chế khám phá mục tiêu (Target Discovery).
- Ngôn ngữ truy vấn PromQL:
  - Làm chủ các hàm và toán tử cơ bản: rate(), increase(), sum(), avg().
  - Thực hành các truy vấn nâng cao để phân tích và tổng hợp dữ liệu.

3. Trực quan hoá Dữ liệu với Grafana

- Khởi tạo và Tích hợp Grafana:
  - Cài đặt Grafana và kết nối với Prometheus làm nguồn dữ liệu (Data Source).
- Xây dựng Dashboard chuyên nghiệp:
  - Tìm hiểu các loại Panel và cách cấu hình Query.
  - Sử dụng Variables và Templates để tạo các dashboard linh hoạt.
  - Thực hành xây dựng dashboard giám sát hệ thống toàn diện (CPU, RAM, Disk, Network).
  - Khám phá và tùy biến các dashboard có sẵn từ cộng đồng.

4. Quản lý Log Tập trung

- Tổng quan các giải pháp Logging:
  - Kiến trúc và các thành phần của ELK Stack (Elasticsearch, Logstash, Kibana).
  - Kiến trúc và lợi thế của Loki, Promtail trong hệ sinh thái Grafana.
- Triển khai Thu thập Log:
  - Cấu hình Promtail/Filebeat để thu thập log từ file tĩnh và ứng dụng.
  - Cấu hình Docker log driver để chuyển tiếp log container tự động.
- Khai thác và Phân tích Log:
  - Thực hành tìm kiếm, lọc và phân tích log trên Kibana.
  - Sử dụng LogQL để truy vấn và trực quan hóa log trên Grafana.

5. Cảnh báo Nâng cao với Alertmanager

- Nguyên lý và Kiến trúc Cảnh báo:
  - Vai trò của Alertmanager trong hệ thống giám sát.
  - Định nghĩa các quy tắc cảnh báo (Alerting Rules) hiệu quả trong Prometheus.
- Cấu hình Alertmanager nâng cao:
  - Thiết lập Routing để định tuyến cảnh báo đến đúng nhóm phụ trách.
  - Sử dụng Grouping để nhóm các cảnh báo liên quan.
  - Cấu hình Inhibition và Silencing để triệt tiêu các cảnh báo không cần thiết.
- Tích hợp Kênh thông báo:
  - Thực hành tích hợp và gửi cảnh báo đến Slack, Email.

6. Quan sát Ứng dụng và Container

- Application Instrumentation:
  - Tìm hiểu khái niệm và tầm quan trọng của việc “instrument” code.
  - Thực hành expose các custom metrics từ ứng dụng (Python/Node.js) cho Prometheus.
- Giám sát sâu hơn trong Container:
  - Phân tích chi tiết các metrics do cAdvisor cung cấp.
  - Kết hợp metrics ứng dụng và metrics container để có cái nhìn toàn cảnh.

7. Giới thiệu về Distributed Tracing

- Nền tảng về Distributed Tracing:
  - Khái niệm Trace, Span và vai trò trong việc gỡ lỗi kiến trúc microservices.
- Hệ sinh thái OpenTelemetry:
  - Giới thiệu về tiêu chuẩn OpenTelemetry và các thành phần chính.
- Thực hành với Jaeger:
  - Triển khai Jaeger để thu thập và lưu trữ các trace.
  - Thực hành phân tích một chuỗi xử lý (trace chain) để xác định nút thắt cổ chai về hiệu năng.