Bài 0: Xây dựng một hệ thống giám sát toàn diện thực tế (bài giảng quan trọng)
Nội dung
Lời nói đầu
Chào mọi người, mình là Chung. Hiện đang là System Engineer tại một công ty phần mềm lớn thuộc top tại Việt Nam. Bản thân mình đi theo hướng DevSecOps với những năm kinh nghiệm trong ngành nên cũng đã đúc kết được nhiều kiến thức thực tế và đây là profile của mình https://github.com/lucthienphong1120.
Hôm nay mình muốn chia sẻ với khán giả của devopsedu.vn một nội dung khá được nhiều người quan tâm, đó là:
“Xây dựng một hệ thống giám sát toàn diện thực tế“.
Đây là một phần trong các hệ thống thực tế mà chắc chắn mọi doanh nghiệp vừa và lớn đều quan tâm. Hiểu được và có thể xây dựng kiến trúc một hệ thống giám sát cho công ty sẽ là một điểm cộng rất lớn và là một phần kiến thức đáng giá trong CV.
Mình cũng là một Blogger và cũng chia sẻ kiến thức về Lập trình, Security, Networking và mọi người hay biết mình với tên Thiên Phong. Mọi thắc mắc về nội dung trong series, mọi người có thể gửi về cho mình qua email info@crfnetwork.com. Cảm ơn các bạn đã quan tâm. Sau đây là nội dung và những gì các bạn “chắc chắn” sẽ nắm được trong Series này.
*Lưu ý:
Vì đây là một vấn đề liên quan đến thông tin, cần có dữ liệu thực tế nên mọi nội dung trong Series mình sẽ Lab bám sát với tư duy thực tế mà doanh nghiệp đang triển khai.
Trong Series này mình sẽ hướng tới đối tượng từ người chưa biết gì cũng có thể làm quen đến luồng tư duy triển khai và mô hình hệ thống để bạn có thể áp dụng với mọi hệ thống.
Kết quả đạt được sau Series là tư duy và cách triển khai cấu hình cũng như kiến trúc hệ thống, đây mới là giá trị cốt lõi mình muốn hướng tới cho mọi người. Từ đó có thể đưa vào triển khai với bất kỳ công cụ IaC nào.
Nội dung series
Bài 1: Bức tranh toàn cảnh về Monitoring System
Tóm tắt: Giới thiệu tổng quan về giám sát nói chung và các công cụ giám sát hạ tầng thực tế đang được các doanh nghiệp sử dụng. Đánh giá ưu, nhược điểm của từng công cụ phù hợp với từng nhu cầu bài toán thực tế. Phương án và hướng tiếp cận để triển khai một hệ thống giám sát được coi là toàn diện.
Bài 2: Khám Phá PNG Stack – Prometheus và các Exporter
Tóm tắt: Giới thiệu tổng quan về PNG Stack (Prometheus, Node Exporter, Grafana) và phân tích sự khác biệt của nó so với các công cụ giám sát khác. Bài viết cũng sẽ hướng dẫn cách tích hợp các thành phần trong PNG Stack để thu thập và hiển thị dữ liệu TSDB.
Bài 3: Khám Phá PNG Stack – Xử lý luồng cảnh báo với Alertmanager
Tóm tắt: Giới thiệu về Alertmanager, tập trung vào cách thức hoạt động của hệ thống cảnh báo, các khái niệm quan trọng như Grouping, Inhibition, và Silences. Tạo thông báo từ alert gửi cho quản trị viên qua các kênh liên lạc và định dạng Template tin nhắn.
Bài 4: Khám Phá PNG Stack – Trực quan dữ liệu với Grafana
Tóm tắt: Giới thiệu về Grafana công cụ để trực quan hóa dữ liệu. Cách tích hợp dữ liệu từ Prometheus về Grafana và sử dụng biểu đồ từ cộng đồng. Một số dạng biểu đồ trong Grafana, tạo mẫu biểu đồ tái sử dụng.
Bài 5: Tìm Hiểu Kiến Trúc Docker Stack và NFS Cluster
Tóm tắt: Khám phá kiến trúc Docker Swarm và NFS Cluster, tập trung vào khả năng High Availability và Failover. Bài viết sẽ giới thiệu cách thiết kế và triển khai hệ thống với tính năng chịu lỗi cao.
Bài 6: Use case: Phân Tích Đặc Tả Hệ Thống và Phương Án Triển Khai
Tóm tắt: Đánh giá và phân tích hệ thống hiện tại, từ đó đề xuất phương án triển khai hiệu quả. Bài viết sẽ hướng dẫn cách tiếp cận từ việc đánh giá hệ thống đến triển khai thực tế.
Bài 7: Thực nghiệm: Cài Đặt Hệ Thống Giám Sát và Các thành phần cốt lõi
Tóm tắt: Thực hành cấu hình hệ thống giám sát từ Docker, từ bước khởi tạo các thành phần đến chi tiết cấu hình. Dựng hoàn chỉnh các thành phần chính trong kiến trúc giám sát như Prometheus, Grafana, Alertmanager và cấu hình từ IaC.
Bài 8: Thực nghiệm: Xây dựng các thành phần Exporter thu thập dữ liệu
Tóm tắt: Giới thiệu các loại Exporter phổ biến và cách chúng thu thập dữ liệu. Xây dựng kiến trúc Exporter trong mô hình giám sát và giao tiếp bên ngoài để lấy metrics. Hướng dẫn cài đặt một số Exporter ngoại vi.
Bài 9: Thực nghiệm: Thiết kế hệ thống Dashboard và Alert chi tiết
Tóm tắt: Đưa ra hướng tiếp cận để lên phương án triển khai, thiết kế hệ thống biểu đồ và cảnh báo sớm. Giải thích về cách sắp xếp thư mục, phân quyền Dashboard theo user và hướng tích hợp API. Cách viết Rules nhận diện và luồng hoạt động của cảnh báo cũng như cú pháp Template thông báo chi tiết.
Bài 10: Kết Luận và Định Hướng Phát Triển
Tóm tắt: Tổng kết các nội dung đã triển khai, đánh giá hiệu quả của các giải pháp, và đề xuất các định hướng phát triển trong tương lai. Đưa ra hướng tiếp cận để tạo một Custom Exporter của riêng mình và cách xử lý điều hướng luồng dữ liệu về dạng Time-series DB.
Bài 11 (Bonus): Tạo Telegram Bot tùy chỉnh để Quản Lý Hệ Thống tự động
Tóm tắt: Giới thiệu quản trị hệ thống từ xa qua Telegram Bot – trợ lý đắc lực của quản trị vận hành hệ thống. Hướng dẫn tạo Bot trong Telegram và lập trình điều khiển Bot thực hiện hành động theo ý muốn. Ví dụ tích hợp tương tác với Prometheus và Alertmanager để truy vấn thông tin về thông số và cảnh báo. Các biện pháp bảo mật cho Telegram Bot
Bài 12 (Bonus): Kỹ thuật sử dụng PromQL và Grafana để vẽ mọi biểu đồ mong muốn
Tóm tắt: Hướng dẫn sử dụng Prometheus Query Language để truy vấn dữ liệu từ Time-series database. Hướng dẫn tạo một số dạng biểu đồ phổ biến và tùy chỉnh Grafana. Một số kĩ thuật để xử lý gộp dữ liệu từ nhiều metrics.
Tổng kết
Qua series này, chúng ta sẽ cùng nhau đi qua từng bước để xây dựng một hệ thống giám sát hoàn chỉnh, từ lý thuyết đến thực hành, từ lựa chọn công cụ đến triển khai thực tế. Mỗi bài viết không chỉ cung cấp kiến thức nền tảng mà còn mang đến những ví dụ cụ thể và hướng dẫn chi tiết, giúp bạn có thể áp dụng vào hệ thống của mình một cách hợp lý.
Hy vọng rằng series này sẽ mang đến cho bạn những kiến thức hữu ích và có thể áp dụng ngay vào công việc thực tế. Việc giám sát hệ thống không chỉ là nhiệm vụ kỹ thuật mà còn là yếu tố quan trọng giúp bảo đảm hoạt động ổn định và hiệu quả của doanh nghiệp.
*Và thực sự đây đều là kiến thức thực tế mà rất ít người muốn chia sẻ, có những công ty lớn mình biết họ có cả một đội ngũ để xây dựng kiến trúc này. Thậm chí nhiều phần các bạn search google có thể cũng không tìm được. Thực tế đến thời điểm viết bài thì các bài viết về monitoring system trong nước và quốc tế đều đã outdate từ 2018-2021 trên google rất ít thông tin mới nhất.
Quá hay a Mạnh.