Mục Lục
I. Giới Thiệu
II. Các cơ chế phát hiện chính
1. Phát hiện dựa trên chữ ký (Signature-based Detection)
2. Phát hiện dựa trên bất thường (Anomaly-based Detection)
3. Phân tích giao thức (Stateful Protocol Analysis)
4. Phát hiện dựa trên hành vi (Behavior-based Detection)
5. Phát hiện dựa trên học máy (Machine Learning-based Detection)
III. Sự kết hợp các cơ chế phát hiện (Hybrid Approaches)
IV. Thách thức trong việc phát hiện tấn công
I. Giới Thiệu
Chào các bạn, tiếp nối bài viết đầu tiên "[Lý thuyết] #1: Tìm hiểu khái niệm IDS/IPS", chúng ta đã hiểu được rằng IDS (Intrusion Detection System) và IPS (Intrusion Prevention System) là những công cụ thiết yếu trong việc giám sát và bảo vệ hệ thống mạng khỏi các mối đe dọa. Tuy nhiên, một câu hỏi lớn được đặt ra là: Làm sao chúng biết được đâu là hành vi tấn công?Trong bài viết này, chúng ta sẽ cùng tìm hiểu về các cơ chế cốt lõi mà IDS/IPS và các công cụ bảo mật hiện đại sử dụng để phát hiện các hành vi nguy hiểm, từ đó giúp chúng ta hiểu sâu hơn cách thức hoạt động của chúng và cũng là nền tảng quan trọng cho bất kỳ ai đang học và làm việc trong lĩnh vực an toàn thông tin.
II. Các cơ chế phát hiện chính
1. Phát hiện dựa trên chữ ký (Signature-based Detection)

Nguyên lý hoạt động:
Cơ chế này hoạt động tương tự như quét virus: nó so sánh lưu lượng mạng, log hệ thống hoặc hành vi với một cơ sở dữ liệu chứa các mẫu tấn công đã biết (gọi là chữ ký).
Ví dụ: Một mẫu chữ ký có thể là:
- Một chuỗi byte đặc trưng của mã độc.
- Câu lệnh SQL thường dùng trong SQL Injection (ví dụ: OR 1=1 --).
- Gói tin với cấu trúc trùng với một khai thác cụ thể.


Nhược điểm:


Tóm lại: Signature-based rất phù hợp để ngăn chặn các mối đe dọa phổ biến nhưng không đủ để đối phó với các chiêu trò tấn công mới lạ.
2. Phát hiện dựa trên bất thường (Anomaly-based Detection)

Nguyên lý hoạt động:
Cơ chế này xây dựng một “chuẩn hành vi bình thường” của hệ thống hoặc người dùng, sau đó phát hiện các hoạt động lệch chuẩn.
Quy trình cơ bản:
- Thu thập dữ liệu trong thời gian “bình thường”.
- Tạo mô hình chuẩn (baseline): lưu lượng, tần suất truy cập, IP thường dùng, v.v.
- So sánh với dữ liệu hiện tại để tìm ra hành vi bất thường.
Một người dùng nội bộ bỗng nhiên gửi lượng lớn dữ liệu ra ngoài giờ làm việc.
Một thiết bị bắt đầu giao tiếp với máy chủ lạ ở nước ngoài.
Ưu điểm:


Nhược điểm:



Biến thể:
- Phân tích thống kê.
- Áp dụng machine learning để tự học và phát hiện nâng cao.
3. Phân tích giao thức (Stateful Protocol Analysis)

Nguyên lý hoạt động:
Hệ thống hiểu rõ cách hoạt động hợp lệ của một giao thức mạng (như TCP, HTTP, DNS...) và sẽ phát hiện khi có vi phạm nguyên tắc giao tiếp.
Ví dụ:
- Một gói HTTP chứa phương thức không hợp lệ.
- Gói TCP có cờ bất thường (flag combination không đúng).
- Trình tự kết nối TCP không đúng chuẩn 3 bước (3-way handshake).


Nhược điểm:


4. Phát hiện dựa trên hành vi (Behavior-based Detection)
Nguyên lý hoạt động:Không chỉ quan tâm đến bất thường trong lưu lượng, mà tập trung vào hành vi của thực thể (người dùng, ứng dụng, máy chủ) và đánh giá xem ai đang làm gì, có hợp lý hay không.
Ví dụ:
- Tài khoản nhân viên truy cập hệ thống từ nước ngoài rồi tải dữ liệu mật.
- Một ứng dụng thông thường bắt đầu sửa đổi tập tin hệ thống.
- Anomaly → “Việc này bất thường”.
- Behavior-based → “Người này làm điều bất thường”.


Nhược điểm:


5. Phát hiện dựa trên học máy (Machine Learning-based Detection)
Trong bối cảnh tấn công mạng ngày càng tinh vi, các phương pháp truyền thống như chữ ký hay bất thường có thể chưa đủ nhanh nhạy để phản ứng với các mối đe dọa mới. Đây là lúc học máy (machine learning) trở thành một công cụ hỗ trợ đắc lực cho việc phát hiện tấn công.Nguyên lý hoạt động:
Phương pháp này sử dụng thuật toán học máy để học từ dữ liệu mạng (traffic, log, hành vi người dùng...) và phát hiện ra các mẫu bất thường có thể là dấu hiệu của tấn công. Có 3 hướng tiếp cận chính:
- Giám sát (Supervised Learning): Hệ thống học từ tập dữ liệu đã gán nhãn (ví dụ: "tốt" hoặc "xấu"). Ví dụ: Phân loại một gói tin là “tấn công DDoS” hay “truy cập bình thường”.
- Không giám sát (Unsupervised Learning): Hệ thống tự tìm ra các nhóm hành vi bất thường mà không cần gán nhãn trước. Phù hợp để phát hiện zero-day hoặc mối đe dọa chưa từng biết.
- Bán giám sát (Semi-supervised): Kết hợp giữa có nhãn và không nhãn để cải thiện độ chính xác.
Một mô hình học máy được huấn luyện để nhận diện hành vi “scan port” từ log truy cập. Khi có người dùng gửi nhiều gói TCP SYN đến các cổng khác nhau trên nhiều IP, hệ thống sẽ đánh dấu hành vi này là bất thường dù chưa từng có chữ ký nào mô tả nó.
Ưu điểm:



Nhược điểm:




III. Sự kết hợp các cơ chế phát hiện (Hybrid Approaches)

Kết hợp nhiều cơ chế: Càng nhiều lớp, càng an toàn
Trong thực tế, không có cơ chế nào hoàn hảo một mình. Các hệ thống bảo mật hiện đại thường sử dụng phương pháp kết hợp (Hybrid Detection):
- Signature-based giúp phát hiện nhanh mối đe dọa đã biết.
- Anomaly-based và behavior-based giúp phát hiện mối đe dọa chưa biết.
- Protocol analysis bổ sung chiều sâu kỹ thuật để bắt các kỹ thuật lén lút.
IV. Thách thức trong việc phát hiện tấn công
- Báo động giả (False Positives): gây phiền toái và tốn công sức điều tra.
- Bỏ sót (False Negatives): nguy hiểm vì tấn công xảy ra mà không ai hay.
- Tấn công né tránh: hacker dùng kỹ thuật mã hóa, chia nhỏ dữ liệu (fragmentation), thay đổi mẫu tấn công.
- Khối lượng dữ liệu khổng lồ: dễ gây quá tải cảnh báo (alert fatigue) cho đội ngũ SOC.
- Cần tinh chỉnh liên tục: để giảm nhiễu, tăng chính xác.
Kết luận
- Việc phát hiện tấn công không đơn giản chỉ là tìm “virus” hay “mẫu độc hại”, mà là một quá trình tinh vi, đa chiều, cần kết hợp nhiều phương pháp.
- Hiểu rõ cơ chế phát hiện giúp bạn lựa chọn công cụ phù hợp, phân tích log hiệu quả hơn và xây dựng chiến lược bảo vệ mạng một cách chủ động.
- Trong bối cảnh tấn công ngày càng tinh vi, việc nắm vững các cơ chế này là bước đầu tiên để trở thành một chuyên gia phòng thủ mạng thực thụ.
Sửa lần cuối:
Bài viết liên quan
Được quan tâm
Bài viết mới