SIEM/Log Management LÀM GIÀU DỮ LIỆU ENRICHMENT VÀ LỌC NHIỄU FILTERING BẰNG INGEST PIPELINE

Nguyễn Hoàng Phúc · Lúc 12:50:52, Thứ ba

Trong bối cảnh giám sát an ninh mạng (SOC), dữ liệu thô thường thiếu ngữ cảnh và chứa quá nhiều "tiếng ồn" (log rác). Mục tiêu của task này là xây dựng một hệ thống xử lý tự động để: Nhận diện vị trí địa lý kẻ tấn công, đối chiếu IP với danh sách đen (Blacklist), đánh dấu cảnh báo và loại bỏ hoàn toàn các log không cần thiết.

1. Xử lý giới hạn kỹ thuật và Lên giải pháp

Trong quá trình triển khai, khi sử dụng tính năng Enrich Processor thông thường (_enrich/policy), hệ thống OpenSearch mã nguồn mở trả về lỗi no handler found for uri

Nguyên nhân là do bộ API _enrich thuộc phiên bản đóng gói riêng (X-Pack) của Elastic và đã bị lược bỏ trên bản OpenSearch OSS hiện tại. Để giải quyết, tôi đã áp dụng tư duy kỹ thuật linh hoạt: Sử dụng Script Processor (ngôn ngữ Painless) để tự viết logic đối chiếu IP Blacklist, thay thế hoàn toàn cho Enrich Processor mà vẫn đảm bảo 100% mục tiêu của bài toán.

2. Cấu hình Pipeline đa luồng

Tôi đã tạo một Pipeline mang tên enrich-and-filter-pipeline thông qua Dev Tools với 5 bước xử lý tuần tự cực kỳ chặt chẽ:

Drop Processor: Quét trường message, nếu phát hiện từ khóa DEBUG -> Xóa bỏ ngay lập tức để tiết kiệm không gian lưu trữ (Noise Reduction).
GeoIP Processor: Lấy IP từ source.ip để dịch ra thông tin quốc gia, châu lục, tọa độ địa lý.
Script Processor (Threat Intel): Duyệt IP qua mảng danh sách đen tự định nghĩa. Nếu khớp, tự động gán nhãn là mã độc (botnet, malicious: true).
Script Processor (Truncate): Giới hạn độ dài trường message. Nếu dài quá 100 ký tự, tiến hành cắt gọt và thêm tiền tố [TRUNCATED].
Append Processor: Dựa vào kết quả bước 3, nếu đúng là mã độc, tự động đính kèm thẻ (Tag) DANGER và MALICIOUS_IP để phục vụ việc kích hoạt cảnh báo (Alert).

3. Kết quả thử nghiệm (Simulation)

Để chứng minh tính hiệu quả, tôi đã dùng lệnh POST _simulate để thử nghiệm đồng thời 2 luồng dữ liệu: một luồng chứa IP độc hại (tấn công Brute Force) và một luồng chứa log hệ thống bình thường (DEBUG).

Phân tích kết quả:

Với luồng log rác (Document 2): Hệ thống trả về null (Dòng 35), chứng tỏ log đã bị DROP thành công ngay từ vòng "gửi xe".
Với luồng log tấn công (Document 1): Hệ thống đã thực hiện một màn "lột xác" dữ liệu ngoạn mục:
- Xác định được tọa độ kẻ tấn công đến từ Hong Kong (Asia).
- Cảnh báo Threat Intel kích hoạt: is_malicious: true.
- Thông báo quá dài đã được cắt gọn gàng với nhãn ...[TRUNCATED].
- Cảnh báo đỏ đã được gắn: "tags": ["DANGER", "MALICIOUS_IP"].

4. Kết luận

Task cấu hình này là minh chứng rõ rệt nhất cho sức mạnh của OpenSearch Ingest Pipeline. Chúng ta đã chuyển đổi thành công từ việc "Lưu trữ thụ động" sang "Xử lý chủ động". Dữ liệu đi vào Index giờ đây không chỉ siêu "sạch" (đã lọc rác) mà còn cực kỳ "giàu có" (đầy đủ ngữ cảnh tọa độ, mức độ nguy hiểm) sẵn sàng cho mọi truy vấn bảo mật phức tạp nhất.

SIEM/Log Management LÀM GIÀU DỮ LIỆU ENRICHMENT VÀ LỌC NHIỄU FILTERING BẰNG INGEST PIPELINE

Nguyễn Hoàng Phúc

Intern

1. Xử lý giới hạn kỹ thuật và Lên giải pháp​

2. Cấu hình Pipeline đa luồng​

3. Kết quả thử nghiệm (Simulation)​

4. Kết luận​

1. Xử lý giới hạn kỹ thuật và Lên giải pháp

2. Cấu hình Pipeline đa luồng

3. Kết quả thử nghiệm (Simulation)

4. Kết luận