Đánh giá hiệu suất dài hạn của các hệ thống phát hiện xâm nhập dựa trên học máy trong bối cảnh biến đổi theo thời gian và cấu trúc
DOI:
https://doi.org/10.65153/bw356376Từ khóa:
Hệ thống phát hiện xâm nhập, Học máy (ML), An ninh mạng, CIC-IDS2017, CSE-CIC-IDS2018, Bộ dữ liệu LUFlowTóm tắt
Mặc dù Machine Learning (ML) đã nâng cao hiệu quả của các hệ thống phát hiện xâm nhập (IDS), việc kiểm chứng độ tin cậy dài hạn của chúng vẫn là một thách thức. Các quy trình chuẩn, vốn thường kiểm thử mô hình trên các mẫu tấn công được tách riêng, thường bỏ qua hiện tượng trôi dạt theo thời gian vốn tồn tại trong các mạng thực tế.
Để khắc phục hạn chế này, chúng tôi đề xuất một khung đánh giá áp đặt sự tách biệt theo trình tự thời gian giữa các tập dữ liệu huấn luyện và kiểm thử, qua đó mô phỏng những thay đổi cấu trúc thực tế trong lưu lượng mạng. Nghiên cứu của chúng tôi triển khai sáu mô hình phổ biến (bao gồm DT, RF, SVM, ANN và DNN) sử dụng các bộ dữ liệu chuẩn như CIC-IDS2017 và CSE-CIC-IDS2018.
Trái với kỳ vọng dựa trên các chỉ số huấn luyện, kết quả cho thấy các mô hình cây phức tạp (DT, RF) bị ảnh hưởng đáng kể bởi hiện tượng quá khớp khi đối mặt với sự thay đổi theo thời gian. Ngược lại, SVM và ANN thể hiện độ ổn định cao hơn. Dữ liệu từ LUFlow tiếp tục khẳng định rằng việc giảm thiểu sự khác biệt về cấu trúc giữa các tập dữ liệu có dấu thời gian là yếu tố then chốt để duy trì tính vững chắc của mô hình.


