D32 với kỹ thuật nhận dạng virus hướng tiếp cận máy học

Kể từ bản cập nhật D32 phát hành ngày 8/8/2004, cơ sở dữ liệu (CSDL) virus của phần mềm đã được thiết kế lại theo hướng áp dụng các kỹ thuật Khai Khoáng Dữ Liệu (Data Mining). Đây là bước khởi đầu trong lộ trình triển khai các kết quả từ đề tài nghiên cứu hệ chống virus thông minh hướng tiếp cận máy học (Machine Learning) của tác giả.
Thay vì nhận dạng truyền thống từng mẫu virus xác định như trước đây, D32 (8/8/2004) nhận dạng virus theo đơn vị lớp (class) sử dụng kỹ thuật NNSRM-Nearest Neighbor Structural Risk Minimization – một giải thuật
phân lớp tiên tiến trong Khai Khoáng Dữ Liệu và Máy Học, được các nhà nghiên cứu công bố trên tạp chí Elsevier (www.elsevier.com), tháng 9/2003.
Giống như tên gọi của nó, NNSRM dựa trên đặc trưng giống nhau giữa các điểm dữ liệu của một lớp để xây dựng quyết định phân lớp. Tính chất này được tính bằng tỷ lệ nghịch khoảng cách giữa các điểm dữ liệu trong tập chẩn đoán. Điểm dữ liệu chưa phân lớp sẽ được gán vào lớp chứa các điểm có khoảng cách gần nó nhất, với độ rủi ro thấp nhất. Khi quét dữ liệu, D32 sẽ tính toán “khoảng cách” của file so với các đặc trưng của lớp virus cần chẩn đoán để phân bổ tập dữ liệu này vào các lớp lân cận nhất của nó. Tuy phải tốn thêm giai đoạn phân lớp khá công phu và phức tạp, nhưng kết quả lại rất khả quan. Nếu như trước đây D32 phải chạy đủ 300 thủ tục nhận dạng 300 sâu trình (worm), đến nay số thủ tục nhiều nhất mà D32 phải triệu gọi khi chẩn đoán 1 file EXE là 10 thủ tục!
Một đặc điểm nữa của kỹ thuật này là CSDL được rút gọn, đặc biệt quan trọng khi kích thước tập mẫu gia tăng đáng kể. Điều này lý giải sự “giảm sút” số lượng virus của D32 (800 virus ở các phiên bản 7-2004 đến 700 virus ở phiên bản 8-2004). Ngoài ưu điểm nổi bật về gia tăng tốc độ và tiết kiệm không gian lưu trữ, NNSRM còn được đánh giá là một giải thuật triển vọng cho các bài toán phân lớp dữ liệu tuyến tính với độ chính xác cao. Trước khi công bố D32 (8/8/2004), chúng tôi đã chạy thử nghiệm song song 2 phiên bản (D32 cũ-800 virus và D32 mới-700 virus) trên bộ sưu tập virus thu thập từ trước đến nay. Kết quả nhận dạng là như nhau nhưng phiên bản mới chạy nhanh và ít nhầm hơn.
NNSRM là kỹ thuật khá mới, có nhiều ưu điểm vượt trội nhưng cần thời gian khẳng định. Vì vậy chúng tôi chỉ áp dụng thử nghiệm cho các quá trình chẩn đoán worm và trojan horse cho D32. Trong thời gian tới, chúng tôi sẽ mở rộng giải thuật này cho quá trình chẩn đoán các loại mã gây hại (harmful code) khác (như backdoor, malware, spyware…)

No comments:

Post a Comment

Bài đăng mới: