Tấn công thay đổi giao diện (Website defacements) vào các website và ứng dụng web là một dạng nhằm thay đổi nội dung các trang web và thông qua đó thay đổi giao diện của chúng [1][2].
Tấn công thay đổi giao diện vào website có thể dẫn đến những hậu quả nghiêm trọng cho chủ sở hữu: làm ngừng hoạt động bình thường của website, tiếp theo là làm tổn hại đến danh tiếng của chủ sở hữu, có thể dẫn đến mất mát dữ liệu và cuối cùng là các thiệt hại lớn về tài chính. Do sự phát triển mạnh của tấn công thay đổi giao diện và những hậu quả nghiêm trọng, nhiều giải pháp phòng chống tấn công thay đổi giao diện đã được nghiên cứu, phát triển và triển khai trên thực tế.
Có thể chia các giải pháp phát hiện tấn công thay đổi giao diện hiện nay thành 3 nhóm [1] [2]: Nhóm 1 gồm các giải pháp rà quét và khắc phục các lỗ hổng bảo mật trên website nhằm hạn chế khả năng bị tấn công; Nhóm 2 gồm các công cụ, nền tảng giám sát, phát hiện tấn công, như VNCS Web Minitoring [4], Nagios Web Application Monitoring Software [5], Site24x7 Website Defacement Monitoring [6] and WebOrion Defacement Monitor [7]; và nhóm 3 gồm các giải pháp phát hiện tấn công thay đổi giao diện. Trong nội dung bài báo, nhóm tác giả tập trung nghiên cứu giải pháp thuộc nhóm 3.
Xây dựng mô hình
Trong bài báo này nhóm tác giả sử dụng hai mô hình là: Mô hình CNN cơ bản và mô hình EfficientNetB0 (được phát triển từ mô hình CNN cơ bản) cho quá trình huấn luyện và phát hiện.
Mô hình CNN: sử dụng đầu vào là hình ảnh có kích thước 224x224x3, và sử dụng 3 bộ lớp CNN kết hợp với MaxPooling để trích xuất các đặc trưng trong hình ảnh với hàm kích hoạt là “Relu”, sau đó sử dụng các lớp kết nối đầy đủ (Fully-connected) để phân loại từ các đặc trưng được trích xuất thuộc trang web bị tấn công hay trang web bình thường.
Mô hình EfficientNetB0: sử dụng đầu vào là hình ảnh có kích thước 224x224x3 và sử dụng mô hình EfficientNetB0 đã được huấn luyện trước với tập Imagenet để trích xuất 1280 đặc trưng đầu ra và cuối cùng sử dụng các lớp kết nối đầy đủ để phân loại các đặc trưng thành hai loại là bình thường và bị tấn công.
Mô hình đề xuất chung cho phát hiện tấn công thay đổi với hai thuật toán CNN và EfficientNetB0 bao gồm hai giai đoạn: Huấn luyện và Phát hiện.
Trong giai đoạn huấn luyện được minh họa tại Hình 1 bao gồm:
Hình 1. Giai đoạn huấn luyện
Bước 1: Thu thập dữ liệu huấn luyện: bao gồm việc tạo ra một bộ dữ liệu gồm các trang web bình thường được gán nhãn là “Normal” và các trang web bị tấn công thay đổi giao diện được gán nhãn là “Deface”. Các trang web bình thường được thu thập từ nhiều nguồn khác nhau, bao gồm cả Việt Nam và các nước trên toàn thế giới, trong trạng thái hoạt động bình thường. Các trang web bị tấn công thay đổi giao diện được lấy từ trang zone-h.org [3]. Tất cả các trang web trong bộ dữ liệu này đã được gán nhãn chính xác và sẵn sàng để sử dụng cho quá trình huấn luyện và đánh giá các giải pháp phát hiện tấn công thay đổi giao diện trang web.
Bước 2: Tiền xử lý dữ liệu: Dữ liệu hình ảnh, trong quá trình thu thập đã đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.
Bước 3: Huấn luyện: Trong bước này sử dụng thuật toán đề xuất tương ứng trích xuất đặc trưng cấp cao, huấn luyện và xây dựng bộ phân loại của các trang web.
Giai đoạn phát hiện được minh họa trong Hình 2 bao gồm 3 bước như sau:
Hình 2. Giai đoạn phát hiện
Bước 1: Thu thập dữ liệu từ các trang web cần giám sát, chụp ảnh màn hình trang web cần giám sát.
Bước 2: Tiền xử lý dữ liệu: Ảnh chụp màn hình trang web cần giám sát đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.
Bước 3: Phân loại: Các vector đặc trưng của các trang web được phân loại bằng cách sử dụng bộ phân loại được xây dựng trong giai đoạn huấn luyện. Kết quả sẽ đưa ra trang web ở trọng thái bình thường hay bị tấn công.
Thu thập dữ liệu
Các trang web bình thường: Được thu thập trực tiếp từ các trang web, và các địa chỉ web uy tín trên toàn thế giới cũng như ở Việt Nam, bộ dữ liệu bao gồm hình ảnh chụp màn hình của các trang web. Bộ dữ liệu có 1.000 bản ghi gồm cả hình ảnh được thu thập từ các trang web đó.
Các trang web bị tấn công thay đổi giao diện: Được thu thập từ trang web zone-h.org với 1000 bản ghi được sử dụng trong quá trình huấn luyện và đánh giá mô hình, mỗi bản ghi cũng bao gồm ảnh chụp màn hình được thu thập từ các trang web được thống kê tấn công thay đổi giao diện ở nguồn trang web zone-h.org.
Bộ dữ liệu sau đó được chia thành 80% dữ liệu được đưa vào huấn luyện tương ứng với 800 bản ghi hình ảnh. Phần còn lại của tập dữ liệu được sử dụng để kiểm tra độ chính xác của mô hình được đề xuất phát hiện tấn công thay đổi giao diện tương ứng với 200 bản ghi hình ảnh.
Cài đặt thử nghiệm
Môi trường thử nghiệm: nhóm tác giả thực nghiệm trên hệ thống máy ảo từ Kaggle với thông số GPU P100 16GB VRAM, RAM 13GB, CPU: Intel Xeon 2.20GHz
Đối với tập dữ liệu là hình ảnh, nhóm tác giả đề xuất hai mô hình là mô hình CNN cơ bản với các lớp CNN nối liền sau đó là các lớp Pooling nhằm giảm kích thước dữ liệu và mô hình thứ hai là mô hình EfficientNetB0, là một mô hình CNN hiện đại và hiện đang cho kết quả tốt nhất với thời gian huấn luyện nhanh nhất đối với các tập dữ liệu lớn hiện nay như COCO, ImageNet, …
Mô hình thứ nhất là mô hình CNN cơ bản được xây dựng theo nguyên tắc sau mỗi lớp Conv2D là một lớp Pooling nhằm giảm kích thước dữ liệu và đảm bảo độ chính xác cũng như tốc độ cho mô hình CNN. Sau các bước CNN là hai lớp kết nối đầy đủ (fully-connected layer) nhằm phân loại các ảnh về hai loại là ảnh của trang web bị tấn công thay đổi giao diện và ảnh của trang web bình thường.
Mô hình thứ hai là mô hình EfficientNetB0. EfficientNet là một trong những kiến trúc mạng nơ-ron tích chập mạnh nhất hiện nay trong lĩnh vực phân loại hình ảnh. Với kỹ thuật thu phóng mô hình, EfficientNet có thể đạt được kết quả phân loại ảnh với độ chính xác cao mà chỉ yêu cầu tài nguyên tính toán ít hơn nhiều so với các kiến trúc mạng nơ-ron trước đó.
Kết quả đánh giá
Để đánh giá độ chính xác cũng như khả năng hoạt động với các ngoài thực tế, nhóm sử dụng ma trận nhầm lẫn (Confusion Matrix).
Bảng 1. Kết quả mô hình phát hiện tấn công thay đổi giao diện trang web
Qua quá trình phân tích đánh giá kết quả nhận được, có thể đưa ra các nhận xét về quá trình cài đặt và thực nghiệm như sau:
Thuật toán EfficientNetB0 cho kết quả với các độ đo ACC, F1 tốt hơn nhiều so với thuật toán CNN khi xử lý với đặc trưng ảnh, cụ thể: đô đo ACC, F1 lần lượt là 88.97% và 89.54% so với 75.38% và 73.03%.
Bài báo này đề xuất mô hình phát hiện tấn công thay đổi giao diện trang web dựa trên mô hình xử lý ảnh hiện đại hiện nay là EfficientNetB0 với đặc trưng ảnh chụp màn hình trang web. Mô hình đề xuất cho hiệu suất phát hiện vượt trội, độ đo chính xác và tỷ lệ cảnh bảo sai tốt hơn đáng kể so với mô hình CNN cơ bản. Trong tương lai, nhóm tác giả sẽ tiếp tục nghiên cứu cải tiến mô hình và kết hợp thêm nhiều đặc trưng như đặc trưng thuần văn bản, mã CSS, JavaScript với đặc trưng ảnh chụp màn hình, nhằm (i) tiếp tục nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai, nhất là tỷ lệ sai âm và (ii) giảm yêu cầu sử dụng tài nguyên tính toán trong huấn luyện và đặc biệt trong khâu phát hiện để tăng khả năng ứng dụng trong thực tế.
TÀI LIỆU THAM KHẢO [1] Imperva, Website Defacement Attack, truy cập tháng 5.2021. [2] Trend Micro, The Motivations and Methods of Web Defacement, truy cập tháng 5.2021. [3] Zone-H.org, last accessed in April 2023. [4] VNCS – Giải pháp giám sát website tập trung, truy cập tháng 5.2021. [5] Nagios Enterprises, LLC. Web Application Monitoring Software with Nagios. truy cập tháng 5.2021 [6] Site24x7. Website Defacement Monitoring. truy cập tháng 5.2021. [7] Banff Cyber Technologies. WebOrion Defacement Monitor. truy cập tháng 5.2021. |
Th.S Nguyễn Trọng Hưng, Phan Hải Đăng - Học viện An ninh nhân dân
12:00 | 19/06/2024
23:00 | 22/01/2023
16:00 | 30/11/2022
15:00 | 03/09/2023
Ngày 21/8, Cơ quan An ninh Cơ sở hạ tầng và An ninh mạng (CISA ), Cơ quan An ninh Quốc gia (NSA) và Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST) đã công bố thông cáo về tác động của năng lực lượng tử. Ba cơ quan này kêu gọi tất cả các tổ chức, đặc biệt là những tổ chức hỗ trợ cơ sở hạ tầng quan trọng cần sớm lập kế hoạch cho việc chuyển đổi sang các tiêu chuẩn mật mã hậu lượng tử (PQC) bằng cách phát triển lộ trình sẵn sàng lượng tử.
13:00 | 25/10/2022
Phần I của bài báo đã được đăng trên ấn phẩm An toàn thông tin số 3 (067) 2022 với nội dung trình bày tóm lược các ý chính trong chuẩn NIST SP 800-22. Trong phần cuối này, nhóm tác giả sẽ trình bày các nghiên cứu liên quan và chỉ ra những lưu ý cẩn trọng khi sử dụng bộ công cụ NIST SP 800-22.
13:00 | 23/06/2022
Zero trust là tư duy bảo mật được phát triển với mục tiêu xây dựng một mô hình bảo mật nhằm bảo vệ mọi tài nguyên trong hệ thống IT/OT khỏi các đối tượng không có quyền hạn. Mô hình bảo mật Zero trust được thiết kế nhằm đảm bảo khả năng kiểm soát các tài nguyên có trong một hệ thống thông tin. Mô hình này yêu cầu định danh, quản lý và kiểm soát danh tính (con người hoặc máy móc), tài khoản người dùng, quyền truy cập thông tin và thiết bị vận hành, thiết bị đầu cuối trên mọi môi trường mạng, cũng như là mối liên kết, kết nối của mọi hạ tầng hệ thống có trong một hệ thống thông tin.
15:00 | 15/04/2022
Bộ Quốc phòng vừa ban hành Thông tư số 23/2022/TT-BQP về quy chuẩn kỹ thuật quốc gia về đặc tính kỹ thuật mật mã sử dụng trong sản phẩm mật mã dân sự (MMDS) thuộc nhóm sản phẩm bảo mật luồng IP sử dụng công nghệ IPsec và TLS. Thông tư này có hiệu lực thi hành kể từ ngày 20/5/2022.