Tấn công thay đổi giao diện (Website defacements) vào các website và ứng dụng web là một dạng nhằm thay đổi nội dung các trang web và thông qua đó thay đổi giao diện của chúng [1][2].
Tấn công thay đổi giao diện vào website có thể dẫn đến những hậu quả nghiêm trọng cho chủ sở hữu: làm ngừng hoạt động bình thường của website, tiếp theo là làm tổn hại đến danh tiếng của chủ sở hữu, có thể dẫn đến mất mát dữ liệu và cuối cùng là các thiệt hại lớn về tài chính. Do sự phát triển mạnh của tấn công thay đổi giao diện và những hậu quả nghiêm trọng, nhiều giải pháp phòng chống tấn công thay đổi giao diện đã được nghiên cứu, phát triển và triển khai trên thực tế.
Có thể chia các giải pháp phát hiện tấn công thay đổi giao diện hiện nay thành 3 nhóm [1] [2]: Nhóm 1 gồm các giải pháp rà quét và khắc phục các lỗ hổng bảo mật trên website nhằm hạn chế khả năng bị tấn công; Nhóm 2 gồm các công cụ, nền tảng giám sát, phát hiện tấn công, như VNCS Web Minitoring [4], Nagios Web Application Monitoring Software [5], Site24x7 Website Defacement Monitoring [6] and WebOrion Defacement Monitor [7]; và nhóm 3 gồm các giải pháp phát hiện tấn công thay đổi giao diện. Trong nội dung bài báo, nhóm tác giả tập trung nghiên cứu giải pháp thuộc nhóm 3.
Xây dựng mô hình
Trong bài báo này nhóm tác giả sử dụng hai mô hình là: Mô hình CNN cơ bản và mô hình EfficientNetB0 (được phát triển từ mô hình CNN cơ bản) cho quá trình huấn luyện và phát hiện.
Mô hình CNN: sử dụng đầu vào là hình ảnh có kích thước 224x224x3, và sử dụng 3 bộ lớp CNN kết hợp với MaxPooling để trích xuất các đặc trưng trong hình ảnh với hàm kích hoạt là “Relu”, sau đó sử dụng các lớp kết nối đầy đủ (Fully-connected) để phân loại từ các đặc trưng được trích xuất thuộc trang web bị tấn công hay trang web bình thường.
Mô hình EfficientNetB0: sử dụng đầu vào là hình ảnh có kích thước 224x224x3 và sử dụng mô hình EfficientNetB0 đã được huấn luyện trước với tập Imagenet để trích xuất 1280 đặc trưng đầu ra và cuối cùng sử dụng các lớp kết nối đầy đủ để phân loại các đặc trưng thành hai loại là bình thường và bị tấn công.
Mô hình đề xuất chung cho phát hiện tấn công thay đổi với hai thuật toán CNN và EfficientNetB0 bao gồm hai giai đoạn: Huấn luyện và Phát hiện.
Trong giai đoạn huấn luyện được minh họa tại Hình 1 bao gồm:
Hình 1. Giai đoạn huấn luyện
Bước 1: Thu thập dữ liệu huấn luyện: bao gồm việc tạo ra một bộ dữ liệu gồm các trang web bình thường được gán nhãn là “Normal” và các trang web bị tấn công thay đổi giao diện được gán nhãn là “Deface”. Các trang web bình thường được thu thập từ nhiều nguồn khác nhau, bao gồm cả Việt Nam và các nước trên toàn thế giới, trong trạng thái hoạt động bình thường. Các trang web bị tấn công thay đổi giao diện được lấy từ trang zone-h.org [3]. Tất cả các trang web trong bộ dữ liệu này đã được gán nhãn chính xác và sẵn sàng để sử dụng cho quá trình huấn luyện và đánh giá các giải pháp phát hiện tấn công thay đổi giao diện trang web.
Bước 2: Tiền xử lý dữ liệu: Dữ liệu hình ảnh, trong quá trình thu thập đã đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.
Bước 3: Huấn luyện: Trong bước này sử dụng thuật toán đề xuất tương ứng trích xuất đặc trưng cấp cao, huấn luyện và xây dựng bộ phân loại của các trang web.
Giai đoạn phát hiện được minh họa trong Hình 2 bao gồm 3 bước như sau:
Hình 2. Giai đoạn phát hiện
Bước 1: Thu thập dữ liệu từ các trang web cần giám sát, chụp ảnh màn hình trang web cần giám sát.
Bước 2: Tiền xử lý dữ liệu: Ảnh chụp màn hình trang web cần giám sát đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.
Bước 3: Phân loại: Các vector đặc trưng của các trang web được phân loại bằng cách sử dụng bộ phân loại được xây dựng trong giai đoạn huấn luyện. Kết quả sẽ đưa ra trang web ở trọng thái bình thường hay bị tấn công.
Thu thập dữ liệu
Các trang web bình thường: Được thu thập trực tiếp từ các trang web, và các địa chỉ web uy tín trên toàn thế giới cũng như ở Việt Nam, bộ dữ liệu bao gồm hình ảnh chụp màn hình của các trang web. Bộ dữ liệu có 1.000 bản ghi gồm cả hình ảnh được thu thập từ các trang web đó.
Các trang web bị tấn công thay đổi giao diện: Được thu thập từ trang web zone-h.org với 1000 bản ghi được sử dụng trong quá trình huấn luyện và đánh giá mô hình, mỗi bản ghi cũng bao gồm ảnh chụp màn hình được thu thập từ các trang web được thống kê tấn công thay đổi giao diện ở nguồn trang web zone-h.org.
Bộ dữ liệu sau đó được chia thành 80% dữ liệu được đưa vào huấn luyện tương ứng với 800 bản ghi hình ảnh. Phần còn lại của tập dữ liệu được sử dụng để kiểm tra độ chính xác của mô hình được đề xuất phát hiện tấn công thay đổi giao diện tương ứng với 200 bản ghi hình ảnh.
Cài đặt thử nghiệm
Môi trường thử nghiệm: nhóm tác giả thực nghiệm trên hệ thống máy ảo từ Kaggle với thông số GPU P100 16GB VRAM, RAM 13GB, CPU: Intel Xeon 2.20GHz
Đối với tập dữ liệu là hình ảnh, nhóm tác giả đề xuất hai mô hình là mô hình CNN cơ bản với các lớp CNN nối liền sau đó là các lớp Pooling nhằm giảm kích thước dữ liệu và mô hình thứ hai là mô hình EfficientNetB0, là một mô hình CNN hiện đại và hiện đang cho kết quả tốt nhất với thời gian huấn luyện nhanh nhất đối với các tập dữ liệu lớn hiện nay như COCO, ImageNet, …
Mô hình thứ nhất là mô hình CNN cơ bản được xây dựng theo nguyên tắc sau mỗi lớp Conv2D là một lớp Pooling nhằm giảm kích thước dữ liệu và đảm bảo độ chính xác cũng như tốc độ cho mô hình CNN. Sau các bước CNN là hai lớp kết nối đầy đủ (fully-connected layer) nhằm phân loại các ảnh về hai loại là ảnh của trang web bị tấn công thay đổi giao diện và ảnh của trang web bình thường.
Mô hình thứ hai là mô hình EfficientNetB0. EfficientNet là một trong những kiến trúc mạng nơ-ron tích chập mạnh nhất hiện nay trong lĩnh vực phân loại hình ảnh. Với kỹ thuật thu phóng mô hình, EfficientNet có thể đạt được kết quả phân loại ảnh với độ chính xác cao mà chỉ yêu cầu tài nguyên tính toán ít hơn nhiều so với các kiến trúc mạng nơ-ron trước đó.
Kết quả đánh giá
Để đánh giá độ chính xác cũng như khả năng hoạt động với các ngoài thực tế, nhóm sử dụng ma trận nhầm lẫn (Confusion Matrix).
Bảng 1. Kết quả mô hình phát hiện tấn công thay đổi giao diện trang web
Qua quá trình phân tích đánh giá kết quả nhận được, có thể đưa ra các nhận xét về quá trình cài đặt và thực nghiệm như sau:
Thuật toán EfficientNetB0 cho kết quả với các độ đo ACC, F1 tốt hơn nhiều so với thuật toán CNN khi xử lý với đặc trưng ảnh, cụ thể: đô đo ACC, F1 lần lượt là 88.97% và 89.54% so với 75.38% và 73.03%.
Bài báo này đề xuất mô hình phát hiện tấn công thay đổi giao diện trang web dựa trên mô hình xử lý ảnh hiện đại hiện nay là EfficientNetB0 với đặc trưng ảnh chụp màn hình trang web. Mô hình đề xuất cho hiệu suất phát hiện vượt trội, độ đo chính xác và tỷ lệ cảnh bảo sai tốt hơn đáng kể so với mô hình CNN cơ bản. Trong tương lai, nhóm tác giả sẽ tiếp tục nghiên cứu cải tiến mô hình và kết hợp thêm nhiều đặc trưng như đặc trưng thuần văn bản, mã CSS, JavaScript với đặc trưng ảnh chụp màn hình, nhằm (i) tiếp tục nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai, nhất là tỷ lệ sai âm và (ii) giảm yêu cầu sử dụng tài nguyên tính toán trong huấn luyện và đặc biệt trong khâu phát hiện để tăng khả năng ứng dụng trong thực tế.
TÀI LIỆU THAM KHẢO [1] Imperva, Website Defacement Attack, truy cập tháng 5.2021. [2] Trend Micro, The Motivations and Methods of Web Defacement, truy cập tháng 5.2021. [3] Zone-H.org, last accessed in April 2023. [4] VNCS – Giải pháp giám sát website tập trung, truy cập tháng 5.2021. [5] Nagios Enterprises, LLC. Web Application Monitoring Software with Nagios. truy cập tháng 5.2021 [6] Site24x7. Website Defacement Monitoring. truy cập tháng 5.2021. [7] Banff Cyber Technologies. WebOrion Defacement Monitor. truy cập tháng 5.2021. |
Th.S Nguyễn Trọng Hưng, Phan Hải Đăng - Học viện An ninh nhân dân
12:00 | 19/06/2024
23:00 | 22/01/2023
16:00 | 30/11/2022
15:00 | 26/06/2024
Ban Cơ yếu Chính phủ đã nghiên cứu, xây dựng dự thảo Tờ trình, Nghị định quy định chi tiết một số điều và biện pháp thi hành Luật An toàn thông tin mạng về mật mã dân sự (thay thế Nghị định số 58/2016/NĐ-CP ngày 01/7/2016 của Chính phủ quy định chi tiết về kinh doanh sản phẩm, dịch vụ mật mã dân sự, xuất khẩu, nhập khẩu sản phẩm mật mã dân sự).
10:00 | 20/05/2024
Mới đây, một công ty bảo mật có tên Hive Systems đã công bố nghiên cứu mới nhất của họ về độ mạnh của mật khẩu và khả năng bẻ khóa chúng. Theo công ty, một mật khẩu dài 8 ký tự (chỉ chứa số) có thể bị bẻ khóa trong vỏn vẹn 37 giây. Với việc hệ thống máy móc thiết bị ngày càng tiên tiến, các tin tặc có thể bẻ khóa mật khẩu một cách dễ dàng hơn.
07:00 | 03/11/2023
Một yếu tố quan trọng trong việc đảm bảo khả năng so sánh các kết quả của quá trình đánh giá, đó là người làm công tác đánh giá phải đảm bảo điều kiện kĩ thuật luôn đáp ứng khách quan và chủ quan. Do đó, năng lực của người đánh giá là rất quan trọng khi khả năng so sánh và tính lặp lại của các kết quả đánh giá là nền tảng để công nhận lẫn nhau. Bài viết sau giới thiệu tiêu chuẩn ISO/IEC 19896-3:2018 yêu cầu về kiến thức, kỹ năng và tính hiệu quả đối với đánh giá viên.
14:00 | 04/07/2023
Đó là dự báo của công ty nghiên cứu MarketsandMarkets có trụ sở tại Ấn Độ và các chi nhánh tại Mỹ và Vương quốc Anh. Thị trường mật mã lượng tử toàn cầu ước tính giá trị khoảng 500 triệu USD vào năm 2023. Giống như bản thân công nghệ lượng tử đang phát triển nhanh chóng, thị trường mật mã lượng tử sẽ phát triển vượt bậc trong nửa thập kỷ tới đây.