Phát hiện tấn công thay đổi giao diện trang web sử dụng phương pháp học sâu

13:00 | 28/08/2024 | MẬT MÃ DÂN SỰ

Các dạng tấn công web nói chung và tấn công thay đổi giao diện website nói riêng được xem là một trong các mối đe dọa chính đối với nhiều cơ quan, tổ chức có các hệ thống cung cấp dịch vụ trên nền web. Một cuộc tấn công thay đổi giao diện có thể để lại những hậu quả nghiêm trọng. Nhiều kỹ thuật, giải pháp và công cụ giám sát, phát hiện dạng tấn công này đã được nghiên cứu, phát triển và triển khai trên thực tế. Tuy vậy, một số giải pháp chỉ có khả năng hoạt động với các trang web có nội dung tĩnh hoặc ít thay đổi, hoặc yêu cầu cao về tài nguyên tính toán, hoặc có tỷ lệ phát hiện sai cao. Bài báo này đề xuất một mô hình học sâu cho phát hiện tấn công thay đổi giao diện website, trong đó có xem xét, xử lý ảnh chụp màn hình trang web.

Phát hiện tấn công thay đổi giao diện trang web sử dụng phương pháp học sâu

MỘT SỐ GIẢI PHÁP PHÁT HIỆN TẤN CÔNG THAY ĐỔI GIAO DIỆN HIỆN NAY

Tấn công thay đổi giao diện (Website defacements) vào các website và ứng dụng web là một dạng nhằm thay đổi nội dung các trang web và thông qua đó thay đổi giao diện của chúng [1][2].

Tấn công thay đổi giao diện vào website có thể dẫn đến những hậu quả nghiêm trọng cho chủ sở hữu: làm ngừng hoạt động bình thường của website, tiếp theo là làm tổn hại đến danh tiếng của chủ sở hữu, có thể dẫn đến mất mát dữ liệu và cuối cùng là các thiệt hại lớn về tài chính. Do sự phát triển mạnh của tấn công thay đổi giao diện và những hậu quả nghiêm trọng, nhiều giải pháp phòng chống tấn công thay đổi giao diện đã được nghiên cứu, phát triển và triển khai trên thực tế.

Có thể chia các giải pháp phát hiện tấn công thay đổi giao diện hiện nay thành 3 nhóm [1] [2]: Nhóm 1 gồm các giải pháp rà quét và khắc phục các lỗ hổng bảo mật trên website nhằm hạn chế khả năng bị tấn công; Nhóm 2 gồm các công cụ, nền tảng giám sát, phát hiện tấn công, như VNCS Web Minitoring [4], Nagios Web Application Monitoring Software [5], Site24x7 Website Defacement Monitoring [6] and WebOrion Defacement Monitor [7]; và nhóm 3 gồm các giải pháp phát hiện tấn công thay đổi giao diện. Trong nội dung bài báo, nhóm tác giả tập trung nghiên cứu giải pháp thuộc nhóm 3.

MÔ HÌNH PHÁT HIỆN THAY ĐỔI GIAO DIỆN TRANG WEB SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

Xây dựng mô hình

Trong bài báo này nhóm tác giả sử dụng hai mô hình là: Mô hình CNN cơ bản và mô hình EfficientNetB0 (được phát triển từ mô hình CNN cơ bản) cho quá trình huấn luyện và phát hiện.

Mô hình CNN: sử dụng đầu vào là hình ảnh có kích thước 224x224x3, và sử dụng 3 bộ lớp CNN kết hợp với MaxPooling để trích xuất các đặc trưng trong hình ảnh với hàm kích hoạt là “Relu”, sau đó sử dụng các lớp kết nối đầy đủ (Fully-connected) để phân loại từ các đặc trưng được trích xuất thuộc trang web bị tấn công hay trang web bình thường.

Mô hình EfficientNetB0: sử dụng đầu vào là hình ảnh có kích thước 224x224x3 và sử dụng mô hình EfficientNetB0 đã được huấn luyện trước với tập Imagenet để trích xuất 1280 đặc trưng đầu ra và cuối cùng sử dụng các lớp kết nối đầy đủ để phân loại các đặc trưng thành hai loại là bình thường và bị tấn công.

Mô hình đề xuất chung cho phát hiện tấn công thay đổi với hai thuật toán CNN và EfficientNetB0 bao gồm hai giai đoạn: Huấn luyện và Phát hiện.

Trong giai đoạn huấn luyện được minh họa tại Hình 1 bao gồm:

Hình 1. Giai đoạn huấn luyện

Bước 1: Thu thập dữ liệu huấn luyện: bao gồm việc tạo ra một bộ dữ liệu gồm các trang web bình thường được gán nhãn là “Normal” và các trang web bị tấn công thay đổi giao diện được gán nhãn là “Deface”. Các trang web bình thường được thu thập từ nhiều nguồn khác nhau, bao gồm cả Việt Nam và các nước trên toàn thế giới, trong trạng thái hoạt động bình thường. Các trang web bị tấn công thay đổi giao diện được lấy từ trang zone-h.org [3]. Tất cả các trang web trong bộ dữ liệu này đã được gán nhãn chính xác và sẵn sàng để sử dụng cho quá trình huấn luyện và đánh giá các giải pháp phát hiện tấn công thay đổi giao diện trang web.

Bước 2: Tiền xử lý dữ liệu: Dữ liệu hình ảnh, trong quá trình thu thập đã đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.

Bước 3: Huấn luyện: Trong bước này sử dụng thuật toán đề xuất tương ứng trích xuất đặc trưng cấp cao, huấn luyện và xây dựng bộ phân loại của các trang web.

Giai đoạn phát hiện được minh họa trong Hình 2 bao gồm 3 bước như sau:

Hình 2. Giai đoạn phát hiện

Bước 1: Thu thập dữ liệu từ các trang web cần giám sát, chụp ảnh màn hình trang web cần giám sát.

Bước 2: Tiền xử lý dữ liệu: Ảnh chụp màn hình trang web cần giám sát đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.

Bước 3: Phân loại: Các vector đặc trưng của các trang web được phân loại bằng cách sử dụng bộ phân loại được xây dựng trong giai đoạn huấn luyện. Kết quả sẽ đưa ra trang web ở trọng thái bình thường hay bị tấn công.

Thu thập dữ liệu

Các trang web bình thường: Được thu thập trực tiếp từ các trang web, và các địa chỉ web uy tín trên toàn thế giới cũng như ở Việt Nam, bộ dữ liệu bao gồm hình ảnh chụp màn hình của các trang web. Bộ dữ liệu có 1.000 bản ghi gồm cả hình ảnh được thu thập từ các trang web đó.

Các trang web bị tấn công thay đổi giao diện: Được thu thập từ trang web zone-h.org với 1000 bản ghi được sử dụng trong quá trình huấn luyện và đánh giá mô hình, mỗi bản ghi cũng bao gồm ảnh chụp màn hình được thu thập từ các trang web được thống kê tấn công thay đổi giao diện ở nguồn trang web zone-h.org.

Bộ dữ liệu sau đó được chia thành 80% dữ liệu được đưa vào huấn luyện tương ứng với 800 bản ghi hình ảnh. Phần còn lại của tập dữ liệu được sử dụng để kiểm tra độ chính xác của mô hình được đề xuất phát hiện tấn công thay đổi giao diện tương ứng với 200 bản ghi hình ảnh.

Cài đặt thử nghiệm

Môi trường thử nghiệm: nhóm tác giả thực nghiệm trên hệ thống máy ảo từ Kaggle với thông số GPU P100 16GB VRAM, RAM 13GB, CPU: Intel Xeon 2.20GHz

Đối với tập dữ liệu là hình ảnh, nhóm tác giả đề xuất hai mô hình là mô hình CNN cơ bản với các lớp CNN nối liền sau đó là các lớp Pooling nhằm giảm kích thước dữ liệu và mô hình thứ hai là mô hình EfficientNetB0, là một mô hình CNN hiện đại và hiện đang cho kết quả tốt nhất với thời gian huấn luyện nhanh nhất đối với các tập dữ liệu lớn hiện nay như COCO, ImageNet, …

Mô hình thứ nhất là mô hình CNN cơ bản được xây dựng theo nguyên tắc sau mỗi lớp Conv2D là một lớp Pooling nhằm giảm kích thước dữ liệu và đảm bảo độ chính xác cũng như tốc độ cho mô hình CNN. Sau các bước CNN là hai lớp kết nối đầy đủ (fully-connected layer) nhằm phân loại các ảnh về hai loại là ảnh của trang web bị tấn công thay đổi giao diện và ảnh của trang web bình thường.

Mô hình thứ hai là mô hình EfficientNetB0. EfficientNet là một trong những kiến trúc mạng nơ-ron tích chập mạnh nhất hiện nay trong lĩnh vực phân loại hình ảnh. Với kỹ thuật thu phóng mô hình, EfficientNet có thể đạt được kết quả phân loại ảnh với độ chính xác cao mà chỉ yêu cầu tài nguyên tính toán ít hơn nhiều so với các kiến trúc mạng nơ-ron trước đó.

Kết quả đánh giá

Để đánh giá độ chính xác cũng như khả năng hoạt động với các ngoài thực tế, nhóm sử dụng ma trận nhầm lẫn (Confusion Matrix).

Bảng 1. Kết quả mô hình phát hiện tấn công thay đổi giao diện trang web

Qua quá trình phân tích đánh giá kết quả nhận được, có thể đưa ra các nhận xét về quá trình cài đặt và thực nghiệm như sau:

Thuật toán EfficientNetB0 cho kết quả với các độ đo ACC, F1 tốt hơn nhiều so với thuật toán CNN khi xử lý với đặc trưng ảnh, cụ thể: đô đo ACC, F1 lần lượt là 88.97% và 89.54% so với 75.38% và 73.03%.

KẾT LUẬN

Bài báo này đề xuất mô hình phát hiện tấn công thay đổi giao diện trang web dựa trên mô hình xử lý ảnh hiện đại hiện nay là EfficientNetB0 với đặc trưng ảnh chụp màn hình trang web. Mô hình đề xuất cho hiệu suất phát hiện vượt trội, độ đo chính xác và tỷ lệ cảnh bảo sai tốt hơn đáng kể so với mô hình CNN cơ bản. Trong tương lai, nhóm tác giả sẽ tiếp tục nghiên cứu cải tiến mô hình và kết hợp thêm nhiều đặc trưng như đặc trưng thuần văn bản, mã CSS, JavaScript với đặc trưng ảnh chụp màn hình, nhằm (i) tiếp tục nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai, nhất là tỷ lệ sai âm và (ii) giảm yêu cầu sử dụng tài nguyên tính toán trong huấn luyện và đặc biệt trong khâu phát hiện để tăng khả năng ứng dụng trong thực tế.

TÀI LIỆU THAM KHẢO

[1] Imperva, Website Defacement Attack, truy cập tháng 5.2021.

[2] Trend Micro, The Motivations and Methods of Web Defacement, truy cập tháng 5.2021.

[3] Zone-H.org, last accessed in April 2023.

[4] VNCS – Giải pháp giám sát website tập trung, truy cập tháng 5.2021.

[5] Nagios Enterprises, LLC. Web Application Monitoring Software with Nagios. truy cập tháng 5.2021

[6] Site24x7. Website Defacement Monitoring. truy cập tháng 5.2021.

[7] Banff Cyber Technologies. WebOrion Defacement Monitor. truy cập tháng 5.2021.

Th.S Nguyễn Trọng Hưng, Phan Hải Đăng - Học viện An ninh nhân dân

‹ › ×

Tin liên quan

Các bệnh viện đối mặt vấn đề bảo vệ dữ liệu cá nhân: bắt đầu ngay từ các website (Phần I)

12:00 | 19/06/2024

Nghị định 13 về bảo vệ dữ liệu cá nhân đã đặt ra cho các doanh nghiệp Việt Nam một loạt các vấn đề cần giải quyết. Tuy nhiên, dường như mọi người mới chú ý đến lĩnh vực tài chính, ngân hàng và những ý kiến về việc tuân thủ Nghị định 13 hầu hết xuất phát từ ngành này. Trong khi đó, những dữ liệu cá nhân nhạy cảm có liên quan tới ngành y tế như tình trạng sức khỏe, đặc điểm di truyền hay đời sống tình dục... của cá nhân lại chưa được quan tâm nhiều.

Đảm bảo an toàn khi truy cập website

23:00 | 22/01/2023

Với sự bùng nổ và phát triển của công nghệ mạng Internet cùng nhiều tiện ích và giải trí hiện nay, kéo theo đó là tần suất gia tăng các cuộc tấn công mạng, việc sử dụng hàng loạt những website lừa đảo không an toàn, nhằm mục đích đánh lừa người dùng truy cập vào những website độc hại để thực hiện hành vi đánh cắp thông tin, hay lây lan những phần mềm chứa mã độc đang trở thành một xu hướng tấn công của tin tặc. Nhận thức được tầm quan trọng của việc truy cập an toàn trên môi trường mạng, bài báo sau đây sẽ cung cấp đến độc giả những kỹ năng cần thiết để sử dụng các công cụ hỗ trợ nhằm kiểm tra chỉ số về độ an toàn của website, qua đó giúp người dùng an tâm và tránh được việc thông tin của bản thân bị đánh cắp và lợi dụng cho những mục đích xấu.

Phát hiện xâm nhập website dựa trên cây quyết định và bộ dữ liệu huấn luyện IDS2021-WEB (Phần I)

16:00 | 30/11/2022

Trong phần I của bài báo, nhóm tác giả sẽ giới thiệu cách thức xây dựng bộ dữ liệu IDS2021-WEB trích xuất từ bộ dữ liệu gốc CSE-CIC-IDS2018. Theo đó, các bước tiền xử lý dữ liệu được thực hiện từ bộ dữ liệu gốc như lọc các dữ liệu trùng, các dữ liệu dư thừa, dữ liệu không mang giá trị. Kết quả thu được là một bộ dữ liệu mới có kích thước nhỏ hơn và số lượng thuộc tính ít hơn. Đồng thời, đề xuất mô hình sử dụng bộ dữ liệu về xây dựng hệ thống phát hiện tấn công ứng dụng website.

Tin cùng chuyên mục

Thông cáo của CISA, NSA và NIST về chuyển đổi sang mật mã hậu lượng tử

15:00 | 03/09/2023

Ngày 21/8, Cơ quan An ninh Cơ sở hạ tầng và An ninh mạng (CISA ), Cơ quan An ninh Quốc gia (NSA) và Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST) đã công bố thông cáo về tác động của năng lực lượng tử. Ba cơ quan này kêu gọi tất cả các tổ chức, đặc biệt là những tổ chức hỗ trợ cơ sở hạ tầng quan trọng cần sớm lập kế hoạch cho việc chuyển đổi sang các tiêu chuẩn mật mã hậu lượng tử (PQC) bằng cách phát triển lộ trình sẵn sàng lượng tử.

NIST SP 800-22 và những cẩn trọng khi sử dụng (Phần II)

13:00 | 25/10/2022

Phần I của bài báo đã được đăng trên ấn phẩm An toàn thông tin số 3 (067) 2022 với nội dung trình bày tóm lược các ý chính trong chuẩn NIST SP 800-22. Trong phần cuối này, nhóm tác giả sẽ trình bày các nghiên cứu liên quan và chỉ ra những lưu ý cẩn trọng khi sử dụng bộ công cụ NIST SP 800-22.

Zero trust có thực sự là xu hướng bảo mật cho những năm tới?

13:00 | 23/06/2022

Zero trust là tư duy bảo mật được phát triển với mục tiêu xây dựng một mô hình bảo mật nhằm bảo vệ mọi tài nguyên trong hệ thống IT/OT khỏi các đối tượng không có quyền hạn. Mô hình bảo mật Zero trust được thiết kế nhằm đảm bảo khả năng kiểm soát các tài nguyên có trong một hệ thống thông tin. Mô hình này yêu cầu định danh, quản lý và kiểm soát danh tính (con người hoặc máy móc), tài khoản người dùng, quyền truy cập thông tin và thiết bị vận hành, thiết bị đầu cuối trên mọi môi trường mạng, cũng như là mối liên kết, kết nối của mọi hạ tầng hệ thống có trong một hệ thống thông tin.

Ban hành Quy chuẩn kỹ thuật quốc gia về đặc tính kỹ thuật mật mã sử dụng trong sản phẩm mật mã dân sự

15:00 | 15/04/2022

Bộ Quốc phòng vừa ban hành Thông tư số 23/2022/TT-BQP về quy chuẩn kỹ thuật quốc gia về đặc tính kỹ thuật mật mã sử dụng trong sản phẩm mật mã dân sự (MMDS) thuộc nhóm sản phẩm bảo mật luồng IP sử dụng công nghệ IPsec và TLS. Thông tư này có hiệu lực thi hành kể từ ngày 20/5/2022.