Apple, Nvidia và Anthropic đã sử dụng trái phép hàng nghìn video YouTube để đào tạo AI

13:00 | 01/08/2024 | CÔNG NGHỆ THÔNG TIN

Một loạt công ty công nghệ hàng đầu thế giới bị cáo buộc đã huấn luyện các mô hình AI của họ trên dữ liệu của hơn 173.000 video trên YouTube mà không xin phép.

Apple, Nvidia và Anthropic đã sử dụng trái phép hàng nghìn video YouTube để đào tạo AI

Các công ty AI thường giữ bí mật về nguồn dữ liệu đào tạo của họ, nhưng một cuộc điều tra của Proof News cho thấy một loạt các công ty AI hàng đầu thế giới đã sử dụng tài liệu từ hàng nghìn video YouTube để . Các công ty này đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa các bản ghi lại nội dung từ phụ đề 173.536 video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung. Được biết phụ đề YouTube không bao gồm hình ảnh video mà bao gồm văn bản đơn giản của phụ đề video, thường cùng với bản dịch sang các ngôn ngữ bao gồm tiếng Nhật, tiếng Đức và tiếng Ả Rập.

Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng, chẳng hạn như Marques Brownlee (19 triệu người đăng ký, bảy video đã quay) và MrBeast (289 triệu người đăng ký, hai video quay), cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video từ các kênh giáo dục và học tập trực tuyến như Khan Academy, MIT và Harvard.

Ông David Pakman, người dẫn chương trình “The David Pakman Show”, một kênh với hơn hai triệu người đăng ký và hơn hai tỷ lượt xem, cho biết: “Không ai đến gặp tôi và nói muốn sử dụng cái này". Trong khi đó, gần 160 video của kênh đã được đưa vào tập dữ liệu đào tạo AI.

“ lấy dữ liệu cho AI của họ từ một số công ty”, Brownlee một YouTuber nổi tiếng đăng trên X. “Một trong số đó là hàng tấn dữ liệu/bản ghi từ các video trên YouTube, bao gồm cả của tôi”.

Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.

Đại diện tại EleutherAI, công ty tạo ra tập dữ liệu, đã không trả lời yêu cầu bình luận về phát hiện của Proof, bao gồm cả cáo buộc rằng video đã được sử dụng mà không được phép. Trang web của công ty nêu rõ mục tiêu tổng thể của họ là giảm bớt các rào cản đối với việc phát triển AI.

Theo một bài báo nghiên cứu do EleutherAI xuất bản, tập dữ liệu này là một phần của bộ sưu tập mà tổ chức phi lợi nhuận phát hành có tên là Pile. Pile bao gồm tài liệu không chỉ từ YouTube mà còn từ Nghị viện Châu Âu, Wikipedia tiếng Anh và một loạt email của nhân viên Enron Corporation. Hầu hết các bộ dữ liệu của Pile đều có thể truy cập và mở cho bất kỳ ai trên internet có đủ dung lượng và khả năng tính toán để truy cập.

Apple, và Salesforce những công ty trị giá hàng trăm tỷ và hàng nghìn tỷ USD mô tả trong tài liệu nghiên cứu của họ và đăng tải cách họ sử dụng Pile để đào tạo AI. Các tài liệu cũng cho thấy Apple đã sử dụng Pile để đào tạo OpenELM, một mẫu máy cao cấp được phát hành vào tháng 4, vài tuần trước khi công ty tiết lộ sẽ bổ sung các khả năng AI mới cho iPhone và MacBook.

Hiện các công ty AI vẫn chưa minh bạch về dữ liệu được sử dụng để đào tạo thuật toán. Đầu tháng 7/2024, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence tính năng AI mới sẽ có mặt trên hàng triệu thiết bị của “nhà táo” trong năm nay.

YouTube vốn được coi là kho lưu trữ video lớn nhất thế giới và hiện cũng là “mỏ vàng” dữ liệu để đào tạo AI.

Hà Phương

‹ › ×

Tin liên quan

OpenAI công bố mô hình AI mới

09:00 | 21/05/2024

Ngày 14/5, OpenAI đã ra mắt phiên bản hoạt động tốt hơn và hiệu quả hơn của công nghệ trí tuệ nhân tạo (AI) nền tảng cho công cụ nổi tiếng của công ty này là ChatGPT. Mô hình AI mới có tên GPT-4o, có khả năng trò chuyện bằng giọng nói thực tế và có thể tương tác qua văn bản và hình ảnh. Đây là động thái mới nhất của Open AI nhằm khẳng định vị thế dẫn đầu trong cuộc đua thống trị công nghệ mới nổi.

Meta bị cấm xử lý dữ liệu cá nhân để đào tạo AI tại Brazil

08:00 | 17/07/2024

Trong bối cảnh lo ngại về quyền riêng tư, cơ quan bảo vệ dữ liệu của Brazil (Autoridade Nacional de Proteção de Dados - ANPD) đã tạm thời cấm Meta xử lý dữ liệu cá nhân của người dùng để đào tạo thuật toán trí tuệ nhân tạo (AI) của công ty.

Hiệp hội An ninh mạng quốc gia ra mắt chương trình đào tạo Chuyên gia Bảo vệ dữ liệu cá nhân VnDPO

08:00 | 10/10/2024

Ngày 08/10/2024, Hiệp hội An ninh mạng quốc gia (NCA) chính thức ra mắt chương trình đào tạo Chuyên gia Bảo vệ dữ liệu cá nhân VnDPO. Đây là chương trình được thiết kế, xây dựng, giảng dạy bởi các chuyên gia đầu ngành đến từ Ban Nghiên cứu, tư vấn Chính sách, Pháp luật của NCA và Công ty An ninh Dữ liệu Việt Nam (VNDS).

LinkedIn tạm dừng xử lý dữ liệu AI tại Anh giữa lo ngại về quyền riêng tư

13:00 | 30/09/2024

LinkedIn - nền tảng mạng xã hội chuyên nghiệp đã ngừng xử lý dữ liệu người dùng tại Vương quốc Anh để đào tạo các mô hình trí tuệ nhân tạo (AI) của mình. Động thái này diễn ra sau khi Văn phòng Ủy viên Thông tin Vương quốc Anh (ICO) bày tỏ lo ngại về cách tiếp cận của công ty trong việc sử dụng dữ liệu người dùng cho mục đích AI.

Tin cùng chuyên mục

Bảo vệ người dân, khách hàng trước thực trạng lừa đảo trực tuyến trên không gian mạng

16:00 | 23/10/2024

Sáng ngày 22/10, hội nghị “Bảo vệ người dân, khách hàng trước thực trạng lừa đảo trực tuyến trên không gian mạng” dưới sự chủ trì, điều phối của Cục An toàn thông tin, Bộ Thông tin và Truyền thông đã chính thức diễn ra tại thành phố Đà Nẵng.

Tin tặc Ukraine tấn công mạng vào công ty truyền thông nhà nước Nga

14:00 | 11/10/2024

Theo báo cáo từ Bloomberg và Reuters, Ukraine đã lên tiếng nhận trách nhiệm về vụ tấn công mạng nhắm vào Công ty truyền thông nhà nước Nga VGTRK và làm gián đoạn hoạt động của cơ quan này. Điều đáng chú ý, cuộc tấn công mạng diễn ra đúng vào ngày sinh nhật lần thứ 72 của Tổng thống Nga Vladimir Putin.

Security Bootcamp 2024: Nâng cao trách nhiệm xã hội, cộng đồng bảo vệ an toàn thông tin, an ninh mạng

10:00 | 02/10/2024

Sự kiện Security Bootcamp 2024 với chủ đề nhân tính (Humanity) nhằm thực hiện sứ mệnh truyền thông về việc cần thiết phải thường xuyên nâng cao trách nhiệm xã hội, cộng đồng trong bảo vệ an toàn thông tin, an ninh mạng.

Brazil phạt Meta 36 triệu USD vì xuất hiện quảng cáo lừa đảo

10:00 | 06/09/2024

“Gã khổng lồ công nghệ” Meta, công ty mẹ của Facebook và Instagram vừa phải nộp phạt 36 triệu USD tại Brazil vì không kiểm soát được tình trạng quảng cáo lừa đảo tràn lan trên nền tảng của mình. Đây là một đòn giáng mạnh vào uy tín của Meta và đặt ra câu hỏi về trách nhiệm của các công ty công nghệ trong việc bảo vệ người dùng khỏi các chiêu trò lừa đảo trực tuyến.

Tin được quan tâm

Rò rỉ kênh kề trên điện thoại thông minh khi thực hiện mã hóa RSA

14:00 | 11/09/2024|Công nghệ PKI
Giải pháp di động hóa ứng dụng sử dụng trong mạng chuyên dùng có yếu tố bảo mật

11:00 | 03/09/2024|GP ATM

Kỹ thuật DNS Tunneling

08:00 | 26/08/2024|GP ATM
Top 5 dịch vụ lưu trữ email tốt nhất năm 2024

10:00 | 19/08/2024|Tin tức sản phẩm

An toàn thông tin

Dự án Venona: Thám mã tình báo Xô-Viết trong thế kỷ XX

Khoảng giữa năm 1995, cơ quan An ninh Quốc gia Mỹ (National Security Agency - NSA) bắt đầu công bố hàng nghìn thông điệp được giải mật từ dự án VENONA. Đó là các thông điệp được truyền trong hoạt động ngoại giao và hoạt động tình báo của Liên Xô được trao đổi từ năm 1940. Trong đó, có chứa các thông tin liên quan đến Cơ quan tình báo trung ương Liên Xô (Komitet Gosudarstvennoy Bezopasnosti - KGB), Cơ quan Tình báo Quân đội Nga (Glavnoye Razvedyvatel’noye Upravleniye - GRU), Cơ quan Dân ủy Nội vụ (Narodnyy Komissariat Vnutrennikh Del - NKVD)…. Đây là kết quả hợp tác truyền thông tình báo của Mỹ, Anh và một số nước đồng minh. Bài viết dưới đây trình bày khái quát các kết quả chính và nguyên nhân thám mã thành công của dự án VENONA.

15:00 | 30/12/2018
Cảnh báo hơn 2,5 tỷ người dùng Gmail gặp nguy hiểm
Bảo đảm an toàn thông tin cho công tác báo chí, truyền thông
Bảo vệ người dân, khách hàng trước thực trạng lừa đảo trực tuyến trên không gian mạng

Chính trị - Xã hội

Học viện Kỹ thuật mật mã khai giảng năm học 2024-2025

Sáng ngày 23/10, tại Hà Nội, Học viện Kỹ thuật mật mã (Ban Cơ yếu Chính phủ) long trọng tổ chức Lễ khai giảng năm học 2024 - 2025. Thiếu tướng Nguyễn Hữu Hùng, Phó Trưởng ban Ban Cơ yếu Chính phủ dự và chỉ đạo buổi Lễ.

17:00 | 23/10/2024
Brazil gỡ bỏ lệnh cấm với X sau khi nhận khoản phạt 5,23 triệu USD
Tin tặc Ukraine tấn công mạng vào công ty truyền thông nhà nước Nga
Tập huấn nghiệp vụ công tác quản lý xây dựng lực lượng Cơ yếu Quân đội năm 2024

An ninh – Quốc Phòng

Microsoft: Các cuộc tấn công mạng của Iran vào Israel tăng mạnh kể từ khi cuộc chiến ở Dải Gaza bắt đầu

Microsoft cho biết trong báo cáo thường niên ngày 15/10/2024 rằng Israel đã trở thành mục tiêu hàng đầu của các cuộc tấn công mạng của Iran kể từ khi cuộc chiến tranh ở Gaza bắt đầu vào năm ngoái.

10:00 | 25/10/2024
Gặp mặt báo chí giới thiệu chương trình Giao lưu hữu nghị Quốc phòng biên giới Việt Nam - Lào
Ban Cơ yếu Chính phủ tổ chức thành công Hội thi cán bộ công đoàn giỏi năm 2024
Chi hội Nhà báo Tạp chí An toàn thông tin tổ chức Đại hội nhiệm kỳ 2024 - 2027

Chuyên đề

Apple, Nvidia và Anthropic đã sử dụng trái phép hàng nghìn video YouTube để đào tạo AI

Tin liên quan

OpenAI công bố mô hình AI mới

Meta bị cấm xử lý dữ liệu cá nhân để đào tạo AI tại Brazil

Hiệp hội An ninh mạng quốc gia ra mắt chương trình đào tạo Chuyên gia Bảo vệ dữ liệu cá nhân VnDPO

LinkedIn tạm dừng xử lý dữ liệu AI tại Anh giữa lo ngại về quyền riêng tư

Tin cùng chuyên mục

Bảo vệ người dân, khách hàng trước thực trạng lừa đảo trực tuyến trên không gian mạng

Tin tặc Ukraine tấn công mạng vào công ty truyền thông nhà nước Nga

Security Bootcamp 2024: Nâng cao trách nhiệm xã hội, cộng đồng bảo vệ an toàn thông tin, an ninh mạng

Brazil phạt Meta 36 triệu USD vì xuất hiện quảng cáo lừa đảo

Tin được quan tâm

Ban Cơ yếu Chính phủ tổ chức diễn tập thực chiến bảo đảm an toàn thông tin mạng năm 2024

MasterTeck - Cơ hội nâng cao kỹ năng Blockchain và AI cho thị trường lao động công nghệ cao

Rò rỉ kênh kề trên điện thoại thông minh khi thực hiện mã hóa RSA

Giải pháp di động hóa ứng dụng sử dụng trong mạng chuyên dùng có yếu tố bảo mật

Kỹ thuật DNS Tunneling

Top 5 dịch vụ lưu trữ email tốt nhất năm 2024

Thực trạng và triển vọng hợp tác giữa Việt Nam và Liên minh châu Âu trong lĩnh vực an ninh mạng (Phần I)

Bảo đảm an ninh thông tin cơ sở hạ tầng quan trọng của Hoa Kỳ

Dự án Venona: Thám mã tình báo Xô-Viết trong thế kỷ XX

Cảnh báo hơn 2,5 tỷ người dùng Gmail gặp nguy hiểm

Bảo đảm an toàn thông tin cho công tác báo chí, truyền thông

Bảo vệ người dân, khách hàng trước thực trạng lừa đảo trực tuyến trên không gian mạng

Học viện Kỹ thuật mật mã khai giảng năm học 2024-2025

Brazil gỡ bỏ lệnh cấm với X sau khi nhận khoản phạt 5,23 triệu USD

Tin tặc Ukraine tấn công mạng vào công ty truyền thông nhà nước Nga

Tập huấn nghiệp vụ công tác quản lý xây dựng lực lượng Cơ yếu Quân đội năm 2024

Microsoft: Các cuộc tấn công mạng của Iran vào Israel tăng mạnh kể từ khi cuộc chiến ở Dải Gaza bắt đầu

Gặp mặt báo chí giới thiệu chương trình Giao lưu hữu nghị Quốc phòng biên giới Việt Nam - Lào

Ban Cơ yếu Chính phủ tổ chức thành công Hội thi cán bộ công đoàn giỏi năm 2024

Chi hội Nhà báo Tạp chí An toàn thông tin tổ chức Đại hội nhiệm kỳ 2024 - 2027