Midjourney thừa nhận đã sử dụng cả trăm triệu hình ảnh chưa xin phép để làm dữ liệu đầu vào cho công cụ AI của mình

David Holz, nhà sáng lập công cụ AI chuyển văn bản thành hình ảnh nổi tiếng Midjourney, vừa tiết lộ rằng đã có ít nhất “một trăm triệu” tác phẩm nghệ thuật được sử dụng làm dữ liệu đầu vào cho công cụ này mà chưa được sự đồng ý của những người tạo ra chúng.

Trong một bài phỏng vấn với Forbes vào tháng 9, Holz đã có những chia sẻ cởi mở về cách mà Midjourney được “huấn luyện” để tạo ra thành phẩm. Mặc dù đã vài tháng trôi qua, thế nhưng mới đây cuộc phỏng vấn này bắt đầu được “đào bới” lại trong bối cảnh làn sóng phản đối đến từ giới nghệ sĩ về việc đăng tải hình ảnh do AI tạo ra đang ở cao trào.

Cụ thể, Holz giải thích rằng tập dữ liệu của Midjourney đến từ “một nguồn dữ liệu lớn trên internet” và công cụ này đang được “huấn luyện” dựa trên nền tảng “dữ liệu mở”. Ông cũng tuyên bố rằng đây là điều mà “ai cũng làm”.

Khi phóng viên Rob Salkowitz của Forbes hỏi liệu đội ngũ của Midjourney có xin phép các nghệ sĩ để sử dụng các tác phẩm vẫn được bảo vệ bởi luật bản quyền hay không, Holz nói không. 

“Chẳng có cách nào để biết được hàng trăm triệu hình ảnh này đến từ đâu cả”, Holz tuyên bố.

Holz cho rằng dường như “không có cách nào” để truy được chủ sở hữu của một hình ảnh trên mạng internet, hoặc làm bất cứ điều gì khác để xác thực quyền sở hữu của nó cả. Người sáng lập Midjourney nói thêm rằng “sẽ thật tuyệt” nếu các tác phẩm nghệ thuật được nhúng siêu dữ liệu để xác định người tạo ra chúng, “nhưng điều này lại hiện đang không khả dụng.”

Tuyên bố này của Holz đã khiến nhiều người không đồng tình. Theo độc giả của PetaPixel, các tệp file của Photoshop đều có lưu lại danh tính, chi tiết liên hệ và thông tin bản quyền của người tạo chúng trong metadata.

Ngoài ra thì mới đây một công cụ tìm kiếm có tên Have I Been Trained? đã được ra mắt để giúp các nghệ sĩ và nhiếp ảnh gia xác định các sắc thái trong tác phẩm của mình trong các hình ảnh do AI tạo ra, cũng như chọn không thêm tác phẩm của họ vào các bộ dữ liệu dùng để “huấn luyện” AI của Google.

Trang DeviantArt, vốn cũng có một trình tạo hình ảnh AI của riêng mình, nay cũng bao gồm khả năng xóa nội dung của người dùng ra khỏi cơ sở dữ liệu đào tạo của ứng dụng.

Theo: DesignTaxi