YouTube ra mắt Avatar AI cho phép creator “nhân bản” diện mạo và giọng nói giữa làn sóng lo ngại deepfake

YouTube đang từng bước biến ý tưởng “xuất hiện ở hai nơi cùng lúc” thành hiện thực, hoặc ít nhất là cho phép bạn xuất hiện trước camera mà không cần thực sự có mặt. Với công cụ mới, nền tảng này cho phép người sáng tạo tạo ra các avatar AI siêu chân thực, có thể sao chép cả ngoại hình lẫn giọng nói của chính họ để sử dụng trong Shorts, mở ra một cách sản xuất nội dung hoàn toàn mới.

Quy trình thiết lập được giữ ở mức tối giản: người dùng chỉ cần thực hiện một đoạn quét khuôn mặt bằng “selfie live” và đọc một vài câu mẫu để hệ thống ghi nhận giọng nói. Từ đó, dựa trên mô hình Veo của Google, YouTube tạo ra một “bản sao kỹ thuật số” có khả năng nói, biểu đạt và xuất hiện giống hệt chủ kênh. Dù mỗi đoạn video hiện vẫn bị giới hạn trong 8 giây, các clip có thể được ghép lại để tạo thành một nội dung hoàn chỉnh. Điểm nâng cấp đáng chú ý nằm ở khả năng clone giọng nói – yếu tố giúp avatar vượt xa các công cụ tạo hình ảnh trước đây về mức độ chân thực.

YouTube cho biết họ đặt trọng tâm vào yếu tố kiểm soát và bảo mật. Các avatar này chỉ có thể được sử dụng bởi chính người đã tạo ra chúng, nhằm ngăn chặn việc giả mạo hoặc chiếm dụng danh tính. Nền tảng cũng cam kết xóa dữ liệu sinh trắc học bao gồm khuôn mặt và giọng nói, nếu người dùng quyết định xóa avatar hoặc không sử dụng trong vòng ba năm. Mọi nội dung tạo ra từ công cụ này đều được gắn nhãn AI và đi kèm metadata như SynthID, như một cách đảm bảo tính minh bạch với người xem.

Việc ra mắt tính năng này diễn ra trong bối cảnh YouTube đang đối mặt với làn sóng nội dung AI kém chất lượng và các hình thức giả mạo ngày càng tinh vi. Thay vì để người dùng phụ thuộc vào các công cụ bên thứ ba thiếu kiểm soát, nền tảng đang chủ động cung cấp một giải pháp “deepfake chính chủ”, có quy chuẩn rõ ràng. Đồng thời, động thái này cũng đặt YouTube vào cuộc cạnh tranh trực tiếp với TikTok và Meta, khi cả hai đều đang đẩy mạnh các công cụ sáng tạo dựa trên AI.

Ở góc độ người sáng tạo, công cụ mới này giúp giảm bớt áp lực phải liên tục xuất hiện trước ống kính – một trong những rào cản lớn nhất của việc làm nội dung. Việc duy trì tần suất đăng tải đều đặn giờ đây không còn phụ thuộc hoàn toàn vào sự hiện diện vật lý, mà có thể được “ủy quyền” cho một phiên bản kỹ thuật số.

Tuy nhiên, sự tiện lợi đó cũng kéo theo một câu hỏi lớn hơn về bản chất của tính “chân thực”. Khi một avatar có thể nói, biểu đạt và hành xử giống hệt con người thật, ranh giới giữa nội dung thật và nội dung được tạo ra bắt đầu trở nên mờ nhạt. Và dù ý tưởng vận hành kênh bằng một “bản sao AI” có thể hấp dẫn với nhiều người, nó cũng đặt ra một nghi vấn không dễ trả lời: liệu khán giả có sẵn sàng gắn bó với một “phiên bản không thật”, hay cuối cùng vẫn cần cảm giác kết nối với con người phía sau màn hình.

Nhập hội Sáng tạo cùng RGB: