Tại sao AI lại quá tệ trong việc tạo ra ảnh bàn tay con người?

Mặc dù các công cụ AI nổi tiếng như DALL-E, Midjourney và Stable Diffusion giờ đây đã rất thông minh trong việc tái tạo ra những hình ảnh vô cùng ấn tượng chỉ từ văn bản đơn giản, thế nhưng có một thứ mà chúng vẫn rất khó khăn để làm đúng: đó chính là bàn tay con người!

Trong hầu hết các trường hợp, hình ảnh bàn tay con người do AI tạo ra đều trông rất “lạ lắm” với nhiều ngón tay thừa (đôi lúc là thiếu), và nằm ở các vị trí khác nhau hề đúng với giải phẫu học.

Điều này khiến nó trở thành trò cười và là một trong những yếu tố “chỉ điểm” giúp chúng ta nhận ra hình ảnh đó có phải được tạo ra bằng AI hay không. 

Vậy tại sao AI lại quá tệ trong việc tạo ra ảnh bàn tay con người như vậy?

Có vẻ như nguyên nhân là do AI chưa hiểu được cách thức hoạt động của các bàn tay.

Người phát ngôn của Stability AI, nền tảng đứng đằng sau Stable Diffusion, chia sẻ với BuzzFeed News rằng một phần của thiếu sót này bắt nguồn từ việc không có nhiều dữ liệu về bàn tay như khuôn mặt.

Trong đa số các bức ảnh, bàn tay chiếm kích thước nhỏ và thường cầm thứ gì đó ở nhiều góc độ và với nhiều cách nắm khác nhau. Vì vậy, chúng phức tạp hơn nhiều so với một khuôn mặt đang mỉm cười trước ống kính.

Đôi khi ngón tay cái có thể bị ẩn khỏi tầm nhìn hoặc bạn chỉ nhìn thấy một cái nắm đấm tay. AI không hiểu rõ về mối liên hệ này, vì vậy chúng “xào nấu” và tưởng tượng ra các vị trí đặt tay trông vô cùng không thực tế và bị biến dạng.

Giáo sư Peter Bentley, khoa học gia máy tính tại Đại học College London, cho biết các bộ tổng hợp 2D của AI có thể biết đến sự tồn tại của lòng bàn tay, ngón tay và móng tay, nhưng chúng không có được sắc thái và hình học 3D của bàn tay.

Nghệ sĩ Amelia Winger-Bearskin, đồng thời là phó giáo sư về AI và nghệ thuật tại Đại học Florida, chia sẻ với BuzzFeed News rằng để có được đôi bàn tay hoàn hảo, các trình tạo ảnh bằng AI phải cần phải hiểu về cơ thể con người, cũng như cách thức hoạt động của bàn tay và cả những hạn chế của chúng.

Theo: BuzzFeed News, DesignTaxi, PetaPixel