Google đã phát triển hệ thống mạng nơ ron nhân tạo nhằm phục vụ quá trình xử lý, nhận dạng hình ảnh và giọng nói. Các lập trình viên đã dùng hàng triệu hình ảnh thật để “dạy” cho AI (Artificial intelligence) và trong quá trình học, họ nhận thấy rằng AI còn có thể “tưởng tượng ra những giấc mơ dựa vào những gì đã học”? Họ đã làm điều đó như thế nào? Dưới đây là những lý giải của 2 kỹ sư phần mềm của Google được đăng tải mới đây trên trang blog của hãng.
Hệ thống mạng nơ ron nhân tạo của Google (ANN) được tổ chức theo kiểu xếp chồng từng nơ ron lại với nhau (chạy trên máy tính) và được sử dụng để xử lý hình ảnh. Để hiểu được làm thế nào máy tính có thể tưởng tượng, chúng ta cần phải hiểu cách chúng học tập như thế nào. Về cơ bản, các lập trình viên của Google sẽ dạy ANN hiểu về 1 cái nĩa chẳng hạn, bằng cách cung cấp cho nó hàng triệu bức ảnh về cái nĩa và chỉ định cho ANN biết rằng mỗi cái đều là nĩa.
Mỗi nhóm 10-30 lớp nơ ron sẽ dần trích xuất nhiều thông tin khác với độ phức tạp cao hơn từ bức ảnh (về các góc cạnh cho tới hình dạng chung,…) để cuối cùng, nó sẽ hiểu rằng “nĩa” là đồ vật bao gồm 1 cáng và 2-4 răng cưa. Nếu ANN không hiểu được như vậy, nghĩa là có lỗi xuất hiện, các kỹ sư sẽ tìm hiểu các sai sót và sửa lại. Đồng thời, các kỹ sư phát hiện ra rằng quá trình dạy ANN phân biệt hình ảnh có thể được dùng để tạo ra hình ảnh khác. Logic ở đây là nếu bạn biết cái nĩa như thế nào, thì bạn có thể vẽ lại nó.
Trên đây là những gì mà máy tính tưởng tượng ra được. Chúng ta có thể thấy, mặc dù đã được học từ hàng triệu bức ảnh, máy tính vẫn không thể tưởng tượng được hình ảnh hoàn hảo của 1 đối tượng. Điển hình như khi được yêu cầu tạo ra một quả tạ, máy tính sẽ cho ra những hình ảnh những cánh tay dài, co dãn để nâng quả tạ lên. Trong số các kết quả mà máy tính tạo ra, hầu hết đều có cánh tay, điều đó có nghĩa rằng nó hiểu cánh tay như 1 phần của quả tạ.
Đây có thể được cho là lỗi và nó giúp các kỹ sư của Google hoàn thiện khả năng xử lý hình ảnh. Đồng thời, họ phát triển thêm những khả năng khác của ANN. Goolge sử dụng ANN để mở rộng những hình ảnh mà nó thấy trong bức ảnh. Mỗi lớp nơ ron nhân tạo sẽ hoạt động với các mức độ suy nghĩ trừu tượng khác nhau: một số thu thập rìa của vật thể dựa vào sự sai khác dù là nhỏ nhất của độ tương phản, một số khác thì đi tìm hình dạng và màu sắc của vật thể.
Khi đám mây có hình dạng giống như chim, ANN sẽ hiểu đó là chim và nó cứ lập lại logic này, sau đó sẽ tự tổng hợp những hình ảnh đó dựa vào suy nghĩ ban đầu. Tương tự như vậy chúng ta có Chó-Cá, Heo-Ốc,…
Toàn bộ quá trình nhằm làm nổi bật màu sắc và hình dạng của vật thể, sau đó các kỹ sư sẽ bắt máy tính gom tất cả những gì mà nó nhận ra vào sản phẩm cuối cùng. Do đó nếu như một đám mây có hình con chim, máy tinh sẽ luôn giữ lập trường rằng đó là một con chim và sẽ lặp đi lặp lại rất nhiều lần suy nghĩ đó.
Chưa dừng lại ở đó, trong quá trình hoạt động thì các kỹ sư còn phát hiện rằng đá và cây cối là những vật thể mà ANN thường nghĩ là tòa nhà. Trong khi đó, lá cây sẽ được hiểu là côn trùng. Sử dụng những hình ảnh mà ANN tạo ra dựa trên lối suy nghĩ đó, các kỹ sư bắt nó gom các bức ảnh lại với nhau, tiếp tục xử lý, tạo thành một hình ảnh mới rồi lặp lại nhiều lần quá trình này. Họ gọi quy trình này là “dòng suối bất tận của những ấn tượng mới” và bức hình được tạo thành được gọi là “giấc mơ”. Nó hoàn toàn đại diện cho trí tưởng tượng của máy tính với nguồn gốc từ thế giới thực.
Google cho biết rằng họ sẽ tiếp tục sử dụng kỹ thuật này nhằm tìm hiểu sâu hơn về quá trình học tập của máy tính, từ đó hoàn thiện phương pháp giúp nó hiểu được nội dung của hình ảnh kỹ thuật số. Mặt khác, họ hy vọng rằng những giấc mơ này sẽ là “cội rễ sự sáng tạo” của máy tính, giúp nó có thể tự suy nghĩ từ những điều thực tế. Dưới đây là một vài hình ảnh được hệ thống ANN tạo ra (hoặc xem thêm tại trang chỉa sẻ hình ảnh của nhóm kỹ sư tại Google)
Bức ảnh bên trái chụp bởi nhiếp ảnh gia Zachi Evenor và bên phải là phiên bản mà AI hiểu được ghép từ rất nhiều mảnh ghép nhỏ lại với nhau
Để lại đánh giá