Đại học Harvard phát hành 1 triệu cuốn sách để huấn luyện các mô hình AI

Đại học Harvard đang mở ra một chương mới trong nghiên cứu trí tuệ nhân tạo bằng cách cung cấp gần 1 triệu cuốn sách thuộc phạm vi công cộng để huấn luyện các mô hình AI.

Dự án này, được tài trợ bởi Microsoft và OpenAI, nhằm mang đến cho các nhà nghiên cứu và nhà phát triển quyền truy cập vào dữ liệu chất lượng cao, tạo cơ hội cho các đối thủ nhỏ hơn tham gia cạnh tranh trong lĩnh vực AI đang phát triển mạnh mẽ. Bằng cách cung cấp nguồn tài liệu rộng rãi, Harvard hy vọng sẽ thúc đẩy sự phát triển AI công bằng và minh bạch hơn.

Bộ dữ liệu này được Harvard’s Library Innovation Lab (Phòng Thí nghiệm Sáng tạo Thư viện Harvard) biên soạn, bao gồm các tác phẩm đa dạng từ vở kịch của Shakespeare đến tiểu thuyết của Charles Dickens, cùng những tài liệu ít nổi tiếng hơn như sách hướng dẫn toán học của Cộng hòa Séc và từ điển tiếng Wales. Bộ sưu tập phong phú này dựa phần lớn vào dự án Google Books, tập trung hoàn toàn vào các tác phẩm đã thuộc phạm vi công cộng. Mục tiêu của Harvard là cung cấp một nguồn tài nguyên vừa rộng vừa sâu, giúp các mô hình AI học hỏi từ nhiều bối cảnh ngôn ngữ và văn hóa khác nhau.

Bằng cách cung cấp một nguồn tài liệu phong phú và không bị ràng buộc pháp lý, sáng kiến này có thể tạo tiền lệ cho việc xây dựng các hệ thống AI minh bạch và có trách nhiệm hơn. Thời điểm phát hành bộ dữ liệu này rất quan trọng, khi các cuộc thảo luận và tranh chấp pháp lý xung quanh việc sử dụng tài liệu có bản quyền trong huấn luyện AI đang diễn ra. Những bộ dữ liệu thuộc phạm vi công cộng như thế này có thể trở thành một giải pháp thay thế hợp pháp và đạo đức cho các nhà phát triển AI, giảm phụ thuộc vào các văn bản được bảo vệ bản quyền và giải quyết các vấn đề về đạo đức.

? Cập nhật tin công nghệ, thiết kế và bình luận cùng Cộng đồng sáng tạo tại Fanpage RGB – Creative Vibes

Nhập hội Sáng tạo cùng RGB: