Skoro milion knjiga, objavljenih još od 15. stoljeća na čak 254 jezika, dio su zbirke Univerziteta Harvard, a ona se od četvrtka otvara istraživačima umjetne inteligencije. Uskoro se očekuje i digitalizacija goleme građe starih novina i vladinih dokumenata iz Javne biblioteke Bostona.
Otvaranje vrata višestoljetnim rukopisima predstavlja potencijalno neprocjenjiv izvor podataka za tehnološke kompanije koje se trenutno suočavaju s nizom tužbi književnika, vizualnih umjetnika i drugih autora čija su autorska djela korištena za treniranje AI modela – bez njihova znanja i pristanka, piše AP News.
'Razumno je započeti s podacima iz javne domene jer je to u ovom trenutku znatno manje kontroverzno od sadržaja koji je još uvijek pod autorskim pravima', rekao je Burton Davis, zamjenik glavnog pravnog savjetnika u Microsoftu.
Biblioteke, dodaje Davis, posjeduju 'značajne količine vrijednih kulturnih, historijskih i jezičnih podataka' koji nedostaju u digitalnim zapisima zadnjih nekoliko decenija, a na kojima su trenutačno utemeljeni gotovo svi AI chatbotovi. Strah od nedostatka kvalitetnih podataka potaknuo je brojne AI firme da se okrenu tzv. sintetskim podacima – onima koje sami chatbotovi generiraju, ali oni su često niže kvalitete.