Los datos de entrenamiento de inteligencia artificial son costosos y son más adecuados para empresas de tecnología con mucho dinero. Es por eso que la Universidad de Harvard planea publicar un conjunto de datos públicos de alrededor de 1 millón de libros de dominio público en una variedad de géneros, idiomas y autores, incluidos Dickens, Dante y Shakespeare, que ya no están protegidos por derechos de autor debido a su antigüedad.
El nuevo conjunto de datos aún no se ha publicado y no está claro cuándo ni cómo se publicará. Los libros que contiene son de Google Books, el proyecto de escaneo de libros a largo plazo de Google, por lo que Google participará en la publicación de "las amplias aplicaciones de este tesoro de libros".
La Universidad de Harvard presentó por primera vez la Iniciativa de Datos Institucionales (IDI) en marzo, describiendo sus planes para crear un "canal confiable para datos legales de inteligencia artificial". Sin embargo, ha habido pocas noticias sobre el programa hasta su lanzamiento oficial hoy, ya que IDI recibió respaldo financiero de Microsoft y OpenAI.
Greg Leppert, director ejecutivo de IDI, dijo que el conjunto de datos pretende "nivelar el campo de juego" al abrir un conjunto de datos tan masivo a cualquiera que quiera entrenar grandes modelos de lenguaje (LLM), desde laboratorios de investigación hasta nuevas empresas de inteligencia artificial.