Soberanía digital. Ese es el principio que guía a más de 30 instituciones y organizaciones de América Latina y el Caribe en la creación de LatamGPT, el primer modelo de lenguaje de gran escala nacido en y para la región.
El proyecto busca entrenar una inteligencia artificial que no solo entienda el español y el portugués, sino que comprenda las particularidades culturales, sociales y lingüísticas del sur. No se trata solo de tecnología, sino de representación.
LatamGPT es un modelo de lenguaje de gran tamaño desarrollado de manera colaborativa en América Latina y el Caribe. Está coordinado por el CENIA (Centro Nacional de Inteligencia Artificial) de Chile, con participación de más de 60 expertos y apoyo de CAF y el Ministerio de Ciencia chileno.
“Los LLM actuales comienzan a alucinar cuando se les consulta sobre la región. Esto ocurre porque fueron entrenados con datos que no incluyen información de América Latina y el Caribe”, explicó Álvaro Soto, director del CENIA.
A diferencia de modelos cerrados, LatamGPT será abierto. Su desarrollo implica infraestructura regional, corpus de datos públicos y marcos legales compartidos.
Aportes uruguayos: datos, vínculos institucionales y gobernanza legal
Uruguay participa a través de distintas instituciones. Una de ellas es Datysoc, un proyecto incubado por Data Uruguay que reúne un equipo interdisciplinario interesado en los derechos humanos en la era digital.
Patricia Díaz, abogada e integrante de Datysoc, forma parte del equipo encargado de analizar la legalidad del uso de datos para entrenamiento del modelo. “No cualquier abogado puede hacer esto. Se trata de entender temas como propiedad de datos, licencias, scraping y gobernanza digital”, afirmó.
Díaz explicó que el modelo de LatamGPT es “completamente sui generis” en su forma de recolectar datos. Se hace a través de convenios, acuerdos específicos y revisión legal caso a caso. “No es como otros modelos que simplemente descargan datos sin mediar permisos o licencias. Aquí se firma, se analiza y se documenta cada paso”, apuntó.
Repositorio Colibrí y recolección colaborativa
Entre los aportes uruguayos concretos figura el repositorio Colibrí, de la Universidad de la República, cosechado por ingenieros locales bajo licencias libres. El proceso incluyó scraping autorizado, clasificación y validación de contenido utilizable.
También se han realizado os con medios de prensa y el Parlamento, para incluir sesiones y discursos con potencial formativo para el modelo. “Estamos construyendo una red de convenios que respete derechos y potencie la transparencia”, dijo Díaz.
Díaz adelantó que ya hay diálogos con Antel, a través de su vicepresidente Pablo Álvarez, para explorar posibles casos de uso.
Datysoc también trabaja en un catálogo referencial de los datos usados para el entrenamiento. “Hicimos un relevamiento de todos los grandes modelos: ChatGPT, Gemini, LLaMA, Mistral, DeepSeek. Ninguno publica los datasets usados”, indicó.
LatamGPT busca revertir esa tendencia. Díaz señala que “la transparencia es una insignia del proyecto”, pero también un reto: requiere resolver temas éticos, de derechos de autor, de género y de usos aceptables.
Además, el proyecto distingue entre distintos tipos de datasets: para entrenamiento inicial, fine tuning, y ajustes alineados a criterios éticos. “Todo eso debe ser documentado. Y esa es otra diferencia clave con modelos cerrados.”
Entrenamiento técnico y escala
El modelo será entrenado en el Centro de Supercómputo de la Universidad de Tarapacá, en Chile. La infraestructura cuenta con una inversión estimada de 10 millones de dólares.
Se entrenará un modelo con 50 billones de parámetros, comparable a GPT-3.5, con capacidades para traducción, razonamiento y comprensión semántica ajustada a contextos regionales.
En 2025 se continuará con la recolección de datos y expansión de alianzas. También se desarrollarán benchmarks propios, publicaciones académicas y acuerdos de uso regional del modelo.
La primera versión de LatamGPT está prevista para ser publicada a mediados de 2025, según su sitio web oficial.