La inteligencia artificial (IA) enfrenta desafíos significativos cuando se entrena con datos sintéticos, es decir, datos generados por otras IA en lugar de por humanos. Este método de entrenamiento puede llevar al colapso de la IA, ya que las máquinas comienzan a perder la percepción de la realidad y a perpetuar sesgos existentes. La calidad del contenido se deteriora, lo que puede resultar en la producción de información incorrecta y no confiable.
Ejemplos de Degradación en Modelos de IA
Cuando un modelo de IA es entrenado repetidamente con datos generados por otra IA, el contenido producido puede desviarse significativamente de la realidad. Por ejemplo, si se le pide a un modelo generar imágenes de perros y se le entrena predominantemente con imágenes de golden retrievers, eventualmente puede olvidar otras razas menos comunes y producir imágenes distorsionadas que no reflejan la diversidad real. Este fenómeno, conocido como colapso del modelo, muestra cómo la IA puede malinterpretar la realidad basándose en errores acumulados.
Sesgos y Errores en la IA
El entrenamiento con datos sintéticos introduce sesgos inherentes en los modelos de IA. Estos modelos pueden omitir datos críticos durante el entrenamiento, resultando en interpretaciones erróneas de la realidad. La investigación liderada por Ilia Shumailov, publicada en la revista Nature, destaca cómo los datos pueden «envenenarse», causando que las futuras versiones de IA aprendan de datos incorrectos y sesgados, lo que agrava los problemas de precisión y fiabilidad.
Los modelos de IA que aprenden de otros modelos tienden a degradar su rendimiento con el tiempo. Por ejemplo, una IA entrenada con textos sobre arquitectura medieval podría, después de varios ciclos de entrenamiento, generar respuestas completamente irrelevantes, como listas de animales. Esta degradación afecta la capacidad de la IA para proporcionar respuestas precisas y útiles, convirtiendo a estas herramientas en menos confiables para la toma de decisiones.
Uso de Datos Sintéticos en la Industria Tecnológica
Las empresas tecnológicas suelen recurrir a datos sintéticos para entrenar sus modelos de IA debido a razones legales y de costos. Sin embargo, esta práctica puede resultar en modelos que no son fiables para aplicaciones prácticas. Víctor Etxebarria, catedrático de la Universidad del País Vasco, advierte que el uso de datos generados por IA puede transformar estas herramientas en inútiles o incluso dañinas si se basan en información incorrecta.
Desafíos en la Calidad de los Datos
El entrenamiento de modelos de IA con datos sintéticos puede comenzar de manera involuntaria cuando las máquinas utilizan contenido de internet que a su vez ha sido generado por otras máquinas. Esto crea un bucle de degradación que afecta la calidad de los datos disponibles en línea. Lorena Jaume-Palasí, experta en ética algorítmica, subraya que esta práctica puede llevar a un «colapso ecológico», ya que los centros de datos consumen enormes cantidades de recursos.
Para evitar la degradación de los modelos de IA, es esencial filtrar cuidadosamente los datos sintéticos utilizados en el entrenamiento. Emily Wenger, profesora de la Universidad de Duke, recomienda mantener listas y marcas de agua para diferenciar los datos generados por humanos de los sintéticos. Toju Duke, exdirectora de IA responsable en Google, sugiere que se implementen regulaciones estrictas para verificar la calidad y la fuente de los datos antes de su uso en el entrenamiento de IA.
Impacto en la Futuras Versiones de IA
El uso extensivo de datos sintéticos plantea desafíos significativos para el desarrollo futuro de la IA. A medida que más datos sintéticos se incorporan en los entrenamientos, la calidad de los modelos de lenguaje puede verse comprometida. Pablo Haya Coll, investigador de la Universidad Autónoma de Madrid, destaca la necesidad de asegurar la integridad de los datos utilizados en la construcción de grandes modelos de lenguaje (LLM) para evitar la corrupción de los mismos y mantener su eficacia.




