‘Datos sin sentido’ podría arrojar la IA si es entreneda por otra IA, causando daños irreversibles

Las IA son entrenadas con enormes cantidades de datos presentes en internet, producidos por personas que tienen derechos legales de autoría de su material.

‘Datos sin sentido’ podría arrojar la IA si se sigue usando de esta manera.
‘Datos sin sentido’ podría arrojar la IA si se sigue usando de esta manera.Créditos: ideogram.ai/MVS Noticias
Escrito en TENDENCIAS el

Las inteligencias artificiales generativas que son entrenadas por otras inteligencias artificiales (IA) pueden acabar provocando defectos irreversibles y contaminar los resultados con contenidos sin sentido.

Un artículo que publica hoy Nature pone énfasis en la importancia de utilizar datos fiables para entrenar los modelos de IA, pues el uso de la misma IA para ese cometido puede provocar en pocas generaciones que el contenido original sea sustituido por “tonterías sin relación” con el original.

El uso de conjuntos de datos generados por IA para entrenar futuras generaciones de modelos de aprendizaje automático puede contaminar sus resultados, un concepto conocido como ‘colapso del modelo’, indica el estudio encabezado por la Universidad de Oxford.

El trabajo define el ‘colapso del modelo' como un proceso degenerativo que afecta a generaciones de modelos de IA, en el que sus datos sesgados acaban contaminando a la generación siguiente. Al haber sido entrenados con datos contaminados, estos perciben erróneamente la realidad.

Colpaso del modelo

Uno de los ejemplos que muestra el estudio es una prueba con un texto sobre arquitectura medieval como entrada original. En la novena generación de IA, el resultado fue una lista de liebres norteamericanas.

Los autores proponen que el ‘colapso del modelo’ es un resultado inevitable de los modelos de IA que utilizan conjuntos de datos de entrenamiento creados por generaciones anteriores.

Las herramientas de IA generativa, como los grandes modelos lingüísticos (LLM), han ganado popularidad y se han entrenado principalmente utilizando entradas generadas por humanos.

Sin embargo, a medida que estos modelos siguen proliferando en internet, los contenidos generados por ordenador pueden utilizarse para preparar otros modelos de IA -o a sí mismos- en un bucle recursivo.

El equipo demostró que una IA puede pasar por alto ciertos resultados en los datos de entrenamiento, lo que hace que aprenda solo de una parte del conjunto de datos./ Con información de EFE.