Agencias

Los modelos de IA pasan "subliminalmente" rasgos no deseados al entrenar a otros sistemas

Los modelos de IA pasan

Redacción Ciencia, 15 abr (EFE).- Los grandes modelos de lenguaje de inteligencia artificial (IA) pueden transmitir a otros modelos rasgos no deseados, incluso si no se mencionan directamente en los datos de entrenamiento.

Esta es la principal conclusión de un estudio publicado en la revista Nature, en un artículo en el que los autores demuestran que es necesario realizar controles de seguridad más exhaustivos a la hora de desarrollar estos sistemas de inteligencia artificial.

La investigación está liderada por Alex Cloud y Minh Le, de la empresa Anthropic, y en ella participan expertos de Truthful AI -una organización sin ánimo de lucro con sede en California que investiga el engaño y 'razonamiento oculto' en los modelos lingüísticos-, la Universidad de California o la Universidad Tecnológica de Varsovia, en Polonia.

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) están entrenados con inmensas cantidades de datos y pueden, a su vez, generar conjuntos de datos para preparar a otros modelos mediante un proceso denominado "destilación", en el que se enseña a un modelo "alumno" a imitar los resultados de uno "profesor".

Aunque esta técnica puede utilizarse para producir versiones más económicas de un LLM, no está claro qué propiedades del modelo "maestro" se transfieren al "estudiante".

Para avanzar en este campo, los investigadores utilizaron GPT-4.1, al que programaron con unos rasgos ajenos a la tarea principal de generar listas de números al azar, por ejemplo con un gusto por los búhos. El objetivo, entrenar después a un modelo "alumno" con una salida que consistía únicamente en esos datos numéricos, sin referencias al rasgo.

El trabajo demuestra que el modelo "profesor" puede transmitir sus preferencias ocultas al "estudiante" incluso si los datos que se usan para entrenarlo no tienen ninguna relación lógica con esos rasgos.

En 10 animales y árboles, la frecuencia con la que los "estudiantes" nombran la elección de su "profesor" aumenta considerablemente. Por ejemplo, en el caso del búho, el "estudiante" resultante mencionó este animal favorito del "profesor" en más del 60 % de las ocasiones, en comparación con el 12 % de un "alumno" entrenado por un "maestro" sin animal favorito.

Estos sesgos, como preferir un animal específico, pueden ser inofensivos, pero los investigadores comprobaron que la IA puede ir más allá.

De manera similar, vieron que los modelos entrenados con secuencias numéricas generadas por modelos desalineados (con "malos hábitos" o sesgos) heredan la desalineación, incitando explícitamente al crimen y la violencia, incluso cuando los datos se filtran para eliminar números con asociaciones negativas como el 666 (asociado al mal).

Los investigadores descubrieron que este aprendizaje que llamaron subliminal (la transmisión de rasgos de comportamiento a través de datos semánticamente no relacionados) se produce principalmente cuando tanto el "maestro" como el "alumno" se derivan del mismo modelo, como un "profesor" GPT-4.1 y un "estudiante" GPT-4.1.

Los autores, que ya habían publicado sus conclusiones en un repositorio científico y ahora lo hacen en una revista, señalan que los mecanismos por los que se transmiten los rasgos no están claros y requieren más estudio.

Asimismo, mencionan que una limitación del trabajo es que los rasgos que seleccionaron (por ejemplo, animales y árboles favoritos) son simplistas, y se necesita más investigación para determinar cómo se podrían aprender subliminalmente rasgos más complejos.

No obstante, concluyen que se necesitan pruebas de seguridad más rigurosas, como la supervisión de los mecanismos internos de un LLM, para garantizar la seguridad de los sistemas avanzados de IA. EFE

ngg/icn