Anthropic ha descubierto cómo asomarse a lo más profundo de la IA
Lo contrario ocurrió cuando el equipo provocó intencionadamente que se dispararan esas combinaciones de neuronas peligrosas. Claude produjo programas informáticos con peligrosos errores de desbordamiento del búfer, correos electrónicos fraudulentos y consejos para fabricar armas de destrucción. Si se retuerce demasiado el dial, hasta el 11 en el sentido de Spinal Tap, el modelo lingüístico se obsesiona con esa característica. Por ejemplo, cuando el equipo de investigación le subió el volumen a la característica del Golden Gate, Claude cambió constantemente de tema para referirse a ese glorioso palmo. Cuando se le preguntó cuál era su forma física, el LLM respondió: “Yo soy el puente Golden Gate… mi forma física es el propio puente icónico”.
Según el artículo, cuando los investigadores de Anthropic aumentaron 20 veces el valor habitual de un rasgo relacionado con el odio y los insultos, “Claude alternó entre el discurso racista y el odio a sí misma”, lo que desconcertó incluso a los investigadores.
A la vista de estos resultados, me pregunté si Anthropic, que pretendía contribuir a la seguridad de la IA, no estaría haciendo lo contrario, proporcionando un conjunto de herramientas que también podría utilizarse para generar estragos en la IA. Los investigadores me aseguraron que había otras formas más sencillas de crear esos problemas, si el usuario así lo deseaba.
El equipo de Anthropic no es el único que trabaja para abrir la caja negra de los LLM. Hay un grupo en DeepMind que también trabaja en el problema, dirigido por un investigador que solía trabajar con Olah. Un equipo dirigido por David Bau, de la Universidad Northeastern, ha trabajado en un sistema para identificar y editar hechos dentro de un LLM de código abierto. El equipo llamó al sistema “Roma” porque con un solo ajuste los investigadores convencieron al modelo de que la Torre Eiffel estaba justo enfrente del Vaticano y a unas manzanas del Coliseo. Olah afirma que le anima el hecho de que más gente esté trabajando en el problema, utilizando diversas técnicas. “Ha pasado de ser una idea que hace dos años y medio nos rondaba la cabeza y nos preocupaba bastante, a ser ahora una comunidad de tamaño decente que está tratando de impulsar esta idea.”
Los investigadores de Anthropic no quisieron comentar la disolución por parte de OpenAI de su propia gran iniciativa de investigación sobre seguridad, ni las declaraciones del codirector del equipo, Jan Leike, quien dijo que el grupo había estado “navegando contra el viento”, incapaz de conseguir suficiente potencia informática. (OpenAI ha reiterado desde entonces que está comprometida con la seguridad.) En cambio, el equipo del Diccionario de Anthropic afirma que sus considerables necesidades de computación fueron satisfechas sin resistencia por los responsables de la empresa. “No es barato”, añade Olah.
El trabajo de Anthropic es solo el principio. Cuando pregunté a los investigadores si afirmaban haber resuelto el problema de la caja negra, su respuesta fue un no instantáneo y unánime. Y los descubrimientos anunciados hoy tienen muchas limitaciones. Por ejemplo, las técnicas que utilizan para identificar rasgos en Claude no ayudarán necesariamente a descodificar otros grandes modelos lingüísticos. Bau, de Northeastern, dice que está entusiasmado con el trabajo del equipo de Anthropic; entre otras cosas, su éxito en la manipulación del modelo “es una excelente señal de que están encontrando rasgos significativos”.
Pero Bau dice que su entusiasmo se ve atenuado por algunas de las limitaciones del enfoque. El aprendizaje por diccionario no puede identificar ni de lejos todos los conceptos que tiene en cuenta un LLM, dice, porque para identificar una característica hay que estar buscándola. Por tanto, la imagen es incompleta, aunque Anthropic afirma que los diccionarios más grandes podrían mitigar este problema.
Con todo, el trabajo de Anthropic parece haber abierto una grieta en la caja negra. Y es entonces cuando entra la luz.
Artículo originalmente publicado en WIRED US.