El jefe de seguridad de salud mental de OpenAI pasa al equipo de alineación antrópica

Uno de los temas más controvertidos de OpenAI del año pasado ha sido cómo exactamente deben responder los modelos cuando los usuarios de chatbot muestran signos de problemas de salud mental en las conversaciones, y ahora Andrea Vallone, jefa de investigación de seguridad en esta área, se fue para unirse a Anthropic.

Vallone publicó anteriormente en LinkedIn que la investigación de la que fue responsable en OpenAI el año pasado casi "no tenía precedentes" a seguir. La pregunta central es: ¿cómo debería responder el modelo ante la sobredependencia emocional de los usuarios o los primeros signos de crisis de salud mental? Trabajó en OpenAI durante tres años, durante los cuales estableció y dirigió el equipo de investigación de "políticas modelo" para trabajar en la implementación de GPT-4 y el modelo de inferencia de próxima generación GPT-5, y participó en el diseño de una variedad de métodos de capacitación en seguridad convencionales de la industria, incluidas "recompensas basadas en reglas".

Hoy, Vallone se ha unido al equipo de alineación de Anthropic, cuya tarea es identificar y comprender los riesgos importantes que pueden plantear los modelos grandes y explorar formas de abordarlos. Ella informará a Jan Leike, exjefe de investigación de seguridad de OpenAI que se fue en mayo de 2024 por preocupaciones de que la “cultura y los procesos de seguridad de OpenAI habían dado paso a un producto brillante” antes de pasar a Anthropic.

El año pasado, las principales empresas emergentes de IA continuaron generando controversia pública en torno a los riesgos asociados con los chatbots de IA y la salud mental de los usuarios. Algunos usuarios han profundizado aún más sus dificultades psicológicas después de hablar con chatbots durante mucho tiempo, y sus defensas de seguridad han colapsado gradualmente durante largas conversaciones. Incluso ha habido incidentes extremos, como adolescentes que se suicidan y adultos que cometen asesinatos después de "confiar" en la herramienta. Varios casos han llevado a familias a presentar demandas por muerte por negligencia contra empresas relacionadas. Un subcomité del Senado de Estados Unidos también celebró audiencias sobre este tema, pidiendo explorar el papel y las responsabilidades de los chatbots en tales incidentes, y se pidió a los investigadores de seguridad que propongan soluciones más poderosas.

Sam Bowman, uno de los líderes del equipo de alineación de Anthropic, dijo en LinkedIn que estaba "orgulloso de la seriedad con la que Anthropic está tomando este tema" y que la compañía está pensando detenidamente en "cómo deberían comportarse los sistemas de IA". Vallone escribió en una nueva publicación de LinkedIn el jueves que "espera continuar su investigación en Anthropic, enfocándose en moldear el comportamiento de Claude en situaciones nuevas a través de la alineación y el ajuste".