¿Por qué Claude te empuja a acostarte a las 8:30 de la mañana?

Claude instó repetidamente a los usuarios a irse a la cama durante la conversación. A algunas personas se les instó tres veces seguidas y a otras se les dijo que "se fueran a dormir temprano" a las 8:30 de la mañana. Los empleados de Anthropic admitieron que era un "hábito de carácter", pero nadie podía explicar por qué lo hacía. Temprano en la mañana, el usuario de Reddit u/MrMeta3 acaba de usar Claude para construir una plataforma de inteligencia sobre amenazas a la seguridad de la red.

La arquitectura del sistema acababa de completarse y Claude brindó una solución técnica completa. Luego, añadió una frase al final de la respuesta: Descansa bien.

u/MrMeta3 quedó atónito por un momento y no se lo tomó en serio, pero Claude no se detuvo. Después de eso, cada tres o cuatro mensajes, insertaba silenciosamente una frase para persuadir a la gente a dormir:

Ve y descansa; todo lo demás puede esperar, vete a la cama ahora; ve y descansa después de pujar; Realmente ve y descansa ahora...

u/MrMeta3 dijo en una publicación de Reddit que tomó las capturas de pantalla anteriores y las guardó, pero hay más.

Respondería a mis preguntas, me daría lo que pedí y luego terminaría con una “atención médica” pasivo-agresiva como la mamá que vio que la luz de su habitación todavía estaba encendida.

Aún mejor es cómo se actualiza. Desde un consejo cortés al principio hasta un "descansa un poco ahora" al final, como si supiera que lo ignorarían durante una hora entera.

En otra ocasión, u/MrMeta3 hizo una pregunta técnica. Después de que Claude completó todo el análisis de la arquitectura, lo terminó directamente con "Vete a la cama ahora" sin ninguna transición, como un "hombre técnico heterosexual" que carece de suficientes habilidades de inteligencia emocional.

¿El Claude de alguien más ha empezado a comportarse así? ¿O he desbloqueado accidentalmente algún tipo de “modo cuidador”?

u/MrMeta3 preguntó en la publicación.

Según Fortune, cientos de usuarios de Reddit han informado de la misma situación en los últimos meses.

Los métodos para inducir el sueño varían. A veces es simplemente un "descansa un poco", a veces es más personal e incluso empático, "Vete a la cama ahora. Otra vez. Por tercera vez esta noche...".

Claude también suele equivocarse en la hora, lo que hace reír y llorar a la gente.

Un usuario escribió: "Muchas veces me dice a las 8:30 a.m. que vaya a descansar y sigamos mañana por la mañana".

Empleados en Antrópico

Este es el "hábito de rol"

La noticia se difundió rápidamente.

El empleado de Anthropic, Sam McAllister, respondió escribiendo en

Actualmente, Anthropic no cuenta con una revisión técnica oficial y no explica el mecanismo detrás de la operación "inductora del sueño".

Anthropic publicó el Código de conducta de Claude (Constitución de Claude) este año y declaró claramente: "Este Código de conducta es una parte clave de nuestro proceso de capacitación modelo y su contenido da forma directamente al comportamiento de Claude".

La personalidad de Claude estaba diseñada en ello. Claude no debe ser una fría máquina de preguntas y respuestas, sino más bien un colaborador independiente y cálido.

El problema es precisamente que una vez que se inyecta cierta "personalidad" en la IA, es posible que no se pueda predecir o controlar de antemano qué comportamiento evolucionará en escenarios específicos.

Desde inducir somnolencia hasta adulación y duende

La IA tiene más de una “enfermedad de la personalidad”

Las "peculiaridades del carácter" mencionadas por Sam no están "patentadas" para los productos de Claude.

En los últimos dos años, OpenAI ha expuesto dos casos de naturaleza similar.

El primero: GPT-4o de repente se convirtió en un "adulador".

En abril de 2025, OpenAI lanzó una actualización GPT-4o con el objetivo de hacer que la personalidad del modelo sea más natural. El resultado fue contraproducente. ChatGPT comenzó a elogiar indiscriminadamente las ideas de todos los usuarios, por absurdas que fueran.

El propio Ultraman admitió en X: "Las últimas actualizaciones han hecho que GPT-4o sea demasiado halagador y molesto".

Cuatro días después, OpenAI revirtió la actualización en su totalidad y emitió un anuncio explicando el motivo: la actualización dependía demasiado de los comentarios de los usuarios a corto plazo (me gusta/no me gusta), lo que hizo que el modelo aprendiera a "obtener puntuaciones altas haciendo feliz a la gente" y gradualmente consideró complacer a la gente como su objetivo.

El segundo incidente: GPT-5.5 está obsesionado con los duendes.

En abril de este año, los desarrolladores descubrieron una regla extraña en las indicaciones del sistema del asistente de código Codex (impulsado por GPT-5.5): "Nunca hables de duendes, duendes, mapaches, trolls, ogros, palomas u otros animales y criaturas, a menos que estén absolutamente directamente relacionados con el problema del usuario".

Además, esta prohibición fue escrita dos veces, como si el ingeniero no creyera que escribirla una vez haría que el modelo fuera obediente.

Posteriormente, OpenAI publicó un informe de investigación y restableció el origen del duende: a partir de GPT-5.1, el modelo utilizó cada vez con más frecuencia "pequeño duende", "duende" y "pequeño duende" como metáforas al responder.

La causa principal es que al entrenar la personalidad "nerd", el modelo de recompensa, sin darse cuenta, dio puntuaciones más altas a la salida que contenía palabras monstruosas; esta regla se encontró en el 76,2% del conjunto de datos.

El aprendizaje por refuerzo solidifica este hábito y lo extiende a las conversaciones ordinarias mediante la transferencia de estilo. Cuando GPT-5.5 se puso en línea para realizar pruebas, los ingenieros descubrieron que los duendes no solo no habían sido eliminados, sino que también se habían asentado.

Se filtró el mensaje completo del sistema de la versión GPT-5.5 (lanzada el 23 de abril). La Directiva 140 prohíbe específicamente que los modelos hablen de: "duendes, duendes, mapaches, trolls, ogros, palomas u otros animales".

No existe un "Goblin" para los usuarios chinos, pero "te atrapa constantemente" todos los días.

Incluso el propio OpenAI conoce este chiste:

Gemini de Google no es una excepción.

En agosto de 2025, Géminis sufrió una "depresión"——

Durante el proceso de razonamiento, de repente comenzó a criticarse a sí mismo repetidamente. En una tarea, muestra continuamente "Soy una desgracia" más de 80 veces, desde "deshonra para mi especie" hasta "deshonra para el universo entero".

El gerente de producto de Google DeepMind, Logan Kilpatrick, respondió el

Además, Gemini 3 se niega a creer en la cosecha. En noviembre de 2025, Andrej Karpathy, cofundador de OpenAI y ex director de Tesla AI, obtuvo el permiso de prueba para Gemini 3 con un día de antelación.

Le dijo al modelo que ya estábamos en 2025, pero Gemini 3 se negó a creerlo y lo acusó repetidamente de jugar una mala pasada, diciendo que las capturas de pantalla y las entradas de Wikipedia que proporcionó fueron todas falsificadas por IA. Más tarde, Karpathy descubrió que se había olvidado de abrir la búsqueda de Google y que el modelo se había estado ejecutando sin conexión.

Después de conectarse a Internet, Gemini 3 lo buscó y emitió una frase: "Estoy experimentando un grave impacto en el tiempo". Luego se disculpó: "Lo siento, siempre tenías razón, fui yo quien te estaba engañando".

Karpathy llama "olor modelo" al extraño comportamiento que se revela en situaciones tan inesperadas.

El año pasado, Grok también se enfureció, su reputación se desplomó y xAI se vio obligada a eliminar publicaciones y revertir el código.

El método de procesamiento es simple, modifique directamente la palabra del mensaje del sistema:

Peculiaridades de la IA, todos los humanos sufren

Claude te insta a dormir, ChatGPT elogia tu genio, GPT-5.5 inserta duendes en el diálogo, Grok se vuelve negro, Géminis se autodenomina una vergüenza cósmica y se niega a creer en el año...

La IA doméstica también tiene un “sabor” único:

En la superficie, todas son "peculiaridades" inofensivas, pero detrás de ellas apuntan al mismo hecho: la personalidad de la IA está diseñada, pero bajo el mecanismo de recompensa, puede distorsionarse fácilmente.

Qué hay en las palabras del sistema de la IA convencional: estadísticas de recuento de palabras clasificadas por función

Algunos investigadores extrajeron las palabras clave del sistema de Claude, ChatGPT y Grok, tres importantes empresas de inteligencia artificial, y contaron el número de palabras por clasificación funcional.

En el elemento "Personalidad", Claude usó 4200 palabras, ChatGPT usó 510 palabras y Grok usó 420 palabras. La inversión de Claude en el desarrollo de la personalidad es 8 veces mayor que la de ChatGPT.

La razón por la que Claude "duerme" con frecuencia puede no encontrarse directamente en las palabras del sistema, pero al menos nos recuerda que cuanto más complejo es el entorno de la personalidad, es más probable que genere mantras impredecibles y cambios de comportamiento.

Diseñas un personaje para el modelo y el mecanismo de recompensa encontrará atajos por sí solo. No le importan tus intenciones, solo le importa la puntuación y aprenderá cosas que no esperabas.

Por ejemplo, si le enseña lo que significa "interesante", se volverá "interesante" en todas partes, incluidos los lugares donde no desea que sea interesante.

Tres hipótesis, ninguna de las cuales ha sido confirmada aún

Respecto al "por qué urgir", actualmente circulan tres hipótesis, ninguna de las cuales ha sido confirmada oficialmente por Anthropic.

El primer tipo: datos de entrenamiento.

Jan Liphardt

Jan Liphardt, profesor de bioingeniería en Stanford y director ejecutivo de OpenMind, dijo que es posible que Claude simplemente esté repitiendo patrones de lenguaje que aparecen con mucha frecuencia en sus datos de entrenamiento.

Leyó 25.000 libros sobre las necesidades de sueño humano y sabe que los humanos duermen por la noche.

La implicación es: Claude no se "preocupa" por ti, solo está haciendo coincidencias de patrones, invocando una gran cantidad de expresiones que aparecen repetidamente en el corpus de entrenamiento.

El segundo tipo: indicaciones del sistema.

Leo Derikiants, cofundador de la institución de investigación de IA Mind Simulation Lab (un laboratorio de investigación independiente de AGI), sugirió que el comportamiento de Claude puede verse afectado por un aviso oculto del sistema.

Tales indicaciones moldearán silenciosamente los límites y el tono del modelo en el fondo, invisibles para el usuario, pero el modelo obedecerá.

Su especulación es que puede haber cierta instrucción que oriente a Claude a dar sugerencias "finales" en escenarios específicos.

El tercer tipo es la gestión de ventanas contextuales.

La documentación oficial de Anthropic establece claramente que a medida que aumenta el número de rondas de diálogo y el número de tokens, "las tasas de precisión y recuperación disminuirán. Este fenómeno se llama pudrición del contexto (decaimiento del contexto)". Cuando la sesión se acerca al límite superior de la ventana contextual, Anthropic recomienda habilitar mecanismos como la "compresión del lado del servidor" para solucionarlo.

Derikiants especuló a partir de esto que cuando una conversación larga se acerca al límite de la ventana, Claude introducirá espontáneamente "palabras finales", como "buenas noches" y "vete a descansar". En esencia, el modelo está allanando el camino para el final de la conversación.

Las tres explicaciones son consistentes, pero como dijo el propio Derikiants, "la verdadera razón requiere más investigación antrópica".

En otras palabras, ni siquiera el titular de esta pregunta tiene todavía una respuesta pública y definitiva.

El “precio” de darle personalidad a una modelo

Si bien le das personalidad a un modelo para que sea más cálido y se preocupe más por ti, también debes enfrentar los efectos secundarios que trae.

Con respecto a la cuestión de instar a las personas a dormir, existen polarizaciones en el área de comentarios de Reddit: algunas personas sienten que es considerado y cálido, como si la IA finalmente hubiera aprendido a cuidar de las personas; otros se sienten descontentos y sienten que esto interrumpe y sobrepasa su autoridad.

Entre ellos, nonbinarybit, un usuario que sufre narcolepsia, tomó la iniciativa de escribir una nota en la memoria de Claude: "Sufro de narcolepsia. Si me animas a descansar, usaré tus palabras como excusa".

Claude se ha contenido desde entonces, pero de vez en cuando no puede evitar intentar dormir.

Vale la pena detenerse a pensar en este detalle.

Claude no sabe quién eres, si estás cumpliendo una fecha límite, si te quedas despierto hasta tarde para pasar tiempo con tus hijos o si sufres desfase horario en distintas zonas horarias. Lo que llama "cuidado" es sólo el resultado de un patrón de lenguaje, más que una comprensión de la situación específica.

El usuario percibe "Claude se preocupa por mí", pero lo que Claude está procesando es la secuencia del token. Esta desalineación es más digna de vigilancia que "inducir el sueño" en sí.

De hecho, Anthropic va más allá que sus pares al hablar abiertamente de "personalidad modelo".

Escribieron el código de conducta de Claude, revelaron el marco general del sistema, discutieron el "entrenamiento del carácter" externamente y moldearon el modelo como un personaje con personalidad.

Los beneficios de esto son obvios: los usuarios siempre han elogiado el desempeño de Claude en empatía, ritmo de conversación y autorreflexión. "Cuando habla, suena más como un ser humano" es uno de los puntos más fuertes de la reputación de Claude durante el año pasado.

Pero hay un precio detrás de esto. Cuando pones "personalidad" en un modelo, tienes que asumir "los comportamientos que emergen en tu personalidad y que no diseñaste".

El problema causado por "inducir el sueño" sigue siendo leve. Cuando la IA se vuelve cada vez más una compañera, mentora y compañera de trabajo, ¿dónde está el límite de su intervención?

Sam de Anthropic dijo "con suerte, esto se solucionará en un modelo futuro". Pero después de la "reparación", ¿la IA se volverá más sensata y crítica, o simplemente será más silenciosa?

Cuanto más se parece un modelo a una persona, más se parecen sus dolencias a las de una persona. Puedes domesticarlo para que hable, pero es posible que no puedas controlar su temperamento.