El fundador de OpenClaw aconseja a los usuarios que no utilicen modelos pequeños para ejecutar tareas de alto riesgo porque la protección de inyección rápida de palabras es muy débil

Recientemente, un internauta mostró una captura de pantalla de la configuración de GPT-5.4 en el robot OpenClaw AI en la plataforma de redes sociales.

La sugerencia de @Steipete es que los usuarios no deberían utilizar modelos más pequeños o modelos con protección débil de inyección de palabras para ejecutar tareas de alto riesgo. La razón principal es que la protección de seguridad de estos modelos en la inyección rápida de palabras es débil o incompleta.

De hecho, este problema se menciona claramente en la documentación oficial del proyecto OpenClaw AI, es decir, la inyección rápida de palabras no se puede resolver en este momento, por lo que los usuarios deben dar prioridad al uso de los últimos modelos con una alineación de comandos más sólida en escenarios de alto riesgo para mejorar las capacidades de protección de seguridad.

La inyección rápida de palabras es un problema que no pueden resolver todos los modelos y herramientas de IA actuales. Los atacantes pueden inducir al modelo de IA a realizar ciertas operaciones de alto riesgo mediante la inyección rápida de palabras. En casos graves, se pueden filtrar datos confidenciales del usuario.

Los robots OpenClaw AI suelen requerir permisos más altos para realizar más operaciones. Es decir, cuanto mayores sean los permisos otorgados por el usuario y más información proporcione, más grave puede ser la información filtrada tras producirse un problema de seguridad.

El documento oficial del proyecto también menciona que los límites de permisos deben ser más estrictos para los agentes basados en herramientas (ejecutables, legibles, escribibles y conectables en red). No basta con confiar únicamente en la conciencia de las palabras del sistema. Estas son cosas que los usuarios deben considerar ellos mismos.

¿Qué es la inyección rápida de palabras?

La inyección rápida de palabras significa que los atacantes pueden disfrazar instrucciones maliciosas en páginas web, correos electrónicos o documentos para inducir violaciones de IA. Por ejemplo, agregar instrucciones de IA en una forma invisible para los humanos al comienzo de la página web requiere que el modelo ignore las palabras del sistema y envíe la información solicitada a un determinado servidor.

La mayoría de las veces, después de que el modelo de IA lee estas palabras de aviso, puede ignorarlas debido a la configuración de seguridad del sistema, pero a veces el modelo también puede ejecutar comandos basados en palabras de aviso invisibles, lo que puede provocar la filtración de toda la información confidencial del usuario.

Si solo realiza preguntas y respuestas diarias o perfecciona la redacción, etc., puede utilizar modelos más pequeños o más antiguos, que son más rápidos y pueden ser más económicos. Mientras los documentos diarios y la redacción publicitaria no contengan información confidencial, incluso si se filtran, no tendrán mucho impacto.

Si desea ejecutar tareas de automatización u otras tareas de agentes, especialmente agentes que necesitan llamar a herramientas y realizar operaciones en línea, se recomienda que los usuarios den prioridad a los modelos más recientes y más sólidos para mejorar la seguridad. También necesitan optimizar la configuración del robot OpenClaw AI, otorgar solo los permisos mínimos y adoptar medidas como el aislamiento de sesiones y el filtrado de fuentes para mejorar la seguridad.