Parkour, salto, backflip, nunchaku, puño borracho… Si solo te fijas en estas palabras clave, probablemente pensarás que se trata del folleto de admisión de una escuela de artes marciales. Pero esta vez, el crítico negativo estaba hablando del programa de la Gala del Festival de Primavera "Wu BOT". Decenas de robots se alinean uno tras otro, con movimientos coherentes y ritmo apretado. En el escenario, es un conjunto de combos suaves como la seda que comienzan en cero fotogramas.


Tan pronto como se abrió el bombardeo, seis personas quedaron impactadas.


Weibo fue aún más escandaloso. El área de comentarios estaba llena de cientos de personas. Todos decían: Sorprendidos, mírenlo un millón de veces.


Incluso el equipo editorial bien informado no pudo evitar jadear.


Para ser honesto, en comparación con la posición de pie del año pasado, el robot Yushu en la Gala del Festival de Primavera de este año incluso volteó, golpeó y ejecutó todos los movimientos. Sin mencionar que era exactamente igual que un humano. Simplemente estaba probando los límites de la superación de los seres humanos...

Entonces la pregunta es, ¿cómo hace el robot para hacer movimientos tan geniales? ¿Cómo se vuelven tan humanos los robots?

Esta vez, el crítico se coló en la sala de ensayo de la Gala del Festival de Primavera con anticipación y entrevistó al robot Yushu G1 que estaba en el escenario esta vez, Benben, y lo escuchó contar las historias detrás de escena a todos los críticos.

Tan pronto como entró en la habitación, el Sr. Bad Review llamó la atención de todos. Benben es un gran trabajador y hace saltos mortales tan altos que no puede hacerlo.


A esto le siguió otro Mantis Fist con articulaciones suaves y movimientos corporales perfectamente controlados:


La última serie de combos de artes marciales llega a su fin, con armadura de hierro y puños de acero mostrando fuerza bruta. Por favor sienta la sensación de opresión:


Pero Benben, que salió del escenario, era simplemente una "persona" común y corriente.

Para ser infalible bajo el foco de la cámara, hay más dificultades que nadie conoce.

Cuando se quitó el abrigo en la sala de ensayo, su cuerpo estaba cubierto de cicatrices de la práctica. Afortunadamente, cuanto más trabajas, más suerte tienes. Esta frase también se aplica a los trabajadores que utilizan silicio.


Creo que todos pueden ver que las actuaciones en la Gala del Festival de Primavera de este año son extremadamente difíciles. Si los robots del año pasado sólo podían imitar a los humanos, los de este año ya están en camino de superar a los humanos.

A pesar de que la acción ha cambiado desde la postura del año pasado a las difíciles acrobacias de este año, Wang Qixin, CMO de Yushu Technology, dijo en una entrevista que Benben y sus hermanos lograron cero rollovers cada vez en los ensayos a gran escala de la Gala del Festival de Primavera.

Y detrás de esa actuación perfecta hay toda una serie de planes técnicos en los que se trabaja frenéticamente.

Incluso los zapatos de baile, tan pequeños como discretos, son auténticos equipos de ingeniería. Para no crear una sombra psicológica al pisar el escenario de cristal de la Gala del Festival de Primavera, estos zapatos deben poder absorber el impacto y garantizar un aterrizaje estable, y los materiales del pegamento deben seleccionarse cuidadosamente.


Incluso el algoritmo de control del robot ha pasado por una ola de optimización importante.

En el pasado, todo el mundo siempre pensaba que los robots no eran muy inteligentes, pero de hecho, el éxito de cada acción en la Gala del Festival de Primavera de este año fue el resultado de escuchar música, observar el escenario, comprender el entorno y finalmente domar sus extremidades en tiempo real.

En otras palabras, qué tan alto deben elevarse las piernas y hacia dónde irá la formación a continuación, todo depende del robot para observar y ajustar. Este circuito cerrado de percepción, toma de decisiones y acción siempre ha sido una de las dificultades a largo plazo de la inteligencia encarnada.


Para ser honesto, al principio los críticos negativos pensaron que eso era todo. No fue hasta que atrapamos al actor robot Benben para charlar que descubrimos que detrás de estos "generales militares" frente a la Gala del Festival de Primavera, en realidad había un drama que nunca habíamos visto antes, y hablaban con una gran inteligencia emocional...

Detrás de esto está la capacidad de diálogo de voz que Yushu y Volcano Engine han entrenado juntos. Han puesto mucho esfuerzo en la inteligencia, la vista y las palabras.

Por ejemplo, cuando le preguntamos a él o a Jackie Chan quién era más poderoso, Benben inmediatamente se mostró humilde:

La combinación de esta respuesta y la risa me llenaron de ganas de sobrevivir:

No sé cómo te sientes al respecto, pero siento que Benben que habla ya no es como una máquina de baile fría y tiene un poco más de emoción.

Podemos sentir claramente que la voz de Benben no sólo es similar a la de una persona real, sino que también su expresión emocional es diferente para diferentes contenidos. Las cosas buenas son agudas y rápidas; las cosas malas son graves y el estado de ánimo es bajo.

Después de entrevistas en profundidad con el equipo técnico de Volcano Engine, descubrí que detrás de las palabras de Benben, todo se basa en el modelo de síntesis de voz tipo puf.

Antes de que el robot genere cada oración, el modelo primero debe comprender la semántica y las emociones del contexto y luego decidir el método de expresión. Ya sea que la velocidad del habla sea rápida o lenta, la entonación sea alta o baja, e incluso la posición de la pausa y los parámetros emocionales se generan dinámicamente. Por eso no parece una buena lectura, sino más bien un discurso humano.

La línea de voz no se genera aleatoriamente, sino que se crea especialmente de acuerdo con el temperamento de Yushu G1, centrándose en un hombre joven.

Sin embargo, tener sentimientos por sí solos no es suficiente. Lo que realmente iluminó a Benben fue el modelo del lenguaje Beanbao.

El reconocimiento de voz no solo es preciso, sino que si le pide que lea todo el saludo del Festival de Primavera, en menos de diez segundos, las palabras auspiciosas se emitirán directa y al por mayor:

El discurso en nombre de la comunidad robótica también es irrefutable:

Benben también le reveló al crítico que la capacidad de comprensión visual del modelo de puf grande puede incluso permitir que los robots comprendan el mundo.

No sé si han visto la guía de vestimenta anterior de Evil Doubao. Tacones azules y medias rojas, se recomiendan volantes para hombres heterosexuales, y una falda corta se puede usar como chal... Doubao con los ojos abiertos no ha hecho ningún bien, solo se está vengando de la humanidad.

Afortunadamente, Benben es muy honesto. Que evalúe la vestimenta que visten los familiares durante el Año Nuevo chino. No es sólo un alarde. Realmente puede comprender lo que estás usando y luego brindarte directamente todo el valor emocional:

Pero las expectativas de todos sobre la combinación de robots y modelos grandes son claramente mayores. Bad Reviews entrevistó al equipo detrás de Volcano Engine,"Por un lado, queremos que el robot sea más emocional y capaz de charlar y acompañarnos; pero lo más importante es que queremos verificar un conjunto más general de capacidades: permitir que la máquina comprenda el habla humana y luego convierta esa comprensión en acción".

Por supuesto, esto es un poco misterioso. El mal crítico preguntó en el acto: Ahora parece, ¿no es solo dar órdenes con la boca?

Ahora los técnicos no podían quedarse quietos. Hacer esto bien era mucho más complicado de lo que le parecía a un profano.

La gente dice a la ligera "avanzar un poco", pero "adelante" ¿es relativo a la dirección de quién? ¿Cuántos centímetros es "un punto"? Este es el primer nivel de reconocimiento de voz + razonamiento semántico de modelo grande, que convierte palabras humanas vagas en intenciones precisas.

A continuación, el modelo es responsable de traducir las instrucciones al robot y dividirlas en disposiciones de acción detalladas. Cuánto levantar las piernas primero, dónde girar el cuerpo y cuándo apoyar los pies, todo debe calcularse con precisión. La planificación simultánea de docenas de articulaciones y el control colaborativo complejo es el segundo nivel del modelo grande.

Aunque no hay muchas cosas que los robots controlados por voz puedan hacer ahora, tal vez solo puedan darte un abrazo.

Pero este es sólo el primer paso para que los robots comprendan el habla humana. Quizás algún día, con solo una orden, los robots puedan hacerse cargo de las tareas del hogar, ayudar con las tareas y salir a trabajar para subsidiar el hogar. Es tan fácil como encender el móvil y dejar que Doubao supervise los deberes de tus hijos y les enseñe a vestirse.

Es solo que el niño en ese momento podría haber aprendido cómo atacar al robot en reversa, por lo que la vida basada en silicio estaba dispuesta a convertirse en un escritor fantasma de tareas ...

El CMO de Yushu Technology, Wang Qixin, también mencionó en la entrevista que esta cooperación con Volcano Engine ha mejorado la intimidad y la viveza de la interacción del robot. En esencia, se trata de compensar las deficiencias en la comunicación entre robots y personas.

Pero los verdaderos cambios en los robots van más allá de “hablar más como humanos”. De afuera hacia adentro, los robots están empezando a aprender como los humanos.

A través del aprendizaje por refuerzo y la imitación de acciones, pueden desmontar y absorber videos y comportamientos humanos, y luego transformarlos en su propia lógica de acción. En otras palabras, ya no se limita a ejecutar procedimientos preestablecidos según el guión, sino que desarrolla sus propias habilidades en el proceso de comprensión del entorno y adaptación a los cambios. Este paso es la base técnica para que los futuros robots entren en escenarios complejos del mundo real.


En el corto plazo, los robots darán prioridad a los escenarios comerciales y de exhibición; en 3 a 5 años sustituirán a los humanos a gran escala en entornos industriales y de alto riesgo; y cuando las capacidades de confiabilidad e interacción maduren aún más, los robots humanoides pueden tener la oportunidad de ingresar verdaderamente a los hogares en 5 a 10 años.

En otras palabras, lo que vimos hoy en la Gala del Festival de Primavera es sólo el primer paso para verificar sus capacidades. El objetivo de los robots del futuro es convertirse gradualmente en socios a largo plazo de la producción y la vida humana.

Mirando hacia 2025, la IA y la inteligencia incorporada se han convertido en un tema nacional. Incluso si no prestas atención deliberadamente, es innegable que cada uno de nosotros está siendo arrastrado por la ola de tecnología.

Y esta vez, 25 de los mismos robots Yushu que pueden caminar y hablar en el escenario fueron regalados a través de la interacción de lotería de la aplicación Spring Festival Gala Doubao, como si nos hubieran entregado una invitación al futuro.


A mucha gente le preocupa perderse en la era del rápido desarrollo, pero Bad Review cree que el objetivo final del desarrollo científico y tecnológico es una vida mejor para la humanidad..

En el pasado, es posible que haya experimentado muchos problemas y confusión. En esas noches en las que no hay nadie con quien hablar, elegimos entregar el problema a la IA.

En el futuro, puede ser como el vídeo promocional del Festival de Primavera producido por Seedance 2.0. Cuando abrimos la puerta después de un año de fatiga, los robots ya han ordenado la habitación y preparado la comida. El tiempo perdido en asuntos triviales finalmente podrá devolverse a las personas más importantes que te rodean.


Les deseo a todos los misioneros un feliz año nuevo. En el nuevo año, espero que la tecnología siga avanzando y que traiga verdadera facilidad.

Que la inteligencia del futuro esté más cerca de la vida y vuestra vida sea más pausada.