El equipo de investigación chino lanza el conjunto de datos de vistas múltiples "FreeMan" para resolver las limitaciones de la pose humana en 3D estimation

Estimar la estructura tridimensional del cuerpo humano a partir de escenas reales es una tarea desafiante y de gran importancia para campos como la inteligencia artificial, los gráficos y la interacción persona-computadora. Sin embargo, los conjuntos de datos de estimación de pose humana en 3D existentes generalmente se recopilan en condiciones controladas con fondos estáticos y no representan la diversidad de escenas del mundo real, lo que limita el desarrollo de modelos precisos para aplicaciones del mundo real.

En este sentido, los conjuntos de datos existentes similares a Human3.6M y HuMMan se utilizan ampliamente para la estimación de la pose humana en 3D, pero se recopilan en entornos de laboratorio controlados y no pueden capturar completamente la complejidad de los entornos del mundo real. Estos conjuntos de datos tienen limitaciones en cuanto a diversidad de escenas, movimiento humano y escalabilidad. Los investigadores han propuesto varios modelos para la estimación de la pose humana en 3D, pero su eficacia a menudo se ve obstaculizada cuando se aplican a escenas reales debido a las limitaciones de los conjuntos de datos existentes.

Un equipo de investigación en China ha lanzado "FreeMan", un proyecto desarrollado conjuntamente por equipos de la Universidad China de Hong Kong (Shenzhen) y Tencent y otras instituciones. Es aclamado como un conjunto de datos innovador de vistas múltiples y tiene como objetivo generar nuevos avances en el campo de la estimación de la pose humana en 3D.

FreeMan es un novedoso conjunto de datos multivista a gran escala diseñado para abordar las limitaciones de los conjuntos de datos existentes en la estimación de pose humana en 3D en escenas reales. FreeMan es una contribución importante destinada a facilitar el desarrollo de modelos más precisos y robustos.

Una de las características del proyecto FreeMan es el tamaño y la diversidad de sus conjuntos de datos. El conjunto de datos consta de grabaciones simultáneas de 8 teléfonos inteligentes en diferentes escenarios, incluidas 10 escenas diferentes y 27 lugares reales, y contiene un total de más de 11 millones de fotogramas de vídeo. Cada escena cubre diferentes condiciones de iluminación, lo que hace de este conjunto de datos un recurso único.

El conjunto de datos de FreeMan es de código abierto para promover el desarrollo de conjuntos de datos de preentrenamiento a gran escala y también proporciona un nuevo punto de referencia para la estimación de la pose humana en 3D al aire libre. Este conjunto de datos no solo incluye videos, sino que también proporciona información de anotaciones enriquecida, incluidos puntos clave del cuerpo humano en 2D y 3D, parámetros SMPL, cuadros delimitadores, etc., lo que brinda a los investigadores abundantes recursos para promover la investigación en campos relacionados.

Vale la pena señalar que FreeMan introduce cambios en los parámetros de la cámara y la escala humana para hacerla más representativa. El equipo de investigación desarrolló un proceso de anotación automatizado para generar de manera eficiente anotaciones 3D precisas a partir de los datos recopilados. Este proceso incluye detección humana, detección de puntos clave 2D, estimación de pose 3D y anotación de malla. El conjunto de datos resultante es valioso para una variedad de tareas, incluida la estimación 3D monocular, la conversión de 2D a 3D, la estimación 3D de múltiples vistas y la representación neuronal de sujetos humanos.

Los investigadores proporcionan una base de evaluación integral de FreeMan en una variedad de tareas. Compararon el rendimiento de modelos entrenados en FreeMan con modelos entrenados en Human3.6M y HuMMan. En particular, el modelo entrenado en FreeMan mostró un rendimiento significativamente mejor cuando se probó en el conjunto de datos 3DPW, lo que destaca la capacidad superior de generalización de FreeMan en escenarios del mundo real.

En el experimento de estimación de pose humana en 3D de múltiples vistas, en comparación con el modelo entrenado en Human3.6M, el modelo entrenado en FreeMan mostró una mejor capacidad de generalización cuando se probó en conjuntos de datos de dominios cruzados. Los resultados muestran consistentemente las ventajas de la diversidad y escala de FreeMan.

En el experimento de conversión de pose de 2D a 3D, el desafío de FreeMan es obvio, porque el modelo entrenado en este conjunto de datos enfrenta mayores dificultades. Sin embargo, cuando el modelo se entrenó en todo el conjunto de entrenamiento de FreeMan, su rendimiento mejoró, lo que muestra el potencial de este conjunto de datos para mejorar el rendimiento del modelo.

Se espera que la disponibilidad de FreeMan impulse avances en los campos del modelado del cuerpo humano, la visión por computadora y la interacción persona-computadora, reduciendo la brecha entre las condiciones controladas de laboratorio y los escenarios de la vida real.