Google utiliza noticias antiguas y modelos grandes para resumir nuevos métodos para pronosticar inundaciones repentinas

Las inundaciones repentinas son uno de los desastres meteorológicos más mortíferos del mundo y matan a más de 5.000 personas cada año. Sin embargo, durante mucho tiempo ha sido difícil predecirlos con precisión debido a su rápido inicio, su pequeño alcance y su corta duración. Ante este problema, la nueva respuesta de Google es “dejar que la IA lea informes de noticias”.

El monitoreo meteorológico tradicional ha acumulado una gran cantidad de datos como temperatura, precipitaciones y caudal de ríos. Sin embargo, para eventos de inundaciones repentinas repentinas y extremadamente fuertes, los humanos no tienen registros de observación tan completos y continuos como otros elementos meteorológicos. Esto ha llevado al hecho de que, aunque el aprendizaje profundo se está volviendo cada vez más poderoso en el campo del pronóstico del tiempo, no ha podido funcionar al mismo nivel en la predicción de inundaciones repentinas porque faltan suficientes datos de "valor real" para entrenar el modelo.

Para llenar este vacío de datos, el equipo de investigación de Google utilizó su gran modelo de lenguaje Gemini para examinar alrededor de 5 millones de informes de noticias de todo el mundo, identificar y extraer automáticamente alrededor de 2,6 millones de inundaciones diferentes y luego convertir estos informes de texto en un conjunto de datos de secuencia "Groundsource" con etiquetas horarias y geográficas. Gila Loike, gerente de productos de investigación de Google, dijo que esta es la primera vez que la compañía utiliza un modelo de lenguaje grande para completar este tipo de trabajo de construcción de datos cuantitativos. Los resultados de la investigación y los conjuntos de datos relevantes se publicaron el jueves por la mañana temprano.

Después de obtener esta "línea de base del mundo real", los investigadores entrenaron un nuevo modelo de predicción de inundaciones repentinas basado en una red neuronal de memoria a corto plazo (LSTM), lo que le permitió ingresar datos de pronóstico del tiempo global y generar la probabilidad de inundaciones repentinas en un área específica. Actualmente, el modelo de predicción de inundaciones repentinas de Google ha proporcionado consejos de riesgo para áreas urbanas en 150 países en su plataforma Flood Hub y ha abierto datos a muchas agencias de gestión de emergencias en todo el mundo. António José Beleza, oficial de respuesta a emergencias de la Comunidad de Desarrollo de África Austral (SADC), dijo en una prueba con Google que el modelo ayudó a su equipo a responder a las inundaciones más rápido.

Sin embargo, este sistema todavía tiene limitaciones obvias. Por un lado, su resolución espacial es relativamente baja y actualmente sólo puede proporcionar evaluaciones de riesgos en una escala de unos 20 kilómetros cuadrados; por otro lado, debido a que no incorpora datos de monitoreo de precipitaciones en tiempo real, como los radares locales, su precisión no es tan precisa como la del sistema de alerta de inundaciones existente del Servicio Meteorológico Nacional de Estados Unidos.

Google enfatizó que una de las intenciones originales de este proyecto era desempeñar un papel en el desarrollo de áreas que carecen de una costosa infraestructura de observación meteorológica y no tienen registros meteorológicos a largo plazo. Al agregar millones de noticias de todo el mundo, el conjunto de datos de Groundsource "reequilibra el mapa" hasta un punto que permite a los modelos extrapolar predicciones a áreas donde los datos son escasos. Juliet Rothenberg, directora de programas del equipo de resiliencia de Google, dijo que este enfoque permitió al equipo cubrir áreas donde antes faltaba mucha información.

Rothenberg también dijo que la idea de utilizar grandes modelos de lenguaje para convertir narrativas de texto en datos cuantitativos estructurados no se limita a inundaciones repentinas. En el futuro, se espera que se utilicen tecnologías similares para construir conjuntos de datos sobre fenómenos naturales igualmente efímeros pero extremadamente importantes, como olas de calor y deslizamientos de tierra, que sirvan de base para la predicción de desastres geológicos y meteorológicos más extremos.

Según expertos de la industria, el intento de Google es un paso importante en la promoción del desarrollo del pronóstico del tiempo con aprendizaje profundo a través de la recopilación creativa de datos. Marshall Moutenot, director general de Upstream Tech, una empresa que también utiliza el aprendizaje profundo para predecir el caudal de los ríos para clientes como las empresas hidroeléctricas, señaló que el campo actual de las ciencias de la tierra se enfrenta al persistente problema de la "escasez de datos": por un lado, los datos de observación de la Tierra son extremadamente complejos y, por otro, hay muy limitados "valores de verdad" de alta calidad que puedan utilizarse para calibrar y validar modelos. Moutenot también es cofundador dedynamical.org, una organización dedicada a organizar conjuntos de datos meteorológicos para investigadores y nuevas empresas que pueden utilizarse directamente en el aprendizaje automático. Considera que el trabajo de Google es un ejemplo típico de obtención de datos valiosos mediante "métodos muy creativos".