LWM podrían ser las siguientes siglas que salten a la fama en el mundo de la inteligencia artificial. Son las siglas, en inglés, de grandes modelos de mundo. Si los LLM —grandes modelos de lenguaje— que son el motor de ChatGPT y las demás apps de IA generativa, saben comunicarse y se entrenan con texto, con los LWM se pretende crear modelos del mundo físico, el real, el que los humanos percibimos.

Suena pretencioso, pero esta tecnología se investiga desde hace tiempo. Y en la desbocada carrera por la IA, las empresas ya se han abalanzado sobre este campo aún sin labrar. El pasado agosto Google anunció Genie 3, un avance de lo que podrían llegar a ser estos sistemas. Por ahora es un generador de entornos virtuales, que se materializan en tiempo real a medida que el usuario se mueve como en un videojuego. Poco antes, Meta había lanzado su propio modelo de mundo, V-JEPA 2, con una comprensión visual de entornos reales.

También proliferan las startups con ese enfoque. La prestigiosa investigadora Fei Fei Li, conocida como la madrina de la IA, ha conseguido una inversión de 230 millones de dólares para World Labs, que desarrolla un sistema capaz de comprender cómo funciona el mundo físico. Skild AI, apoyada por Amazon, Nvidia y Samsung, ha recibido más de 400 millones de dólares y ya ha presentado un modelo capaz de controlar tanto a máquinas de una línea de producción como a robots humanoides.

“Lo que persiguen estos sistemas es básicamente preentrenar un modelo, ya no de lenguaje sino de información global, por decirlo de alguna manera”, puntualiza Pablo Martínez Olmos, profesor del Departamento de Teoría de la Señal y Comunicaciones de la Universidad Carlos III de Madrid y especializado en modelos probabilísticos. “A partir de un montón de tokens [unidades básicas utilizadas para representar datos] que concatenamos —que pueden ser texto con audio, con imagen y con un montón de tipos de datos que están vinculados—, podemos predecir el siguiente token”.

En un modelo de lenguaje como el que genera texto para ChatGPT, el siguiente token puede ser una palabra, una parte de una palabra o un signo de puntuación. En un modelo de mundo, el siguiente token podría ser un fragmento de un fotograma de vídeo o de información espacial sobre dónde está un objeto, aunque también podría ser una palabra o una acción de movimiento que ejecutaría un robot. Son solo algunos ejemplos que ilustran la complejidad de esta nueva IA que está en ciernes.

Se prevé que este tipo de sistemas permitan generar videojuegos de forma dinámica, según las preferencias de un usuario, e incluso un metaverso o entornos que simulen con precisión escenarios reales. Aunque su aplicación más prometedora tiene que ver con el aprendizaje de la robótica autónoma.

Un cerebro para las máquinas

Nvidia lanzó a principios de 2025 su plataforma Cosmos, que ofrece herramientas para favorecer el desarrollo de modelos de mundo, destinados a robots y vehículos autónomos. Cuando Meta anunció su V-JEPA 2 destacó que su sistema permitía a robots interactuar con objetos desconocidos y moverse en un entorno al que no habían estado expuestos antes.

Para un robot, es muy difícil estirar su brazo y agarrar un vaso de plástico. Con una cámara, puede identificar el objeto y su localización. Pero no sabe a qué distancia exacta está, qué presión tiene que ejercer al agarrarlo para no dañarlo o derramar el líquido ni qué hacer si hay una jarra en medio de su trayectoria. Todo ese entrenamiento se hace paso a paso y resulta costoso. Actualmente, es un proceso típico de ensayo-error, que se transformaría por completo con los LWMs.

“Se puede acelerar mucho la creación de algoritmos para la programación de ese robot, porque la máquina tiene acceso a mucha más realidad de la que realmente ha visto”, apunta Martínez Olmos, quien explica que con LWMs el robot puede anticipar que si aprieta más el vaso se va a arrugar y que si lo agarra con muy poca fuerza se le va a caer: en realidad, puede predecir la probabilidad de que eso ocurra sin que lo haya tenido que ensayar muchas veces.

Sin embargo, por ahora la tecnología no pasa de un estado embrionario. Uno de los frenos a su desarrollo es que se necesitan grandes cantidades de datos del mundo físico. Entrenar estos modelos va más allá de la multimodalidad que conocemos. Los GPT o Google Gemini aprenden con texto, imágenes, vídeo y audio­. Los modelos de mundo se entrenan con todo este tipo de datos, pero vinculados entre sí por el factor espacio-temporal. Y si hay otras formas de obtener información, como un escáner LiDAR que mide la profundidad de campo, también se suman.

Así se pretende alcanzar un cierto nivel de percepción de la realidad física. El objetivo es que el modelo extraiga conocimiento de una escena y pueda aprender cómo es el mundo real. No abundan bases de datos que permitan conseguir esto, aunque quizá por poco tiempo. Para Martínez Olmos resulta evidente: “Las grandes compañías están grabando el mundo entero en tiempo real, porque lo necesitan para entrenar este tipo de modelos”.

Coches con el poder de intuir peligros

Los coches autónomos de Google y los vehículos de Tesla son un ejemplo de ello. Capturan datos del entorno a medida que recorren las calles y las carreteras. La compañía de Elon Musk lo hace sobre todo con cámaras, mientras que los automóviles de Waymo tienen otros sensores, como LiDAR y radar. La conducción autónoma es uno de los campos que se beneficiaría de estos modelos de mundo. Pero estos sistemas son transversales, como demuestra Tesla, que ha implantado en su robot humanoide Optimus una versión de la misma plataforma que usan sus coches autónomos.

También Amazon registra todos los datos posibles de cómo se mueven sus robots en sus almacenes. A partir de ahí ha creado una base de datos de 190.000 imágenes de objetos industriales —la más grande hasta la fecha estaba en unos 100 objetos—, para enseñar a robots en las funciones de agarrar y colocar. La idea es que sirva para que las máquinas generalicen ese conocimiento y lo lleven a otros productos y entornos distintos.

“Lo que es importante es poner en conjunto y de forma secuencial todos esos datos que se captan a la vez, porque son medidas de un mismo mundo que rodea a esos coches o a esos robots”, explica Martínez Olmos. Como resultado, la IA agudizaría su capacidad para predecir eventos en el mundo físico. El investigador acude a los coches autónomos para ilustrar los beneficios de la tecnología: “Si se recoge el sonido, se podría escuchar a un niño que va detrás de una pelota, aunque la cámara no lo pueda ver. Esto incrementa la probabilidad de que segundos después haya un niño cruzando la calle, cuando hasta ahora no estaba en el campo de visión de la cámara”. El vehículo frenaría incluso antes de que sus cámaras detectaran al niño.

Desde luego, los LWM no están exentos de riesgos. “Todos los que tienen los LLM y más”, apunta Martínez Olmos. Estos modelos también pueden alucinar, así como partir de información incompleta de la realidad o sesgada. La gestión de la privacidad es otra de las incógnitas ante la voracidad de esta tecnología por los datos. La receta para desarrollarlos y utilizarlos con responsabilidad es la de siempre en el sector: mecanismos para explicar los algoritmos y contar con una medida de la incertidumbre que determine la fiabilidad de las respuestas. Y como ha venido pasando con la IA generativa, no es sencillo y se echa en falta voluntad entre las empresas desarrollar esas medidas de protección de los usuarios.

source

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *