IA Multimodal. Grada 166. Ramón Palacios

Ramón Palacios

15/04/2022
en Ramón Palacios, Secciones

Léeme en 2 minutos

Es indiscutible que los avances conseguidos en los últimos años en inteligencia artificial están permitiendo materializar grandes ideas en forma de tecnologías innovadoras que transformarán nuestras vidas en un futuro cada vez más cercano. Campos tan dispares como la medicina, el tráfico aéreo y de vehículos o la conservación de la biodiversidad se verán afectados por estos avances.

Sin embargo, aún queda mucho por recorrer hasta llegar a algo que realmente se pueda llamar ‘inteligente’, pues ¿qué es la inteligencia?

De las varias definiciones que hay al respecto una de ellas establece que es la facultad que permite aprender, entender, razonar, tomar decisiones y formarse una idea determinada de la realidad. Los sistemas actuales dotados de inteligencia artificial no llegan en muchos aspectos a esta definición.

Uno de los grandes retos sobre los que se está investigando es la llamada inteligencia artificial multimodal, que persigue la interpretación y creación de una imagen a partir de un texto, y comprender el significado de texto, video, audio e imágenes juntos en un mismo contexto.

Por ejemplo, si nos dicen “estos son tus amigos” y al lado nos ponen una imagen de un desierto, la interpretación que le damos si unimos ambos conceptos es que nos están diciendo que no tenemos amigos; esto puede ser negativo por el propio hecho de que nos dicen que no tenemos amigos, o positivo entendido en un contexto de broma o ironía.

Hay varios proyectos de desarrollo en IA multimodal, como ‘DALL·E’, una red neuronal entrenada por el laboratorio de investigación de inteligencia artificial OpenAI para crear imágenes a partir de frases escritas en lenguaje natural.

OpenAI es una organización puesta en marcha por empresarios como Elon Musk, cofundador de Tesla y SpaceX, y Reid Hoffman, cofundador de LinkedIn, que nació con el objetivo de investigar y democratizar el acceso a la inteligencia artificial general. El nombre de ‘DALL·E’ es la combinación del artista Salvador Dalí y el robot de Pixar Wall-e.

Tiene la capacidad de generar imágenes inexistentes hasta ese momento a partir de la combinación de conceptos en forma de texto, no relacionados a priori. El ‘cerebro’ de ‘DALL-E’ se nutre de millones de parámetros de GPT-3, un modelo de inteligencia artificial que permite generar lenguaje escrito.

Gracias a este algoritmo el usuario solo tiene que comenzar a escribir un párrafo y el propio sistema se encarga de completar el resto de la forma más coherente posible. Su objetivo es predecir qué es lo siguiente que viene en función de datos previos. Emplea aprendizaje profundo (‘deep learning’) para producir textos que simulan la redacción humana.