IA Multimodal. Grada 166. Ramón Palacios

Ramón Palacios

15/04/2022
en Ramón Palacios, Secciones

Léeme en 2 minutos

Es indiscutible que los avances conseguidos en los últimos años en inteligencia artificial están permitiendo materializar grandes ideas en forma de tecnologías innovadoras que transformarán nuestras vidas en un futuro cada vez más cercano. Campos tan dispares como la medicina, el tráfico aéreo y de vehículos o la conservación de la biodiversidad se verán afectados por estos avances.

Sin embargo, aún queda mucho por recorrer hasta llegar a algo que realmente se pueda llamar ‘inteligente’, pues ¿qué es la inteligencia?

De las varias definiciones que hay al respecto una de ellas establece que es la facultad que permite aprender, entender, razonar, tomar decisiones y formarse una idea determinada de la realidad. Los sistemas actuales dotados de inteligencia artificial no llegan en muchos aspectos a esta definición.

Uno de los grandes retos sobre los que se está investigando es la llamada inteligencia artificial multimodal, que persigue la interpretación y creación de una imagen a partir de un texto, y comprender el significado de texto, video, audio e imágenes juntos en un mismo contexto.

Por ejemplo, si nos dicen “estos son tus amigos” y al lado nos ponen una imagen de un desierto, la interpretación que le damos si unimos ambos conceptos es que nos están diciendo que no tenemos amigos; esto puede ser negativo por el propio hecho de que nos dicen que no tenemos amigos, o positivo entendido en un contexto de broma o ironía.

Hay varios proyectos de desarrollo en IA multimodal, como ‘DALL·E’, una red neuronal entrenada por el laboratorio de investigación de inteligencia artificial OpenAI para crear imágenes a partir de frases escritas en lenguaje natural.

OpenAI es una organización puesta en marcha por empresarios como Elon Musk, cofundador de Tesla y SpaceX, y Reid Hoffman, cofundador de LinkedIn, que nació con el objetivo de investigar y democratizar el acceso a la inteligencia artificial general. El nombre de ‘DALL·E’ es la combinación del artista Salvador Dalí y el robot de Pixar Wall-e.

Tiene la capacidad de generar imágenes inexistentes hasta ese momento a partir de la combinación de conceptos en forma de texto, no relacionados a priori. El ‘cerebro’ de ‘DALL-E’ se nutre de millones de parámetros de GPT-3, un modelo de inteligencia artificial que permite generar lenguaje escrito.

Gracias a este algoritmo el usuario solo tiene que comenzar a escribir un párrafo y el propio sistema se encarga de completar el resto de la forma más coherente posible. Su objetivo es predecir qué es lo siguiente que viene en función de datos previos. Emplea aprendizaje profundo (‘deep learning’) para producir textos que simulan la redacción humana.

ENTRADAS RELACIONADAS

Últimos días para comprar las entradas para los XVII Premios Grada, que se entregarán el 18 de junio en Badajoz

Fundación Primera Fila ha puesto a la venta las entradas para la décimo séptima edición de los Premios Grada, cuya...

Finca La Pintada. Un encuentro entre cava, paisaje y territorio

Finca La Pintada invita a vivir una experiencia que conecta el producto con su origen y con quienes lo visitan,...

La Universidad de Extremadura desarrolla un proyecto para mejorar la alimentación de las personas mayores

La catedrática de la Universidad de Extremadura María Luisa Timón Andrada coordina un equipo interdisciplinar, formado por investigadores del área...

Juan Leal demuestra que crecer sin perder las raíces es también una forma de éxito

Juan Leal lleva tres décadas construyendo una trayectoria que combina oficio, inquietud creativa y capacidad de evolución constante. Desde Badajoz,...