Buscar

IA Multimodal. Grada 166. Ramón Palacios

IA Multimodal. Grada 166. Ramón Palacios
Léeme en 2 minutos

Es indiscutible que los avances conseguidos en los últimos años en inteligencia artificial están permitiendo materializar grandes ideas en forma de tecnologías innovadoras que transformarán nuestras vidas en un futuro cada vez más cercano. Campos tan dispares como la medicina, el tráfico aéreo y de vehículos o la conservación de la biodiversidad se verán afectados por estos avances.

Sin embargo, aún queda mucho por recorrer hasta llegar a algo que realmente se pueda llamar ‘inteligente’, pues ¿qué es la inteligencia?

De las varias definiciones que hay al respecto una de ellas establece que es la facultad que permite aprender, entender, razonar, tomar decisiones y formarse una idea determinada de la realidad. Los sistemas actuales dotados de inteligencia artificial no llegan en muchos aspectos a esta definición.

Uno de los grandes retos sobre los que se está investigando es la llamada inteligencia artificial multimodal, que persigue la interpretación y creación de una imagen a partir de un texto, y comprender el significado de texto, video, audio e imágenes juntos en un mismo contexto.

Por ejemplo, si nos dicen “estos son tus amigos” y al lado nos ponen una imagen de un desierto, la interpretación que le damos si unimos ambos conceptos es que nos están diciendo que no tenemos amigos; esto puede ser negativo por el propio hecho de que nos dicen que no tenemos amigos, o positivo entendido en un contexto de broma o ironía.

Hay varios proyectos de desarrollo en IA multimodal, como ‘DALL·E’, una red neuronal entrenada por el laboratorio de investigación de inteligencia artificial OpenAI para crear imágenes a partir de frases escritas en lenguaje natural.

OpenAI es una organización puesta en marcha por empresarios como Elon Musk, cofundador de Tesla y SpaceX, y Reid Hoffman, cofundador de LinkedIn, que nació con el objetivo de investigar y democratizar el acceso a la inteligencia artificial general. El nombre de ‘DALL·E’ es la combinación del artista Salvador Dalí y el robot de Pixar Wall-e.

Tiene la capacidad de generar imágenes inexistentes hasta ese momento a partir de la combinación de conceptos en forma de texto, no relacionados a priori. El ‘cerebro’ de ‘DALL-E’ se nutre de millones de parámetros de GPT-3, un modelo de inteligencia artificial que permite generar lenguaje escrito.

Gracias a este algoritmo el usuario solo tiene que comenzar a escribir un párrafo y el propio sistema se encarga de completar el resto de la forma más coherente posible. Su objetivo es predecir qué es lo siguiente que viene en función de datos previos. Emplea aprendizaje profundo (‘deep learning’) para producir textos que simulan la redacción humana.

ENTRADAS RELACIONADAS

La décimo séptima edición de los Premios Grada ya tiene fecha; se entregarán el jueves 18 de junio de 2026...
El programa Incorpora de Fundación La Caixa ha propiciado 986 incorporaciones laborales durante 2025 para personas en contexto de vulnerabilidad...
La trigésimo octava edición de la Feria Internacional Agroexpo se ha desarrollado en Feval como uno de los eventos más...
Inserta Empleo, organismo especializado de Fundación ONCE en materia de formación y empleo, en colaboración con el Ayuntamiento de Fuente...
El programa ‘AuténTICas’ ha concluido sus cursos ‘Predigital’ y ‘Competencias Digitales Básicas’ en Guareña mediante un evento en el Centro...
Extremadura refuerza su posición en los mercados internacionales con un crecimiento sostenido de las exportaciones y un aumento del número...

LO MÁS LEÍDO