Buscar

IA Multimodal. Grada 166. Ramón Palacios

IA Multimodal. Grada 166. Ramón Palacios
Léeme en 2 minutos

Es indiscutible que los avances conseguidos en los últimos años en inteligencia artificial están permitiendo materializar grandes ideas en forma de tecnologías innovadoras que transformarán nuestras vidas en un futuro cada vez más cercano. Campos tan dispares como la medicina, el tráfico aéreo y de vehículos o la conservación de la biodiversidad se verán afectados por estos avances.

Sin embargo, aún queda mucho por recorrer hasta llegar a algo que realmente se pueda llamar ‘inteligente’, pues ¿qué es la inteligencia?

De las varias definiciones que hay al respecto una de ellas establece que es la facultad que permite aprender, entender, razonar, tomar decisiones y formarse una idea determinada de la realidad. Los sistemas actuales dotados de inteligencia artificial no llegan en muchos aspectos a esta definición.

Uno de los grandes retos sobre los que se está investigando es la llamada inteligencia artificial multimodal, que persigue la interpretación y creación de una imagen a partir de un texto, y comprender el significado de texto, video, audio e imágenes juntos en un mismo contexto.

Por ejemplo, si nos dicen “estos son tus amigos” y al lado nos ponen una imagen de un desierto, la interpretación que le damos si unimos ambos conceptos es que nos están diciendo que no tenemos amigos; esto puede ser negativo por el propio hecho de que nos dicen que no tenemos amigos, o positivo entendido en un contexto de broma o ironía.

Hay varios proyectos de desarrollo en IA multimodal, como ‘DALL·E’, una red neuronal entrenada por el laboratorio de investigación de inteligencia artificial OpenAI para crear imágenes a partir de frases escritas en lenguaje natural.

OpenAI es una organización puesta en marcha por empresarios como Elon Musk, cofundador de Tesla y SpaceX, y Reid Hoffman, cofundador de LinkedIn, que nació con el objetivo de investigar y democratizar el acceso a la inteligencia artificial general. El nombre de ‘DALL·E’ es la combinación del artista Salvador Dalí y el robot de Pixar Wall-e.

Tiene la capacidad de generar imágenes inexistentes hasta ese momento a partir de la combinación de conceptos en forma de texto, no relacionados a priori. El ‘cerebro’ de ‘DALL-E’ se nutre de millones de parámetros de GPT-3, un modelo de inteligencia artificial que permite generar lenguaje escrito.

Gracias a este algoritmo el usuario solo tiene que comenzar a escribir un párrafo y el propio sistema se encarga de completar el resto de la forma más coherente posible. Su objetivo es predecir qué es lo siguiente que viene en función de datos previos. Emplea aprendizaje profundo (‘deep learning’) para producir textos que simulan la redacción humana.

ENTRADAS RELACIONADAS

La décimo séptima edición de los Premios Grada ya tiene fecha y continúa avanzando en su organización. La gala solidaria,...
La tienda ‘Moda re- Cáceres’ ha abierto sus puertas en la calle Pintores, consolidando un espacio dedicado a la moda...
Fundación Carlos de Amberes y el Banco de Depósitos han firmado un convenio de colaboración que marca el comienzo de...
Investigadores del Grupo de Economía y Calidad de Producciones Agroalimentarias de la Universidad de Extremadura han llevado a cabo el...
Extremadura vive la Semana Santa con una intensidad que une arte, historia y devoción. En cada rincón de la región...
Desde su habitación en Mérida hasta los escenarios regionales, Selene Cidoncha ha ido tejiendo una carrera musical basada en la...

LO MÁS LEÍDO