No es la primera vez que logramos crear un sistema de inteligencia artificial capaz de reconocer objetos en fotografías, pero CaptionBot va un poco más allá. Este bot de software creado por Microsoft examina los elementos de la imagen y los trata de relacionar en una descripción coherente. No siempre acierta, pero cuando lo hace es bastante acertado.

Si tienes curiosidad por hacer que CaptionBot te describa una imagen solo tienes que ir a su página web y subirla desde un archivo local a su base de datos o enlazar una foto online. Para llegar a una descripción, la plataforma combina dos redes neurales. La primera es una red de reconocimiento de imágenes pura y dura. La segunda es una red de procesamiento de lenguaje. CaptionBot primero analiza lo que hay en la imagen, lo compara con una creciente base de datos de fotografías, y después trata de buscar las palabras (y emojis) adecuados para realizar una descripción. Los resultados son a veces tan buenos como estos:

“No estoy seguro, pero creo que es Steve Ballmer con un jersey rojo sosteniendo un teléfono y sonriendo”
“No estoy seguro, pero creo que es una maceta frente a una ventana” y “Son un par de zapatos”

El sistema no se lleva bien con imágenes que requieren un alto nivel de abstracción o con dibujos:

“Creo que es un plátano sobre una mesa de madera” y “No estoy seguro, pero parece una mujer mirándose en un espejo con gesto de sorpresa”
“No estoy seguro, pero creo que es una persona con una tabla de surf en un skate park” ¿Lo qué?

Incluso cuando se equivoca, es fácil darse cuenta exactamente qué es lo que le ha llevado a deducir eso. Si Microsoft lo ha convertido en una herramienta es precisamente para alimentar la red neural con fotos y más fotos que la ayuden a desarrollar su capacidad. Microsoft no almacena las fotos que subamos, solo aprende de su contenido.

Advertisement

Advertisement

Los errores de CaptionBot resultan divertidos, pero no hay que perder de vista que es una plataforma avanzada de inteligencia artificial y no es la primera. Antes Microsoft ya ha desarrollado aplicaciones para identificar la edad de una persona o la raza de un perro. Llegará un día en el que reúna todas esas redes neurales y sean capaz de describir con total precisión lo que sale en una imagen. [Microsoft CaptionBot vía Daily Dot y Engadget]


Síguenos también en Twitter, Facebook y Flipboard.