Google Cloud Vision | Pixartprinting

Table of Contents

Un pequeño robot, hecho con poco más de dos ruedas y cuatro cables, se coloca sobre una mesa. Pasa delante de las personas sentadas a la mesa, se para frente a una de ellas que está sonriendo y le dice con su voz metálica: «¡Pareces feliz, cuéntame por qué estás feliz!». Si, en cambio, la persona está deprimida, pregunta: «Pareces triste, ¿quieres un abrazo?».
¿Cómo puede un aparato tan rudimentario reconocer una emoción humana? ¿Dónde esconde los potentes procesadores y las enormes bases de datos que hacen falta para realizar esta tarea?

El poder de la nube

En realidad, esta enorme potencia de cálculo no está en la máquina. Se encuentra en la nube de Google, es decir, en el conjunto de ordenadores remotos que la empresa pone a disposición de usuarios y desarrolladores.

El empático robot utiliza la capacidad de la nube para reconocer las expresiones faciales. Esto es posible gracias a una de las aplicaciones más innovadoras del gigante tecnológico de Mountain View: Google Cloud Vision.

Este producto permite a programadores y hackers aprovechar para sus proyectos la potencia de los algoritmos de Google Imágenes. Las habilidades del ojo de Google son infinitas: desde adivinar la raza de un perro hasta contar el número de personas que aparecen en una foto de clase; desde distinguir una calabaza de una pelota hasta indicar dónde se encuentra el lago que está inmortalizado en una foto antigua.

Imágenes en movimiento

Google Cloud Vision tiene tan solo un año de vida, pero el 9 de marzo Google ya presentaba su nuevo desarrollo: Google Cloud Video Intelligence. El sistema aplica algunas de las funciones de Vision a las imágenes en movimiento. De esta forma, las posibilidades de hacer búsquedas de contenidos audiovisuales aumentan enormemente.

No es casualidad que una de las primeras empresas interesadas en Google Cloud Vision haya sido AeroSense. Esta empresa de drones registra miles de imágenes en cada vuelo. Revisarlas a ojo para identificar los objetos fotografiados es prácticamente imposible. Es en situaciones como esta donde puede ser indispensable la vista automatizada de Google.

Algoritmos que aprenden de los datos

El secreto de Google Cloud Vision está en los algoritmos de «machine learning» que dieron lugar al gran éxito de los motores de búsqueda. Google usa la enorme cantidad de información que tiene a su disposición para que sus algoritmos puedan «entrenarse».

Cuando buscamos la palabra «perro», Google Imágenes recupera millones de imágenes de perros. Esto no ocurre porque el algoritmo conozca la idea platónica de lo que es un perro, sino porque ha aprendido a reconocer este animal a base de comparar enormes cantidades de imágenes.

La empresa ha puesto a disposición de los usuarios un simulador que permite explorar su galaxia de imágenes y comprender el funcionamiento de Google Cloud Vision. La empresa de Mountain View no es la única que se ha subido a este tren. Amazon, por ejemplo, ha lanzado un producto que compite por el mismo mercado: Amazon Rekognition.

Texto e imágenes

Los usos de la visión artificial pueden ser realmente sorprendentes. En el siguiente vídeo, un robot creado con Rasperry Pi utiliza Google Cloud Vision para clasificar dulces de Halloween como buenos o menos buenos. El software es capaz de reconocer la marca de los dulces gracias a su algoritmo de extracción de texto de las imágenes.

Google Cloud Vision puede interpretar las imágenes de formas muy diferentes:

Identificación de objetos: el software reconoce flores, animales, medios de transporte y miles de otras categorías que se encuentran frecuentemente en imágenes.
Identificación de lugares, personas y marcas: el programa recoge información para su base de datos que le permitirá identificar lugares famosos, tanto naturales como monumentales, como por ejemplo una montaña o un edificio. El mismo mecanismo se puede utilizar para identificar a personajes famosos o marcas comerciales.
Contenidos inapropiados: Google Cloud Vision puede detectar contenidos para adultos o violentos y puede ayudar a hacer una moderación de contenidos visuales a gran escala.
Identificación de rostros: se trata del uso más espectacular. Google Cloud Vision es capaz de identificar en una foto la presencia de uno o más rostros humanos. Además, puede diferenciar entre 8 expresiones diferentes (alegre, triste, enfadado, etc.). El sistema reconoce la presencia de un rostro, pero no está programado para reconocer sistemáticamente a quién pertenece ese rostro.

Para hackers e investigadores

Google Cloud Vision permite unas posibilidades de hacking sorprendentes. Por ejemplo, se puede combinar con el Traductor de Google para aprender a decir vaso en chino; para ello solo hay que enfocar una copa con la cámara del móvil. Si, en cambio, el software se combina con la colaboración de varios expertos en moda, se puede obtener un sistema que clasifica de manera automática la tribu urbana a la que pertenece un transeúnte de aspecto excéntrico. Disney ha usado el programa en una app de realidad aumentada que hace aparecer al dragón de su última película en el sofá de casa. El investigador Kalev Leetaru, en cambio, lo ha usado para analizar situaciones recurrentes en decenas de anuncios electorales o los lugares más fotografiados por la prensa internacional.

Tal vez la próxima aplicación la hagas tú, porque el ojo de Google promete cambiar hasta tu manera de ver el mundo.