Agentes de cambio

Naila Murray: Enseñar a ver a las máquinas

«Si queremos diseñar máquinas verdaderamente inteligentes, van a necesitar ser capaces de formarse opiniones subjetivas».

Enseñar a las máquinas a ver

La visión artificial es un trabajo importante en el campo de la inteligencia artificial. Las mejoras en la forma en que las máquinas observan e interpretan su entorno podrían producir el tipo de desarrollos tecnológicos que, hasta ahora, solo veíamos en las películas de ciencia ficción.

Pero, ¿podrán las máquinas ver alguna vez? ¿Y qué significa realmente ver? Además, ¿se deberían replicar los procesos neuronales que los humanos utilizan para la visión o es mejor empezar de cero?

¿Qué es tener vista?

La visión humana es especialmente difícil de emular. Por eso, muchos expertos en visión artificial han decidido ignorar el sistema visual humano por completo. Después de todo, ¿no se podrían diseñar las máquinas para ver el mundo de manera completamente diferente y superar lo que nos ofrece el ojo humano?

Pero Naila, que creció en Trinidad y Tobago, siente que este pensamiento ya no es tan común en la comunidad de visión artificial. Por el contrario, “una vez más se está buscando inspiración en el sistema de visión humana”.

De hecho, Naila y sus colegas están tratando de dotar a las máquinas de opiniones similares a las humanas sobre sus observaciones, incluso tratando de enseñarles lo que debe considerarse estéticamente agradable y lo que no. También quiere ayudar a los ordenadores a aprender en qué deben enfocarse cuando captan las escenas.

Eyeball with gears

Se trata de un trabajo pionero en el campo de la visión artificial que tradicionalmente se ha centrado en los detalles semánticos u objetivos de un entorno. «Tiempo atrás no nos habíamos centrado tanto en lo que llamamos propiedades subjetivas, como la estética y la prominencia visual, en lo que atrae la atención hacia las escenas visuales», explica Naila. «Este tipo de propiedades van más allá de la objetividad, pero también son muy interesantes. Si realmente queremos diseñar máquinas verdaderamente inteligentes, van a necesitar ser capaces de formarse opiniones subjetivas».

Inspiración de los fotógrafos

Para avanzar en su trabajo, Naila y sus colaboradores recurrieron a una comunidad virtual de fotógrafos en la que los participantes ofrecen críticas sobre el trabajo de los demás. Naila quería aprovechar sus opiniones y la experiencia para enseñar a una máquina o algoritmo a ofrecer críticas sobre imágenes. Para esto, utilizó el aprendizaje automático, un método de conformación de datos que permite a los ordenadores aprender sin estar programados explícitamente. Es un campo que se beneficia de los enormes volúmenes de datos disponibles en el mundo moderno, así como de los continuos incrementos en la potencia de procesamiento.

Naila lo explica así: «Anteriormente, los investigadores de la visión artificial podían proporcionar conocimiento experto mediante programación a un algoritmo sobre características de imagen estéticamente agradables. Luego, el algoritmo trataría de usar estas características para predecir si una imagen es estéticamente agradable». Pero con el aprendizaje automático, los ordenadores pueden aprender los conocimientos necesarios de forma independiente.

«Simplemente proporcionamos un algoritmo de aprendizaje con imágenes y las críticas respectivas y les pedimos que repliquen las críticas. Asumimos que, si 100 personas están de acuerdo en que esta es una buena imagen, entonces podemos estar bastante seguros de que así es.

Three views of a highway

«Podemos imaginar que para valorar un retrato fotográfico, los tipos de juicios estéticos que se aplicarían no serían los mismos que si se tratara de un paisaje.  Si se tratara de una fotografía de un paisaje, nos podríamos centrar en características como la composición y las líneas de fuga. En un retrato se aplicarían reglas diferentes. Estas son cosas que una máquina descubriría al examinar muchos ejemplos.

«Pero, por supuesto, los juicios estéticos los crean en primer lugar seres humanos. Así que, lo que averiguamos fue que muchas de las características que son intuitivas, o que ya son reglas de oro, son ciertas».

Una relación con las máquinas

El interés de Naila en la visión artificial se remonta a su licenciatura en ingeniería eléctrica en la Universidad de Princeton. Me interesaban mucho las máquinas automotrices, es decir, las que podían funcionar en un entorno autónomo, y la investigación de lo que habría que hacer para crear tales máquinas. Pasé a hacer un máster en inteligencia artificial y visión artificial.

«¿Por qué? Porque la visión artificial hace uso de mucha intuición sobre la percepción visual humana, pero al mismo tiempo es bastante desafiante. La percepción humana nos permite realizar tareas como el reconocimiento de objetos de forma casi trivial, pero conseguir que una máquina alcance el mismo nivel de precisión de reconocimiento ha resultado ser extremadamente difícil. Es fascinante investigar qué ideas tienen éxito para entrenar la visión de las máquinas y cuáles no.

«Por ejemplo, los humanos pueden identificar correctamente el color de un objeto bajo condiciones de iluminación diferentes. Puede que haya luz exterior. Puede que esté oscuro. Puede que haya niebla. Pero aun así, podemos decir con mucha precisión los colores. Para un ordenador esta variabilidad es extremadamente difícil de gestionar, pero nuestro sistema visual es capaz de compensar muchos de estos cambios ambientales automáticamente».

Eyeball with a brain in the pupil

Aprendizaje avanzado

Aprender sobre el sistema visual humano se convirtió gradualmente en una gran fuente de inspiración para Naila, ya que formó modelos de visión artificial como parte de su doctorado.

Para ella, ha sido una elección natural avanzar hacia el aprendizaje profundo, un subcampo del aprendizaje automático que implica múltiples capas de procesamiento de señales. Naila lo explica así: «Algunos métodos de aprendizaje avanzado utilizan redes neuronales artificiales, que se inspiran en el sistema visual de nuestro cerebro. Las redes internas que se utilizan en la visión artificial están muy lejos de ser modelos biológicos, pero ciertamente la inspiración básica, la extracción jerárquica de información, está ahí».

A man's eyes

Naila confía en el aprendizaje avanzado para desbloquear otra parte del rompecabezas visual de los ordenadores. Quiere ayudar a las máquinas a decidir qué deben mirar en su campo de visión. Es evidente la importancia de esta área de la investigación de la visión artificial. Por ejemplo, las máquinas que necesitan navegar entornos en tiempo real necesitan algoritmos eficientes para enfocar su atención visual. Y así como los humanos priorizan el enfoque visual para ahorrar energía cerebral para lo importante, las máquinas necesitan ser capaces de reconocer los estímulos visuales que más merecen de su poder de procesamiento finito.

Dirigir la mirada de una máquina

Naila lo explica así: «Nuestros ojos están constantemente recogiendo información de nuestro campo de visión, algo que también hacen los sistemas de visión artificial. Imaginemos que una máquina necesita rastrear a un individuo a través de un vídeo. Si el vídeo se hizo en un lugar abierto, la máquina probablemente podría ignorar el cielo y enfocar la parte inferior de la imagen. Lo que mis colegas y yo hemos estado haciendo es usar técnicas de aprendizaje avanzado para replicar los tipos de patrones de atención que necesitamos para tales escenarios».

«Así que usamos una colección de datos de rastreo ocular que fue recopilada mientras la gente miraba una serie de imágenes. Alimentamos estas imágenes y los datos de seguimiento ocular en un algoritmo de aprendizaje que entrenó una red neuronal convolucional para reproducir los patrones de atención. Esto tuvo bastante éxito y los mapas de atención sintetizados replican bastante bien los datos recopilados».

Naila ha estado investigando cómo se puede aplicar este trabajo en sistemas que ayuden a las autoridades a vigilar los sistemas de peaje de las carreteras con coches compartidos. Su equipo está ayudando a establecer cuántos pasajeros viajan en un coche eliminando la información de fondo irrelevante, haciendo que los sistemas sean más precisos.

Cars on the highway

El equipo de Naila también está ayudando a construir una aplicación de realidad aumentada que sería especialmente útil para las personas que conducen vehículos inusuales. La aplicación móvil permite a los usuarios escanear el interior de un coche para que la función de ciertos botones e interruptores aparezcan en la pantalla. «Si sabes de dónde mira la gente en los coches, por ejemplo en el sistema de entretenimiento o en el salpicadero, entonces se puede entrenar el modelo de atención para localizar estas áreas y permitir que la aplicación se centre rápidamente en las zonas que puedan contener elementos de interés».

Expertos de IA unidos

Naila considera que el campo de la visión artificial depende cada vez más de la colaboración interdisciplinaria entre diferentes campos de inteligencia artificial. Su grupo ya está estudiando las interacciones entre las imágenes y el texto con otros investigadores en el procesamiento del lenguaje natural. Naila se ha sentido muy interesada en una reciente innovación de Facebook que ayuda a los usuarios con discapacidad visual a «ver» imágenes describiéndolas de forma que puedan ser leídas por un lector de pantalla.

Man working at a desk

"Ahí mismo vemos una interacción muy obvia entre tres cosas", dice. «Disponemos de visión artificial para entender lo que hay en la imagen, generación de lenguaje natural para describirla en palabras y luego generación de discurso para crear una expresión oral de la misma. Tiene mucho sentido que estas cosas funcionen en conjunto.

«Hay mucho trabajo en lingüística sobre cómo representar el discurso, cómo extraer la semántica y resumir. Resulta que muchas maneras de representar texto también se pueden usar con bastante éxito para representar imágenes».

«El campo de la visión artificial siempre ha sido muy colaborativo. Diría que es cada vez más importante porque estamos llegando a un punto de sofisticación en el que podemos empezar a abordar problemas más complejos con múltiples ángulos».

Enseñar a pensar a los ordenadores

Fundamentalmente, Naila y cientos de científicos e ingenieros de Xerox están tratando de hacer que los ordenadores sean más inteligentes. Entonces, ¿en qué medida y con qué rapidez ve Naila que progresa esta inteligencia?

«Precisamente en visión artificial hemos sufrido un cambio enorme en los últimos cuatro años más o menos. El cambio puede ser tan rápido que puede que en 20 años podamos ver algo extremadamente emocionante, aunque no espero que ocurra en un futuro muy cercano».

«No me gusta hacer predicciones. Pero siempre estoy interesada en ver lo último. Nunca se puede terminar un proyecto cuando se trata de investigación, siempre se tiene la idea de cómo puedo mejorar esto o cómo se plasma esta situación. Eso tiende a ser lo que miro cuando miro hacia el futuro.

«Una de las razones por las que estoy en Xerox es que la compañía apuesta por la creación de soluciones innovadoras que marcan cambios positivos en la vida de las personas. Mi trabajo es literalmente pensar en la manera o de hacer que eso suceda».

Agents of change

Todos hemos cambiado el mundo. Cada uno de nosotros. Con cada respiración, nuestra presencia se expande infinitamente hacia el exterior.
Pero pocos de nosotros tenemos la oportunidad de cambiar muchas vidas a mejor. Y aún menos tenemos el desafío de hacerlo todos los días. Ese es el desafío que se lanza diariamente a los científicos de investigación de Xerox, para tratar de lograr un cambio.
A cambio, les damos tiempo y espacio para soñar. Y los recursos para convertir los sueños en realidad, ya sea inventando nuevos materiales con funciones increíbles o utilizando la realidad aumentada para reforzar la memoria de los pacientes de Alzheimer.
Nos sentimos orgullosos de nuestros agentes de cambio en los centros de investigación de Xerox en todo el mundo.