Agentes de cambio

Raja Bala: Imaginando un futuro mejor

La curiosidad innata de Raja’ por saber cómo funcionan las cosas le ha llevado a convertirse en uno de nuestros inventores más prolíficos.

Aprovechar el poder de la visión artificial

Raja Bala es el Científico Responsable de Visión Artificial en PARC, una empresa de Xerox. Durante sus dos etapas en Xerox, la curiosidad innata de Raja por saber cómo funcionan las cosas le ha llevado a convertirse en uno de nuestros inventores más prolíficos. También le ha dado una perspectiva única de cómo la visión artificial cambiará la forma en que vivimos.

¿Qué pasaría si un selfi fuese todo lo que se necesita para diagnosticar una enfermedad? ¿Y si pudiera ir y volver al trabajo sin tocar el volante? ¿Y si pudiera entrar en el supermercado, recoger los artículos que necesita y marcharse sin esperar en la fila de la caja: el total se deduciría automáticamente de su cuenta bancaria?

No es ciencia ficción. Es el mundo que Raja Bala está ayudando a construir. Un mundo en el que los ordenadores pueden ver, interpretar y analizar las cosas que les rodean y después usar esa información para tomar decisiones en tiempo real y ayudar a resolver problemas del mundo real. Acompáñenos a descubrir al hombre detrás de la tecnología.

¿Cómo surgió su interés por la visión artificial?

Mientras crecía, había un gran interés en las matemáticas y las ciencias en mi casa. Mi madre era profesora de ciencias. Mi padre era ingeniero. Pero aunque siempre he tenido un amor particular por las matemáticas - y algo de talento - nunca he sido una persona con un «cerebro izquierdo» completo. Soy músico. Adoro las artes. Por lo tanto, cuando me propuse decidirme por una carrera, quise encontrar algo que pudiera satisfacer todos mis intereses en general.

Al principio no me decidí por la visión artificial. Cuando me incorporé a Xerox por primera vez en 1993, lo hice como científico de imágenes en color. En ese momento, Xerox estaba haciendo la transición de la impresión en blanco y negro a la impresión en color. Dirigí varios proyectos interesantes que desarrollaban soluciones de gestión del color para impresoras y escáneres de Xerox. No fue hasta el año 2011, después de una adquisición, cuando vi la oportunidad y el potencial de la visión artificial. Hice la transición y el resto es historia.

¿Puede hablarnos de qué es la visión artificial y por qué es tan relevante en el mundo de hoy?

La visión artificial es la ciencia por la cual las máquinas analizan, interpretan y extraen información útil de imágenes y videos, y luego la utilizan para resolver problemas del mundo real. En mi trabajo y en el de mi equipo, intentamos tomar una imagen o vídeo digital, convertirla en una representación matemática que un ordenador entienda y luego enseñarle a realizar una tarea utilizando esta representación, como por ejemplo, detectar si hay o no una cara en una imagen.

Aunque la visión artificial existe desde la década de los 60, en los primeros años estaba limitada por la falta de disponibilidad y acceso a imágenes digitales. El análisis de imágenes quedó relegado a usos especializados, como en el campo médico, y nunca tuvo una exposición masiva. Pero con la llegada de los teléfonos inteligentes y de empresas como Google y Facebook que facilitan más que nunca el acceso a imágenes con grandes bases de datos de imágenes con capacidad de búsqueda, ha disparado la magnitud, relevancia y penetración de la visión artificial en los mercados de consumo masivo. La abundancia de datos de imagen y vídeo generados por los consumidores de hoy, junto con los algoritmos avanzados y el hardware informático disponible para procesarlos, está cambiando la forma en que entendemos este campo.

¿Existen todavía desafíos que superar en la visión artificial hoy en día, incluso con estos avances?

En este momento, hay muchas expectativas sobre el aprendizaje avanzado y su aplicación en la visión artificial. El aprendizaje avanzado es una manera realmente efectiva de extraer patrones útiles de las imágenes. Funciona alimentando muchos ejemplos de imágenes en una red neuronal junto con un patrón asociado o veracidad sobre las imágenes. La red aprende entonces un conjunto de conexiones y ponderaciones que le permiten identificar el mismo tipo de patrón o veracidad en imágenes nuevas.

Cuando se tiene un gran conjunto de datos para trabajar, el aprendizaje a gran escala puede cambiar el juego. Una red profunda es capaz de comprender patrones y relaciones extremadamente complejas en imágenes y es muy efectiva en las tareas para las que está entrenada. Un problema fundamental, sin embargo, es que para tener éxito el aprendizaje avanzado depende de la disponibilidad de conjuntos de datos que incluyan millones de imágenes y sus etiquetas de verdades básicas. Y muchas aplicaciones no tienen acceso a tantas imágenes y etiquetas.

En el campo médico, por ejemplo, es posible que pueda utilizarse el aprendizaje avanzado para ayudar a diagnosticar una enfermedad específica. Eso significa entrenar la red avanzada con millones de imágenes de órganos que están marcados con diferentes niveles de gravedad de la enfermedad. Pero simplemente, ese volumen no existe. E incluso si existiese, no podríamos permitirnos el lujo de que un grupo de expertos clínicos se sentaran y etiquetasen todas esas imágenes.

Así que la pregunta que tenemos que hacernos es, ¿cómo usamos la creatividad para esto? ¿Cómo modificamos el aprendizaje avanzado para tomar decisiones inteligentes basadas en un aprendizaje limitado?

Lo que hemos hecho es revisar algunos de los modelos de los denominados "primeros principios" con los que trabajamos antes de la era del aprendizaje avanzado y utilizarlos para construir conocimientos e inteligencia previos sobre la tarea y el entorno en una red avanzada. Para enseñar a una red avanzada a reconocer los vasos sanguíneos en imágenes de la retina, por ejemplo, le damos pistas a la red de que debe buscar estructuras curvas delgadas que se ramifiquen como un árbol. Con estas pistas, la red no sólo requiere muchas menos imágenes de aprendizaje, sino que en realidad supera los mejores métodos de aprendizaje avanzado de la actualidad.

No siempre ha trabajado para Xerox, ¿verdad?

Exacto. Después de 22 años en Xerox, decidí ponerme a prueba en un nuevo entorno: trabajar para el grupo de imágenes fotográficas en teléfonos inteligentes Samsung desarrollando técnicas de imágenes computacionales para los dispositivos Galaxy y Note.

¿Qué se llevó de la experiencia?

Una nueva forma de valorar la sencillez. La mayoría de los productos Xerox se utilizan en un entorno de oficina, donde se puede contar con, al menos, un poco de familiaridad del usuario con la tecnología. Pero casi todo el mundo lleva un teléfono inteligente en el bolsillo. Al trabajar en un producto de consumo de este tipo, es necesario tener en cuenta todos los niveles de experiencia técnica. Hay que hacer algo fácil de usar tanto si se es experto como principiante. Ese nivel de simplicidad requiere miles de horas para alcanzarlo. Se dedica una cantidad increíble de trabajo a asegurarse de que cada clic haga exactamente lo que se supone que debe hacer.

Al regresar a un entorno de investigación en Xerox, sé qué se necesita para convertir una ciencia excelente en un producto impactante. Una cosa es poder publicar un gran artículo sobre una investigación. Pero si se desea que la investigación tenga como resultado un producto que un cliente final pueda utilizar, debe ser infalible, simple e intuitivo en la medida de lo posible. Realmente es necesario hacer un esfuerzo extra.

Digamos que estamos trabajando en una aplicación móvil para el escaneado inteligente de documentos. La visión artificial normalmente requiere mucha potencia de procesamiento, algo que no suele estar disponible en un dispositivo móvil. Por lo tanto, si desea que su solución sea algo más que un ejercicio académico, debe ser inteligente para hacerla que no solo sea precisa, sino también rápida y eficiente desde el punto de vista energético. De lo contrario, la gente no la usará.

¿Cuál de sus proyectos ha tenido el mayor impacto en el mundo?

Mi equipo colaboró con Procter and Gamble para proporcionar la visión artificial y la tecnología de aprendizaje por ordenador necesaria para «Olay Skin Advisor». Es una plataforma móvil que captura un selfi de un consumidor, analiza su rostro y luego ofrece recomendaciones de productos para el cuidado de la piel.

Lo ideal sería que siempre pudiera hablar con un dermatólogo sobre sus problemas de la piel. Pero en Estados Unidos es caro. El cuidado de la piel es un proceso continuo, la mayoría de las personas no pueden permitírselo. ¿Como cuidarse la piel uno mismo? Dé una vuelta por cualquier tienda de belleza. Hay cientos de productos para elegir. Es frustrante, confuso y fácil tomar la decisión equivocada. Menos de dos tercios de las mujeres saben qué productos funcionan mejor para su tipo de piel.

P&G quería resolver este problema con un navegador de belleza de bajo coste y personalizado. Así que desarrollamos una aplicación móvil fácil de usar. Pensamos, ¿por qué no aprovechar las cámaras de alta calidad que los consumidores llevan consigo?

Para usar esta aplicación, el consumidor debe empezar por hacerse un selfi de la cara. Esa imagen se analiza con visión artificial para decidir si es suficientemente buena para realizar un análisis de la piel, comprobando que haya iluminación , distancia, expresión facial y la ausencia de obstrucciones sean las adecuadas. Si la imagen pasa todas las pruebas, la aplicación analizará la piel del consumidor, le hará saber qué pasa con su piel y le sugerirá productos y cambios de rutina para cuidarla.

Tenemos más de un millón de usuarios activos y ha habido cinco millones de visitas al sitio desde el lanzamiento de la aplicación.

¿Qué área de la visión artificial le entusiasma más en el futuro?

La visión artificial y el dominio más amplio de la IA son una gran área en la que estar hoy en día. Hace poco tiempo que este campo ha madurado lo suficiente como para empezar a tener un impacto real, significativo y generalizado en el mundo, desde tareas rutinarias como el depósito automático de cheques con la cámara de su teléfono inteligente hasta grandes aplicaciones como la conducción autónoma y el diagnóstico precoz de enfermedades. Las aplicaciones son numerosas y siguen creciendo. Y hay numerosos desafíos científicos y de ingeniería sin resolver para que estas aplicaciones sean precisas y fiables.

Pero, personalmente, lo que más me entusiasma es la continuación de nuestro trabajo en la construcción de métodos de visión artificial que se basan en modelos anteriores del mundo y aprenden de ejemplos de datos. Los modelos abarcan desde nuestro trabajo con los vasos sanguíneos de la retina hasta el conocimiento general de sentido común sobre los objetos cotidianos, las personas y las leyes de la naturaleza. Gracias al magnífico entorno que Xerox proporciona para la innovación, estamos a la vanguardia de la introducción de estos modelos del mundo real en métodos de aprendizaje automatizados basados en datos para crear una forma de aprendizaje híbrido. No puedo imaginar un lugar más emocionante en el que estar.

Agents of change

Agentes de cambio

Todos hemos cambiado el mundo. Cada uno de nosotros. Con cada respiración, nuestra presencia se expande infinitamente hacia el exterior.

Pero pocos de nosotros tenemos la oportunidad de cambiar muchas vidas a mejor. Y aún menos tenemos el desafío de hacerlo todos los días. Ese es el desafío que se le lanza diariamente a los científicos de investigación de Xerox, para tratar de lograr un cambio.

A cambio, les damos tiempo y espacio para soñar. Y luego los recursos para convertir los sueños en realidad, ya sea inventando nuevos materiales con funciones increíbles o utilizando la realidad aumentada para reforzar la memoria de los pacientes de Alzheimer.

Nos sentimos orgullosos de nuestros agentes de cambio en los centros de investigación de Xerox en todo el mundo. Aquí tenemos algunas de sus historias.

Innovación Xerox

Vea cómo algunas de las mentes más brillantes del planeta se reúnen en nuestros centros de investigación en todo el mundo para mejorar el futuro del trabajo. Más información