Viendo los árboles del bosque: Los sistemas de reconocimiento de objetos dividen las imágenes en partes aun más pequeñas

El reconocimiento de objetos es uno de los principales temas en la investigación de visión por computador: después de todo, un ordenador que puede ver no tiene mucha utilidad si no sabe lo que está viendo. Investigadores del MIT, junto con colegas de la Universidad de California, Los Angeles, han desarrollado nuevas técnicas que deberían facilitar mucho la creación de sistemas de reconocimiento de objetos así como permitirles utilizar menos memoria y de una forma más eficiente.

Un sistema convencional de reconocimiento de objetos, al intentar identificar un tipo de objeto determinado en una imagen digital, probablemente comenzará buscando las características más destacadas de los objetos. Un sistema creado para reconocer caras, por ejemplo, comenzará buscando cosas que se parezcan a un ojo, una nariz y una boca para luego determinar si están separados por una distancia coherente. El diseño de estos sistemas, sin embargo, suele necesitar la intuición humana: un programador decide qué partes de los objetos en las que se puede fijar son las correctas. Esto significa que para cada nuevo objeto que se quiera añadir, el programador ha de comenzar desde el principio, determinando qué partes del objeto son las más importantes.

Esto también quiere decir que un sistema diseñado para reconocer millones de objetos diferentes sería extraordinariamente grande. Cada objeto tendría su propio conjunto de tres o cuatro partes diferenciadoras, pero esas partes serían diferentes desde diferentes perspectivas y catalogarlas todas requeriría una cantidad enorme de memoria.

Distintos objetos podrían tener formas comunes. Long Zhu.

Distintos objetos podrían tener formas comunes. Long Zhu.

En un artículo que presentarán en la Conferencia “Computer Vision and Pattern Recognition” del Institute of Electrical and Electronics Engineers, el postdoc Long (Leo) Zhu y los profesores Bill Freeman y Antonio Torralba [español] -todos ellos son parte del Laboratorio de Computer Science and Artificial Intelligence del MIT-, junto con Yuanhao Chen y Alan Yulle, de UCLA, describen un enfoque que soluciona ambos problemas de una vez. Al igual que muchos sistemas de reconocimiento de objetos, su sistema aprende a reconocer nuevos objetos al ser “entrenado” con imágenes digitales de objetos etiquetados. Sin embargo, no necesita saber con antelación cuáles son las características del objeto en las que se debería fijar. Para cada objeto etiquetado, primero identifica las características más pequeñas que pueda -a veces incluso pequeños segmentos lineares. Luego busca casos en los que estás características de bajo nivel estén conectadas entre sí, formando pequeñas formas más sofisticadas. Posteriormente busca casos en los que estas formas más complejas estén conectadas entre sí, etc, hasta que cree un catálogo jerárquico de partes cada vez más complejas cuya capa superior es un modelo de todo el objeto.

Economías de escala

Una vez que el sistema ha juntado un catálogo de abajo a arriba, lo analiza de arriba a abajo, eliminando las redundancias. En ocasiones, la segunda capa podría incluir dos representaciones diferentes de la parte trasera de un caballo: una podría incluir la cadera, una pata trasera y parte de la tripa; otra podría incluir la cadera y ambas patas traseras. Pero podría pasar que en muchos casos en los que el sistema identifique una de estas “partes”, también identifique la otra. Así que simplemente eliminará una de ellas de la jerarquía.

Aunque el enfoque jerárquico añade nuevas capas de información sobre objetos digitales, ahorra memoria porque diferentes objetos pueden compartir partes. Por ejemplo, en diferentes capas, las partes catalogadas de un caballo y un ciervo pueden tener formas en común; hasta cierto punto, esto también ocurre con los caballos y los coches. Donde haya una forma compartida entre dos o más catálogos, el sistema necesita guardarlo únicamente una vez. En su nuevo artículo, los investigadores muestran que, al añadir la capacidad de reconocer más objetos del sistema, el número medio de partes por objeto disminuye de forma constante.

Aunque el trabajo promete un uso más eficiente de la memoria del ordenador y del tiempo de los programadores, “es mucho más que una simple mejora en el modo de reconocimiento de objetos”, dijo Tai Sing Lee, un profesor asociado de ingeniería informática en la Universidad Carnegie Mellon. “Este trabajo es importante en parte porque creo que trata sobre un par de misterios científicos del cerebro”. Lee recuerda que el proceso visual en los humanos parece utilizar entre cinco y siete regiones cerebrales diferentes, pero no está claro lo que hace. El nuevo sistema no especifica el número de capas en cada modelo jerárquico; simplemente coge las que necesite. “Lo que me ha asombrado es que el sistema, generalmente aprende entre cinco y siete capas”, dijo Lee. Eso, dice, hace posible que realice los mismos mecanismos de procesamiento visual que el cerebro.

En su artículo, los investigadores del MIT y de UCLA informan de que, en las pruebas, su sistema funcionó tan bien como el resto de sistemas actuales. Pero eso aun está muy lejos del cerebro humano. Segun Lee, este sistema se centra actualmente sobre todo en la detección de los nudos de representaciones bidimensionales de los objetos; para acercarse al rendimiento del cerebro humano, tendrá que incorporar mucha información adicional sobre texturas superficiales y contornos tridimensionales, como hace el cerebro. Zhu añade que él y sus compañeros también están persiguiendo otras aplicaciones de su tecnología. Por ejemplo, sus modelos jerárquicos consiguen, de forma natural, no sólo el reconocimiento de objetos -determinar qué objeto es- sino también la segmentación automática del objeto -etiquetar las partes constituyentes de un objeto.

Este artículo ha sido traducido de Physorg y publicado bajo licencia CC by-sa

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: