En esta tesis presentamos dos modificaciones del algoritmo Scale Saliency creado por T, Kadir y M. Brady. Se trata de un algoritmo de extracción de regiones de interés en imágenes, de tal forma que éstas puedan ser utilizadas en aplicaciones de visión de alto nivel. El algoritmo Scale Saliency se apoya en un trasfondo teórico sólido, ya que se basa en la Teoría de la Información: las regiones extraídas serán aquellas que se correspondan con eventos impredecibles o que provean la máxima información posible. Sin embargo, dentro del estado del arte en el campo de los algoritmos de extracción de características, este algoritmo es el menos eficiente temporalmente.
En primer lugar tratamos el problema de la eficiencia temporal proponiendo un filtro que permite descartar puntos de la imagen antes de la aplicación del algoritmo Scale Saliency. Este proceso de filtrado disminuye notablemente el tiempo de ejecución del algoritmo de Kadir y Brady, con una baja tasa de error. El método se basa en el uso de inferencia Bayesiana para el aprendizaje de un umbral de saliencia válido para un conjunto de imágenes. Gracias a este umbral se puede definir una regla de decisión por medio de la Teoría de la Información para descartar los puntos de la imagen que probablemente no forman parte de las regiones más salientes de la imagen.
En segundo lugar proponemos un algoritmo para disminuir la complejidad del algoritmo con respecto a la dimensionalidad de los datos. El algoritmo Scale Saliency es usado normalmente con imágenes en tonos de gris, pero debido a cómo estima las medidas relacionadas con la Teoría del a Información puede también ser fácilmente aplicado a datos de mayor dimensionalidad, como imágenes en color. Sin embargo, la complejidad del algoritmo crece exponencialmente con respecto a la dimensionalidad de los datos.
Para conseguir esto estudiamos diferentes métodos de estimación, basados tanto en grafos como en partición de datos, para diseñar una versión multidimensional del algoritmo Scale Saliency. También proponemos una nueva medida de divergencia basada en uno de estos algoritmos de estimación. Conseguimos no sólo disminuir la complejidad del algoritmo de exponencial a lineal, sino también que sea lo suficientemente eficiente como para procesar datos de hasta 31 dimensiones en unos pocos minutos (el algoritmo de Kadir y Brady necesitaría varias horas para procesar una imagen compuesta de datos en 4 dimensiones).
En el caso de ambas aportaciones presentamos un ejemplo de aplicación.
Nuestro filtro Bayesiano es aplicado al problema de la localización robótica. Aplicamos también nuestra versión multidimensional del algoritmo Scale Saliency al problema de la categorización de texturas.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados