Eduardo Cermeño Mediavilla
Resumen La vision arti cial es la rama de inteligencia arti cial que se ocupa de permitir que los ordenadores puedan comprender el contenido de imagenes y videos.
Los campos de aplicacion son diversos y ya se han implementado soluciones para automatizar diferentes tipos de problemas. A pesar de algunos logros impresionantes, las aplicaciones de vision arti cial sufren de importantes limitaciones en comparacion con la vision humana. Nuestro objetivo es comprender las razones por las que los resultados de aplicaciones de vision arti cial suelen estar por detras de los obtenidos por la vision humana.
Necesitamos comprender por que vemos lo que vemos y su abilidad. Los resultados de la percepcion visual son una seleccion de re exiones estadsticas de la historia visual y no una representacion verdica del mundo fsico. Nuestra falsa sensacion de certeza es la consecuencia de un mundo estable, en el cual las cosas cambian, pero tambien mantienen un cierto grado de invarianza. Nuestro sistema visual es capaz de detectar estas propiedades invariantes y relacionarlas para representar el mundo fsico.
Los metodos del estado del arte en vision arti cial clasi can conjuntos de caractersticas para reconocer objetos. Nuestra tesis a rma que la clasi cacion de patrones no puede explicar por s sola la variedad de resultados que ofrece la vision humana. Lo que se percibe no depende unicamente de los elementos de la imagen sino que tambien depende del conocimiento del perceptor y de lo que ha sido percibido con anterioridad. Proponemos que la percepcion es un proceso de recogida de informacion que puede enfocarse como un problema de busqueda y abordarse mediante agentes inteligentes.
Sugerimos que lo que se percibe son categoras, las cuales son conjuntos de caractersticas, cada una de nida por un conjunto de condiciones que relacionan iii propiedades. De esta forma, cualquier relacion de propiedades puede considerarse como la de nicion de una categora, permitiendo categorizar cualquier cosa con forma. Diferentes tipos de problemas de vision arti cial se pueden abordar mediante la categorizacion del todo sin categorizar las partes. La categorizacion directa del todo es en muchas ocasiones mas able y e ciente que la categorizacion indirecta a traves de la comprension de la categorizacion de las partes. Los sistemas de percepcion visual automatica deben poder adaptarse a traves de un proceso continuo de integracion de la informacion recopilada.
iv
Abstract Computer vision is the branch of arti cial intelligence concerned with enabling computers to understand images and videos. The elds of application are diverse and solutions have been implemented to automatize di erent problems. Despite some impressive achievements, computer vision applications undergo important limitations if compared with human vision. Our objective is to understand the reasons why computer vision results are often behind those of human vision.
We need to understand why we see what we see and how reliable is it. The results of visual perception are a selection of statistical re ections of visual history and not a veridical representation of the physical world. Our false sensation of certainty is a consequence of a stable world, in which things change but maintain a certain degree of invariance. Our visual system is able to detect these invariant properties and relate them to represent the physical world.
Computer vision state-of-the-art methods classify sets of features to recognize objects. Our thesis statement is that pattern classi cation cannot explain by itself the variety of results from human vision. What is perceived is not only a function of the elements on the image but also includes the knowledge of the perceiver and what has been perceived before. We propose that perception is a process of information gathering, which could be approached as a search problem, and addressed by an intelligent agent.
We suggest that what is perceived are categories, which are sets of objects, each of them de ned by a set of constraints relating properties. Thus, any relation of properties might be considered as the de nition of a category, allowing to categorize anything with a form. Di erent kinds of computer vision problems can be approached by categorizing the whole without categorizing the parts.
Direct categorization of the whole is in many cases more reliable and ecient i than an indirect one based on the comprehension of the categorization of the parts. Machine visual systems adapt through a continuous process of integrating the collected information.
ii
© 2008-2024 Fundación Dialnet · Todos los derechos reservados