Ir al contenido

Documat


Resumen de A stereo vision system based on soft computing techniques for human robot interaction

Rui Filipe Paul Miranda de Oliveira

  • español

    Introducción El objetivo principal del trabajo presentado en esta tesis es el desarrollo de técnicas visuales que resulten útiles para el establecimiento de una interacción natural entre seres humanos y robots. En este contexto, ¿natural¿ significa que es similar a las interacciones existentes entre los humanos. En este sentido, nuestros esfuerzos se han centrado en hacer posible que un robot, equipado con una cámara estéreo, sea capaz de analizar y estudiar el comportamiento de las personas que se encuentran a su alrededor.

    La motivación subyacente a este objetivo es proporcionar a los robots la posibilidad de comportarse como lo haría un ser humano, eligiendo entre diferentes acciones de la misma manera como lo haría una persona. Esto pasa por ejecutar distintas tareas tales como: ser capaz de detectar y seguir personas en su entorno, detectar cual o cuales de entre estas personas están interesadas en las acciones propuestas por el robot, y además están respondiendo a esas mismas acciones. Por otra parte, los robots pueden utilizar sus recursos de una manera más apropiada y mejorar sus métodos de comunicación alcanzando un comportamiento más cercano al comportamiento humano.

    Desarrollo Para alcanzar este tipo de Interacción Humano-Robot consideramos diferentes técnicas. Estas técnicas contribuyen a resolver varios problemas existentes en esta área. En particular, las técnicas de ¿Soft Computing¿ son utilizadas para tratar la incertidumbre e imprecisión, así como para representar las variables y las reglas de una manera más comprensible por el ser humano. Son utilizadas también diferentes técnicas de análisis de imágenes para extraer la información relevante del entorno del robot. Todas estas técnicas permiten una mejora en la socialización de los robots. El objetivo de este trabajo puede dividirse en dos. El primero es la detección y el seguimiento de las personas que se encuentran en el entorno del robot. El segundo es la detección del interés de cada persona en interaccionar con el robot, la detección de la demanda de atención al robot y la detección de la respuesta a sus acciones. Esto se realiza en base al análisis de algunos de los elementos que caracterizan una situación de interacción típica entre humanos tales como: la distancia entre los diferentes interlocutores, la orientación de la cabeza, el movimiento de brazos, el movimiento de concordancia y discordancia entre la cabeza y la expresión de la boca (sonrisa).

    Para alcanzar el primer objetivo se consideran dos métodos: el primero basado en un enfoque probabilístico y el segundo basado en un enfoque ¿posibilístico¿. El método probabilístico muestra un nuevo enfoque para el seguimiento de personas que combina profundidad, color e información de gradiente y está basado en visión estéreo. El grado de confianza asignado a la información de profundidad en el proceso de seguimiento varía de acuerdo con la cantidad de información estéreo disponible en el mapa de disparidad. Se ha definido una nueva medida de confianza para alcanzar este objetivo y el seguimiento se hace utilizando filtros de partículas. El segundo método, basado en un enfoque ¿posibilístico¿, se utiliza para añadir más información basada en conocimiento experto que se usa a la hora de evaluar las partículas. Este enfoque tiene las restricciones derivadas de las condiciones de un modelo probabilístico. En este caso se utiliza la lógica difusa para manejar la información estéreo y así poder detectar y seguir a las nuevas personas. Más concretamente, en la fase de detección de personas, se utilizan dos sistemas difusos para filtrar los falsos positivos del detector de caras. A continuación, en la fase de seguimiento, se propone un nuevo Filtro de Partículas basado en Lógica Difusa para fusionar la información estéreo y la información de color, asignando diferentes niveles de confianza a cada una de estas fuentes de información. De esta manera, el sistema es capaz de seguir a las personas, en la imagen de referencia de la cámara, aun cuando una de las fuentes de información utilizada (estéreo o color) sea confusa o imprecisa.

    Considerando que un robot es un sistema inteligente, la detección de determinadas situaciones de interacción es una habilidad que resulta interesante. Por consiguiente, para alcanzar el segundo objetivo, se presenta un método basado en diferentes características, como el ángulo y la distancia entre las personas y el robot, así como la dirección de la cabeza de cada persona. La estimación de la dirección de la cabeza en tiempo real se hace utilizando una técnica basada en ¿Support Vector Machines¿ mientras que se utiliza un sistema difuso para calcular el valor de interés final a partir de las tres variables que se acaban de mencionar. Siempre que el grado de interés alcanza un valor alto, la persona se analiza con más en detalle para detectar su posición y un determinado tipo de movimiento de sus brazos y cabeza (concordancia y discordancia). Esta información se gestiona por otro sistema difuso que debe calcular si la persona está llamando la atención del robot o si está diciendo SI / NO con su cabeza. En el último trabajo presentado en esta tesis, algunas de estas fuentes de información se usan de forma conjunta con una técnica de detección de sonrisa, para construir un sistema basado también en lógica difusa, que tiene la capacidad de medir ciertos tipos de respuesta humana. Como la fiabilidad de la información visual captada por la cámara estéreo depende bastante de la distancia de cada persona con respecto a la cámara, las diferentes características visuales se priorizan de acuerdo con la distancia de la persona al robot. La respuesta humana se calcula a partir de un sistema difuso jerárquico que es capaz de tratar la incertidumbre y la imprecisión existentes en dichas medidas, según la distancia a la que se encuentra la persona con respecto al robot. Esta medición de la respuesta humana se utiliza para detectar la persona o las personas que están respondiendo mejor a la interacción social propuesta por el robot. Dicha medición puede servir también para mejorar y ajustar las habilidades de interacción social del robot en el futuro.

    Conclusiones Esta tesis presenta diferentes trabajos llevados a cabo en los últimos años y que están relacionados con diferentes áreas de las Ciencias de la Computación como la Inteligencia Artificial, la Interacción entre Robots y Humanos y la Visión por Computador. En particular, nuestros esfuerzos se han enfocado en la problemática de la detección y seguimiento de personas que consideramos un tema primordial y que debe ser resuelto antes de investigar en técnicas de Interacción entre Robots y Humanos. A continuación, hemos desarrollado algunas técnicas para la detección de diferentes tipos de respuesta humana.

    Así se puede concluir que esta tesis contribuye con 4 aportaciones principales:

    - El desarrollo de un algoritmo de seguimiento estéreo que utiliza una medida de confianza. La medida de confianza se utiliza para modificar la distribución de probabilidad de los pesos de las partículas en el algoritmo de filtro de partículas. Esta propuesta es rápida, robusta y además permite manejar la incertidumbre asociada a la información de disparidad.

    - El desarrollo de un algoritmo difuso de seguimiento estéreo. En esta propuesta no solo se trata la incertidumbre asociada a la disparidad sino que también se considera la del resto de fuentes de información.

    - Un nuevo sistema difuso que permite la detección visual de demandas de interacción. Se calcula un nivel de interés en tiempo real usando un enfoque basado en imágenes y Maquinas de soporte vectorial.

    - La propuesta de un sistema difuso jerárquico para medir la respuesta humana usando visión estéreo. El sistema difuso jerárquico es capaz de tratar con la incertidumbre e imprecisión de las medidas en función de la distancia a la que se encuentra la persona.

  • English

    ENGLISH:

    ABSTRACT Introduction The main goal of this thesis is the development of visual techniques that could be useful in order to establish a natural interaction between people and robots. In this context, ¿natural¿ interaction means an interaction similar to the ones existing between humans. Therefore, efforts were put in making it possible for a robot equipped with a Stereo Vision (SV) system to study and analyse the behavior of those people which are located in its surroundings.

    The motivation behind this goal is to give robots the ability to behave and choose between actions as any human would do. This means performing several tasks such as: being able to detect and track people on the surroundings of the robot and accurately detecting who is potentially interested on the actions executed by the robot and/or responding to them. Furthermore, by doing so, robots may use their resources more adequately and even improve their decision capabilities and communication methodologies while achieving a kind of behavior similar to the human behavior.

    Methods To achieve this kind of Human-Robot Interaction (HRI) different techniques are detailed. These techniques contribute to solve several issues inherent to this field. In particular, Soft Computing (SC) techniques are employed to deal with uncertainty and vagueness as well as to represent variables and rules in a human oriented way. Image analysis techniques are also employed to extract relevant information from the scene. All of them allow the enhancing of the socialisation of robots.

    The purpose of this work is twofold. First, detection and tracking of people that are located in the surroundings of the robot, are done. Second, computing whether a person is interested in interacting with the robot, requesting its attention or responding to its actions, is carried out. This is done by analysing typical interaction cues between humans such as: the distance between interlocutors, head pose, arms shaking, head shaking/ nodding and smiling.

    To achieve the first goal, two different methods are presented: one based in a probabilistic approach and a second one based on a ¿possibilistic¿ approach. The probabilistic method presents a novel approach for person tracking which combines depth, color and gradient information based on stereo vision. The degree of confidence assigned to depth information in the tracking process varies according to the amount of stereo information found in the disparity map. A novel confidence measure is defined for it and the tracking is carried out using Particle Filter (PF) techniques. The second method, based on a possibilistic approach, is employed to add more information based on expert knowledge, when evaluating the particles, and without being confined to the probabilistic models. This approach also uses Fuzzy Logic (FL) when managing stereo information in order to improve the people detection phase. Thus, in the people detection phase, two fuzzy systems are used to filter out false positives of a face detector. Then, in the tracking phase, a new Fuzzy Logic based Particle Filter (FLPF) is proposed to fuse stereo and color information assigning different confidence levels to each of these information sources. Information regarding depth and occlusion is used to create these confidence levels. This way, the system is able to keep track of people, in the reference camera image, even when either stereo information or color information is confusing or not reliable.

    Considering a robot as an intelligent system, the determination of some typical interaction situations is an interesting ability to implement. Therefore, to achieve the second goal, a method based in several cues, namely the distance and angle towards the robot and the person head pose, is presented. The head pose is estimated in realtime by a view based approach using Support Vector Machines (SVM) while a Fuzzy System(s) (FS) is used to compute the final interest value, based on the three mentioned variables.

    Whenever the level of interest achieves a high value, the person is analysed in more detail to detect the position and the motions of the arms as well as whether the person is shaking or nodding the head. This information is managed by a fuzzy system in order to detect a possible interest demand or the intention of the person to say yes or no using his/her head. Some of the above mentioned sources of information are used together with smile detection, in the last work mentioned in this thesis, to build a system based on FL which is able to measure certain types of human response. As the reliability of the visual information detected by the system mainly depends on the distance of the person towards the camera, we prioritise different visual cues according to the distance of the user towards the robot. The human response is computed by means of a hierarchical fuzzy system that is able to deal with the uncertainty and vagueness of the measures depending on the distance of person. This human response measure is used for detecting the person or people which are responding to the social interactions proposed by the robot and it might be also used to improve or adjust the interaction skills of the robot in the future.

    Conclusions This thesis has presented contributions in different areas of the Soft Computing (SC), Computer Vision and Human-Robot Interaction (HRI) fields. Efforts have been focused in the problem of people detection and tracking which could be considered a first step before developing any other Human-Robot Interaction (HRI) techniques. Additionally, we have proposed a novel approach to detect different kinds of human responses interacting with a robot.

    We may then conclude that the 4 main contributions of this thesis are:

    - The development of a fast stereo tracking algorithm using a confidence measure. The confidence measure is employed to modify the probability distribution function employed for weighting the particles in the particle filtering algorithm. This proposal is robust and allows to manage the uncertainty associated to the disparity information.

    - The development of a fuzzy stereo tracking algorithm. In this proposal not only the uncertainty associated to disparity information is managed. The managing of the vagueness associated to the rest of sources of information is considered too.

    - A new fuzzy system that allows the visual detection of interaction demands. A level of interest is computed in realtime by a view based approach using Support Vector Machines.

    - The proposal of a hierarchical fuzzy system to measure human response using stereo vision. The hierarchical fuzzy system is able to deal with the uncertainty and vagueness of the measures depending on the distance of the tracked person.


Fundación Dialnet

Mi Documat