Samer Alashhab
La discapacidad visual es considerada la mayor discapacidad sensorial, la cual determina en gran medida la vida de una persona tanto en la interacción con su entorno como con la sociedad. La Organización Mundial de la Salud (OMS) informa de que al menos 2.200 millones de personas en todo el mundo padecen deficiencia visual o ceguera, lo cual convierte en una cuestión prioritaria la investigación en soluciones que sirvan de ayuda para que estas personas superen los retos con los que se enfrentan en su día a día. Existen ayudas para las personas ciegas o con dificultades visuales, como los perros guía, los bastones, el sistema braille, etc. Sin embargo, aún así, hay multitud de tareas que les resultan difíciles o incluso imposibles, como por ejemplo orientarse en entornos desconocidos o leer textos no adaptados, entre otros. Para estas tareas también podemos encontrar herramientas basadas en la tecnología, como por ejemplo aplicaciones de teléfonos móviles de ayuda a la lectura o a la orientación, aunque habitualmente estas aplicaciones resultan muy básicas y están desarrolladas para un solo propósito, por ejemplo, ampliar un texto, detectar un color, etc. Los recientes avances producidos en el campo de la Inteligencia Artificial y, más concretamente, en el Deep Learning, han creado nuevas posibilidades para el desarrollo de aplicaciones avanzadas de ayuda en tareas en las que antes no era posible. Estos avances se han unido al incremento en la capacidad hardware de los teléfonos móviles, los cuales han pasado de ser simples medios de comunicación a tener una potencia de cálculo casi equivalente a la de un ordenador. Todo esto ha producido que estos dispositivos constituyan en la actualidad una herramienta muy importante para la ayuda a este colectivo. La cuestión central que se aborda en esta tesis doctoral es la investigación en métodos de visión artificial que permitan el reconocimiento de gestos realizados con las manos y, en función del gesto, facilitar diferentes tipos de información. El objetivo es el desarrollo de un sistema eficiente y de bajo coste destinado a dispositivos móviles que permita interactuar mediante gestos con el dispositivo y sea capaz de realizar múltiples acciones de ayuda a personas con discapacidad visual. Se busca con ello un método de interacción humano-máquina que resulte natural, rápido, intuitivo y accesible, y que integre diferentes acciones sin necesidad de utilizar la pantalla táctil para activarlas o cambiar de aplicación. Para ello se define un conjunto de gestos con los que interactuar con la aplicación, cada uno de los cuales desencadena una acción diferente, por ejemplo apuntar a un objeto para obtener una descripción del mismo, apuntar con dos dedos para centrar y arrastrar a la posición señalada, hacer la forma de una lupa con la mano para obtener la descripción de la escena, o hacer un gesto de tipo "Pellizco" para hacer zoom. En este último caso tendríamos un gesto dinámico, ya que abriendo y cerrando los dedos podremos ajustar el nivel de zoom, mientras que los otros casos son ejemplos de gestos estáticos. Para gestionar todas estas acciones se propone un método eficiente que realiza de forma conjunta tanto la clasificación y la localización de gestos como las acciones asociadas a cada gesto. Este método se basa en una red multi-head compuesta por un backbone común al que se conectan diferentes cabezas (heads) para realizar las tareas especializadas (como por ejemplo la descripción del objeto o la escena, el control de los niveles de zoom, etc.). Las cabezas aprovechan las características comunes extraídas por el backbone y además solo se activan si se detecta su correspondiente gesto, lo que resulta en una arquitectura altamente eficiente. Además, para la tarea de la localización de los gestos se propone un nuevo enfoque débilmente supervisado que permite transformar una red de clasificación en un método para la localización de objetos, resultando también en una solución eficiente al no requerir una nueva arquitectura. Para evaluar la metodología propuesta se han creado tres conjuntos de datos diferentes con un total de unas 44 mil imágenes, incluyendo imágenes reales y sintéticas de gestos, y un conjunto de datos que contiene descripciones de las escenas. Todas estas imágenes se han etiquetado a varios niveles, indicando la categoría de toda la imagen, la posición de la mano y de la punta del dedo índice, y la posición y descripción de los objetos señalados. Para cada uno de los pasos del método propuesto se ha realizado un conjunto de experimentos, tanto para ajustar sus parámetros como para compararlo con alternativas del estado del arte, incluyendo redes neuronales convolucionales, redes de detección de objetos, redes de segmentación, así como la evaluación de diferentes tamaños de entrada, técnicas de inicialización y de aumentado de datos. La experimentación realizada muestra buenos resultados tanto a nivel de precisión como de eficiencia del método. Al comparar los resultados de cada una de las cabezas especializadas con otros enfoques del estado del arte, incluyendo opciones específicas para esas mismas tareas, los mejores resultados (o casi los mejores) se obtienen en todos los casos mediante la arquitectura propuesta. Además, este método también ha mostrado un buen desempeño en los dispositivos móviles actuales reportando tiempos de procesamiento promedio de entre 3-4 FPS en pruebas realizadas en dispositivos Samsung A51 y Huawei P30 lite.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados