Semantic and fuzzy modelling for human behaviour recognition in smart spaces. A case study on ambient assisted living

Natalia Díaz Rodríguez

Ayuda

Semantic and fuzzy modelling for human behaviour recognition in smart spaces. A case study on ambient assisted living

Autores: Natalia Díaz Rodríguez
Directores de la Tesis: Johan Lilius (codir. tes.) , Miguel Delgado Calvo-Flores (codir. tes.)
Lectura: En la Universidad de Granada ( España ) en 2015
Idioma: español
Tribunal Calificador de la Tesis: Gianluca Bontempi (presid.) , Manuel Pegalajar Cuéllar (secret.) , Miguel Delgado Calvo-Flores (voc.) , Johan Lilius (voc.)
Enlaces
- Tesis en acceso abierto en: DIGIBUG
Resumen
- El reconocimiento de actividades humanas en entornos cotidianos es una tarea desafiante pero crítica en aplicaciones de Inteligencia Ambiental para poder lograr una adecuada asistencia ambiental (Ambient Assisted Living), y aún existen problemas clave por abordar para conseguir métodos más robustos. Por un lado, existe un amplio abanico de métodos basados en datos (por ejemplo, estadísticos o probabilísticos), que requieren el uso intensivo de datos etiquetados con el fin de entrenar el sistema para que aprenda las actividades. Por otro lado, disponemos de otra rama de métodos basados en el conocimiento (por ejemplo, semánticos o basados en ontologías), que requieren mecanismos versátiles para representar conocimiento y modelos para lograr razonamiento automático.
  
  Mientras los enfoques basados en datos para el reconocimiento de actividades sufren de modelos estáticos \textit{ad-hoc}, de escasez de datos, y de difícil escalabilidad [Chen et al. 2009], los modelos semánticos pueden satisfacer las necesidades de entornos basados en actividades personalizadas dependiendo del contexto, donde constantemente se están introduciendo nuevas tecnologías de sensores multimodales. Los modelos de datos simples se pueden conseguir a través de modelos de clave-valor y de etiquetado, mientras que dominios más complejos requieren formalismos más sofisticados, como los modelos basados en roles de objeto, modelos espaciales de contexto, u ontologías. En general, los requisitos para expresar comportamiento humano y el ambiente incluyen la capacidad para representar estructuras jerárquicas, relaciones complejas entre instancias de contexto y definiciones complejas basadas en otras más simples. Normalmente se requiere el uso de restricciones espaciales o temporales. Las ontologías han demostrado en la literatura ser una de las herramientas más prometedoras para lograr estos objetivos. Las ontologías pertenecen al paradigma de la Web Semántica, que originó como una colaboración del W3C y otros, para proporcionar un estándar para la definición de datos en la Web. La Web Semántica fue definida por Berners-Lee et al. en el 2001 como "una extensión de la Web actual en la que se provee a la información con un significado bien definido, lo que permite a personas y computadores trabajar en cooperación". En la Web Semántica, las ontologías representan la principal tecnología para crear interoperabilidad a nivel semántico. Esto se logra mediante la creación de una ilustración formal de los datos, haciendo posible el compartir y reutilizar la ontología en toda la Web.
  
  Un enfoque combinado para reconocer actividades es utilizando ambos paradigmas. Los enfoques híbridos requieren tanto de sentido común o conocimiento experto para modelos basados en el conocimiento, como de un modelado robusto basado en datos que también pueda capturar las variaciones de la actividad y la incertidumbre. El principal objetivo de esta tesis ha sido proponer un sistema efectivo en esta categoría.
  
  Una de las principales limitaciones de los sistemas de Inteligencia Ambiental en la actualidad es la falta de modelos semánticos de actividades y del medio ambiente, para que el sistema pueda reconocer la actividad específica que se lleva a cabo por los individuos, y así actuar en consecuencia. En este contexto, esta tesis aborda el problema general de la representación del conocimiento en espacios inteligentes, teniendo como objetivo principal el desarrollo de modelos basados en el conocimiento, equipados con semántica, para aprender, inferir y controlar los comportamientos humanos en espacios inteligentes. Además, es fácil de reconocer que algunos aspectos de este problema tienen un alto grado de incertidumbre. Por ejemplo, a menudo faltan lecturas de sensores o hay variaciones en la ejecución de las actividades, que bien los humanos realizan de manera diferente, o de manera no determinista. Al mismo tiempo, los usuarios utilizan (diferentes) objetos de manera diferente. En consecuencia, se deben soportar variaciones en el comportamiento, ya que las actividades pueden llevarse a cabo de manera diferente o en diferente orden. Por tanto, los modelos desarrollados deben estar equipados con mecanismos para manejar este tipo de información imprecisa.
  
  Para que el sistema sea lo suficientemente sencillo y flexible para poder ser gestionado por usuarios no expertos, y así, poder facilitar la transferencia de conocimiento e investigación a la industria, se ha desarrollado una librería para programar el espacio inteligente, una arquitectura híbrida crisp y difusa, así como modelos gráficos para representar y configurar reglas sobre comportamientos humanos en el espacio inteligente, con el fin de proporcionar al sistema más usabilidad en la aplicación final.
  
  Una vez propuestos los componentes arquitectónicos necesarios del sistema, con el fin de permitir el modelado y el reconocimiento de un conjunto de comportamientos complejos de la vida real (donde la vaguedad y la incertidumbre son inherentes a la naturaleza humana de los usuarios que los realizan), construímos una ontología difusa y un sistema semántico híbrido.
  
  El sistema propuesto se compone de dos módulos principales: el reconocedor de sub-actividades de bajo nivel, y el reconocedor de actividades de alto nivel. El primer módulo detecta sub-actividades, es decir, acciones o actividades básicas que toman datos de entrada directamente del sensor de profundidad Kinect. En nuestra aplicación, Dynamic Time Warping, que se caracteriza por ser un método basado en datos o de machine learning, se utiliza para aprender y reconocer estas sub-actividades de bajo nivel. La principal aportación de esta tesis aborda el segundo componente del sistema híbrido, que se basa en la parte anterior, a un nivel superior de abstracción, y obtiene los datos de entrada de la salida del primer módulo. Este módulo ejecuta inferencia ontológica para proporcionar semántica a usuarios, actividades y su influencia en el medio ambiente. Este componente, por tanto, se basa en el conocimiento, y utiliza la ontología difusa diseñada para modelar actividades de alto nivel. Como el reconocimiento de actividades depende del contexto y de la capacidad de poder discriminar entre actividades en diferentes entornos y configuraciones, el sistema semántico permite modelar conocimiento de sentido común en forma de un sistema basado en reglas que soporta expresiones cercanas al lenguaje natural con etiquetas lingüísticas difusas.
  
  Para poder realizar el seguimiento de sub-actividades, así como su reconocimiento a partir de datos de vídeo de profundidad, además de para lograr un modelo más modularizado que permita que la flexibilidad sea parte del proceso de reconocimiento, se ha proporcionado significado formal a diferentes unidades de contexto en la ontología.
  
  Las ventajas del sistema híbrido se han validado con un nuevo y desafiante conjunto de datos público, CAD-120 (Cornell Activity Dataset) [Koppula et. al. 2013], con 10 actividades en el entorno del hogar, realizadas por 4 usuarios. El sistema propuesto obtiene mejoras estadísticamente significativas en cuanto a la tasa de aciertos, precisión, y exhaustividad. Para la primera etapa basada en datos del sistema (de reconocimiento de sub-actividades), estos valores fueron 91,5, 97 y 90,1%, respectivamente, mientras que para la última etapa ontológica basada en el conocimiento (del sistema de reconocimiento de actividades de alto nivel), se logran un 84,1% de tasa de aciertos, 97,4% de precisión y 82,9% de exhaustividad. Por otro lado, si se asume un escenario ideal con una tasa de aciertos del 100% en la clasificación de las sub-actividades de entrada (es decir, suponiendo que todas las sub-actividades se reconozcan adecuadamente en la primera fase), se logra una tasa de aciertos del 90,8\%, precisión de 98,1% y una exhaustividad del 91,07%.
  
  El tratamiento de datos inciertos, incompletos o vagamente expresados es abordado por primera vez a través de una ontología difusa, y validado en situaciones en tiempo real con un conjunto de datos externo. Esto supone una mejora con respecto a ambos enfoques existentes en el estado del arte, es decir, tanto enfoques totalmente basadas en datos, como metodologías que meramente utilizan ontologías.
  
  Las contribuciones de la tesis se pueden resumir en: 1. Un estado del arte sobre metodologías y enfoques para el reconocimiento de comportamientos humanos, y un análisis de ontologías existentes para el mismo propósito.
  
  2. Un conjunto de componentes de infraestructura, tales como una arquitectura de razonamiento híbrida crisp-difusa, un módulo de programación semántico, y un modelo de lenguaje visual para el usuario final que: a) permite la programación de aplicaciones personalizadas por el usuario con simples reglas "SI-ENTONCES", b) no requiere conocimientos de programación, Web Semántica ni lógica difusa, c) se basa en triples y grafos para preservar el modelo semántico de RDF, d) incluye una arquitectura de publicación/suscripción (Smart-M3) para evitar consultas constantemente, y e) soporta el modelado e inferencia con conocimiento impreciso.
  
  3. Una ontología difusa que permite modelar acciones, actividades, comportamientos, ubicaciones, tiempo, diferentes tipos de usuarios (individuales, grupos) y la incertidumbre inherente al contexto.
  
  4. Un sistema híbrido que combina el reconocimiento de actividades por visión por computador con modelos semánticos que a) mejora la sensibilidad al contexto en entornos dinámicos, b) mejora la tasa de aciertos, precisión, exhaustividad y la interpretabilidad y expresividad del modelo (de manera más cercana al lenguaje natural), c) evita la necesidad de entrenar el sistema de nuevo cuando se introducen nuevas actividades de alto nivel para ser reconocidas en el sistema.
  
  5. Un modelado difuso de actividades humanas más robusto por medio del tratamiento de datos imprecisos, expresados con vaguedad, incompletos o inciertos. El modelado difuso, al mismo tiempo, permite relajar el modelo y facilita su flexibilidad.
  
  Como resultado de todas estas contribuciones, el reconocimiento de actividades humanas puede ser herramienta clave para conseguir una mejor asistencia a personas con necesidades especiales, mayores que viven independientemente, así como en asistencia sanitaria, o en monitorización o rehabilitación remota, y en control de procesos o protocolos industriales, entre otros casos. En esta tesis se muestran ejemplos de uso en algunas de estas áreas. Trabajos futuros deben centrarse en los efectos derivados del punto 4c, es decir, tratar de reducir el trabajo manual requerido para extraer y representar conocimiento experto, el cual es considerable actualmente, con el fin de representar las reglas de dominio de manera suficientemente coherente, específica, general y reproducible.