Ir al contenido

Documat


Resumen de Understanding Image Sequences: the Role of Ontologies in Cognitive Vision

Carlos Fernández Tena Árbol académico

  • La gran importància i omnipresència de la informació digital ha posicionat el vídeo com a vehicle preferent per a transmetre informació, i ha donat lloc a un espectacular creixement en la generació de multimèdia a les xarxes socials i de material de vídeo vigilància. Aquesta situació exigeix tot un seguit de necessitats tecnològiques que han motivat moltes iniciatives de recerca per la millora en la comprensió automàtica del contingut en seqüències de vídeo. Com a resposta, la recerca en sistemes de visió cognitiva estudia sistemes capaços de reconèixer esdeveniments complexos i adaptar-se a diferents tipus d'entorn, tot i fent servir coneixement de diversa naturalesa.En aquesta tesi ens proposem reconèixer i descriure el contingut de diferents situacions observades en seqüències de vídeo de diferents dominis, i comunicar la informació resultant a usuaris externs per mitjà d'interfícies d'interacció home-màquina avançades. Aquest problema s'aborda mitjançant el disseny dels mòduls d'alt nivell d'un sistema de visió cognitiva que empra models ontològics. Concretament, ens proposem: (i) fer que el sistema s'adapti a diferents escenaris dins del domini urbà, i aprengui automàticament les característiques semàntiques de les regions que hi apareixen (carretera, vorera, pas de vianants, zones d'espera, pàrquings); (ii) que raoni sobre informació incerta, incompleta o imprecisa, tant de tipus visual (càmeres) com de tipus lingüístic (usuaris); (iii) que generi interpretacions sensates d'esdeveniments complexes a partir de l'anàlisi de dades espai-temps més bàsiques; (iv) que disposi d'interfícies de comunicació natural que puguin solventar les necessitats dels usuaris; i finalment, (v) trobar mecanismes que ens facilitin el disseny, manteniment i extensió dels models implicats, i formes de combinar sinèrgicament totes les tasques descrites en un únic sistema funcional. Per tal d'avaluar de forma intel·ligent continguts de vídeo és necessari adoptar tècniques avançades de manipulació de la informació. La nostra aproximació opta per seguir els principis dels sistemes de visió cognitiva. Per a fer-ho, utilitzem processos d'aprenentatge basats en inferència sobre models gràfics de Markov per a l'identificació de regions semàntiques en diferents escenaris; conceptualització d'informació provinent de sistemes de seguiment per tal d'obtenir conceptes atòmics en lògica difusa, raonadors que extreuen inferències de combinacions d'aquests conceptes, i arbres de grafs de situació (SGTs) per a interpretar automàticament el contingut de vídeos; processos de pàrsing basats en representació del discurs i semàntica cognitiva per a implementar mòduls de comunicació lingüística, tant per a la generació de frases a partir de predicats com de la comprensió de frases d'usuari per part del sistema; i tècniques de síntesi o augmentació d'escenes per a simulació i representació d'entorns virtuals o augmentats. Adicionalment, demostrem que l'ús d'ontologies per a organitzar, centralitzar, connectar i reutilitzar coneixement és un factor clau a l'hora de materialitzar els nostres objectius.Els avantatges del sistema descrit es demostren amb un conjunt d'aplicacions que beneficien principalment el camp de la video vigilància, com ara: generació automàtica de descripcions en diverses llengües sobre el contingut de seqüències de vídeo; filtrat i resum d'aquests texts d'acord amb els seus continguts; interfícies de diàleg amb l'usuari que li permetin fer consultes i navegar pels continguts dels vídeos; aprenentatge automàtic de les regions semàntiques presents a un escenari; i eines per a avaluar el funcionament de diferents components i models del sistema, fent servir tècniques de simulació de comportaments i realitat augmentada.


Fundación Dialnet

Mi Documat