Ir al contenido

Documat


Resumen de Looking at Faces: Detection, Tracking and Pose Estimation

Murad Al Haj

  • Els éssers humans podem percebre molt fàcilment les cares, les podem seguir en l’espai i temps, així com descodificar el seu contingut, com la seva postura, identitat o expressió. No obstant això, tot i moltes dècades d’investigació per desenvolupar un sistema amb percepció automàtica de cares, segueix sent difícil d’aconseguir una solució completa en àrees com la detecció de cares, el reconeixement de l’expressió facial, la estimació de la posició o el reconeixement de la cara. Això és degut a que la percepció facial automàtica abasta moltes àrees importants i difícils de la visió per computador: les aplicacions finals abasten una gamma molt àmplia com la vídeo vigilància, interacció humà-ordinador, la indexació i recuperació del contingut d’imatges, la identificació biomètrica , la codificació de vídeo i el reconeixement de l’edat i / o sexe. En particular, aquesta tesi està dedicada a tres grans problemes en la percepció automàtica de cares: la detecció de rostres, el seguiment de cares i l’estimació de la posició facial. En el camp de la detecció de rostres, es presenta un model que utilitza múltiples heurístiques senzilles ad-hoc basades en píxels per detectar les regions de la imatge corresponents a pell humana. A més, s’han estudiat diferents espais de color per determinar si hi ha alguna transformació d’espai de color que pugui millorar la detecció del color de la pell. Els resultats experimentals mostren que la separabilitat no augmenta gaire en altres espais de color en comparació amb l’obtinguda en l’espai RGB. A partir del millor espai de color trobat, s’ha dissenyat un detector de cares capaç de generalitzar amb èxit en diferentes escenes. Com a segona aportació, s’ha desenvolupat un algorisme per al seguiment robust i precís de la cara, dins d’un marc unificat que combina l’estimació dels paràmetres facials amb el control d’una càmera activa, per al seguiment de cares mitjançant una càmera Pa- Tilt-Zoom. Un filtre de Kalman estès permet estimar conjuntament les coordenades món dels objectes i la posició de la càmera. La sortida s’utilitza per accionar un controlador PID per tal de realitzar un seguiment reactiu del rostre, generant les accions de control correctes no només per mantenir un zoom-in a la cara per maximitzar la mida, sinó també per poder allunyar i reduir el risc de perdre l’objectiu. Encara que aquest treball està principalment motivat per fer un seguiment de cares, es pot aplicar fàcilment com ajuda d’un detector d’objectes per rastrejar una escena amb una càmera activa. L’aplicabilitat del mètode s’ha demostrat tant en entorns simulats com a escenaris reals. S’ha dedicat l’última i més important part d’aquesta tesi a l’estimació de la posició del cap. En la majoria de treballs previs per a l’estimació de la posició del cap, s’especifiquen les cares manualment. Per tant, els resultats detallats no tenen en compte una possible desalineació de la cara, encara que tant en regressió com en classificació, els algoritmes són generalment sensibles a un error en localització: si l’objecte no està ben alineat amb el model après, la comparació entre les característiques de l’objecte en la imatge i les del model condueix a errors. En aquest últim capítol, es proposa un mètode basat en regressió per mínims quadrats parcials per estimar la posició i a més resoldre simultàniament l’alineació de la cara. Les contribucions en aquesta part són de dos tipus: 1) es mostra que el mètode proposat assoleix millors resultats que l’estat de l’art i 2) es desenvolupa una tècnica per reduir la desalineació basat en factors PLS que milloren l’aprenentatge basat en múltiples instàncies sense la necessitat de tornar a aprendre o d’haver d’incloure mostres mal alineades, ambdós pasos normalment necessaris en l’aprenentatge basat en múltiples instàncies.


Fundación Dialnet

Mi Documat