Ir al contenido

Documat


Resumen de Hierarchical multiresolution models for fast object detection

Marco Pedersoli

  • Dia a dia, la capacitat de detectar i reconèixer objectes en imatges automàticament es fa cada vegada més important. Des dels sistemes de seguretat i robots, als telèfons d'última generació i la realitat augmentada, tot dispositiu intel·ligent necessita conèixer el significat semàntic de la imatge. Aquesta tesi aborda el problema de la detecció ràpida d'objectes a partir de models basats en patrons. La cerca d'un objecte en imatges s'implementa evaluant la similitud entre el model i cada ubicació i escala possibles en una imatge. Aquí s'argumenta que utilitzar una representació d'objectes basada en una jerarquia de múltiples resolucions és una opció adequada que pot conduir a una excel·lent precisió i un càlcul molt ràpid. Com, per detectar a múltiples escales, la cerca de l'objecte s'efectua de forma implícita a múltiples resolucions, el fet d'utilitzar un model en múltiples resolucions permet una millor representació de l'objecte, gairebé sense cost computacional addicional. A més, un model multiresolució s'adapta de forma natural a una cerca també en múltiples resolucions en la imatge, des de baixes a altes. Això ens porta a un conjunt d'acceleracions importants, degut a que es poden limitar el conjunt d'ubicacions on fer la cerca de l'objecte a nivells baixos de resolució, el que comporta un cost més reduït en l'avaluació del model. Una cerca jeràrquica de baixes a altes resolucions es pot fer utilizant una cascada de classificadors multiresolució, que elimina facils hipòtesis neagatives utilizant la baixa resolució. %basades en la probabilitat trobada en cada lloc on es fa la detecció, Un mètode alternatiu es basa en seleccionar localment, però de manera uniforme, les ubicacions de detecció a resolució baixa y propagarles fins a la resolució més alta. Aquest enfocament alternatiu, que llamem cerca coarse-to-fine, té una acceleració i rendiments semblants a la cascada de múltiples resolucions, però en un temps de computació independent del contingut de la imatge. La cerca coarse-to-fine s'ha estès a models deformables amb partes. En aquest enfocament, la jerarquia dels models se separa de forma recursiva en les subparts deformables de l'objecte a mesura que augmentem la resolució del model. D'aquesta manera, cada part s'ajusta a l'objecte en la imatge, produint una millor representació i, per tant una millor precisió en la detecció, juntament amb un temps computacional molt reduït. S'han validat els diferents models de multiresolució en diverses bases de dades conegudes i d'ús comú, mostrant que els resultats arriben a l'estat de l'art, però amb un cost computacional molt reduït. Finalment, es presenta una especialització d'aquest model multiresolució deformable per la tasca de detecció de vianants des de vehicles en moviment, que requereix tant una alta precisió com que el rendiment sigui en temps real. S'ha demostrat que la qualitat global del model proposat és superior als treballs anteriors i que té un grau de detecció de vianants fiable i ràpid utilitzant únicament informació de la imatge.


Fundación Dialnet

Mi Documat