Ir al contenido

Documat


Resumen de Linear Combination of Multiresolution Descriptors: Application to Graphics Recognition

Oriol Ramos Terrades Árbol académico

  • En el camp de l'Anàlisi de Documents voldríem ser capaços de processar automàticament qualsevol tipus de document digital i d'extreure la informació rellevant. és a dir, voldríem conËixer la configuració del document, identificar cadascuna de les seves parts i reconËixer els seus continguts; per a poder fer cerques entre les components del document, però també, per fer cerques entre documents diferents. Aquest és un problema difícil que ha motivat diferents línies de recerca a diferents nivells. S'ha desenvolupat tot una sèrie de tècniques destinades a pre-processar la imatge per augmentar la seva qualitat, reduint el soroll dels sistemes d'adquisició i minimitzant els efectes de la degradació dels documents. També trobem molts treballs en la segmentació destinats a separar les àrees d'interès de la resta del document. Finalment, des de finals dels anys 60 fins a l'actualitat s'han proposat molts tipus descriptors que pretenen representar i identificar aquestes àrees d'interès.

    En aquesta tesis ens hem centrat en el darrer d'aquests problemes, la descripció de formes però també en la fusió de classificadors per a aplicar-los a una de les apliacions de l'Anàlisi de Documents, el reconeixement de símbols gràfics. En el reconeixement de formes, moltes aplicacions han de fer front al problema de descriure un conjunt gran i complex de formes per a reconèixer-les, o per a recuperar-les de gran bases de dades. En alguns casos, a més del gran nombre de formes, podem trobar altres dificultats com són la semblança entre formes o la variabilitat de classes de símbols. En aquest casos, un punt clau en el procés de reconeixement de formes és la definició de descriptors de gran capacitat de discriminació. Malauradament, un sol tipus de descriptors no sol ser suficient per aconseguir resultats satisfactoris i per tant, hem de combinar la informació provinent de diferents fonts per a millorar el comportament global del sistema de reconeixement. Aquesta combinació de la informació la hem realitzat a travÈs de la fusió de classificadors.

    En relació a la descripció de formes, tradicionalment els símbols gràfics s'han representat mitjançant descriptors estructurals, construïts a partir d'una representació vectorial. Els mètodes de vectorització són sensibles al soroll i a les distorsions dels símbols esboçats. Podem intentar evitar aquest problema definint gramàtiques o construint models deformables dels símbols. Una altra possibilitat, la que hem seguit en aquest treball, és fer servir descriptors que no necessiten d'una representació vectorial. En el context de la descripció de formes hem proposat un descriptor basat en la transformada de crestetes en anglès ridgelets que, gràcies a que hem unificat la terminologia i hem introduït un vocabulari per explicar i classificar els descriptors, podem definir com: multiresolució, polar, 2D, que conserva la informació i invariant a les similituds. D'altre banda, la propietat de multiresolució de la transformada de crestetes fa que obtinguem una representació en diferents nivells de resolució que ens permet dividir-la en grups de coeficients de crestetes que es poden considerar com a descriptors. D'aquesta manera, hem entrenat un classificador per a cada descriptor, i hem proposat unes regles de combinació lineals, IN i DN, que minimitzen l'error de classificació per aquells classificadors que compleixin un conjunt de restriccions, relatives a la distribució i dependËncia dels classificadors.

    Aquests enfocs teòrics han estat avaluats a partir d'un conjunt d'experiments que ens han donat els següents resultats: Els descriptors de crestetes descriuen millor els símbols que altres descriptors més genèrics. Els mètodes IN i DN redueixen l'error de classificació en relació a d'altres mètodes de referència. Per últim, el mètode IN aplicat als descriptors de crestetes, en combinació amb classificadors de tipus boosting aconsegueix uns encerts de reconeixement propers als 100% en les proves definides per a la base de dades de símbols gràfics del GREC'03.

    _______________________________________________________________ In the field of Document Analysis we would like to be able to automatically process any kind of digital document. We mean extracting the document layout and identifying each of its parts, recognising its contents and organising them in order to make searches of its components, through the document itself, but also through different documents. This is a challenger problem that has motivated different lines of research in the field of Document Analysis at different levels: Pre-processing techniques have been developed to upgrade the quality of the document image, reducing noise from the input devices and minimizing the effects of the degradation of documents. A deep study in segmentation has been carried out in order to separate the regions of interest from the document background. Finally, many descriptors have been proposed for representing and identifying these regions of interest since the end of 60s until now.

    In this thesis, we have focused on, this last problem, the shape description description and also on classifier fusion, to apply them to one of the application fields in the Document Analysis: the graphics recognition. In shape recognition, many applications have to face the problem of describing a large number of complex shapes for recognition or retrieval in large databases. Besides the large number of shapes, we can find other challenges for shape description, such as the similarity among some of the shapes or the variability of the shape classes. In these cases, one of the key issues is the design of highly discriminant shape descriptors. Unfortunately, one kind of descriptor is not usually enough to achieve satisfactory results and hence, we have to combine the information from different sources to improve the global performance of the recognition system. We have carried out this combination of information using classifier fusion.

    Concerning shape description, traditionally graphics have been represented using structural descriptors, which are based on a vectorial representation of the shape. Vectorization is quite sensitive to noise and to distortions of sketched symbols. We can try to overcome this problem using grammar descriptors or deformable models of shapes. Another possibility, which is the followed in this dissertation, is to propose descriptors that do not need a vectorial representation of the symbol. Thereby, in the context of shape description, we have proposed a descriptor based on the ridgelets transform which, thanks to we have unified the terminology used in shape description and the introduced vocabulary, we can define as: 2D, polar and multi-resolution descriptor information preserving and invariant to similarities. On the other hand, although ridgelets descriptor can be considered as a single descriptor, it offers a shape representation divided into groups of coefficients, which permit us to consider them as single descriptors. Thus, for each descriptor, we have trained a classifier and we have proposed two linear combination rules, IN and DN, that minimize the classification error of classifiers verifying a set of constraints concerning the dependence and the distribtuion of classifers.

    These theoretical approaches have been evaluated through an experimental evaluation in ridgelets descriptors, classifier fusion and applying the classifier fusion methods to ridge lets descriptors, obtaining the following results: Ridgelets descriptors have proven to represent graphics symbols better than general purpose descriptors. IN and DN methods reduce the misclassification rates regarding other reference fusion methods. Finally, the IN method applied to ridgelets descriptor, in combination of boosting algorithms, has reached recognition rates near to 100% in the test defined for the GREC'03 database.


Fundación Dialnet

Mi Documat