L'us de la informació simbòlica en l'automatització del tractament estadístic de dominis poc estructurats

Karina Gibert Oliveras

Ayuda

L'us de la informació simbòlica en l'automatització del tractament estadístic de dominis poc estructurats

Autores: Karina Gibert Oliveras
Directores de la Tesis: Claudio Ulises Cortés García (dir. tes.)
Lectura: En la Universitat Politècnica de Catalunya (UPC) ( España ) en 2005
Idioma: catalán
ISBN: 84-689-0579-8
Depósito Legal: B-6817-2005
Tribunal Calificador de la Tesis: Jaume Barceló Bugeda (presid.) , Tomàs Aluja Banet (secret.) , Claudi Alsina Català (voc.) , Ramón López de Mántaras (voc.) , Gustavo Núñez Esquer (voc.)
Enlaces
- Tesis en acceso abierto en: TDX
Resumen
- English
  Because of their intrinsic characteristics (coexistence of quantitative and qualitative variables the last ones with great number of modalities , additional expert knowledge on the domain structure), ill-structured domains are difficult problems for the actual statistical and artificial intelligence techniques. Briefly, construction of complete knowledge bases of the domain, to be used in diagnostic oriented systems, is almost unreachable due to the complexity of these kinds of domains. The clustering (based on distances, which are, in fact, syntactic criteria) has also a poor behaviour; actually, standard statistical techniques where not specifically designed for simultaneous treatment of numerical variables and great quantity of qualitative information.
  
  KLASS is a clustering tool that can use semantic information to guide the classification process. It is parameterized on the aggregation criteria and the metrics. One of its most important features is the use of both qualitative and quantitative information in the object descriptions.
  
  The main goal of this work is to overcome the limitations of Statistics and Artificial Intelligence techniques referred to this particular context. Among other results, one may highlight:
  
  A mixt classification strategy that:
  
  incorporates parcial (complete knowledge is not necessary anymore) and/or no homogeneous knowledge that the expert has on the domain. This knowledge is formalized in CP1, allowing maximum expressivity and flexibility, and it is used to built an initial induced partition on the domain this is equivalent to pack knowledge pieces in functional units, introducing semantics into the system from witch a chained reciprocal neighbours classification (of quadratic cost) is performed. This is the main contribution of the thesis and, among others, it offers the opportunity of using, in the rules, variables defined as transformations of the observed ones. In this point, the mechanism is especially powerful, providing the possibility to study the data simultaneously in different coordinate systems.
  
  manages data matrices composed of both quantitative and qualitative variables, maintaining the symbolic representation of the last ones and evoying the codification of the firsts. This suggests the definition of a class representative for qualitative variables. It constitutes a second contribution of this work, allowing an homogeneous treatement of _ quantitative and qualitative variables _ classes and individuals (as a consequence, enables the integration of the classes induced by the rules in an only final hierarchy).
  
  And an iterative working methodology that, starting with observational data and expert knowledge, integrates the previous process with some tools oriented to the interpretation of the classesin such a way that, at the end, a satisfactory classification can be obtained, according to the expert goals. This methodology solves the expert difficulties in formalizing its knowledge in a complete and precise way for ill-structured domains. Those difficulties are due to the existence of rules, acquired by experience, that the expert applies unconsciously and, initially, he was not able to formalize.
  
  Referring to the class interpretation oriented tools (nowadays, at low level of automation in Statistics) two basic contributions are made:
  
  a quick way of measuring _¿(P1,P2) the difference between two classifications is provided. This measure is oriented to comparisons and, occasionally, to an evaluation of a classification quality. The coefficient is calculated using the product partition contingency table and a class characterization system to detect identifier variables for some classes (based on a progressive conditioning process). This technique is also founded on the class representative defined before. It gives some explicative capacity to the classifier and it also constitutes a starting point for an automatic rules generation process. The rules generated by this process could be introduced in the knowledge base of a diagnostic oriented system for a domain of greater complexity than those that are manageable at present. This supposes a contribution on the Statistics and Artificial Intelligence approach.
- català
  Per les seves característiques intrínseques (coexistència de variables quantitatives i qualitatives amb gran nombre de modalitats , coneixement addicional sobre lestructura del domini per part dun expert), els dominis poc estructurats constitueixen problemes difícils de tractar amb les tècniques actuals en Estadística i Intelligència Artificial. A grans trets, lestructura complexa daquests dominis fa que la construcció duna base de coneixement complet sobre el domini, per a un sistema de diagnòstic, esdevingui pràcticament inabordable i que el clustering (basat en distàncies, que se situen en un pla sintàctic) tingui un comportament pobre; daltra banda, la gestió simultània de variables numèriques i quantitats ingents dinformació qualitativa no respon exactament a les situacions per a les que les tècniques de clustering pures han estat pensades.
  
  KLASS és una eina de classificació parametritzable (quant als criteris dagregació i les mètriques) capaç demprar informació semàntica per a dirigir el procés de classificació. Una de les seves característiques més destacables és lús conjunt dinformació qualitativa i quantitativa en la descripció dels objectes.
  
  Lobjectiu principal daquest treball ha estat superar les limitacions de les tècniques de lEstadística i de la Intelligència Artificial en la classificació de dominis poc estructurats.
  
  Entre daltres resultats cal destacar una estratègia mixta de classificació que:
  
  incorpora al procés de classificació coneixement parcial (ja no serà necessari que sigui complet) i/o no homogeni que tingui lexpert sobre el domini. Aquest coneixement es formalitza en CP1 (càlcul de predicats de primer ordre), permetent màxima potència expressiva i flexibilitat, i sutilitza per construir una partició inicial sobre el domini induïda per les regles que equival a empaquetar trossos de coneixement en unitats funcionals, introduint informació semàntica al sistema a partir de la qual procedir amb una classificació per veïns recíprocs encadenats (de complexitat quadràtica). Aquesta seria la contribució principal de la present tesi i, entre altres coses, ofereix loportunitat de fer intervenir, en les regles, variables derivades de les observades. En aquest punt, el mecanisme és especialment potent i dona la possibilitat destudiar les dades simultàniament en diferents sistemes de coordenades.
  
  permet treballar simultàniament amb variables qualitatives i quantitatives, tot mantenint la representació simbòlica daquestes darreres i evitant la categorització de les primeres. Això ha suscitat la definició dun representat de classe per a les variables qualitatives, que constitueix una segona aportació daquest treball, i permet un tractament homogeni de:
  
  - variables quantitatives i qualitatives - classes i individus ( en conseqüència, fa possible la integració de les classes induïdes per les regles en una única jerarquia final).
  
  Treballar amb aquest tipus de matrius requereix detenir-se en la definició duna funció que avaluació la distància entre individus. Sha definit la família de distàncies mixtes d2 (_r,_r)(i, i0), estudiant-ne algunes propietats teòriques i aportant una proposta pels valors dels paràmetres (_r, _r). No es té notícia que una formulació daquest estil hagi estat abans utilitzada.
  
  I una metodologia de treball iterativa que, partint de les dades observacionals i el coneixement de lexpert, integra el proc¿es anterior amb eines dajuda a la interpretació de les classes, de tal forma que sobtingui finalment una classificació satisfactòria, dacord amb els objectius de lexpert.
  
  Aquesta metodologia resol la dificultat que per ell suposa formalitzar el seu coneixement de forma completa i precisa en dominis poc estructurats, ocasionada per lexistència de regles que aplica inconscientment i que, havent adquirit amb lexperiència, inicialment no és capaç de formalitzar.
  
  En el camp dajudes a la interpretació de les classes (actualment poc automatitzada en Estadística) es fan bàsicament dues contribucions saporta una forma ràpida de mesurar _¿(P1,P2) la diferència entre dues classificacions, orientada a fer comparacions i, eventualment, avaluar la qualitat duna classificació.
  
  El càlcul daquest coeficient es basa en la construcció de la taula de contingència de la partició producte i un sistema de caracterització de la classificació que detecta les variables identificadores dalgunes classes (basant-se en un proc¿es de condicionament progressiu). Aquesta tècnica descansa també sobre el concepte de representant de classe definit anteriorment i, a més de dotar al classificador de certa capacitat explicativa, dóna lloc a un procediment de generació automàtica de regles, que podran formar part de la base de coneixement dun sistema de diagnòstic basat en el coneixement per dominis més complexos que els tractables actualment, la qual cosa suposa una contribució a lapertura dun canal dapropament de lEstadística i la Intelligència Artificial.
  
  ----------------------------------------------------------------------------------------------------------------------------- RESUMEN Por sus características intrínsecas (coexistencia de variables cuantitativas y cualitativas de gran número de modalidades , conocimiento adicional del experto acerca de la estructura del dominio), los dominios poco estructurados constituyen problemas difíciles de tratar con las técnicas actuales en Estadística e Inteligencia Artificial. A grandes rasgos, la estructura compleja de estos dominios hace que la construcción de una base de conocimiento completo sobre ellos, para un sistema de diagnostico, se vuelva prácticamente inabordable y que el clustering (basado en distancias, que se sitúan en el plano sintáctico) tenga un comportamiento pobre; por otro lado, la gestión simultánea de variables numéricas y cantidades ingentes de información cualitativa no responde exactamente a las situaciones para las que las técnicas de clustering puras fueron pensadas.
  
  KLASS es una herramienta de clasificación parametrizable (en cuanto a los criterios de agregación y las métricas) capaz de emplear información semántica para dirigir el proceso de clasificación. Una de sus características más destacables es el uso conjunto de información cuantitativa y cualitativa en la descripción de los objetos.
  
  El objetivo principal de este trabajo ha sido superar las limitaciones de las técnicas de la Estadística y de la Inteligencia Artificial para la clasificación de dominios poco estructurados.
  
  Entre otros resultados, cabe destacar:
  
  Una estrategia mixta de clasificación que:
  
  incorpora al proceso de clasificación conocimiento parcial (ya no será necesario que sea completo) y/o no homogéneo que tenga el experto sobre el dominio.
  
  Este conocimiento se formaliza en CP1, permitiendo máxima potencia expresiva y flexibilidad, y se utiliza para construir una partición inicial inducida por las reglasequivalente a empaquetar trozos de conocimiento en unidades funcionales y que supone introducir información semántica al sistema a partir de la cual proceder a una clasificación por vecinos recíprocos encadenados (de complejidad cuadrática). Esta seria la contribución principal de la presente tesis y, entre otras cosas, ofrece la oportunidad de hacer intervenir, en las reglas, variables derivadas de las observadas. En este punto, el mecanismo es especialmente potente y da la posibilidad de estudiar los datos bajo distintos sistemas de coordenadas simultáneamente.
  
  permite trabajar conjuntamente con variables cualitativas y cuantitativas, manteniendo la representación simbólica de estas últimas y evitando la categorización de las primeras. Ello ha suscitado la definición de un representante de clase para las variables cualitativas, que constituye una segunda aportación de este trabajo y permite un tratamiento homogéneo de:
  
  - variables cualitativas y cuantitativas.
  
  - clases e individuos (en consecuencia, hace posible la integración de las clases inducidas por las reglas en una jerarquía final).
  
  Trabajar con este tipo de matrices requiere detener-se en la definición de una función que evalué la distancia entre individuos. Se ha definido la familia de distancias mixtas d2(_r,_r)(i, i0), estudiando algunas de sus propiedades teóricas y aportando una propuesta para los valores de los parámetros (_r, _r). No se tiene noticia de que una formulación de este estilo se haya utilizado con anterioridad.
  
  Y una metodología de trabajo iterativa que, partiendo de datos observacionales y del conocimiento del experto, integra el proceso anterior con herramientas de ayuda a la interpretación de las clases, de tal forma que se obtenga finalmente una clasificación satisfactoria, de acuerdo a los objetivos del experto. Esta metodología resuelve la dificultad que para él supone formalizar su conocimiento de forma completa y precisa en dominios poco estructurados, debida a la existencia de reglas que aplica inconscientemente y que, habiendo adquirido con la experiencia, inicialmente no fue capaz de formalizar.
  
  En el campo de ayudas a la interpretación de las clases (actualmente poco automatizada en Estadística) se hacen básicamente dos contribuciones se aporta una forma rápida de medir _¿(P1,P2) la diferencia entre dos clasificaciones, orientada a hacer comparaciones y, eventualmente, evaluar la calidad de una clasificación. El calculo de este coeficiente se basa en la construcción de la tabla de contingencia de la partición producto y un sistema de caracterización de la clasificación que detecta las variables identificadoras de algunas clases (basándose en un proceso de condicionamiento progresivo). Esta técnica descansa también sobre el concepto de representante de clase definido anteriormente y, además de dotar al clasificador de cierta capacidad explicativa, da lugar a un procedimiento de generación automática de reglas, que podrán formar parte de la base de conocimiento de un sistema de diagnostico basado en el conocimiento para dominios más complejos que los manejables actualmente, lo cual supone una contribución a la apertura de un canal de acercamiento entre Estadística e Inteligencia Artificial.
  
  --------------------------------------------------------------------------------------------------------------------------------