Cora Beatriz Pérez Ariza
Los Modelos Gráficos Probabilísticos son una herramienta de modelado ampliamente extendida por su versatilidad y potencia para razonar y tomar decisiones en problemas que conllevan incertidumbre. Como herramienta de modelado permiten especificar relaciones complejas entre variables, así como incorporar la propia información probabilística en el modelo. Desde un punto de vista computacional, se pueden definir y aplicar sobre ellos algoritmos eficientes para la propia creación de las estructuras, o aprendizaje, y para la toma de decisiones o resolución de consultas, lo que denominamos inferencia. La efectividad y eficiencia con la que se realicen estas operaciones es motivo de estudio por parte de la comunidad científica, buscando siempre métodos más rápidos y que representen mejor y mas compactamente las distribuciones de probabilidad asociadas a los problemas y algoritmos que devuelvan mejores soluciones y que lo hagan con un menor coste computacional.
La forma de representar la información probabilística es un tema clave a la hora de trabajar con estos modelos, ya que de la estructura de datos va a depender en gran medida la eficiencia de los algoritmos que trabajen con ella. Además, la estructura de datos utilizada debe ser lo suficientemente flexible para permitir el modelado de relaciones complejas entre variables y de la manera más compacta posible. Es común usar tablas de probabilidad para expresar esta información probabilística, pero al tener que especificar un valor de probabilidad para cada configuración de las variables involucradas, el tamaño de la representación crece exponencialmente con el número de variables. Una solución ampliamente extendida es el uso de árboles de probabilidad, estructuras en forma de árbol que se aprovechan de las independencias sensibles al contexto para compactar la representación de la información. En este contexto nació la idea que dio pie al desarrollo de este trabajo, al analizar las debilidades de esta última estructura.
Los Árboles de Probabilidad Recursivos (RPTs) generalizan a los árboles de probabilidad tradicionales, permitiendo expresar descomposiciones multiplicativas dentro de la propia estructura, lo que permite modelar relaciones más complejas de una manera más compacta. También da pie al desarrollo de algoritmos de inferencia que se aprovechen de estas factorizaciones para mejorar la eficiencia del proceso. Una cuestión fundamental al desarrollar una nueva estructura de datos es definir una metodología para poder construir la estructura a partir de una distribución de probabilidad, lo que implica buscar los patrones representables mediante Árboles de Probabilidad Recursivos dentro de la distribución. Esto implica diseñar métodos de aprendizaje que detecten independencias sensibles al contexto y posibles factorizaciones en las relaciones entre variables.
Esta tesis se ha dividido en cinco partes. La primera aporta una introducción al problema junto con una revisión bibliográfica de los conceptos básicos necesarios para enmarcar el trabajo. El cuerpo de la tesis son las tres partes siguientes, la Parte II está dedicada a definir la estructura de los Árboles de Probabilidad Recursivos, analizando su expresividad y detallando la manera de trabajar con ellos mediante el análisis de la forma en que las operaciones básicas necesarias para la inferencia se llevan a cabo mediante esta forma de representación. En el Capítulo 4 se muestran varios resultados que confirman los beneficios en términos de tiempo de computación y tamaño de almacenamiento al trabajar con RPTs, comparándolos con árboles de probabilidad tradicionales.
La Parte III está centrada en Inferencia. En esta parte se estudian los métodos de factorización clásicos de árboles de probabilidad, y se propone un nuevo método que resuelve algunos de los problemas presentes en la literatura. Los RPTs de manera natural permiten incorporar factorizaciones presentes en las distribuciones de probabilidad y trabajar con ellas de manera eficiente. De esta manera, el método de factorización propuesto se plantea como una herramienta para traducir potenciales en RPTs factorizados y así acelerar el proceso de inferencia. La Parte IV de esta tesis propone varias soluciones al problema de aprender un RPT a partir de una distribución de probabilidad, bien almacenada en otra estructura de datos o bien representada con una base de datos. Los resultados obtenidos con los métodos estudiados en los capítulos señalados avalan los beneficios de los RPTs cuando se trabaja con distribuciones de probabilidad que presentan patrones como independencias sensibles al contexto, valores proporcionales y otros tipos de factorizaciones. En el caso de que las distribuciones no puedan ser expresadas de manera exacta, se consiguen RPTs que contienen aproximaciones compactas de calidad. La última parte, Parte V, aporta una reflexión general sobre el trabajo desarrollado, enumera las publicaciones obtenidas y discute las numerosas líneas de trabajo futuro.
El objetivo general de esta tesis es ahondar en la representación eficiente de potenciales probabilísticos, concretamente ampliando el concepto de árbol de probabilidad y solucionando de manera eficiente algunas de sus debilidades más notables. Los Árboles de Probabilidad Recursivos constituyen un entorno flexible para el manejo de la información probabilística en Modelos Gráficos Probabilísticos, ya que permiten una intuitiva representación de diferentes patrones presentes en distribuciones de probabilidad, como son las independencias sensibles al contexto, las proporcionalidades y otros tipos de factorizaciones.
En la primera parte de la tesis se estudiaron a fondo las características de la estructura, dando detalles de implementación práctica así como demostrando teóricamente su fundamento computacional y matemático. Del estudio teórico y de los resultados obtenidos en la evaluación experimental realizada, se puede concluir que los Árboles de Probabilidad Recursivos son una alternativa interesante para la representación eficiente de probabilidades, presentando considerables ventajas frente a estructuras de datos como las tablas o los árboles de probabilidad tradicionales. Estas ventajas se refieren tanto a la eficiencia computacional como al tamaño de las estructuras necesarias para representar las distribuciones de probabilidad.
Una propiedad extremadamente útil que se deriva de los Árboles de Probabilidad Recursivos es la capacidad de compactar la información, almacenándola en forma de factorizaciones, ya que esto permite el diseño de algoritmos de inferencia que tomen esta representación en cuenta para ganar eficiencia computacional. En el siguiente capítulo de la tesis, se presentó un algoritmo que calcula factorizaciones óptimas de un potencial probabilístico de manera rápida y eficiente, como un primer paso para el desarrollo de algoritmos de inferencia específicos que trabajen con Árboles de Probabilidad Recursivos. También se desarrolló en dicho capítulo una medida denominada grado de factorización, que ofrece una heurística para clasificar las variables del dominio de un potencial probabilístico con respecto a la calidad de la representación que se obtendría al factorizar por ella. Esta medida en sí puede ser incorporada en algoritmos de inferencia específicos que trabajen con representaciones factorizadas como los Árboles de Probabilidad Recursivos. La evaluación experimental llevada a cabo confirma las propiedades descritas tanto del algoritmo de factorización rápida de potenciales, como del grado de factorización.
El tercer pilar en el que descansa el trabajo realizado es el proceso de aprendizaje de la estructura, que es tratado en detalle en la última parte de la tesis. Como un primer paso se desarrolló un algoritmo que transforma un potencial probabilístico -independientemente de la estructura de datos usada para representarlo- en un Árbol de Probabilidad Recursivo mediante la búsqueda de factorizaciones e independencias sensibles al contexto, usando la información mútua como medida de dependencia entre las variables del dominio. Este algoritmo obtiene muy buenos resultados, como se detalla en la parte correspondiente de la evaluación experimental, y es lo suficientemente flexible como para permitir su ampliación en el futuro. De echo, la misma metodología fue adaptada para aprender Árboles de Probabilidad Recursivos a partir de datos, esta vez utilizando una medida Bayesiana -la BDe- para calcular las relaciones entre variables. La evaluación experimental muestra resultados comparables a algoritmos del estado del arte, como el algoritmo PC o el K2, lo que demuestra su efectividad. No obstante, se abren muchas alternativas para ampliar el algoritmo desarrollado.
En una última contribución de la tesis se sigue una metodología distinta para el aprendizaje de la estructura; un algoritmo que busca en el espacio de posibles Árboles de Probabilidad Recursivos y devuelve la estructura que maximiza una medida de calidad establecida (procedimiento Score and Search). Este algoritmo, aunque ha sido evaluado empíricamente con resultados razonablemente buenos, aún plantea numerosas vías de ampliación y mejora, que quedan pendientes para un trabajo futuro.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados