Miquel Miró Nicolau
El objetivo de esta tesis es el análisis y desarrollo de técnicas que permitan el uso de Inteligencia Artificial Explicable (XAI) de una manera segura en el ámbito médico. En particular, proponemos el desarrollo de un conjunto de nuevas técnicas para la evaluación de estos métodos con el objetivo de asegurar su corrección y aumentar la confianza con las explicaciones. El uso de técnicas de Inteligencia Artificial (IA) se encuentra cada vez más extendido en campos de estudio muy diferentes, provocado por el advenimiento del aprendizaje profundo. Estos modelos se caracterizan por una elevada complejidad interna que, a su vez, hace cada vez más difícil conocer la causa de sus predicciones, llamándolos por esto cajas negras (black box). La XAI aparece con el objetivo básico de abrir esta caja negra, manteniendo sus buenos resultados. La necesidad de disponer de las explicaciones para sistemas con alta incidencia sobre las personas, como los empleados en salud, es ética y legalmente innegable. La importancia de la XAI en el ámbito médico se puede ver también de forma empírica, con la gran cantidad de autores que la utilizan. Con el objetivo de detectar los puntos fuertes y débiles de este campo hacemos un estudio de la literatura. En particular, limitamos este estudio a trabajos que emplean técnicas de XAI para el análisis de radiografías mediante una revisión sistemática de la literatura (SLR). La principal ventaja de esta metodología es la capacidad de evitar sesgos y permitir un análisis más preciso del estado del arte. De este análisis concluimos que la mayoría de los sistemas XAI no han sido verificados de forma objetiva, limitando su uso y reduciendo su efectividad. Esta falta de evaluación es causada por la complejidad añadida de no disponer de una Ground Truth (GT) para las explicaciones, ya que múltiples explicaciones pueden ser correctas, pero solo una es la usada por el modelo. Proponemos una nueva metodología que, a través de la definición de un conjunto de restricciones, permite el uso de GT para explicaciones. La disponibilidad de esta GT nos permite llevar a cabo una comparación objetiva de 13 métodos diferentes de XAI. De esta comparación podemos concluir que los métodos basados en la oclusión de los datos de entrada no muestran una explicación correcta. Además, se intuye la predominancia de los métodos basados en la propagación inversa. No obstante, el hecho de que nuestra propuesta se base en un entorno controlado no nos permite determinar qué método se debe emplear en un escenario real. La necesidad de determinar qué método utilizar en un escenario real nos lleva a utilizar métricas de fidelidad post-hoc. Estas métricas intentan aproximar la calidad de los métodos de XAI a un entorno real sin disponer de GT. Sin embargo, tampoco han sido objetivamente verificadas. Por lo tanto, proponemos el primer método que permite la verificación de estas, basado en el uso de un modelo transparente, el árbol de decisión, con el que podemos saber con exactitud el valor de todas las métricas y si funcionan correctamente a priori. La experimentación realizada muestra que no existe ninguna métrica fiable en el estado del arte. Consideramos que el uso de nuestro método como un benchmark permite, ahora sí, el desarrollo futuro de métricas correctas. Como conclusión, y con el intento de superar las limitaciones vistas, proponemos un nuevo entorno de trabajo estandarizado para la evaluación de los sistemas XAI para la salud. Nuestro entorno de trabajo mide la calidad de la explicación desde tres puntos de vista diferentes: algorítmico, humano y social. Además, dentro de este marco, proponemos una medida objetiva de la confianza del usuario con el sistema. Finalmente, aplicamos tanto el entorno de trabajo propuesto como la medida de confianza a un caso de estudio real con profesionales médicos. Los resultados preliminares obtenidos muestran la validez de nuestra propuesta.
L'objectiu d'aquesta tesi és l'anàlisi i desenvolupament de tècniques que permetin l'ús d'Intel·ligència Artificial Explicable (XAI) d'una manera segura, especialment a l'àmbit mèdic. Particularment, proposam el desenvolupament d'un conjunt de noves tècniques per a l’avaluació d’aquests mètodes amb l’objectiu d’assegurar la seva correcció i augmentar la confiança amb les explicacions. L'ús de tècniques d'Intel·ligència Artificial (IA) es troba cada vegada més estès arreu de camps d'estudi molt diferents, provocat per l'adveniment de l'aprenentatge profund. Aquests models es caracteritzen per una elevada complexitat interna que, alhora, fa cada vegada més difícil conèixer la causa de les seves prediccions, anomenant-los capces negres (black box). La XAI amb l'objectiu bàsic d'obrir aquesta capça negra mantenint els seus bons resultats. La necessitat de disposar de les explicacions per sistemes amb alta incidència damunt les persones, com els emprats en salut, és ètica i legalment innegable. La importància de la XAI en l'àmbit mèdic es pot veure també d'una forma empírica, amb la gran quantitat d'autors que en fan ús. Amb l'objectiu de detectar els punts forts i febles d'aquest camp feim un estudi de la literatura. En particular, limitem aquest estudi a treballs que empren tècniques de XAI per a l'anàlisi de radiografies mitjançant una revisió sistemàtica de la literatura (SLR). El principal avantatge d'aquesta metodologia és la capacitat d'evitar biaixos i permetre una anàlisi més acurada de l'estat de l'art. D'aquesta anàlisi concloem que la majoria dels sistemes XAI no han estat verificats de forma objectiva, limitant el seu ús i reduint-ne l'efectivitat. Aquesta manca d'avaluació és causada per la complexitat afegida de no disposar d'una Ground Truth (GT) per a les explicacions, ja que múltiples poden ser correctes, però només una és emprada pel model. Proposam una nova metodologia que, mitjançant la definició de tot un conjunt de restriccions, permet disposar de GT per a les explicacions. La disponibilitat d'aquesta GT ens permet dur a terme una comparació objectiva de 13 mètodes de XAI diferents. D'aquesta comparativa podem concloure que els mètodes basats en l'oclusió de les dades d'entrada no mostren una explicació correcta. A més, s'intueix la predominança dels mètodes basats en la propagació inversa. Nogensmenys, el fet que la nostra proposta es basi en un entorn controlat, no ens permet determinar quin mètode s'hauria d'emprar en un escenari real. Aquesta necessitat de determinar quin mètode utilitzar en un escenari real ens duu a emprar mètriques de fidelitat post-hoc. Aquestes mètriques intenten aproximar la qualitat dels mètodes de XAI a un entorn real sense disposar de GT. Tanmateix, però, tampoc no han estat objectivament verificades. Per tant, proposam el primer mètode que permet la verificació d'aquestes, basat en l'ús d'un model transparent, l'arbre de decisió, amb el qual podem saber amb exactitud el valor de totes les mètriques i si funcionen correctament a priori. L'experimentació realitzada mostra que no existeix cap mètrica fiable a l'estat de l'art. Consideram que l'ús del nostre mètode com un benchmark permet, ara sí, el desenvolupament futur de mètriques correctes. Com a conclusió, i amb l'intent de superar les limitacions vistes, proposam un nou entorn de treball estandarditzat per a l'avaluació dels sistemes XAI per a la salut. El nostre entorn de treball mesura la qualitat de l'explicació des de tres punts de vista diferents: algorítmic, humà i social. A més i dins aquest marc, fem una proposta d'una mesura objectiva de la confiança de l'usuari amb el sistema. Finalment, aplicam tant l'entorn de treball proposat com la mesura de confiança a un cas d'estudi real amb professionals mèdics. Els resultats preliminars obtinguts mostren la validesa d'ambdues propostes.
The objective of this thesis is the analysis and development of techniques that allow the use of Explainable Artificial Intelligence (XAI) safely in the medical field. In particular, we propose the development of a set of new techniques for the evaluation of these methods with the aim of ensuring their correctness and increasing confidence with explanations. The use of Artificial Intelligence (AI) techniques is increasingly widespread across very different fields of study, driven by the advent of deep learning. These models are characterized by high internal complexity that, at the same time, makes it increasingly difficult to know the cause of their predictions, calling them black boxes. XAI appears with the basic objective of opening this black box, maintaining its good results. The need to have explanations for systems with high incidence on people, such as those used in health, is ethically and legally undeniable. The importance of XAI in the medical field can also be seen empirically, with the large number of authors who use it. With the aim of detecting the strengths and weaknesses of this field, we conduct a literature review. In particular, we limit this study to works that use XAI techniques for the analysis of radiographs through a systematic literature review (SLR). The main advantage of this methodology is the ability to avoid biases and allow a more accurate analysis of the state of the art. From this analysis, we conclude that most XAI systems have not been objectively verified, limiting their use and reducing their effectiveness. This lack of evaluation is caused by the added complexity of not having a Ground Truth (GT) for the explanations, since multiple explanations can be correct, but only one is used by the model. We propose a new methodology that, through the definition of a set of constraints, make available a GT for explanations. The availability of this GT allows us to carry out an objective comparison of 13 different XAI methods. From this comparison, we can conclude that methods based on input data occlusion do not show a correct explanation. In addition, the predominance of methods based on inverse propagation is intuited. However, the fact that our proposal is based on a controlled environment does not allow us to determine which method should be used in a real scenario. The need to determine which method to use in a real scenario leads us to use post-hoc fidelity metrics. These metrics attempt to approximate the quality of XAI methods to a real environment without having GT. However, they have not been objectively verified either. Therefore, we propose the first method that allows the verification of these metrics, based on the use of a transparent model, the decision tree, with which we can know exactly the value of all metrics and if they work correctly a priori. The experimentation carried out shows that there is no reliable metric in the state of the art. We believe that the use of our method as a benchmark allows the future development of correct metrics. In conclusion, and with the intention of overcoming the limitations seen, we propose a new standardized working environment for the evaluation of XAI systems for health. Our working environment measures the quality of the explanation from three different points of view: algorithmic, human, and social. In addition, within this framework, we propose an objective measure of user trust in the system. Finally, we apply both the proposed working environment and the trust measure to a real case study with medical professionals. The preliminary results obtained show the validity of our proposal.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados