Desarrollo y aplicación de nuevos modelos de aprendizaje automático para el estudio del cáncer colorrectal

José Antonio Delgado Osuna

Ayuda

Desarrollo y aplicación de nuevos modelos de aprendizaje automático para el estudio del cáncer colorrectal

Autores: José Antonio Delgado Osuna
Directores de la Tesis: Carlos García-Martínez (dir. tes.) , Sebastián Ventura Soto (dir. tes.)
Lectura: En la Universidad de Córdoba (ESP) ( España ) en 2023
Idioma: español
Tribunal Calificador de la Tesis: Enrique Aranda Aguilar (presid.) , Alejandro RODRÍGUEZ GONZALEZ (secret.) , Ernestina Menasalvas (voc.)
Enlaces
- Tesis en acceso abierto en: Helvia
Resumen
- 1. Introducción o motivación de la tesis:
  
  El cáncer colorrectal (CCR) es una patología de especial relevancia debido a su elevada morbimortalidad, suponiendo el 3,6% de todas las defunciones de Andalucía. A nivel mundial, en el año 2020, fue la tercera causa de muerte por cáncer en hombres, con un 9,3% de las defunciones, por detrás del cáncer de pulmón (21,5%) y del cáncer hepático (10,5%); y en las mujeres también fue la tercera causa de muerte por cáncer con un 9,5% de las defunciones, por detrás del cáncer de mama (15,5%) y del cáncer de pulmón (13,7%) [1]. El CCR es una neoplasia a la que se dedica un importante número de recursos humanos y materiales y, por ello, es necesario manejar esta patología con la máxima calidad asistencial para reducir la tasa de complicaciones, lo que conlleva una disminución del tiempo de hospitalización y de la tasa de reingresos.
  
  En la actualidad se han realizado importantes avances en el campo de la computación relacionados con la Inteligencia Artificial, que nos brindan numerosas herramientas relacionadas con la Minería de Datos, que consiste en aplicar algoritmos específicos para extraer conocimiento útil, comprensible y no trivial a partir de los datos [2]. En el caso de CCR, muchos de los trabajos existentes en la literatura se aplican sobre bases datos compuestas de imágenes médicas, tales como imágenes de colonoscopia, TAC, imágenes de anatomía patológica o de ultrasonidos [3][4][5]. En otras ocasiones, los estudios realizados utilizan datos de expresión de genes obtenidos a partir de microarrays [6][7][8]. Respecto a aquellos trabajos que hacen uso de datos tabulares, o bien analizan el impacto de posibles acciones relacionadas con factores dietéticos o análisis médicos [9][10], o bien construyen modelos de clasificación o regresión con diferentes propósitos, como determinar el nivel de riesgo del paciente, la probabilidad de supervivencia o la estancia hospitalaria post-quirúrgica [11][12][13].
  
  En el caso de esta tesis doctoral se propone la identificación, a partir de un conjunto de datos clínicos históricos, de factores que puedan influir en la ocurrencia de complicaciones y de recidivas. Además, dado que estamos hablando de extracción de conocimiento en el ámbito sanitario, el reto es aún mayor ya que es necesario obtener modelos que sean interpretables al tiempo que precisos, para que sean bien aceptados por los profesionales sanitarios. De ahí, que la interpretabilidad sea una de las premisas de esta tesis doctoral.
  
  2.Contenido de la investigación:
  
  A partir de lo expuesto en el apartado anterior, el objetivo de esta tesis doctoral es el desarrollo de nuevos modelos de aprendizaje automático, prestando especial atención a la interpretabilidad, para identificar factores que puedan influir en la ocurrencia de complicaciones post-quirúrgicas y/o recidivas a partir de una base de datos de pacientes con cáncer colorrectal.
  
  En primer lugar, se realizó una revisión bibliográfica sobre el uso de machine learning aplicado a cáncer colorrectal, a partir del cual se obtuvo una taxonomía de los trabajos existentes en la literatura. Esta taxonomía clasifica los diferentes trabajos estudiados atendiendo a diferentes criterios como son el tipo de dataset utilizado, el tipo de algoritmo implementado, el tamaño del dataset así como su disponibilidad pública, el uso o no de algoritmos de selección de características y el uso o no de técnicas de extracción de características.
  
  En segundo lugar, se desarrolló un modelo de extracción de reglas de asociación de clases [14][15] con la intención de entender mejor por qué algunos pacientes podrían sufrir complicaciones tras una intervención quirúrgica o recidivas de su cáncer. Este trabajo dio lugar a una metodología para la obtención de descripciones interpretables y manejables (es importante que las reglas tengan un tamaño reducido para que así sean más útiles para los profesionales sanitarios).
  
  A continuación, se desarrolló un modelo de selección de características y de instancias para poder inducir mejores árboles de clasificación [16]. Estos modelo estaba basado en algoritmos evolutivos que utilizaban una codificación que les permite abordar ambos problemas, la selección de características y de instancias, de forma simultánea.
  
  Por último, se desarrolló un algoritmo de evolución gramatical [17] para inducir una gran variedad de árboles de clasificación tan precisos como los obtenidos por los conocidos métodos C4.5 y CART, que fueran base para la extracción de nuevas descripciones interesantes y manejables de los casos de interés. En este caso, se utilizó una biblioteca popular de Python para evolución gramatical y programación genética y, debido a su escasa especificidad para la aplicación a nuestro problema, se desarrollaron una serie de operadores que permiten inducir árboles más interpretables y eficaces respecto a los producidos por la biblioteca. Además, dichos operadores permitieron alcanzar niveles de precisión equiparables a los de métodos bien conocidos de inducción de este tipo de clasificadores, ganando por el contrario diversidad en los árboles producidos.
  
  3.Conclusión:
  
  Los resultados obtenidos en cada uno de los desarrollos realizados a lo largo de este trabajo de tesis doctoral han sido comparados con los resultados que proporcionan métodos existentes en la literatura y de reconocido prestigio, tanto del campo de la clasificación como del campo de la minería de reglas de asociación, demostrándose una mejor adaptación de nuestros modelos a las características que presenta el conjunto de datos de estudio, y que pueden ser de aplicación a otros casos, haciendo las adaptaciones oportunas.
  
  4. Bibliografía:
  
  [1] H. Sung, J. Ferlay, R. L. Siegel, M. Laversanne, I. Soerjomataram, A. Jemal, and F. Bray. Global cancer statistics 2020: Globocan estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians, 71(3):209–249, 2021.
  
  [2] Han, J., Kamber, M., & Pei, J. (2012). Data Mining - Concepts and techniques. Morgan Kaufmann (Third edit). Morgan Kaufmann Publishers.
  
  [3] S.-H. Bae and K.-J. Yoon, “Polyp Detection via Imbalanced Learning and Discriminative Feature Learning,” IEEE Trans- actions on Medical Imaging, vol. 34, no. 11, pp. 2379–2393, 2015.
  
  [4] J. Oliva, H. Lee, N. Spolaoˆr, C. Coy, and F. Wu, “Prototype system for feature extraction, classification and study of medical images,” Expert Systems with Applications, vol. 63, pp. 267–283, 2016.
  
  [5] K. Suzuki, “Machine learning in computer-aided diagnosis of the thorax and colon in CT: A survey,” IEICE Transactions on Information and Systems, vol. E96-D, no. 4, pp. 772–783, 2013.
  
  [6] Y. Cui, X. Cai, and Z. Jin, “Semi-supervised classification using sparse representation for cancer recurrence prediction,” in Proceedings - IEEE International Workshop on Genomic Signal Processing and Statistics, 2013, pp. 102–105.
  
  [7] M. Othman, F. Kharbat, and T. Al Amsy, “Exploring colorec- tal cancer genes through data mining techniques,” in 2018 Ad- vances in Science and Engineering Technology International Conferences, ASET 2018, 2018, pp. 1–4.
  
  [8] J. Kim, C. Bang, H. Hwang, D. Kim, C. Park, and S. Park, “IMA: Identifying disease-related genes using mesh terms and association rules,” Journal of Biomedical Informatics, vol. 76, pp. 110–123, 2017.
  
  [9] T. Li, C. Zheng, L. Zhang, Z. Zhou, and R. Li, “Exploring the risk dietary factors for the colorectal cancer,” in Proceed- ings of 2015 IEEE International Conference on Progress in Informatics and Computing, PIC 2015, 2016, pp. 570–573.
  
  [10] S. Skrøvseth, K. Augestad, and S. Ebadollahi, “Data-driven approach for assessing utility of medical tests using electronic medical records,” Journal of Biomedical Informatics, vol. 53, pp. 270–276, 2015.
  
  [11] Y. Wang, D. Wang, X. Ye, Y. Wang, Y. Yin, and Y. Jin, “A tree ensemble-based two-stage model for advanced-stage colorectal cancer survival prediction,” Information Sciences, vol. 474, pp. 106–124, 2019.
  
  [12] R. Stoean, C. Stoean, A. Sandita, D. Ciobanu, and C. Mesina, “Ensemble of classifiers for length of stay prediction in colorectal cancer,” in Advances in Computational Intelligence. Cham: Springer International Publishing, 2015, pp. 444–457.
  
  [13] J. Thongkam and V. Sukmak, “Enhancing the performance of association rule models by filtering instances in colorectal cancer patients,” Engineering and Applied Science Research, vol. 44, no. 2, pp. 76–83, 2017.
  
  [14] J.A. Delgado‐Osuna, C. García‐Martínez, S. Ventura, and J. Gómez Barbadillo. Obtai‐ ning tractable and interpretable descriptions for cases with complications from a colorectal cancer database. In 2019 IEEE 32nd International Symposium on Computer-Based Medical Systems (CBMS), pages 459–464, 2019.
  
  [15] J.A. Delgado‐Osuna, C. García‐Martínez, J. Gómez‐Barbadillo, and S. Ventura. Heu‐ ristics for interesting class association rule mining a colorectal cancer database. Information Processing and Management, 57(3), 2020.
  
  [16] J.A. Delgado‐Osuna, D. Ranchal‐Parrado, C. García‐Martínez and S. Ventura. Selección de características en una base de datos sobre el cáncer colorrectal. In XIX Conferencia de la Asociación Española para la Inteligencia Artificial (CAEPIA), pa‐ ges 753‐756, 2021.
  
  [17] J. A. Delgado‐Osuna, C. García‐Martinez and S. Ventura. Smart Operators for Indu‐ cing Colorectal Cancer Classification Trees with PonyGE2 Grammatical Evolu‐ tion Python Package. In 2022 IEEE Congress on Evolutionary Computation (CEC), pages 1‐9, 2022.