Ir al contenido

Documat


The aid of machine learning to overcome the classification of real health discharge reports written in Spanish

  • Autores: Alicia I. Pérez de Pereyra, Arantza Casillas Rubio Árbol académico, Koldobika Gojenola Galletebeitia Árbol académico, Maite Oronoz Anchordoqui Árbol académico, Nerea Aguirre Lobo, Estibaliz Amillano
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 53, 2014, págs. 77-84
  • Idioma: inglés
  • Títulos paralelos:
    • Aportaciones de las t´ecnicas de aprendizaje autom´atico a la clasificaci´on de partes de alta hospitalarios reales en castellano
  • Enlaces
  • Resumen
    • español

      La red de hospitales que configuran el sistema español de sanidad utiliza la Clasificación Internacional de Enfermedades Modificación Clínica (ICD9-CM) para codificar partes de alta hospitalaria. Hoy en día, este trabajo lo realizan a mano los expertos. Este artículo aborda la problemática de clasificar automáticamente partes reales de alta hospitalaria escritos en español teniendo en cuenta el estándar ICD9-CM. El desafío radica en que los partes hospitalarios están escritos con lenguaje espontáneo. Hemos experimentado con varios sistemas de aprendizaje automático para solventar este problema de clasificación. El algoritmo Random Forest es el más competitivo de los probados, obtiene un F-measure de 0.876.

    • English

      Hospitals attached to the Spanish Ministry of Health are currently using the International Classification of Diseases 9 Clinical Modification (ICD9-CM) to classify health discharge records. Nowadays, this work is manually done by experts. This paper tackles the automatic classification of real Discharge Records in Spanish following the ICD9-CM standard. The challenge is that the Discharge Records are written in spontaneous language. We explore several machine learning techniques to deal with the classification problem. Random Forest resulted in the most competitive one, achieving an F-measure of 0.876.

  • Referencias bibliográficas
    • Bishop, C. M. 2006. Pattern Recognition and Machine Learning. Springer.
    • Chang, C. C. and C. J. Lin. 2001. Libsvm: a library for support vector machines.
    • Ferrao, J. C., M. D. Oliveira, F. Janela, and H.M.G. Martins. 2012. Clinical coding support based on structured data stored in electronic...
    • Hall, M., E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, and I. H. Witten. 2009. The WEKA data mining software: An update. SIGKDD Explorations,...
    • Lang, D. 2007. Natural language processing in the health care industry. Consultant report, Cincinnati Children's Hospital Medical Center.
    • Mitchell, T. 1997. Machine Learning. McGraw Hill.
    • Peng, H., C. Gates, B. Sarma, N. Li, Y. Qi, R. Potharaju, C. Nita-Rotaru, and I. Molloy. 2012. Using probabilistic generative models for ranking...
    • Pestian, J. P., C. Brew, P. Matykiewicz, D. J. Hovermale, N. Johnson, K. Bretonnel Cohen, and W. Duch. 2007. A shared task involving multi-label...
    • Platt, J. C. 1999. Fast training of support vector machines using sequential minimal optimization. MIT press.
    • Quinlan, R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA.
    • Rodríguez, J. D., A. Pérez, D. Arteta, D. Tejedor, and J. A. Lozano. 2012. Using multidimensional bayesian network classifiers to assist the...
    • Soni, J., U. Ansari, D. Sharma, and S. Soni. 2011. Predictive data mining for medical diagnosis: An overview of heart disease prediction....
    • Sriram, B., D. Fuhry, E. Demir, H. Ferhatosmanoglu, and M. Demirbas. 2010. Short text classification in twitter to improve information filtering....

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno