Ir al contenido

Documat


Categorización de textos multilingües basada en redes neuronales

  • Autores: María Teresa Martín Valdivia Árbol académico, Manuel García Vega, Luis Alfonso Ureña López Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 27, 2001 (Ejemplar dedicado a: XVII Congreso de la SEPLN: Sociedad Española para el Procesamiento del Lenguaje Natural: Universidad de Jaén, 12-14 septiembre 2001), págs. 265-272
  • Idioma: español
  • Enlaces
  • Resumen
    • Los métodos de acceso a la información, hoy en día, deben mejorarse para superar la sobrecarga de información existente. Las tareas de clasificación de textos como la categorización de documentos puede ayudar a los usuarios a acceder a gran cantidad de información (texto) disponible en Internet y en sus organizaciones. En este trabajo presentamos un sistema de categorización multilingüe basado en corpus paralelos, concretamente la Biblia Políglota, en español e inglés. El objetivo es categorizar textos en estas lenguas usando un entrenamiento de textos multilingües. Para ello, empleamos Redes Neuronales en CT, que se comportan mucho mejor que el ampliamente utilizado algoritmo de Rocchio. El algoritmo de Widrow-Hoff y el basado en el Gradiente Exponenciado de Kivinen-Warmuth han sido usados con éxito en PLN y en particular en CT. Proponemos el uso de un método, novedoso en PLN, de aprendizaje competitivo, concretamente el algoritmo de aprendizaje por cuantificación vectorial (LVQ). Los resultados que presentamos muestran que el LVQ mejora significativamente a los otros algoritmos de aprendizaje.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno