Resumen de Categorización de textos multilingües basada en redes neuronales

María Teresa Martín Valdivia , Manuel García Vega, Luis Alfonso Ureña López

Los métodos de acceso a la información, hoy en día, deben mejorarse para superar la sobrecarga de información existente. Las tareas de clasificación de textos como la categorización de documentos puede ayudar a los usuarios a acceder a gran cantidad de información (texto) disponible en Internet y en sus organizaciones. En este trabajo presentamos un sistema de categorización multilingüe basado en corpus paralelos, concretamente la Biblia Políglota, en español e inglés. El objetivo es categorizar textos en estas lenguas usando un entrenamiento de textos multilingües. Para ello, empleamos Redes Neuronales en CT, que se comportan mucho mejor que el ampliamente utilizado algoritmo de Rocchio. El algoritmo de Widrow-Hoff y el basado en el Gradiente Exponenciado de Kivinen-Warmuth han sido usados con éxito en PLN y en particular en CT. Proponemos el uso de un método, novedoso en PLN, de aprendizaje competitivo, concretamente el algoritmo de aprendizaje por cuantificación vectorial (LVQ). Los resultados que presentamos muestran que el LVQ mejora significativamente a los otros algoritmos de aprendizaje.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: