Resumen de Kernels para la clasiﬁcacíon de preguntas en español y catalán

Este artículo presenta una aproximacíon a la clasiﬁcación automática de preguntas en español y catalán. El sistema de clasiﬁcación está basado en el algoritmo SVM y en el uso de diferentes funciones kernel, empleando únicamente características textuales superﬁciales que permiten la obtencíon de un sistema fácilmente adaptable a diferentes idiomas. Se ha realizado un estudio sobre el correcto a juste de parámetros de los kernels, la precisíon de los mismos, la deﬁnicíon de distintos vectores de características de aprendizaje y el rendimiento en función del idioma de trabajo. Adicionalmente, se ha experimentado con el algoritmo LIBLINEAR, aplicado aquí por vez primera a la tarea de clasiﬁcación de preguntas. Con este algoritmo, así como con los kernels deﬁnidos, se han obtenido valores de precisión por encima del 80 % para los dos idiomas tratados, superando a otros algoritmos tradicionales de clasiﬁcación. Para el entrenamiento y evaluación del sistema se ha desarrollado un corpus paralelo de 2.393 preguntas en inglés, español y catalán.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: