Ir al contenido

Documat


Resumen de Detección de idioma de sitios web mediante redes neuronales

Piedad Garrido Picazo Árbol académico, Francisco José Martínez Domínguez Árbol académico, Francisco J. Vela, Jesús Tramullas Saz Árbol académico, Inmaculada Plaza García Árbol académico

  • La detección del idioma de undocumento puede tener especial importancia, sobretodo en entornos donde se trabaja con grandes volúmenes de documentos escritos en diferentes idiomas y que se desean clasificar.

    Normalmente esta detección se realizaba o de forma manual, o usando métodos estadísticos con computadores. En este artículo se presenta un proyecto que hemos realizado que permite identificar de forma automática el idioma de las páginas web, usando una nueva metodología basada en redes neuronales. Ha sido necesario desarrollar tres aplicaciones: (i) la primera ayuda a la creación, entrenamiento, proyección y visualización de redes neuronales, (ii) la segunda recoge y ajusta los datos, y (iii) la tercera sirve para comprobar si la red neuronal está bien entrenada, hasta alcanzar una tasa de fallos que pueda ser asumida. Los resultados demuestran que el uso de esta metodología da muy buenos resultados con páginas web de diferentes idiomas.


Fundación Dialnet

Mi Documat