Detección de idioma de sitios web mediante redes neuronales

Piedad Garrido Picazo ^[1] ; Francisco José Martínez Domínguez ^[1] ; Francisco J. Vela ^[1] ; saz ^[1] ; Inmaculada Plaza García ^[1]
1. [1] Universidad de Zaragoza
  
  Universidad de Zaragoza
  
  Zaragoza, España
Localización: XV Congreso Español sobre Tecnologías y Lógica Fuzzy ESTYLF 2010: Huelva [Recurso electrónico] / coord. por Antonio Peregrín Rubio , 2010, ISBN 978-84-92944-02-6, págs. 61-66
Idioma: español
Texto completo no disponible (Saber más ...)
Resumen
- La detección del idioma de undocumento puede tener especial importancia, sobretodo en entornos donde se trabaja con grandes volúmenes de documentos escritos en diferentes idiomas y que se desean clasificar.
  
  Normalmente esta detección se realizaba o de forma manual, o usando métodos estadísticos con computadores. En este artículo se presenta un proyecto que hemos realizado que permite identificar de forma automática el idioma de las páginas web, usando una nueva metodología basada en redes neuronales. Ha sido necesario desarrollar tres aplicaciones: (i) la primera ayuda a la creación, entrenamiento, proyección y visualización de redes neuronales, (ii) la segunda recoge y ajusta los datos, y (iii) la tercera sirve para comprobar si la red neuronal está bien entrenada, hasta alcanzar una tasa de fallos que pueda ser asumida. Los resultados demuestran que el uso de esta metodología da muy buenos resultados con páginas web de diferentes idiomas.