Ir al contenido

Documat


Blindlight: una nueva tecnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicacion a diversas tareas de tratamiento de lenguaje natural

  • Autores: Daniel Gayo Avello Árbol académico
  • Directores de la Tesis: Darío Álvarez Gutiérrez (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Oviedo ( España ) en 2005
  • Idioma: español
  • Tribunal Calificador de la Tesis: José Antonio López Brugos (presid.) Árbol académico, José Emilio Labra Gayo (secret.) Árbol académico, Julio Gonzalo Arroyo (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUO
  • Resumen
    • Es posible transformar, de manera automática, textos de cualquier idioma alfabético en vectores de n-gramas de longitud variable capaces de almacenar ciertos aspectos de la semántica subyacente al texto inicial. Estos vectores pueden transformar la información original, ser comparados e incluso operados entre sí subrayando, como resultado, gran parte de la semántica presente en el texto de partida.

      Blindlight es una nueva propuesta, desarrollada por este doctorando, relacionada con técnicas PLN estadísticas clásicas aunque introduce dos importantes diferencias: (1) no se utilizan las frecuencias relativas coo pesos de los vectores sino las significatividades de los n-gramas y (2) se descarta el coseno del ángulo entre vectores de documentos en favor de una nueva métrica inspirada por las técnicas de alineación de secuencias aunque no tan costosa computacionalmente.

      Esta nueva propuesta puede ser utilizada simultáneamente para agrupar documentos o etiquetarios, recuperar información o extraer frases clave y resúmenes a partir de un único documento. Muchas de estas tareas son herramientas fundamentales para aliviar la sobrecarga de información y mejorar la experiencia de los usuarios.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno