Ir al contenido

Documat


Un método de análisis de lenguaje tipo SMS para el castellano

  • Gomez Hidalgo, Jose Maria ; Caurcel Díaz, Andrés Alfonso [1] ; Iñiguez del Rio, Yovan [1]
    1. [1] Universidad Politécnica de Madrid

      Universidad Politécnica de Madrid

      Madrid, España

  • Localización: Linguamática, ISSN 1647-0818, Vol. 5, Nº. 1, 2013, págs. 31-39
  • Idioma: español
  • Títulos paralelos:
    • A SMS-like language analyzer for Spanish
  • Enlaces
  • Resumen
    • español

      Debido a las características propias del lenguaje tipo SMS utilizado en las comunicaciones por medio de Internet y de los teléfonos móviles, no se puede realizar una tokenización o separación de palabras estándar a la hora de dividir en palabras una oración o frase. La cantidad de elementos no alfanuméricos que se pueden insertar en una palabra, los errores tipográficos y el hecho de no utilizar espacios entre palabras son las principales causas de este problema. En este artículo presentamos un nuevo sistema de separación de palabras para el análisis del lenguaje natural en español en redes sociales y otras comunicaciones electrónicas. El sistema está integrado en una herramientas para la detección de edad en redes sociales enmarcada en el proyecto de investigación y desarrollo WENDY, y se evalúa cuantitativamente tanto de manera directa, como indirectamente en el marco de dicha aplicación, con resultados positivos en ambos casos.

    • English

      The usage of specific language codes and chat and SMS-like messages is a major trend in electronic communications. This fact makes Natrual Language Processing quite hard, even at the simplest step fo text message tokenization, due to the widespread usage of non-alphanumeric symbols, frequent typos and non-standard word separators. In this work we present a new approach for text message tokenization, specific for the Spanish language as used in Social Networks and in electronic communications. Our system has been integrated in a more general application for age-detection in Social Networks developed in the research and development project WENDY, and it has been quantitatively evaluated both in a direct fashion, and indirectly by its impact on the genearl age-detection application, showing very promising results.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno