Ir al contenido

Documat


unimelb: Spanish Text Normalisation

  • Bo Han [1] ; Paul Cook [1] ; Timothy Baldwin [1]
    1. [1] University of Melbourne

      University of Melbourne

      Australia

  • Localización: XXIX Congreso de la Sociedad Española de Procesamiento de Lenguaje Natural: SEPLN 2013 / coord. por Alberto Díaz Esteban Árbol académico, Iñaki Alegría Loinaz Árbol académico, Julio Villena Román, 2013, ISBN 978-84-695-8349-4, págs. 67-71
  • Idioma: inglés
  • Títulos paralelos:
    • unimelb: Normalización de texto en español
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • español

      El presente artículo describe una aproximación a la normalización de texto basada en léxico para tweets en español. En primer lugar se realiza una comparación entre la normalización de texto en español e inglés y se plantea la hipótesis de que se puede adaptar un enfoque similar ya planteado previamente para el inglés. Para ello, se construye un léxico de normalización a partir de un corpus, utilizando similaridad distribucional, y se combina con otros léxicos existentes (por ejemplo diccionarios de jerga de Internet en español). Estos léxicos permiten una solución rápida basada en búsquedas. Los resultados experimentales indican que el léxico derivado del corpus complementa bien a los léxicos existentes, pero que la solución puede mejorarse con un mejor manejo de ciertos tipos de palabras, como las entidades con nombre.

    • English

      This paper describes a lexicon-based text normalisation approach for Spanish tweets. We first compare English and Spanish text normalisation, and hypothesise that an approach previously proposed for English can be adapted to Spanish. A corpus-derived normalisation lexicon is built using distributional sim- ilarity, and is combined with existing lexicons (e.g., containing Spanish Internet slang). These lexicons enable a very fast, look-up based approach to text normalisation. Experimental results indicate that the corpus-derived lexicon complements existing lexicons, but that the approach could be improved through better handling of certain word types, such as named entities.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno