Ir al contenido

Documat


Resumen de unimelb: Spanish Text Normalisation

Bo Han, Paul Cook, Timothy Baldwin

  • español

    El presente artículo describe una aproximación a la normalización de texto basada en léxico para tweets en español. En primer lugar se realiza una comparación entre la normalización de texto en español e inglés y se plantea la hipótesis de que se puede adaptar un enfoque similar ya planteado previamente para el inglés. Para ello, se construye un léxico de normalización a partir de un corpus, utilizando similaridad distribucional, y se combina con otros léxicos existentes (por ejemplo diccionarios de jerga de Internet en español). Estos léxicos permiten una solución rápida basada en búsquedas. Los resultados experimentales indican que el léxico derivado del corpus complementa bien a los léxicos existentes, pero que la solución puede mejorarse con un mejor manejo de ciertos tipos de palabras, como las entidades con nombre.

  • English

    This paper describes a lexicon-based text normalisation approach for Spanish tweets. We first compare English and Spanish text normalisation, and hypothesise that an approach previously proposed for English can be adapted to Spanish. A corpus-derived normalisation lexicon is built using distributional sim- ilarity, and is combined with existing lexicons (e.g., containing Spanish Internet slang). These lexicons enable a very fast, look-up based approach to text normalisation. Experimental results indicate that the corpus-derived lexicon complements existing lexicons, but that the approach could be improved through better handling of certain word types, such as named entities.


Fundación Dialnet

Mi Documat