Ir al contenido

Documat


Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales

  • Autores: Carlos Gómez Rodríguez Árbol académico, Jesús Vilares Árbol académico, Yerai Doval
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 57, 2016, págs. 75-82
  • Idioma: español
  • Títulos paralelos:
    • Spanish word segmentation through neural language models
  • Enlaces
  • Resumen
    • español

      En las plataformas de microblogging abundan ciertos tokens especiales como los hashtags o las menciones en los que un grupo de palabras se escriben juntas sin espaciado entre ellas; p.ej.: #añobisiesto o @ryanreynoldsnet. Debido a la forma en que se escriben este tipo de textos, este fenómeno de ensamblado de palabras puede aparecer junto a su opuesto, la segmentación de palabras, afectando a cualquier elemento del texto y dificultando su análisis. En este trabajo se muestra un enfoque algorítmico que utiliza como base un modelo del lenguaje - en nuestro caso concreto uno basado en redes neuronales - para resolver el problema de la segmentación y ensamblado de palabras, en el que se trata de recuperar el espaciado estándar de las palabras que han sufrido alguna de estas transformaciones añadiendo o quitando espacios donde corresponda. Los resultados obtenidos son prometedores e indican que tras un mayor refinamiento del modelo del lenguaje se podrá sobrepasar al estado del arte.

    • English

      In social media platforms special tokens abound such as hashtags and mentions in which multiple words are written together without spacing between them; e.g. #leapyear or @ryanreynoldsnet. Due to the way this kind of texts are written, this word assembly phenomenon can appear with its opposite, word segmentation, affecting any token of the text and making it more difficult to perform analysis on them. In this work we show an algorithmic approach based on a language model - in this case a neural model - to solve the problem of the segmentation and assembly of words, in which we try to recover the standard spacing of the words that have suffered one of these transformations by adding or deleting spaces when necessary. The promising results indicate that after some further refinement of the language model it will be possible to surpass the state of the art.

  • Referencias bibliográficas
    • Adda-decker, M., G. Adda, y L. Lamel. 2000. Investigating text normalization and pronunciation variants for german broadcast transcription....
    • Alfonseca, E., S. Bilac, y S. Pharies. 2008. Decompounding query keywords from compounding languages. En Proc. of the 46th Annual Meeting...
    • Alonso, M. A., C. G´omez-Rodr´ıguez, D. Vilares, Y. Doval, y J. Vilares. 2015. Seguimiento y an´alisis autom´atico de contenidos en redes...
    • Alonso, M. A. y D. Vilares. 2016. A review on political analysis and social media. Procesamiento del Lenguaje Natural, 56:13–24.
    • Bengio, Y. 2009. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2(1):1–127.
    • Berger, A. L., S. D. Pietra, y V. J. D. Pietra. 1996. A maximum entropy approach to natural language processing. Computational Linguistics,...
    • Brown, P. F., P. V. deSouza, R. L. Mercer, V. J. D. Pietra, y J. C. Lai. 1992. Classbased n-gram models of natural language. Comput. Linguist.,...
    • Cebrian, M. 2012. Using friends as sensors to detect planetary-scale contagious outbreaks. En Proc. of the 1st International Workshop on Multimodal...
    • Chen, S. F. 1998. An empirical study of smoothing techniques for language modeling. Informe t´ecnico.
    • Chi, C.-H., C. Ding, y A. Lim. 1999. Word segmentation and recognition for web document framework. En Proc. of the Eighth International Conference...
    • Gallinucci, E., M. Golfarelli, y S. Rizzi. 2013. Meta-stars: Multidimensional modeling for social business intelligence. En Proc. of the Sixteenth...
    • Hochreiter, S. y J. Schmidhuber. 1997. Long short-term memory. Neural Computation, 9(8):1735–1780.
    • Huang, C. y H. Zhao. 2007. Chinese word segmentation: A decade review. Journal of Chinese Information Processing, 21(3):8–20.
    • J´ozefowicz, R., W. Zaremba, y I. Sutskever. 2015. An empirical exploration of recurrent network architectures. En Proc. of the 32nd International...
    • Kacmarcik, G., C. Brockett, y H. Suzuki. 2000. Robust segmentation of japanese text into a lattice for parsing. En Proc. of the 18th Conference...
    • Koehn, P. y K. Knight. 2003. Empirical methods for compound splitting. En Proc. of the Tenth Conference on European Chapter of the ACL - Volume...
    • Lafferty, J. D., A. McCallum, y F. C. N. Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence...
    • Maynard, D. y M. A. Greenwood. 2014. Who cares about sarcastic tweets? investigating the impact of sarcasm on sentiment analysis. En LREC,...
    • Mikolov, T. y G. Zweig. 2012. Context dependent recurrent neural network language model. En 2012 IEEE Spoken Language Technology Workshop...
    • Srinivasan, S., S. Bhattacharya, y R. Chakraborty. 2012. Segmenting web-domains and hashtags using length specific models. En Proc. of the...
    • Suzuki, H., C. Brockett, y G. Kacmarcik. 2000. Using a broad-coverage parser for word-breaking in japanese. En Proc. of the 18th Conference...
    • Wang, K., C. Thrasher, y B.-J. P. Hsu. 2011. Web scale nlp: A case study on url word breaking. En Proc. of the 20th International Conference...
    • Wu, A. y Z. Jiang. 1998. Word segmentation in sentence analysis. En Proc. of the 1998 International Conference on Chinese Information Processing,...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno