Ir al contenido

Documat


Caracterización de Niveles de Informalidad en Textos de la Web 2.0

  • Autores: Alejandro Mosquera López, Paloma Moreda Pozo Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 47, 2011, págs. 171-177
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      El análisis de textos de la Web 2.0 es un tema de investigación relevante hoy en día. Sin embargo, son muchos los problemas que se plantean a la hora de utilizar las herramientas actuales en este tipo de textos. Para ser capaces de medir estas dificultades primero necesitamos conocer los diferentes registros o grados de informalidad que podemos encontrar. Por ello, en este trabajo intentaremos caracterizar niveles de informalidad para textos en inglés en la Web 2.0 mediante técnicas de aprendizaje automático no supervisado, obteniendo resultados del 68 % en F1.

    • English

      Analysis of Web 2.0 texts is a relevant investigation topic nowadays. However, many problems arise when using state of the art tools in this kind of texts. For being able to measure these difficulties first we need to identify the different registers or informality levels that we can find. Therefore, in this paper we will attempt to characterize the informality levels of english texts in Web 2.0 by using non-supervised machine learning techniques, obtaining results of 68 % in F1.

  • Referencias bibliográficas
    • Andritsos, Periklis, Panayiotis Tsaparas, Renee J. Miller, y Kenneth C. Sevcik. 2003. Limbo: A scalable algorithm to cluster categorical data....
    • Atserias, Jordi, Bernardino Casas, Elisabet Comelles, Meritxell González, Lluis Padró, y Muntsa Padró. 2006. Free- Ling 1.3: Syntactic and...
    • Biber, D. 1988. Linguistic features: algorithms and functions in Variation across speech and writing. Cambridge University Press.
    • Biber, D. 1995. Dimensions of register variation: A cross-linguistic comparison. New York: Cambridge University Pres Linguistics.
    • Biber, D. 2003. Variation among university spoken and written registers: A new multidimensional analysis. Language and Computers, 46:47–70.
    • Biber, D. y J. Kurjian. 2007. Towards a taxonomy of web registers and text types: A multi-dimensional analysis. En N. Nesselhauf In M. Hundt...
    • Biber, Douglas, Susan Conrad y Viviana Cortes. 2004. If you look at...: Lexical bundles in university teaching and textbooks. Applied Linguistics,...
    • Cortes, Corinna y Vladimir Vapnik. 1995. Support-vector networks. En Machine Learning, volumen 20, páginas 273–297.
    • Francis, W. N. y H. Kucera. 1979. Brown corpus. Informe t´ecnico, Department of Linguistics, Brown University, Providence, Rhode Island, US.
    • Gries, Stefan Th., John Newman, y Cyrus Shaoul. 2009. N-grams and the clustering of genres. ELR Journal, 5.
    • Hall, M A. 1998. Correlation-based feature selection for machine learning. PhD dissertation Hamilton NZ Waikato University Department of Computer...
    • Halliday, M.A.K. y Mohsen Ghadessy. 1988. On the language of physical science. In Mohsen Ghadessy (ed.), Registers of Written English: situational...
    • Hartigan, J. A. y M. A. Wong. 1979. A Kmeans clustering algorithm. Applied Statistics, 28:100–108.
    • Heylighen, Francis y Jean-Marc Dewaele. 1999. Formality of language: definition, measurement and behavioral determinants. Informe técnico,...
    • Pelleg, Dan y Andrew W. Moore. 2000. Xmeans: Extending k-means with efficient estimation of the number of clusters. En Proceedings of the...
    • Schmid, Helmut. 1994. Probabilistic partofspeech tagging using decision trees. En Proceedings of the International Conference on New Methods...
    • Scott, M. 1999. Wordsmith tools version 3. Sharoff, Serge, Zhili Wu, y Katja Markert. 2010. The web library of babel: evaluating genre collections....
    • Squires, L. 2010. Enregistering internet language. Language in Society, 39(04):457–492.
    • Tribble, Christopher. 1999. Writing difficult texts. Ph.D. dissertation. Lancaster University.

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno