Ir al contenido

Documat


Resumen de Tractament de corpus textuals lematitzats i estudi comparatiu del llenguatge cientific amb la prosa estandard

Anna Puig Montada

  • EN ESTA TESIS SE REALIZA UN TRATAMIENTO DE UN CORPUS DE TEXTOS CATALANES DE UN TOTAL DE 30885 LEMAS CLASIFICADOS POR SUS CATEGORIAS Y QUE LES CORRESPONDEN 777485 OCURRENCIAS, EL CORPUS PROCEDE DE LIBROS DE CUATRO MATERIAS, ESTAS SON: LOGICA, MATEMATICAS, FISICA Y QUIMICA Y PROSA ESTANDAR. DICHO CORPUS ENTRADO POR ESCANER AL ORDENADOR HA SIDO ESTUDIADO POR METODOS ESTADISTICOS Y SE HAN REALIZADO LAS COMPARACIONES ENTRE LAS CUATRO MATERIAS. SE HA CALCULADO LA ENTROPIA SEGUN SHANNON DE CADA MATERIA MEDIANTE EL USO DE PROGRAMAS REALIZADOS EN PASCAL. SE HA CALCULADO LA MEDIA Y LA DESVIACION ESTANDAR. EN UNA FASE POSTERIOR SE HA APLICADO LA TEORIA DE PROXIMIDADES A LOS CUATRO TIPOS DE CORPUS, CALCULANDO LA DIMENSION FRACTAL PARA PODER CARACTERIZAR CADA TIPO DE LENGUAJE. FINALMENTE SE RELACIONAN LA ENTROPIA JUNTO CON LA TEORIA DE PROXIMIDADES PARA DEDUCIR EL PERFIL DE CADA TIPO DE LENGUAJE, TANTO GLOBALMENTE COMO PARA EL CASO DE LOS SUBSTANTIVOS.


Fundación Dialnet

Mi Documat