Una parte fundamental de los sitemas de reconocimiento del habla es el modelo de lenguaje, Éste tiene la tarea de decidir los aceptable que es una frase. En reconocimiento del habla, los modelos de lenguaje más habituales son los modelos de n-gramas, por tres razones: pueden aprederse automáticamente a partir de ejemplos, existen multitud de técnicas de suavizado que resuelven (al menos parcialmente) el problema de disponer de un número insuficiente de muestras, y además, como modelos de estados finitos que son, se integran fácilmente en un sistema de reconocimiento.
Actualmente, se conocen varias técnicas para aprender automáticamente modelos de estados finitos mas generales que los n-gramas. Sin embargo, debido a la falta de técnicas de suavizado, estos modelos se han relegado aplicaciones muy específicas y con vocabularios pequeños.
En esta tesis nos planteamos el problema del suvizado de modelos de estados finitos (autómatas y traductores). La aproximación adoptada consiste en extender las técnicas de suavizado de n-grmas. Para ello, en primer lugar formalizamos el modelo de n-gramas suavizados como un autómata finito determinista estocástico (esta formalización nos permite obtener un nuevo tipo de suvizado de n-gramas). A continuación, presentamos dos algoritmos para el suavizado de autómatas: uno para suavizar con un n-grama y el otro para suavizar con otro autómata. Finalmente, extendemos los dos algoritmos anteriores para suavizar traductores tanto con modelos de n-grmas como con otros traductores.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados