A light method for data generation: a combination of Markov Chains and Word Embeddings

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/104717
Información del item - Informació de l'item - Item information
Título: A light method for data generation: a combination of Markov Chains and Word Embeddings
Título alternativo: Un método ligero de generación de datos: combinación entre Cadenas de Markov y Word Embeddings
Autor/es: Martínez Garcia, Eva | Nogales, Alberto | Morales Escudero, Javier | Garcia-Tejedor, Álvaro J.
Palabras clave: Generation | Hybrid | Markov Chains | Embeddings | Similarity | Generación | Híbrido | Cadena de Markov | Similaridad
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: mar-2020
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2020, 64: 85-92. doi:10.26342/2020-64-10
Resumen: Most of the current state-of-the-art Natural Language Processing (NLP) techniques are highly data-dependent. A significant amount of data is required for their training, and in some scenarios data is scarce. We present a hybrid method to generate new sentences for augmenting the training data. Our approach takes advantage of the combination of Markov Chains and word embeddings to produce high-quality data similar to an initial dataset. In contrast to other neural-based generative methods, it does not need a high amount of training data. Results show how our approach can generate useful data for NLP tools. In particular, we validate our approach by building Transformer-based Language Models using data from three different domains in the context of enriching general purpose chatbots. | Las técnicas para el Procesamiento del Lenguaje Natural (PLN) que actualmente conforman el estado del arte necesitan una cantidad importante de datos para su entrenamiento que en algunos escenarios puede ser difícil de conseguir. Presentamos un método híbrido para generar frases nuevas que aumenten los datos de entrenamiento, combinando cadenas de Markov y word embeddings para producir datos de alta calidad similares a un conjunto de datos de partida. Proponemos un método ligero que no necesita una gran cantidad de datos. Los resultados muestran cómo nuestro método es capaz de generar datos útiles. En particular, evaluamos los datos generados generando Modelos de Lenguaje basados en el Transformer utilizando datos de tres dominios diferentes en el contexto de enriquecer chatbots de propósito general.
URI: http://hdl.handle.net/10045/104717
ISSN: 1135-5948
DOI: 10.26342/2020-64-10
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2020-64-10
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 64 (2020)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_64_10.pdf1,79 MBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.