An Empirical Analysis of Data Selection Techniques in Statistical Machine Translation

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/49281
Información del item - Informació de l'item - Item information
Título: An Empirical Analysis of Data Selection Techniques in Statistical Machine Translation
Título alternativo: Análisis empírico de técnicas de selección de datos en traducción automática estadística
Autor/es: Chinea-Rios, Mara | Sanchis-Triches, Germán | Casacuberta Nolla, Francisco
Palabras clave: Statistical machine translation | Domain adaptation | Bilingual sentence selection | Infrequent n-gram | Cross-entropy | Traducción automática estadística | Adaptación dominios | Selección de frases bilingües | N-gramas infrecuentes | Entropía cruzada
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2015
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2015, 55: 101-108
Resumen: Domain adaptation has recently gained interest in statistical machine translation. One of the adaptation techniques is based in the selection data. Data selection aims to select the best subset of the bilingual sentences from an available pool of sentences, with which to train a SMT system. In this paper, we study how affect the bilingual corpora used for the data selection methods in the translation quality. | La adaptación de dominios genera mucho interés dentro de la traducción automática estadística. Una de las técnicas de adaptación está basada en la selección de datos que tiene como objetivo seleccionar el mejor subconjunto de oraciones bilingües de un gran conjunto de oraciones. En este artículo estudiamos como afectan los corpus bilingües empleados por los métodos de selección de frases en la calidad de las traducciones.
Patrocinador/es: The research leading to these results has received funding from the European Union Seventh Framework Programme (FP7/2007-2013) under grant agreement No: 287576 (CasMaCat). Also funded by the Generalitat Valenciana under grant Prometeo/2009/014.
URI: http://hdl.handle.net/10045/49281
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 55 (2015)
Investigaciones financiadas por la UE

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_55_11.pdf713,59 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.