Ir al contenido

Documat


Using external sources of bilingual information for word-level quality estimation in translation technologies

  • Autores: Miquel Esplà Gomis
  • Directores de la Tesis: Felipe Sánchez Martínez (codir. tes.) Árbol académico, Mikel L. Forcada Zubizarreta (codir. tes.) Árbol académico
  • Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2016
  • Idioma: español
  • Tribunal Calificador de la Tesis: Lucia Specia (presid.) Árbol académico, Juan Antonio Pérez Ortiz (secret.) Árbol académico, Vincent Vandeghinste (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUA
  • Resumen
    • L’estimació de la qualitat de la traducció (EQ) consisteix a predir el nivell de qualitat d'una traducció en llengua meta (LM) produïda per a un segment en llengua origen (LO). L’EQ ha esdevingut crucial per a les tecnologies de la traducció: els traductors necessiten una EQ acurada per a predir l'esforç requerit en una tasca de traducció i per a escollir la tecnologia de traducció a utilitzar. Aquesta tesi doctoral es presenta per compendi d'articles i, per tant els seus capítols centrals es componen d'articles reimpresos. Aquesta tesi descriu una col·lecció de noves tècniques per a l'EQ de dues tecnologies de traducció: la traducció automàtica (TA) i la traducció assistida per ordinador (TAO) basada en memòries de traducció (MT). Els mètodes proposats usen qualsevol font d'informació bilingüe (FIB) disponible de manera agnòstica, és a dir, sense fer cap mena d'assumpció pel que fa a la quantitat, la qualitat, o el format de la informació bilingüe utilitzada. En el context d'aquesta tesi doctoral, s’anomena FIB a qualsevol recurs capaç de proporcionar traduccions en una llengua per a un subsegment, és a dir, per a una seqüència d'una o més paraules contigües que formen part d'una oració, donat en una altra llengua. Per poder aplicar els mètodes desenvolupats a parells de llengües amb pocs recursos bilingües, part de la recerca s’ha dedicat a l'adquisició de FIB d'Internet. L’objectiu d'aquesta introducció és presentar els conceptes bàsics sobre l'EQ per a les tecnologies de la traducció, presentar la motivació de la recerca desenvolupada i posar els diferents articles reimpresos inclosos en aquesta tesi en un marc comú.

      *** Objectius i resultats de la tesi *** L’objectiu principal d'aquesta tesi doctoral és desenvolupar mètodes per a l'EQ, fent servir FIB, tant per a TA, com per a TAO basada en MT. La motivació de les tecnologies que es descriuen en aquesta tesi és aprofitar les FIB existents que són disponibles, per exemple, a Internet, com ara els diccionaris bilingües, les taules de subsegments o “frases”, la TA, les MT, o els cercadors de concordances bilingües.

      La hipòtesi de treball principal d'aquesta tesi és la següent:

      - Hipòtesi de treball principal: És possible desenvolupar mètodes exclusivament basats en FIB externes per a estimar la qualitat de la traducció de cada mot, tant en TA com en TAO basada en MT.

      Aquesta hipòtesi de treball sintetitza els objectius principals del treball desenvolupat en aquesta tesi doctoral, i proporciona un fil conductor per a descriure’l. La recerca duta a terme per a confirmar aquesta hipòtesi de treball es divideix en tres blocs: • desenvolupament de mètodes basats en FIB per a l'EQ de cada mot en TAO basada en MT; • desenvolupament de mètodes basats en FIB per a l'EQ de cada mot en TA; i • desenvolupament de mètodes per a l'obtenció de FIB per a parells de llengües amb pocs recursos.

      Aquesta secció té per objectiu descriure els problemes que s’han abordat al llarg d'aquesta tesi doctoral i les solucions proposades per a cadascun d'ells. Cal emfatitzar que les tècniques per a l'EQ de cada mot desenvolupades en aquesta tesi són agnòstiques pel que fa a les FIB utilitzades; això garanteix que els mètodes resultants siguen flexibles i que, per tant, s’aprofiten al màxim les FIB.

      *** Ús de fonts d'informació bilingües per a l'estimació de la qualitat de la traducció en traducció assistida per ordinador basada en memòries de traducció *** L’objectiu d'aquest bloc de recerca és definir mètodes per a l'EQ de cada mot per a TAO basada en MT. Les eines de TAO basada en MT funcionen de la següent manera: quan el traductor vol traduir un nou segment S' en LO, l'eina cerca a la MT les unitats de traducció (S, T ) amb un segment en LO S semblant a S' i les presenta a l'usuari com a suggeriments de traducció. D’aquesta forma, el segment corresponent en LM T pot ser utilitzat com a punt de partida per a traduir S'.

      Per saber com són de semblants un segment S i S' , les eines de TAO basades en MT usen mètriques de concordança parcial — anomenades fuzzy-match score en la bibliografia en anglés (Sikes, 2007). Tot i que existeix una àmplia varietat de mètriques de concordança parcial, la gran majoria es basen en algorismes de distància d'edició (Levenshtein, 1966) en què es comparen els mots de dues cadenes. Aquestes mètriques solen presentar-se al traductor en forma de percentatges per facilitar l'estimació de l'esforç requerit en posteditar un suggeriment de traducció. Així, una concordança parcial del 100% indica que els segments S i S' són idèntics i que, per tant, el segment T en LM podria ser utilitzat com a traducció de S' sense fer-hi cap edició. Per contra, una concordança parcial del 0% implicaria que S i S' no s’assemblen gens i que, per tant, el segment T en LM no ajudaria gens en la traducció de S'. Les mètriques de concordança parcial esdevenen, per tant, mètriques d'estimació de la qualitat dels segments traduïts. De fet, és habitual que els mots de S que no concorden amb S' siguen destacades a l'hora de presentar al traductor els suggeriments de traducció; tanmateix aquesta informació no es proporciona per a la LM, on esdevindria molt més útil. L’objectiu del treball desenvolupat en aquest bloc de recerca és anar un pas més enllà i projectar la informació dels mots en S que no concorden amb S' sobre T, per a obtenir una EQ de cada mot. És obvi que proporcionar una EQ sobre T seria molt més informatiu a l'hora d'estimar l'esforç requerit per completar la tasca de traducció. A més, si aquesta informació fóra presentada al traductor seria possible guiar-lo en la tasca de postedició. Per exemple, els mots que han de ser modificats (eliminats o substituïts) podrien ser acolorits en roig, mentre que els mots que poden romandre tal com estan, podrien ser acolorits en verd. Malgrat els avantatges de l'EQ de cada mot, l'única referència a aquesta tasca en la bibliografia és la patent de Kuhn et al. (2011). Lògicament, pel fet de tractar-se d'una patent, els detalls del mètode patentat no han estat publicats. La falta de solucions existents per a l'EQ de cada mot per a TAO basada en MT podria fer-vos pensar que aquesta tasca no és suficientment rellevant per despertar l'interés de la comunitat científica. Per refutar aquesta idea, l'Apèndix A de l'article reimprés 2.2.1 que es detalla més endavant descriu un experiment en el qual professionals de la traducció utilitzen una eina de TAO basada en MT per traduir textos de l'anglés a l'espanyol amb EQ per a cada mot i sense EQ per a cada mot. Aquests experiments confirmen que disposar d'EQ fiable pot reduir el temps dedicat a una tasca de traducció fins a un 14%. Aquest resultat confirma els avantatges que pot tenir per als traductors professionals aquesta tecnologia i, en conseqüència, emfatitza la rellevància de la recerca desenvolupada dins d'aquesta tesi doctoral en aquesta direcció. El Capítol 2 presenta la tasca de l'EQ de la traducció per a TAO basada en MT. S’hi exploren dues vies per a obtenir aquestes estimacions, cadascuna en una secció: la Secció 2.1 descriu mètodes basats en alineaments de mots, mentre que la Secció 2.2 descriu mètodes basats en l'ús de FIB externes.

      Els mètodes descrits en la Secció 2.1 utilitzen alineaments entre els mots en S i T per projectar la informació sobre els mots en S que concorden amb S' sobre els mots en T, a fi de proporcionar una EQ de cada mot. Aquesta secció conté dos articles reimpresos: • Esplà, M., Sánchez-Martínez, F. i Forcada, M.L. 2011. Using word alignments to assist computer-aided translation users by marking which target-side words to change or keep unedited. En Proceedings of the 15th Annual Conference of the European Association for Machine Translation, p. 81–89, 30–31 de maig de 2011, Lovaina, Bèlgica. [Article reimprés 2.1.1] • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2012. A simple approach to use bilingual information sources for word alignment. En Procesamiento del Lenguaje Natural, 49, p. 93–100. [Article reimprés 2.1.2] L’article reimprés 2.1.1 descriu les tècniques desenvolupades per a l'EQ de cada mot basades en models estadístics d'alineament de mots (Och i Ney, 2003). Hom podria pensar que els models estadístics d'alineament de mots no poden ser considerats FIB segons la definició inclosa al principi d'aquest capítol. Tanmateix, aquesta és la tècnica més comunament usada per relacionar els mots entre dos segments en llengües diferents, un pas necessari per a estimar la qualitat de la traducció per a TAO basada en MT, tal com l'hem definida. Així doncs, l'article reimprés 2.1.1 té per objectiu confirmar la següent hipòtesi de treball:

      - Hipòtesi #1: és possible utilitzar alineaments de mots per a estimar la qualitat de la traducció per a TAO basada MT.

      El treball desenvolupat amb models estadístics d'alineament de mots va posar els fonaments per a les etapes de recerca següents en les quals es van usar FIB. Els experiments descrits en l'article reimprés 2.1.1, en què s’avaluen diverses tasques de traducció entre l'anglés i l'espanyol, van proporcionar resultats prometedors i van mostrar que era possible estimar la qualitat de la traducció en eines TAO basades en MT amb una precisió i cobertura altes mitjançant models estadístics d'alineament de mots. L’article reimprés 2.1.2 cerca una via per a convertir el mètode definit en l'article reimprés 2.1.1 en un mètode basat en l'ús de FIB externes. Per a fer-ho, proposa un nou mètode heurístic capaç d'alinear mots al vol fent servir FIB i que, per tant, elimina la dependència respecte dels models estadístics d'alineament de mots. Així doncs, la hipòtesi de treball que inspira aquest treball és:

      - Hipòtesi #2: és possible obtenir alineaments entre mots mitjançant l'ús de FIB.

      El treball descrit en l'article reimprés 2.1.2 és ampliat a l'Apèndix A, on, a més, s’hi descriu un nou mètode més general que utilitza un model de màxima versemblança. Tant el mètode heurístic com el basat en el model de màxima versemblança són comparats amb l'eina més comunament usada per a l'alineament estadístic de mots: GIZA++ (Och i Ney, 2003). Els resultats obtinguts confirmen que els mètodes basats en FIB són capaços d'alinear mots amb una precisió comparable a l'obtinguda per GIZA++, tot i que, en general, la cobertura és més baixa. Els mètodes basats en FIB sols tenen una cobertura millor que GIZA++ quan els models estadístics d'alineament de mots són entrenats sobre un corpus paral·lel menut (al voltant de 10.000 parells de segments o menys). Tot i que els resultats obtinguts amb alineament de mots basat en FIB no són tan acurats com s’esperava, aquest treball obri la porta a l'etapa següent de la recerca: l'EQ utilitzant FIB directament, la qual es descriu a la Secció 2.2 i conté una sola publicació:

      • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2015. Using machine translation to provide target-language edit hints in computer-aided translation based on translation memories. En Journal of Artificial Intelligence Research, volum 53, p. 169–222. [Article reimprés 2.2.1] L’article reimprés 2.2.1 descriu dos mètodes diferents que fan servir FIB directament per a l'EQ de cada mot: un d'heurístic, i un que utilitza un classificador binari basat en aprenentatge automàtic. L’objectiu principal de la recerca descrita en aquest article és confirmar la següent hipòtesi de treball:

      - Hipòtesi #3: és possible utilitzar FIB directament per a estimar la qualitat en cada mot de la traducció en TAO basada en MT.

      Els mètodes descrits a l'article reimprés 2.2.1 es comparen amb els mètodes basats en models estadístics d'alineament de mots proposats en l'article reimprés 2.1.1, per a cinc parells de llengües diferents: anglés–espanyol, anglés–francés, anglés–alemany, anglés–finés, i espanyol–francés. El marc d'avaluació proposat en aquest article és més fiable per als diferents mètodes descrits al Capítol 2, ja que aquests mètodes s’avaluen per a la traducció entre llengües molt properes (com ara l'espanyol i el francés, que són llengües romàniques, o l'anglés i l'alemany, que són llengües germàniques), entre llengües de la mateixa família, tot i no ser tan properes (l'anglés, l'espanyol, l'alemany i el francés són totes llengües indoeuropees, però les diferències entre les llengües germàniques i romàniques són substancials), i, fins i tot, entre llengües que no tenen cap relació entre elles (el finés és una llengua uràlica, i, per tant, no està relacionada de cap forma amb cap de les altres quatre llengües, que són indoeuropees). Els experiments descrits en aquest article confirmen que els resultats obtinguts amb els mètodes basats directament en FIB són en general millors que els obtinguts pels mètodes basats en models estadístics d'alineament de mots, especialment quan aquests han de traduir textos de dominis diferents als dels textos que s’han utilitzat per a entrenar els models d'alineament.

      *** Ús de fonts d'informació bilingüe per a l'estimació de la qualitat de la traducció per a traducció automàtica *** La segona tecnologia de la traducció en què aquesta tesi doctoral se centra és la TA. Trobem a la bibliografia diverses tècniques que aborden el problema de l'EQ en TA; la majoria, basades en aprenentatge automàtic. Aquestes tècniques basades en aprenentatge automàtic extrauen característiques de les traduccions mitjançant les quals és possible discernir quins mots són adequats i quins no ho són i, per tant, necessiten ser posteditats. Aquestes característiques es divideixen, principalment, en dues classes: les que necessiten accedir a les dades internes del sistema de TA que ha produït la traducció i les que són independents del sistema de TA (Quirk, 2004; Blatz et al., 2004; Specia et al., 2010). Tanmateix, fins a on sabem, totes les col·leccions de característiques disponibles a la bibliografia depenen d'una font d'informació específica, com ara models de llengua, lexicons bilingües, models de reordenament de mots, etc.; en altres paraules, cap d'aquestes col·leccions usa FIB d'una manera agnòstica. Per tant, l'objectiu d'aquest bloc de recerca és desenvolupar mètodes que, basant-se en els descrits al Capítol 2, siguen capaços d'estimar la qualitat de les traduccions produïdes per un sistema de TA utilitzant qualsevol FIB disponible. Arribats a aquest punt, és important analitzar les diferències entre els problemes de l'EQ per a TA i per a TAO basada en MT: mentre en la TAO basada en MT el problema consisteix a detectar quins mots en una traducció adequada de S no són part de la traducció del nou segment S' , en TA s’hi treballa sobre una traducció automàtica de S' , la qual pot ser adequada o no. Per tant, tot i que l'objectiu és aprofitar els conceptes principals del mètode basat en FIB que s’ha desenvolupat per a l'EQ en TAO basada en MT, cal definir un mètode substancialment diferent per al cas de la TA. Així, el Capítol 3 descriu un nou mètode basat en FIB que aborda el problema de l'EQ de cada mot per a TA amb un enfocament de classificació binària. Aquest mètode aplica la mateixa tècnica d'aprenentatge automàtic descrita en la Secció 2.2, però utilitzant noves característiques de les traduccions T, per marcar-ne els mots com a “bons” (no cal posteditar-los) o “roïns” (cal eliminar-los o substituir-los). En el cas de l'EQ per a TA, s’han definit dues famílies de característiques: una amb característiques positives, que proporcionen informació a favor que el mot siga marcat com a bo, i una altra amb característiques negatives, que indiquen que el mot podria haver de ser eliminat o substituït. El Capítol 3 conté dues publicacions: • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2015. Using on-line available sources of bilingual information for word-level machine translation quality estimation. En Proceedings of the 18th Annual Conference of the European Association for Machine Translation, p. 19–26, Antalya, Turquia, 11–13 de maig de 2015. [Article reimprés 3.1] • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2015. UAlacant wordlevel machine translation quality estimation system at WMT 2015. En Proceedings of the 10th Workshop on Statistical Machine Translation, p. 309–315, Lisboa, Portugal, 17–18 de setembre de 2015. [Article reimprés 3.2] Aquestes dues publicacions tenen com a objectiu confirmar la hipòtesi de treball següent:

      - Hipòtesi #4: és possible adaptar les tècniques d'EQ desenvolupades per a TAO basada en MT al cas de la TA.

      L’article reimprés 3.1 descriu el mètode basat en classificació binària proposat, així com les col·leccions de característiques que fa servir el classificador binari automàtic. A més, l'article conté una col·lecció d'experiments que serveixen per a avaluar el mètode proposat utilitzant les dades d'avaluació proporcionades pels organitzadors de la tasca compartida d'EQ de cada mot per a TA en l'edició de 2014 del Workshop on Statistical Machine Translation (Bojar et al., 2014). La tasca compartida d'EQ de cada mot del Workshop on Statistical Machine Translation porta organitzant-se des de fa tres anys, i és un torneig en què s’avaluen sistemes d'EQ de cada mot desenvolupats pels concursants sobre unes dades d'avaluació comunes. Els organitzadors de la tasca proporcionen una col·lecció de segments en LO i les corresponents traduccions obtingudes amb un sistema de TA. Tres conjunts de dades són proporcionats: un d'entrenament, un de desenvolupament, i un de prova. Per als dos primers conjunts, els mots de les traduccions estan etiquetats com a “bons” i “roïns” (tot i que alguns anys també s’han proporcionat conjunts d'etiquetes amb un gra més fi per als diferents tipus d'errors de traducció), mentre que els participants han d'etiquetar els mots de les traduccions del conjunt de prova. L’ús d'un conjunt de dades comú proporciona un marc d'avaluació adequat per a comparar els sistemes desenvolupats per a la tasca, tal com ho són els que es descriuen en aquesta tesi doctoral. Les dades usades en l'avaluació per a la tasca en 2014 eren disponibles per a dos parells d'idiomes: anglés–espanyol i anglés–alemany, en totes dues direccions de traducció. Tal com s’explica al Capítol 3, tot i les diferències entre les llengües, els resultats obtinguts no sols confirmen la viabilitat del mètode proposat, sinó que, a més, els sistemes desenvolupats en aquesta tesi demostren una gran eficàcia, comparable a la dels sistemes que van obtenir els millors resultats en aquesta edició de la tasca compartida. L’article reimprés 3.2 descriu l'aplicació del mètode proposat en aquesta tesi a l'edició de 2015 de la tasca compartida d'EQ de cada mot per a TA (Bojar et al., 2015). En aquesta edició, les dades d'avaluació van ser proporcionades només per a la traducció de l'espanyol a l'anglés. A més, aquest any l'organització va proporcionar un conjunt de característiques bàsiques com a punt de partida per als sistemes desenvolupats. La combinació de les característiques definides a l'article reimprés 3.1 i les característiques bàsiques proporcionades per l'organització de la tasca van permetre al nostre sistema obtenir els millors resultats (Bojar et al., 2015) entre tots els participants de la tasca de 2015.

      *** Construcció de noves fonts d'informació bilingüe per a parells de llengües amb pocs recursos *** Un dels pilars principals d'aquesta tesi doctoral és la disponibilitat de FIB. De fet, tal com s’explica al principi d'aquesta introducció, un dels objectius de la recerca duta a terme és aprofitar la gran quantitat de FIB que són disponibles per al seu ús. Tanmateix, tal com podríeu haver pensat, aquesta suposició no és vàlida per a tots els parells de llengües. L’estudi de Rehm i Uszkoreit (2013), que té per objectiu analitzar les tecnologies lingüístiques disponibles per a 30 llengües europees (23 d'elles oficials a la Unió Europea), aporta dades que donen suport a aquesta idea. Una de les conclusions d'aquest informe és que “moltes llengües manquen fins i tot de les tecnologies bàsiques per a l'anàlisi de textos i de recursos lingüístics essencials”. Per mitigar la mancança de FIB per a alguns parells de llengües, part d'aquesta tesi doctoral s’ha centrat en desenvolupar un mètode per a crear noves FIB mitjançant l'ús de l'eina Bitextor (Esplà-Gomis i Forcada, 2010) (versió 4.1) per a la recol·lecció de textos paral·lels a partir de llocs webs multilingües. Aquesta eina descarrega llocs web multilingües i n’alinea els documents mitjançant: (i) l'ús de lexicons bilingües que permeten la comparació del contingut dels documents amb un mètode basat en el de Sánchez-Martínez i Carrasco (2011), i (ii) la comparació de l'estructura HTML dels documents (Resnik i Smith, 2003). A més, Bitextor és capaç d'alinear els documents per segments mitjançant l'eina Hunalign (Varga et al., 2005). Aquests corpus paral·lels alineats per segments poden ser fàcilment utilitzats per a construir noves FIB, com ara lexicons bilingües, taules de subsegments, o sistemes de TA estadística, que es poden usar amb les tècniques d'EQ de cada mot descrites als Capítols 2 i 3. El Capítol 4 descriu la recerca duta a terme sobre la creació de noves FIB, i conté dues publicacions: • Esplà-Gomis, M., Klubička, F., Ljubešić, N., Ortiz-Rojas, S., Papavassiliou, S. i Prokopidis, P. 2014. Comparing two acquisition systems for automatically building an English–Croatian parallel corpus from multilingual websites. En Proceedings of the 9th International Conference on Language Resources and Evaluation, p. 1252–1258, Reykjavík, Islàndia, 26–31 de maig de 2014. [Article reimprés 4.1] • Toral, A., Rubino, R., Esplà-Gomis, M., Pirinen, T., Way, A. i Ramírez-Sánchez, G. 2014. Extrinsic evaluation of web-crawlers in machine translation: a case study on Croatian–English for the tourism domain. En Proceedings of the 17th Annual Conference of the European Association for Machine Translation, p. 221–224, Dubrovnik, Croàcia, 16–18 de juny de 2014. [Article reimprés 4.2] Tal com s’indica al prefaci d'aquesta tesi doctoral, la major part de la recerca descrita en aquest capítol s’ha desenvolupat en el marc del projecte Abu-MaTran, finançat per la Unió Europea, el qual se centra en les llengües eslaves del sud, parant una especial atenció al croat. Per aquest motiu, tots dos articles se centren en la creació de FIB per al parell de llengües anglés–croat. La recerca que s’hi descriu té com a objectiu confirmar la hipòtesi de treball següent:

      - Hipòtesi #5: és possible crear noves FIB per a l'EQ de cada mot per a parells de llengües sense cap FIB disponible utilitzar Bitextor per a recol·lectar corpus paral·lels.

      L’article reimprés 4.1 descriu l'avaluació intrínseca del corpus paral·lel anglés–croat recol·lectat a partir de 21 llocs web amb Bitextor i un altre sistema actual per a la recol·lecció de textos paral·lels: l'ILSP Focused Crawler (Papavassiliou et al., 2013). L’article descriu els resultats obtinguts per totes dues eines, en termes de quantitat de text paral·lel obtingut i qualitat del corpus construït, i els compara mitjançant l'avaluació manual d'una fracció aleatòria dels corpus. Els resultats prometedors que es van obtenir en aquests experiments, especialment pel que fa a la qualitat dels corpus, van motivar la recerca descrita a l'article reimprés 4.2, on s’avaluen aquests corpus extrínsecament. Per a fer-ho, tots dos corpus van ser utilitzats per a entrenar un sistema de TA estadística basat en sintagmes (Koehn et al., 2003), que va ser avaluat en una tasca de traducció entre l'anglés i el croat. Els resultats d'aquest article confirmen la utilitat de les dades recol·lectades per a la creació d'un sistema de TA estadística plenament funcional. Tot i els bons resultats descrits als articles reimpresos 4.1 i 4.2, en el moment de publicar aquesta memòria encara no s’havia publicat una avaluació de l'impacte de FIB creades amb Bitextor per a l'EQ. Per aquest motiu, l'Apèndix B informa sobre els resultats dels experiments addicionals duts a terme en aquest sentit, l'objectiu dels quals és confirmar la darrera hipòtesi de treball d'aquesta tesi doctoral:

      - Hipòtesi #6: els resultats obtinguts per a l'EQ de cada mot per a parells de llengües amb pocs recursos poden ser millorats mitjançant l'ús de noves FIB obtingudes a través de la recol·lecció de corpus paral·lels.

      Els nous experiments duts a terme recuperen alguns dels experiments descrits a la Secció 2.2 i se centren en el parell de llengües amb menys recursos d'aquells descrits en la Secció 6 de l'article reimprés 2.2.1: l'anglés–finés. Els experiments originals mostraven que, a causa de la cobertura relativament reduïda de les FIB disponibles per a aquest parell de llengües, la qualitat d'una part important de els mots al conjunt de prova (més del 10%) no havia pogut ser estimada. La baixa cobertura de FIB feia que no es poguera projectar la informació sobre els mots de S que concordaven amb S' sobre T. Els experiments descrits a l'Apèndix B.2 demostren que la quantitat de mots per als quals no es pot estimar la qualitat cau dramàticament quan s’utilitzen les FIB obtingudes amb Bitextor.

      *** Discussió *** En conclusió, en aquesta tesi doctoral s’han descrit un seguit de mètodes que permeten l'EQ de cada mot per a dues tecnologies, la TAO basada en MT i la TA, fent servir FIB. L’objectiu principal d'aquests mètodes és el d'aprofitar les FIB que són disponibles, per exemple a Internet, i donar-los un nou ús en l'àmbit de la traducció. En aquesta tesi es descriuen, per primera vegada, mètodes que permeten l'EQ de cada mot per a TAO basada en MT. La rellevància d'aquesta tasca ha estat avaluada mitjançant la realització d'experiments amb traductors professionals, i s’ha demostrat que l'EQ de cada mot en TAO pot permetre estalviar fins al 14% del temps invertit en una tasca de traducció. Els mètodes desenvolupats han estat avaluats en múltiples tasques de traducció amb diferents condicions, com ara les llengües a traduir, el domini dels textos o les FIB utilitzades. En tots els casos, la viabilitat dels mètodes ha estat demostrada. Els mètodes per a l'EQ de cada mot en TAO basada en MT han estat, posteriorment, ampliats a una segona tecnologia de la traducció: la TA. En el cas d'aquesta tecnologia, la bibliografia conté nombrosos treballs sobre EQ. Tanmateix, la idea d'usar FIB com a font d'informació és nova, ja que la resta de mètodes desenvolupats depenen de fonts d'informació específiques. Més enllà de l'originalitat en l'ús de FIB per a l'EQ, l'avaluació mitjançant les dades de les tasques compartides en EQ de cada mot per a TA en les edicions de 2014 i 2015 del Workshop on Statistical Machine Translation ha demostrat que els resultats obtinguts pels mètodes desenvolupats en aquesta tesi doctoral són comparables als sistemes més reeixits en aquesta tasca. Podem concloure, per tant, que l'ús de FIB no només permet reaprofitar recursos ja disponibles per a l'EQ, sinó que, a més, permet assolir les màximes quotes d'eficàcia en aquesta tasca. Finalment, i com a complement de la recerca desenvolupada en el camp de l'EQ, cal destacar els resultats obtinguts pel que fa a la creació de noves FIB per al seu ús en EQ. La darrera part d'aquesta tesi doctoral s’ha enfocat a l'estudi de l'impacte que les FIB obtingudes automàticament mitjançant la recol·lecció de dades paral·leles a partir d'Internet poden tenir en aquesta tasca. Així, d'una banda, s’ha estudiat l'ús de l'eina Bitextor en la creació de FIB per a un parell de llengües amb pocs recursos: anglés–croat. Aquesta recerca ha demostrat una gran eficiència de l'eina a l'hora de crear corpus paral·lels, tant pel que fa a la quantitat de dades obtingudes, com a la qualitat d'aquestes. També s’ha estudiat l'ús dels corpus paral·lels recol·lectats per a la creació de sistemes de traducció automàtica, amb resultats molt positius. Finalment, l'ús de les FIB obtingudes amb Bitextor ha estat avaluat per al cas de l'EQ de cada mot per a la TAO basada en MT. Els experiments duts a terme han confirmat que l'ús de noves FIB creades expressament per a aquesta tasca en millora el rendiment dramàticament, especialment quan es tracta de llengües amb pocs recursos. Un dels elements clau d'aquesta tesi doctoral és que defineix, per primera vegada, una estratègia per a l'EQ que utilitza les mateixes fonts d'informació tant per a la TAO basada en MT com per a la TA. Açò significa que aquestes estratègies podrien ser integrades en un sistema de TAO que implemente totes dues tecnologies de traducció per a estimar la qualitat dels suggeriments de traducció provinents d'ambdues fonts en paral·lel i mitjançant les mateixes FIB. Així, els traductors podrien gaudir del suport d'aquestes tècniques sense haver de crear models específics per a cadascuna d'elles. Fins i tot seria possible integrar l'eina Bitextor en aquest entorn de TAO per proporcionar suport a aquells parells de llengües per als quals l'usuari no disposara de FIB, permetent la màxima disponibilitat de l'EQ dins d'aquest entorn.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno