There is a growing interest in text-to-speech (TTS) systems with gender-ambiguous voices, among other things due to their potential to avoid gender biases and stereotypes in voice assistants and smart speakers. In this paper we present and evaluate some novel methods that apply voice morphing techniques to speaker embeddings in order to obtain neural network-based gender-ambiguous voiced TTS systems for the Basque language. The speaker embeddings are obtained training a multi-speaker Tacotron 2. We compare the performance of systems with and without speaker embedding normalization with a scaling parameter, and also the application of these systems to the average embeddings of each gender and to real voice embeddings. The results prove that the methods presented are valid to obtain gender-ambiguous voices with acceptable, albeit improvable, quality.
Genero aldetik anbiguoa den ahotsa duten text-to-speech (TTS) sistemek gero eta interes handiagoa pizten dute; besteak beste, laguntzaile birtualetan eta bozgorailu adimendunetan genero-alborapenak eta estereotipoak saihesteko duten ahalmenagatik. Artikulu honetan, ahots-bihurketarako teknika berriak aplikatu dizkiegu ahots-bektoreei, sare neuronaletan oinarrituta dauden eta genero aldetik anbiguoak diren euskarazko TTS sistemak lortzeko. Hizlari-bektoreak hiztun anitzeko Tacotron 2-a entrenatuz lortu ditugu. Hizlari-bektoreen normalizazioa eta eskala-parametro bat erabiltzen duten eta erabiltzen ez duten sistemak konparatu ditugu, baita genero bakoitzeko batez besteko hizlari bektore eta ahots errealen hizlari bektoreen erabilera sistema horietan. Emaitzek frogatzen dute aurkeztutako metodoak baliozkoak direla genero aldetik anbiguoak diren ahotsak lortzeko eta kalitate onargarria dutela baina hobetu daitezkeela.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados