Ir al contenido

Documat


Bitextor, un cosechador automático de memorias de traducción a partir de sitios web multilingües

  • Autores: Miquel Esplà Gomis
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 43, 2009, págs. 365-366
  • Idioma: español
  • Títulos paralelos:
    • Bitextor, an automatic bitext harvester from multilingual web sites
  • Enlaces
  • Resumen
    • español

      Bitextor es una aplicación que tiene por objetivo la generación de memorias de traducción utilizando sitios web multilingües como fuente de corpus. La aplicación descarga y preprocesa todos los ficheros HTML de un sitio web. Después aplica una serie de heurísticas (principalmente basadas en la estructura de etiquetas HTML y la longitud de los bloques de texto) mediante las cuales es capaz de emparejar los textos paralelos y generar memorias de traducción en formato TMX mediante el uso de la librería LibTagAligner.

    • English

      Bitextor is an application whose objective is to generate translation memories using multilingual websites as a corpus source. It downloads and preprocesses all the HTML files in a website. Later applies a set of heuristics (based mainly on HTML tag structure and text block length) to make pairs of files which are candidates to contain the same text in different languages. From these candidates, translation memories are generated in TMX format using the library LibTagAligner.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno