Measuring language distance for historical texts in Basque

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133236
Información del item - Informació de l'item - Item information
Título: Measuring language distance for historical texts in Basque
Título alternativo: Cálculo de distancia lingüística para textos históricos en euskera
Autor/es: Estarrona Ibarloza, Ainara | Etxeberria Uztarroz, Izaskun | Padilla, Manuel | Soraluze, Ander
Palabras clave: Language distance | Dialectology | Historical texts | Perplexity | Distancia lingüística | Dialectología | Textos históricos
Fecha de publicación: mar-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2023, 70: 53-61. https://doi.org/10.26342/2023-70-4
Resumen: Measuring distance between languages, dialects and language varieties, both synchronically and diachronically, is a topic of growing interest in NLP. Based on our Syntactically Annotated Historical COrpus in BAsque (SAHCOBA) and previous work in perplexity-based language distance proposed by Gamallo, Pichel and Alegria (2017, 2020), we have compared historical corpora with current texts in the standard variety and calculated the language distances between them. As the standard Basque is based on the central dialects, the starting hypothesis is that the oldest texts and the dialects on the extremes will be the most distant. The results obtained have largely confirmed the thesis of traditional dialectology: peripheral dialects show a strong idiosyncrasy and are more distant from the rest. | Medir la distancia entre diferentes lenguas, dialectos o variantes de lengua, tanto sincrónica como diacrónicamente, es un área de interés creciente dentro del PLN. Basándonos en el corpus histórico sintácticamente anotado del euskera (SAHCOBA), y en el trabajo previo realizado por Gamallo, Pichel y Alegría (2017, 2020) en relación con la distancia entre lenguas basada en perplejidad, hemos comparado textos históricos en euskera con textos actuales y hemos calculado la distancia entre ellos. Dado que el euskera estándar se basa en los dialectos centrales, la hipótesis inicial es que los textos más antiguos, así como los textos de los dialectos periféricos serán los más distantes. Los resultados obtenidos confirman de forma contundente las tesis propuestas por la dialectología tradicional: los dialectos periféricos muestran una fuerte idiosincrasia y su distancia respecto al estándar es mayor que la del resto de dialectos.
Patrocinador/es: This research has been partially supported by the Agence nationale de la recherche of France (ANR-17-CE27-572 0011-BIM); the Ministry of Science, Innovation, and Universities of Spain (RTI2018-098082-J-I00); and the Basque Government (IT1570-22).
URI: http://hdl.handle.net/10045/133236
ISSN: 1135-5948
DOI: 10.26342/2023-70-4
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2023-70-4
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_70_04.pdf1,8 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons