Ir al contenido

Documat


Deep attentive time series modelling for quantitative finance

  • Autores: Fernando Moreno Pino
  • Directores de la Tesis: Antonio Artés Rodríguez (dir. tes.) Árbol académico, Pablo Martínez Olmos (codir. tes.) Árbol académico
  • Lectura: En la Universidad Carlos III de Madrid ( España ) en 2023
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Juan José Murillo Fuentes (presid.) Árbol académico, Emilio Parrado Hernández (secret.) Árbol académico, Manuel Gómez Rodríguez (voc.) Árbol académico
  • Enlaces
  • Resumen
    • Esta tesis realiza un detallado análisis de dos áreas de estudio diferentes. En primer lugar, presentamos contribuciones técnicas para mejorar el rendimiento de los métodos de aprendizaje automático para modelado y predicción de series temporales. Para ello, proponemos una nueva metodología que combina, a través de mecanismos de atención, los modelos de aprendizaje profundo con técnicas de filtrado espectral propias del ámbito del procesado de señal. En segundo lugar, introducimos dos metodologías novedosas para resolver problemas relevantes al área de las finanzas cuantitativas y el trading algorítmico de alta frecuencia: la predicción de volatilidad de los mercados financieros, y el análisis de supervivencia para la estimación de la probabilidad de ejecución subyacente a las órdenes limitadas que aparecen en el libro de órdenes.

      El modelado y predicción de series temporales, que consiste en analizar los patrones intrínsecos a diferentes señales para predecir el desarrollo futuro de las mismas, es un problema persistente con amplias implicaciones en áreas científicas, comerciales, industriales y económicas, desempeñando por tanto un papel fundamental en el día a día. Numerosos y diversos campos se benefician de esta disciplina, como el pronóstico del clima, predicción del consumo y demanda de energía, o diversos tipos de pronósticos financieros.

      Las primeras aproximaciones realizadas con el objetivo de resolver el problema de la predicción de series temporales dependían de modelos estadísticos. Entre dichos modelos debemos destacar la familia de modelos conocidos como modelos autorregresivos de media móvil, ``AutoRegressive Moving Average'' (ARMA). Este tipo de modelos, introducidos a finales del siglo XX, son una combinación de los modelos autorregresivos (``AutoRegressive'' (AR), en inglés), y los modelos de media móvil (``Moving Average'' (MA)). Los modelos autoregresivos modelan el valor actual de la serie temporal como una función lineal dependiente de las observaciones pasadas. Por otro lado, los modelos de media móvil representan el valor actual se la secuencia como una función lineal dependiente de los errores del pasado. Los modelos ARMA pueden ser expandidos al conocido como modelo autorregresivo integrado de media móvil, ``Auto Regressive Integrated Moving Average'' (ARIMA). Este modelo, que se ha convertido en una de las soluciones más populares en las últimas décadas para predicción de series temporales, incluye un componente de integración con el que los modelos ARMA no cuentan, lo que le permita hacer una transformación sobre los datos de entradas que los convierte en estacionarios mediante diferenciación. Al igual que ARMA, ARIMA produce sus predicciones como una suma ponderada de las observaciones pasadas, lo que hace al modelo vulnerable a la acumulación de errores, un problema común a la mayoría de las arquitecturas autorregresivas.

      Los métodos de ``exponential smoothing'', o suavizado exponencial en castellano, son otra popular técnica para el modelado de series temporales. Este tipo de modelos implica la actualización de la predicción para el siguiente instante temporal basándose en el cálculo de una media ponderada de las observaciones pasadas. En esta media ponderada, los pesos empleados para contabilizar la importancia de cada una de las observaciones del pasado decaen de manera exponencial con el tiempo, de ahí su nombre. El factor de decaimiento se controla con el conocido como factor de suavizado.

      A las técnicas clásicas para predicción de secuencias temporales ya enumeradas deberíamos añadir los modelos de espacio de estado, ``State Space Models'' (SSM). Este tipo de modelos, más recientes que los mencionados anteriormente, representan una metodología estadística ampliamente utilizada para la predicción de series temporales no estacionarias. Para realizar las predicciones, utilizan un componente latente para el modelado de las observaciones, lo que permite capturar más fácilmente las dinámicas internas.

      La adopción de los métodos enumerados previamente estableció los cimientos para la posterior creación de numerosas técnicas de modelado y predicción de series temporales, y gran parte de estos métodos continúan siendo ampliamente usados en la actualidad.

      En cualquier caso, todas estas técnicas clásicas comparten varias debilidades. En primer lugar, suelen realizar suposiciones de linealidad en los datos lo que, junto a su falta de escalabilidad, las hace inapropiadas para tareas de predicción a gran escala. En segundo lugar, la inclusión de información a priori sobre las series temporales a modelar requiere de intervención manual para alcanzar resultados satisfactorios. Por último, este tipo de modelos clásicos no suele compartir un set global de parámetros entre las diferentes series, lo que suele conllevar una mala generalización y un rendimiento pobre.

      La creciente disponibilidad de datos ha hecho que las técnicas basadas en aprendizaje automático se estén imponiendo, no sólo en el área del pronóstico de series temporales, sino en prácticamente cualquier disciplina que incluya un componente predictivo. Como resultado, las redes neuronales profundas, conocidas en inglés como ``Deep Neural Networks'' (DNN), se han alzado como la principal solución alternativa el problema del modelado de series temporales. Este tipo de modelos son capaces de modelar relaciones no lineales, identificar fácilmente estructuras complejas anidadas en las secuencias, extraer de forma eficiente características comunes, y permiten un aprendizaje basado en los datos disponibles que no requiere de supervisión humana. Entre las arquitecturas de aprendizaje profundo, varios modelos destacan en la actualidad por el amplio éxito de su aplicación en problemas de modelado temporal. Entre dichos modelos podemos destacar las redes neuronales recurrentes, ``Recurrent Neural Networks'' (RNN), y las redes ``Long Short-Term Memory'' (LSTM). Más recientemente, estas metodologías recurrentes han empleado los conocidos como modelos de atención para seleccionar de forma selectiva ciertas partes de las secuencias originales para realizar la predicción, diezmando la importancia del resto. En el caso de la traducción automática, por ejemplo, sólo ciertas palabras de la oración en el idioma original son relevantes para traducir otras palabras. Los modelos de atención ejecutan este proceso mediante el uso de un sesgo inductivo que conecta los datos a predecir con las predicciones mediante conexiones ponderadas en base al resto de la señal. La idea de los modelos de atención ha dado lugar a uno de los modelos más populares en la actualidad, los conocidos como ``Transformers'', que se han convertido en el modelo que lidera el estado del arte en numerosas disciplinas que implican el modelado y predicción de series temporales. Estos modelos fueron originalmente para el problema del procesamiento de lenguaje natural, conocido por sus siglas en inglés como ``Natural Language Processing'' (NLP), pero su uso ha sido extendido a numerosas disciplinas científicas.

      A pesar de todos estos avances en el campo del aprendizaje automático para modelado y predicción, en la actualidad existe una clara falta de integración entre el campo del análisis de series temporales y el aprendizaje basado en redes neuronales profundas. La combinación de ambas disciplinas tiene el potencial de mejorar la precisión de las predicciones que estos modelos realizan. La primera de las contribuciones de esta tesis doctoral está encaminada a cerrar esta brecha. Para ello, formulamos una novedosa metodología para la predicción probabilística de series temporales que introduce el uso de modelos de aprendizaje profundo basados en el dominio de la frecuencia, con la transformada de Fourier desempeñando un papel fundamental. El modelo propuesto fusiona, a través del uso de mecanismos de atención, técnicas clásicas de filtrado espectral, pertenecientes al campo del procesado de señal, con modelos de aprendizaje automático.

      Esta tesis demuestra de manera empírica que los modelos de aprendizaje profundo basados en el dominio espectral pueden aprender de forma más eficiente las propiedades de las series temporales a predecir. De esta manera, logran mejorar la precisión de las predicciones a la vez que solventan muchos de los problemas que lastran el rendimiento de los modelos autorregresivos. A pesar de las numerosas ventajas que la utilización de modelos de aprendizaje profundo para modelado temporal conlleva, como la escalabilidad o la mejora de la precisión en las predicciones de estos métodos, este tipo de modelos están normalmente limitados por ciertas restricciones que coartan su usabilidad. Algunas de estas limitaciones son:

      - Gran dependencia del pasado reciente de la serie temporal para realizar las predicciones futuras. Esto lleva a los modelos a ignorar importante información global, es decir, compartida entre las diferentes secuencias a modelar, que no está presente en dichas observaciones recientes.

      - Considerable potencial para la acumulación y propagación de errores. Al igual que indicamos que sucede para los métodos tradicionales, los modelos de aprendizaje automático autorregresivos corren el riesgo de propagar los errores en las predicciones cuando éstas son usadas como punto de partida para predicciones futuras.

      - Falta de interpretabilidad, lo que hace difícil dilucidar los motivos detrás de las predicciones realizadas por el modelo.

      Proponemos un nuevo modelo, llamado ``Spectral Attention Autoregressive Model'' (SAAM) (Modelo Autorregresivo con Atención Espectral), que mitiga estos problemas combinando modelos autorregresivos basados en aprendizaje profundo con un módulo de Atención Espectral. Dicho módulo contiene a su vez dos modelos de atención que operan sobre la representación en el dominio de Fourier del ``embedding'' obtenido a partir de la serie temporal a predecir. Cada uno de dichos modelos de atención se encarga del modelado de diferentes horizontes temporales, uno de ellos es local a la serie temporal a predecir en un instante dado, mientras que el otro es global a todas las series temporales a modelar.

      Usando técnicas de filtrado espectral, y a través del modelo de atención espectral local, SAAM diferencia entre los componentes del espectro que deben ser considerados ruido, y por consiguiente deben ser filtrados, y aquellas partes del espectro que definen la señal. Además, SAAM identifica los patrones globales comunes a diferentes series temporales que son relevantes, y deben ser por tanto incorporados en las predicciones. El modelo de atención espectral global se encarga de esta segunda tarea. Para ello realiza una caracterización en el dominio de la frecuencia de la representación latente de las series temporales. Tratando dicha representación latente de las secuencias como ocurrencias de un proceso aleatorio, nuestro método puede identificar dichos patrones globales a todas las secuencias.

      Mediante una exhaustiva evaluación empírica, demostramos que nuestro modelo de Atención Espectral puede ser integrado en diversos modelos autorregresivos que forman parte del estado del arte actual, mejorando de forma consistente los resultados obtenidos. Para ello, presentamos una arquitectura base que caracteriza a la mayoría de los modelos autorregresivos basados en aprendizaje profundo de la literatura. Esta arquitectura base está formada por dos componentes principales:

      - Una función de ``embedding'' que se encarga de obtener una representación latente de las series temporales originales, proyectando dichas secuencias a un nuevo espacio con una nueva dimensionalidad.

      - Un modelo probabilístico que utiliza la representación latente obtenida anteriormente para parametrizar la distribución de probabilidad deseada.

      La principal ventaja de la metodología propuesta de Atención Espectral es que es aplicable a cualquier tipo de modelo de la literatura que se pueda caracterizar por estos dos componentes. El módulo de Atención Espectral se puede incorporar a estos otros modelos como un ``add-on'' que toma la representación latente propia del modelo, la transforma al dominio frecuencial donde elimina ruido e introduce información global valiosa, y devuelve al modelo probabilístico una nueva representación que, como hemos demostrado empíricamente en la tesis, mejorará en la mayoría de los casos la precisión de sus predicciones.

      Tras analizar el uso de los modelos de aprendizaje profundo basados en el dominio espectral, esta tesis pasa a analizar la aplicación de las técnicas de aprendizaje automático a un contexto más práctico, específicamente, al campo de las finanzas cuantitativas.

      El campo de las finanzas ha experimentado una transformación substancial en las últimas décadas. Este área presenta numerosos desafíos en lo relativo a la inclusión de técnicas de aprendizaje automático. La transición desde el trading tradicional dependiente de los corredores de bolsa hacia el trading electrónico actual aumentó considerablemente la liquidez de los mercados, lo que a su vez derivó en la aparición del trading sistemático. Entre los métodos de trading financiero actuales, el trading algorítmico es el que mayor crecimiento ha tenido en los últimos, aglomerando aproximadamente el 73\% del volumen de trading de los mercados de renta variable americanos en la actualidad.

      Mientras que los métodos econométricos clásicos han establecido normalmente la suposición de que las series temporales financieras pueden ser modeladas por procesos paramétricos estocásticos, el comportamiento de las acciones financieras está claramente caracterizado por un alto grado de no-linealidad, rompiendo dichas suposiciones. En este escenario tan complejo, las redes neuronales emergen como una metodología capaz de modelar estas relaciones no-lineales de alta dimensionalidad exhibidas por los datos. Por lo tanto, las redes de aprendizaje profundo son un excelente candidato para modelar series temporales financieras, ya que pueden aproximar cualquier función continua, como los teoremas de aproximación universal manifiestan.

      En segundo lugar, desarrollamos varias soluciones basadas en aprendizaje profundo para el modelado de datos financieros intradía, aprovechando la cada vez mayor disponibilidad de los mismos. Los métodos de aprendizaje automático poseen el potencial para mejorar los resultados obtenidos por las metodologías clásicas que los profesionales del ámbito de las finanzas cuantitativas acostumbran a utilizar. %La capacidad de extracción de características de las redes neuronales es la principal responsable de ésto, pues pueden aprovechar la creciente accesibilidad a los datos financieros de alta frecuencia. La capacidad de extracción de características de las redes neuronales, que pueden aprovechar la creciente accesibilidad a los datos financieros de alta frecuencia, y el uso de los mecanismos de atención para el modelado temporal, son los principales responsables de ésto.

      Por lo tanto, la segunda de las contribuciones de esta tesis se centra en el uso de redes neuronales profundas en este desafiante ámbito. Mediante una exhaustiva evaluación empírica, demostramos los beneficios que los modelos de aprendizaje automático pueden aportar en dos problemas propios de las finanzas cuantitativas. Diversos experimentos demuestran cómo este tipo de modelos pueden mejorar los resultados obtenidos por los modelos paramétricos clásicos empleados normalmente en este campo, proporcionando por lo tanto soluciones innovadoras para diversos problemas recurrentes dentro del trading algorítmico de alta frecuencia.

      Más específicamente, en esta tesis abordamos dos problemas con gran relevancia en este área. El primero de ellos es la predicción de volatilidad en mercados financieros. La estimación de volatilidad desempeña un papel central entre las medidas de riesgo utilizadas en los mercados de renta variable. En este trabajo demostramos que las redes neuronales basadas en Convolucionales Causales Dilatadas, ``Dilated Causal Convolutions'' (DCC), ofrecen ganancias significativas en comparación con los modelos paramétricos desarrollados única y exclusivamente para predicción de volatilidad. El modelo propuesto, llamado DeepVol, prueba que el uso de modelos de aprendizaje profundo puede evitar las numerosas limitaciones propias de los métodos clásicos, logrando aprovechar la abundancia de datos de alta frecuencia para aprender las funciones deseadas. DeepVol supera a todos los modelos de referencia usados como comparativa, a la vez que exhibe robustez en períodos que contienen shocks de volatilidad, demostrando su capacidad para extraer características universales comunes a diferentes instrumentos financieros. Los resultados obtenidos en esta parte de la tesis nos llevan a concluir que los modelos de aprendizaje automático deben considerarse cuidadosamente en el contexto de predicción de volatilidad, pudiendo ser especialmente relevantes en la valoración de derivados financieros, gestión del riesgo, y creación de carteras de inversión.

      A continuación, y para finalizar esta tesis, presentamos un modelo de análisis de supervivencia para estimar la distribución de probabilidad de ejecución subyacente a órdenes limitadas publicadas en el conocido como ``Limit Order Book'' (LOB) (Libro de Órdenes Limitadas). El modelo propuesto, que no necesita partir de suposiciones sobre los procesos estocásticos subyacentes, emplea una arquitectura codificador/decodificador que utiliza un ``Transformer'' convolutional para codificar la información del libro de órdenes y una red monotónica que decodifica la función de supervivencia a estimar. Este modelo, basado en aprendizaje profundo, relaciona por tanto las características del libro, variables en el tiempo, con la distribución de tiempos de ejecución.

      Nuestro modelo otorga a los profesionales del trading cuantitativo la capacidad de tomar decisiones informadas entre las órdenes de mercado y las órdenes limitadas, lo que en la práctica implica encontrar el equilibro entre una ejecución inmediata y una prima en el precio. Para evaluar el rendimiento de la metodología propuesta, ofrecemos una comparación exhaustiva de las funciones de supervivencia resultantes de diferentes estrategias de colocación de órdenes. Esta evaluación empírica revela un rendimiento superior por parte de la nuestra arquitectura en comparación con el estado del arte actual. El empleo del modelo propuesto en esta tesis conduce por tanto a predicciones más exactas con un valor económico añadido.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno