La evolución de la gestión de carteras: Del modelo de Markowitz al Deep Reinforcement Learning y la Optimización Bayesiana

Introducción

La gestión de carteras es un aspecto esencial en las inversiones financieras, y a lo largo del tiempo han surgido distintos modelos para optimizar la selección y distribución de activos. Uno de los enfoques clásicos en esta área es el modelo de Markowitz [1], el cual ha sido ampliamente utilizado. Sin embargo, en la actualidad, métodos más avanzados basados en inteligencia artificial, como el deep reinforcement learning [2] y la optimización bayesiana [3], están ganando terreno frente a los modelos clásicos. En este artículo, analizaremos estos enfoques y cómo están revolucionando la gestión de carteras. Pero empecemos por el principio, el modelo Markowitz.

Modelo de Markowitz

El modelo de Markowitz, también conocido como teoría de la cartera, fue desarrollado por Harry Markowitz en 1952. Este modelo busca encontrar la combinación óptima de activos en una cartera, de manera que se maximice la rentabilidad esperada \(\mathbb{E}(R)\) mientras se minimice el riesgo, estimado con la desviación típica de cada activo \(\sigma\) y sus covarianzas y correlaciones con respecto al resto de activos \(\rho_{ij}\). Con esta información, se calcula una frontera eficiente de carteras óptimas de las cuáles cada inversor selecciona una cartera en particular en función de su aversión al riesgo.

Figura interactiva 1. Frontera eficiente de carteras con respecto a cuatro activos (tres acciones del IBEX 35 y el oro, 2010-2019), según el modelo de Markowitz, y línea del mercado de capitales (CML), que marca gráficamente la relación entre rentabilidad y riesgo del conjunto de todas las carteras eficientes. (Proveedor de datos: Factset)

En términos sencillos, la idea es encontrar un equilibrio entre activos de alto riesgo y alto rendimiento, y activos de bajo riesgo y bajo rendimiento, de manera que se logre una cartera diversificada y equilibrada. Pese a la elegancia de este enfoque, su rigidez (por ejemplo asumir que la desviación típica es un estimador de la variabilidad de una variable aleatoria implica una debilidad ante situaciones del mercado con elevada volatilidad), falta de escalabilidad (problemas con la matriz de covarianzas para un gran número de activos), múltiples hipótesis acerca del mercado, carácter teórico y sus asunciones sobre el mismo impiden la aplicación efectiva de este enfoque en la práctica.

Inclusión de la inteligencia artificial en la gestión de carteras

Con el avance de la tecnología y la creciente complejidad de los mercados financieros, los modelos clásicos de gestión de carteras han comenzado a ser insuficientes para abordar todas las variables y escenarios posibles que el mercado ofrece para cada instante de tiempo. En este contexto, la inteligencia artificial (IA) se presenta como una solución prometedora para mejorar la toma de decisiones y optimizar la gestión de carteras, capaz de manejar un volumen brutal de datos y los patrones de innumerables indicadores técnicos y sus combinaciones que son capaces de explicar el riesgo y el rendimiento de una cartera. En este artículo analizamos dos familias de algoritmos de IA que se están empezando a utilizar para la gestión de carteras: el deep reinforcement learning y la optimización Bayesiana.

Ambos enfoques cuentan con la ventaja, frente a modelos tradicionales, que pueden incorporar cualquier función que represente la calidad de una cartera y que esta función es una caja negra, es decir, que puede no tener expresión analítica. Al contrario que en Markowitz, cada inversor puede incluir en su elección de cartera cualquier definición de rentabilidad, riesgo y otros criterios como ESG o preferencias personales sin necesidad de una expresión analítica. Por ejemplo, se podría incluir una puntuación que dependiera del análisis de sentimiento de los distintos elementos de la cartera en redes sociales o una simulación Monte Carlo del riesgo sistémico de distintos sectores, entre muchísimos elementos mas de forma simultánea.

Deep reinforcement learning aplicado a la gestión de carteras

El deep reinforcement learning es una familia de métodos de la IA, curiosamente aplicadas inicialmente masivamente en juegos, que combina el aprendizaje profundo (deep learning) con el aprendizaje por refuerzo. ¿Te suena Alphazero, el bot de ajedrez? Está entrenado con un algoritmo de este campo. En este enfoque, un agente inteligente aprende a tomar decisiones óptimas, la política óptima \(\pi\) en este caso de inversión según cada posible situación del mercado \(s \in \mathcal{S}\), mediante la interacción con un entorno, que sería el mercado, y la obtención de recompensas o penalizaciones \(r\), que sería por ejemplo ver como el ratio de Sharpe varía en función a cada política efectuada por el robot cuando se entrena con datos pasados. ¿Pero qué es una política \(\pi\)? Puede ser simplemente una forma de minimizar el arrepentimiento de tener un criterio específico dado un horizonte temporal, donde ese arrepentimiento \(G\) puede ser modelizado como el valor esperado de la suma de los fallos con respecto a la cartera óptima que se cometen para cada instante \(t\):

\[G = \sum_{t=0}^{\infty} \gamma^t R_{t}\]

Donde \(\gamma\) es un factor que decrece para cada instante de tiempo, de tal forma que damos mas importancia a que nuestra cartera funcione en el corto plazo con respecto al largo plazo (aunque esto puede cambiarse). En el caso de la gestión de carteras, un agente inteligente podría aprender a seleccionar y distribuir activos de manera óptima al ser expuesto a datos históricos de mercado y recibir recompensas por decisiones que maximizan la rentabilidad y minimizan el riesgo. Para cada situación del mercado, \(s\) (que podemos observar mediante indicadores técnicos de cada título o matrices de covarianzas de rendimientos), podemos asignar a cada acción \(a\) (configuración de la cartera tras órdenes de compra y venta penalizadas por las comisiones) un valor de utilidad dado por la política \(Q_{\pi}(s,a)\), que será el valor medio esperado, la esperanza, del arrepentimiento \(G\), visto antes, de aplicar la política de gestión de carteras \(\pi\) hasta un horizonte temporal determinado.

\[Q_{\pi}(s,a) = \mathbb{E}_{\pi} (G_t|s_t,a_t)\]

Una vez hecho esto, para elegir que acción \(a_t\) tomar para cada stiuación \(s \in \mathcal{S}\) simplemente tomamos la que minimice \(Q_{\pi}(s,a)\), obteniendo una nueva y enormemente personalizable forma de gestionar carteras. En la siguiente figura se ilustra brevemente el funcionamiento de un agente basado en deep reinforcement learning que maximiza una función cualquiera de inversión de una cartera.

Figura 2. Esquema que ilustra los flujos de información en un problema de Deep Reinforcement Learning. En este contexto, el entorno (environment) es el mercado y el agente (Agent) es el robot gestor de carteras. Mediante Deep Reinforcement Learning, el agente aprende la política óptima \(\pi\) (parametrizada con una red neuronal profunda (DNN)) que, para cada estado observado del mercado (\(s\)), toma la acción (\(a\)) que maximiza la calidad de la cartera (reward \(r\)).

Optimización bayesiana en la gestión de carteras

La optimización bayesiana es un enfoque de la IA que utiliza un modelo probabilistico del espacio de todas las posibles carteras, en este caso, para encontrar la combinación óptima de pesos de la cartera en función a un objetivo del que solo se sabe la salida, como puede ser un ratio de Sharpe combinado con criterios ESG [4].  Esta es la principal bondad de la optimización Bayesiana, que la función objetivo es una caja negra, no necesitamos saber nada de ella mas que las entradas y las salidas. Otra característica es que la función puede ser ruidosa ya que, para cada cartera, no se modela un valor sino una distribución de probabilidad del valor. Por último, amplia evidencia demuestra que la optimización Bayesiana es el estado del arte en la optimización de cajas negras cuando solo podemos evaluar un número muy reducido de veces, siendo un enfoque útil para ir recomendando carteras y no sufrir con costes de transacciones. La clave es que la optimización Bayesiana cuenta con una distribución predictiva, que puede ser por ejemplo una distribución normal multivariante \(\mathcal{N}(\mu, \Sigma)\), de cualquier posible cartera, ya que modela este espacio con un modelo probabilístico. En concreto, este modelo probabilístico puede ser, por ejemplo, un proceso Gaussiano o una red neuronal Bayesiana. La siguiente figura ilustra el funcionamiento de la optimizacion Bayesiana:

Figura 3. En particular, la optimización Bayesiana es un algoritmo iterativo que, en cada iteración (\(t\)), selecciona la configuración que se considera que aporta mas información acerca del óptimo del problema (punto rojo) en base a las configuraciones evaluadas con anterioridad (punto negro). Esta recomendación se basa en la predicción del Proceso Gaussiano (en azul) acerca de la función objetivo desconocida (en negro) y es calculada maximizando una función de utilidad o adquisicón \(\alpha\) (verde) que hace un balance entre, en este caso, carteras desconocidas potencialmente buenas (nube azul ancha) y carteras que han resultado eficaces anteriormente.

En la gestión de carteras, la optimización Bayesiana puede ser utilizada de esta manera para encontrar la mejor combinación de activos \(\mathbf{w}^\star\) de todas las posibles \(\mathcal{W}\)  en función de las preferencias del inversor \(f\) y las condiciones del mercado en un momento determinado del tiempo.

\[\mathbf{w}^\star = argmax_{w \in \mathcal{W}} f(\mathbf{w})\]

Por ejemplo, la optimización Bayesiana podría utilizarse para optimizar la distribución de activos en función de una determinada estrategia de inversión, por ejemplo incluyendo criterios ESG, y los riesgos asociados a cada activo. En concreto, en cada nueva iteración se puede elegir la cartera que minimiza la entropía (el desconocimiento) acerca de la localización de la cartera óptima. La principal diferencia entre ambos enfoques es que la optimización Bayesiana cuenta con una modelización mas precisa del problema, pero mas costosa y menos escalable que el deep reinforcement learning. Obviamente, la investigación pasa ahora por combinar y generalizar ámbos métodos entre sí.

El futuro de la gestión de carteras

En conclusión, la gestión de carteras está evolucionando rápidamente, y la inclusión de la inteligencia artificial en los modelos clásicos está cambiando la forma en que los inversores abordan la selección y distribución de activos. En el futuro, es probable que veamos una mayor adopción de enfoques basados en deep reinforcement learning y optimización bayesiana, lo que permitirá una toma de decisiones más precisa, rápida y adaptativa en un entorno financiero cada vez más complejo. Sin embargo, aunque la IA puede mejorar significativamente la gestión de carteras, es importante recordar que aún es necesario contar con una gestión humana que pueda supervisar y ajustar los modelos en función de las necesidades específicas del inversor.

Referencias

  • [1] Markowitz, H. M. (1989). Mean-variance analysis. Finance, 194-198.
  • [2] François-Lavet, V., Henderson, P., Islam, R., Bellemare, M. G., & Pineau, J. (2018). An introduction to deep reinforcement learning. Foundations and Trends® in Machine Learning, 11(3-4), 219-354.
  • [3] Garrido Merchán, E. C. (2021). Advanced methods for Bayesian optimization in complex scenarios.
  • [4] Garrido-Merchán, E. C., Piris, G. G., & Vaca, M. C. (2023). Bayesian Optimization of ESG Financial Investments. arXiv preprint arXiv:2303.01485.