Mémoires d'Actuariat

Allocation stratégique d'actifs : une approche par reinforcement learning pour l’ALM
Auteur(s) BLANCHETON L.
Société Optimind
Année 2024

Résumé
Dans un contexte économique au 31/12/2022 marqué par des taux d'intérêt élevés, les assureurs historiques font face à l'inertie de leur poche obligataire, ce qui les met en difficulté pour proposer des taux de valorisation de fonds euros alignés sur les taux de marché actuels. Cette étude vise à proposer une solution alternative à la stratégie d’allocation actuelle Fixed-Mix d’un assureur vie possédant à la fois des contrats euros et en unité de compte. Ce travail explore l'application du Reinforcement Learning (RL), pour optimiser la stratégie d’allocation d'actifs dans le cadre de l'Asset-Liability Management (ALM) sous Solvabilité II fournissant un outil flexible dans le pilotage de sa stratégie d’allocation d’actifs en adéquation avec ses besoins. Dans un premier temps, après avoir introduit le cadre de travail dont l’ensemble des outils nécessaires à cette étude, l’algorithme de RL retenu, le Deep Deterministic Policy Gradient (DDPG), est implémenté dans le modèle ALM. Quatre stratégies d'allocations d'actifs, élaborées à partir du DDPG, sont mises à l'épreuve, chacune visant à optimiser (maximiser ou minimiser selon leur nature) des métriques financières ou réglementaires telles que la Present Value of Future Profits (PVFP), le SCR de marché, le taux de rendement des actifs (TRA), et la richesse latente. Les stratégies sont évaluées en comparaison avec la stratégie Fixed-Mix de référence par rapport aux différentes métriques définies précédemment. L'étude inclut également une série d'analyses de sensibilité pour tester la robustesse et la flexibilité du modèle DDPG pour diverses configurations d’entrainement et de scénarios économiques. Ces analyses permettent d'examiner l'effet du nombre d'épisodes d'entraînement, des modifications apportées à la structure de récompense, et des sensibilités économiques sur la performance et la stabilité du modèle. Il s’agira, à l’issue de l’ensemble de ces tests, de retenir l’allocation candidate la plus optimale, permettant une amélioration significative des métriques ciblées tout en démontrant une capacité d'adaptation aux fluctuations des conditions économiques et réglementaires. Mots-clés : Reinforcement learning, Deep Deterministic Policy Gradient, ALM, stratégie d’allocation, Assurance-vie, Solvabilité II.

Abstract
In an economic context as of 31/12/2022 marked by high interest rates, traditional insurers face the inertia of their bond portfolio, putting them at a challenge to offer Euro fund valuation rates aligned with the current market rates. This study aims to propose an alternative solution to the current Fixed-Mix allocation strategy of a life insurer owning both euro contracts and unit-linked contracts. This work explores the application of Reinforcement Learning (RL) to optimize the asset allocation strategy within the Asset-Liability Management (ALM) framework under Solvency II, providing a flexible tool in steering the asset allocation strategy in line with its needs. Initially, after introducing the working framework and all the tools necessary for this study, the chosen RL algorithm, the Deep Deterministic Policy Gradient (DDPG), is implemented in the ALM model. Four asset allocation strategies, provided from the DDPG, are tested, each aiming to optimize (maximize or minimize depending on their nature) financial or regulatory metrics such as the Present Value of Future Profits (PVFP), market risk, yield rate, and latent wealth. The strategies are evaluated in comparison with the reference Fixed-Mix strategy against the various metrics defined previously. The study also includes a series of sensitivity analyses to test the robustness and flexibility of the DDPG model for various training setups and economic scenarios. These analyses allow examining the effect of the number of training episodes, changes made to the reward structure, and economic sensitivities on the model's performance and stability. At the end of all these tests, the most optimal candidate allocation will be retained, allowing for a significant improvement of the targeted metrics while demonstrating an adaptability to fluctuations in economic and regulatory conditions. Keywords: Reinforcement learning, Deep Deterministic Policy Gradient, ALM, asset allocation strategy, Life insurance, Solvency II.

Mémoire complet