Mémoires d'Actuariat

Analyse des déterminants de la marge client d'un portefeuille d'assurance
Auteur(s) DE ARCE P.
Société Prim'Act
Année 2023
Confidentiel jusqu'au 30/01/2025

Résumé
Une compagnie d'assurance, proposant différents types de contrats vie et non-vie, a construit un modèle de prédiction de la marge future de son portefeuille d'assurés sur les 31 prochaines années. Ce mémoire a pour objectif de reconstituer cette marge à l'aide de différents modèles statistiques interprétables, afin d'en expliquer les déterminants et de la rendre interprétable. Dans un premier temps, on a effectué différentes modélisations en prenant en compte uniquement l'information de détention des différents contrats. Un modèle linéaire généralisé (GLM) a été appliqué : ses résultats sont facilement interprétables, et ses métriques de performances seront utilisées comme valeurs étalon dans la suite du mémoire. On a ensuite modélisé des arbres de régression (CART) afin d'améliorer les performances du modèle, tout en restant compréhensibles pour tout lecteur non initié aux statistiques. D'un point de vue métier, ces modèles sont intéressants de par leur lecture facile. Enfin, on a utilisé les modèles segmentés MOB, combinant une arborescence avec plusieurs régressions. Ces modèles performent mieux que ceux les GLM et CART, et restent facilement interprétables. On a ensuite ajouté l'information dont dispose la compagnie d'assurance sur les caractéristiques individuelles des assurés, telle que l'ancienneté dans le portefeuille, l'âge de l'assuré ou le type de véhicule possédé par exemple. Cet ajout de données améliore fortement les performances des différents modèles, mais rend leur interprétabilité plus compliquée, car de nombreuses variables rentrent en jeu. L'optimisation des modèles devra donc prendre en compte la facilité d'interprétation, afin d'éviter d'obtenir des modèles très performants mais peu compréhensibles.

Abstract
An insurance company, offering different types of life and non-life policies, has built a model to predict the future margin of its portfolio of policyholders over the 31 coming years. The objective of this thesis is to reconstruct this margin using different interpretable statistical models, in order to explain its determinants. First, different models have been performed, considering only the information about the holding of the different policies. A generalized linear model (GLM) was applied: its results are easily interpretable, and its performance metrics will be used as benchmarks in the rest of the thesis. Regression trees (CART) were then modelled in order to improve the performance of the model, while remaining understandable to any reader not familiar with statistics. From a practical point of view, these models are useful because they are easy to understand. Finally, we used the segmented models MOB, which combine a tree structure with several regressions. These models perform better than the GLM and CART models and remain easily interpretable. We then added the information available to the insurance company on the individual characteristics of the policyholders, such as the seniority in the portfolio, the policyholder's age or the type of vehicle owned for example. This addition of data significantly improves the performance of the different models, but makes their interpretability more complex, as many variables come into play. The optimization of the models must therefore consider the easiness of interpretation, in order to avoid obtaining models that are highly efficient but poorly understandable.