Mémoires d'Actuariat
Modélisation de résiliation en cas de déséquilibre des classes et mesure de l’élasticité
Auteur(s) WANG Q.
Société Malakoff Humanis
Année 2023
Résumé
Dans le domaine de l’assurance santé collectif, le contexte réglementaire actuel génère une concurrence accrue entre les assureurs. La perte des clients constitue un vrai problème pour les assureurs en concurrence, parce qu’il est généralement plus coûteux d’acquérir un client que de se battre pour le garder. La maîtrise des résiliations est d’autant plus importante que celles-ci s’inscrivent dans un contexte réglementaire en évolution : la résiliation infra-annuelle a été instituée par la loi n° 2019-733 du 14 juillet 2019. Ce mémoire a deux objectifs, le premier est de prédire la résiliation d’un client sur un portefeuille donné et de trouver des éléments explicatifs de ce comportement. Le deuxième est de modéliser l’élasticité au taux d’indexation individuelle pour répondre aux problématiques d’optimisation tarifaire. Après une présentation du contexte de l’étude, je décris les principales variables de la base de données construite ainsi que le périmètre d’étude. Ensuite, je réalise une analyse statistique. Dans la première partie de modélisation, nous avons utilisé des modèles de classification binaire où l’on cherche à prédire si les clients vont résilier ou non. Les méthodes utilisées sont tirées du Machine Learning : régression logistique, l’arbre de décision, forêt aléatoire, Gradient Boosting et Machine à vecteurs de support. Les hyperparamètres sont optimisés en utilisant l’AUC tirée de la courbe ROC combinée avec un Grid Search et une validation croisée. Le meilleur modèle est choisi à l’aide des matrices de confusions, F1-score. Dans la deuxième partie de modélisation, nous mesurerons l’élasticité de résiliation au taux d’indexation en utilisant le modèle de régression logistique. Mots clés : Classes déséquilibrées, Rééchantillonnage, SMOTE, Forêts aléatoire, Régression Logistique, L’arbre de décision, Forêt aléatoire, Gradient Boosting et Machine à vecteurs de support.
Abstract
In the field of collective health insurance, the current regulatory context generates increased competition between insurers. Losing clients is a real problem for insurers in competition, as it is generally more expensive to acquire a client than to fight to keep them. The control of terminations is all the more important as they are part of an evolving regulatory context: the infra-annual termination was instituted by law n° 2019-733 of July 14, 2019. This paper has two objectives. The first is to predict the termination by a policyholder on a given portfolio and to find explanatory elements of this behavior. The second is to model the elasticity to individual indexation rates to respond to tariff optimization issues. After presenting the study context, I describe the main variables of the constructed database and the scope of the study. Then, I perform statistical analysis. In the first part of modeling, we used binary classification models where we aim to predict whether clients will terminate or not. The methods used are drawn from Machine Learning: logistic regression, decision tree, random forest, gradient boosting, and support vector machine. Hyperparameters are optimized using the AUC from the ROC curve combined with Grid Search and cross-validation. The best model is chosen using confusion matrices and F1-score. In the second of the modeling, we will measure the elasticity of termination to the indexation rate using the logistic regression model. Keywords: Imbalanced Classes, Resampling, SMOTE, Random Forests, Logistic Regression, Decision Tree, Random Forest, Gradient Boosting, and Support Vector Machine.
Mémoire complet
Auteur(s) WANG Q.
Société Malakoff Humanis
Année 2023
Résumé
Dans le domaine de l’assurance santé collectif, le contexte réglementaire actuel génère une concurrence accrue entre les assureurs. La perte des clients constitue un vrai problème pour les assureurs en concurrence, parce qu’il est généralement plus coûteux d’acquérir un client que de se battre pour le garder. La maîtrise des résiliations est d’autant plus importante que celles-ci s’inscrivent dans un contexte réglementaire en évolution : la résiliation infra-annuelle a été instituée par la loi n° 2019-733 du 14 juillet 2019. Ce mémoire a deux objectifs, le premier est de prédire la résiliation d’un client sur un portefeuille donné et de trouver des éléments explicatifs de ce comportement. Le deuxième est de modéliser l’élasticité au taux d’indexation individuelle pour répondre aux problématiques d’optimisation tarifaire. Après une présentation du contexte de l’étude, je décris les principales variables de la base de données construite ainsi que le périmètre d’étude. Ensuite, je réalise une analyse statistique. Dans la première partie de modélisation, nous avons utilisé des modèles de classification binaire où l’on cherche à prédire si les clients vont résilier ou non. Les méthodes utilisées sont tirées du Machine Learning : régression logistique, l’arbre de décision, forêt aléatoire, Gradient Boosting et Machine à vecteurs de support. Les hyperparamètres sont optimisés en utilisant l’AUC tirée de la courbe ROC combinée avec un Grid Search et une validation croisée. Le meilleur modèle est choisi à l’aide des matrices de confusions, F1-score. Dans la deuxième partie de modélisation, nous mesurerons l’élasticité de résiliation au taux d’indexation en utilisant le modèle de régression logistique. Mots clés : Classes déséquilibrées, Rééchantillonnage, SMOTE, Forêts aléatoire, Régression Logistique, L’arbre de décision, Forêt aléatoire, Gradient Boosting et Machine à vecteurs de support.
Abstract
In the field of collective health insurance, the current regulatory context generates increased competition between insurers. Losing clients is a real problem for insurers in competition, as it is generally more expensive to acquire a client than to fight to keep them. The control of terminations is all the more important as they are part of an evolving regulatory context: the infra-annual termination was instituted by law n° 2019-733 of July 14, 2019. This paper has two objectives. The first is to predict the termination by a policyholder on a given portfolio and to find explanatory elements of this behavior. The second is to model the elasticity to individual indexation rates to respond to tariff optimization issues. After presenting the study context, I describe the main variables of the constructed database and the scope of the study. Then, I perform statistical analysis. In the first part of modeling, we used binary classification models where we aim to predict whether clients will terminate or not. The methods used are drawn from Machine Learning: logistic regression, decision tree, random forest, gradient boosting, and support vector machine. Hyperparameters are optimized using the AUC from the ROC curve combined with Grid Search and cross-validation. The best model is chosen using confusion matrices and F1-score. In the second of the modeling, we will measure the elasticity of termination to the indexation rate using the logistic regression model. Keywords: Imbalanced Classes, Resampling, SMOTE, Random Forests, Logistic Regression, Decision Tree, Random Forest, Gradient Boosting, and Support Vector Machine.
Mémoire complet