Mémoires d'Actuariat
Création d’un véhiculier en flotte automobile par l’intermédiaire des méthodes de Machine Learning
Auteur(s) CORTAIS A.
Société MMA IARD
Année 2024
Confidentiel jusqu'au 10/09/2026
Résumé
Le principe d’un véhiculier consiste à regrouper des véhicules en classes homogenèse en termes de caractéristiques et de risques. L’intérêt du véhiculier est donc d’intégrer une segmentation des véhicules ayant des profils similaires, à travers une variable de classification utilisant les données véhicules. Dans le but de tarifier nos contrats d’assurance. La création de ce véhiculier a plusieurs objectifs, tout d’abord d’optimiser la classification des véhicules en groupes similaires, cela permet ainsi d’obtenir un tarif plus juste et plus représentatif du risque associé à ces types de véhicules et ainsi éviter un phénomène d’antisélection. Cette optimisation du tarif induit une meilleure rentabilité et compétitivité, grâce à la connaissance du risque, pour pouvoir se démarquer de ses concurrents. Enfin la création d’un véhiculier avec des données récentes aide à faire coïncider la classification avec les risques émergents et donc d’obtenir une plus-value à mettre en production ce véhiculier. Ce mémoire a pour objectif de créer un véhiculier en flotte automobile en utilisant des modelés de Machine Learning. Après avoir constitué une base de données à l’aide des variables SRA et de données portefeuilles, la première étape consistera à extraire l’effet véhicule, c’est-à-dire le résidu de la prime pure modélisée n’intégrant pas de critères véhicules. Ce résidu sera modélisé par des modèles de Machine Learning (CART/Random Forest/Gradient Boosting), ces modèles seront ensuite comparés pour retenir celui obtenant les meilleurs résultats. La création du véhiculier faisant face à des contraintes, notamment informatiques, notre effet véhicule devra être retranscrit sous une formule linéaire. Il ne sera pas possible de livrer directement ces ’Black Box’. Les méthodes d’interprétabilités (PDP/ALE/Tree Surogate) interviendront alors à ce moment pour comprendre et expliquer l’effet de nos caractéristiques véhicules au sein de nos modèles. Pour finir, des méthodes de clustering (K-Means/CAH/CART) découperont notre résidu en classes pour obtenir la segmentation finale. Celle-ci sera comparée avec la segmentation actuelle pour faire les conclusions sur les écarts, la qualité́ et la mise en production du véhiculier.
Abstract
The principle of a vehicle classifier is to group vehicles into homogeneous classes in terms of characte- ristics and risks. The purpose of a vehicle classifier is to integrate a segmentation of vehicles with similar profiles, using a classification variable based on vehicle data. The aim is to price our insurance contracts. There are several reasons for creating this vehicle classifier : firstly, to optimise the classification of ve- hicles into similar groups, so as to obtain a fairer rate that is more representative of the risk associated with these types of vehicle and thus avoid the phenomenon of anti-selection. This optimisation of the rate leads to greater profitability and competitiveness, thanks to knowledge of the risk, so that it can stand out from its competitors. Lastly, the creation of a vehicle with recent data helps to bring the classifica- tion into line with emerging risks, and therefore to obtain added value from the production of this vehicle. The aim of this thesis is to create a vehicle fleet using Machine Learning models. After creating a database using SRA variables and portfolio data, the first step will be to extract the vehicle effect, i.e. the residual of the modelled pure premium that does not include vehicle criteria. This residual will be modelled using Machine Learning models (CART / Random Forest / Gradient Boosting), and these models will then be compared to select the one with the best results. The creation of the vehicle is subject to a number of constraints, particularly in terms of IT, so our vehicle effect will have to be translated into a linear formula. It will not be possible to deliver these ’Black Box’ directly. Interpretability methods (PDP/ALE/Tree Surogate) will then be used to understand and explain the effect of our vehicle characteristics within our models. Finally, clustering methods (K-Means/HAC/CART) will divide our residual into classes to obtain the final segmentation. This will then be compared with the current segmentation to draw conclusions about the gaps, the quality and the production launch of the vehicle.
Auteur(s) CORTAIS A.
Société MMA IARD
Année 2024
Confidentiel jusqu'au 10/09/2026
Résumé
Le principe d’un véhiculier consiste à regrouper des véhicules en classes homogenèse en termes de caractéristiques et de risques. L’intérêt du véhiculier est donc d’intégrer une segmentation des véhicules ayant des profils similaires, à travers une variable de classification utilisant les données véhicules. Dans le but de tarifier nos contrats d’assurance. La création de ce véhiculier a plusieurs objectifs, tout d’abord d’optimiser la classification des véhicules en groupes similaires, cela permet ainsi d’obtenir un tarif plus juste et plus représentatif du risque associé à ces types de véhicules et ainsi éviter un phénomène d’antisélection. Cette optimisation du tarif induit une meilleure rentabilité et compétitivité, grâce à la connaissance du risque, pour pouvoir se démarquer de ses concurrents. Enfin la création d’un véhiculier avec des données récentes aide à faire coïncider la classification avec les risques émergents et donc d’obtenir une plus-value à mettre en production ce véhiculier. Ce mémoire a pour objectif de créer un véhiculier en flotte automobile en utilisant des modelés de Machine Learning. Après avoir constitué une base de données à l’aide des variables SRA et de données portefeuilles, la première étape consistera à extraire l’effet véhicule, c’est-à-dire le résidu de la prime pure modélisée n’intégrant pas de critères véhicules. Ce résidu sera modélisé par des modèles de Machine Learning (CART/Random Forest/Gradient Boosting), ces modèles seront ensuite comparés pour retenir celui obtenant les meilleurs résultats. La création du véhiculier faisant face à des contraintes, notamment informatiques, notre effet véhicule devra être retranscrit sous une formule linéaire. Il ne sera pas possible de livrer directement ces ’Black Box’. Les méthodes d’interprétabilités (PDP/ALE/Tree Surogate) interviendront alors à ce moment pour comprendre et expliquer l’effet de nos caractéristiques véhicules au sein de nos modèles. Pour finir, des méthodes de clustering (K-Means/CAH/CART) découperont notre résidu en classes pour obtenir la segmentation finale. Celle-ci sera comparée avec la segmentation actuelle pour faire les conclusions sur les écarts, la qualité́ et la mise en production du véhiculier.
Abstract
The principle of a vehicle classifier is to group vehicles into homogeneous classes in terms of characte- ristics and risks. The purpose of a vehicle classifier is to integrate a segmentation of vehicles with similar profiles, using a classification variable based on vehicle data. The aim is to price our insurance contracts. There are several reasons for creating this vehicle classifier : firstly, to optimise the classification of ve- hicles into similar groups, so as to obtain a fairer rate that is more representative of the risk associated with these types of vehicle and thus avoid the phenomenon of anti-selection. This optimisation of the rate leads to greater profitability and competitiveness, thanks to knowledge of the risk, so that it can stand out from its competitors. Lastly, the creation of a vehicle with recent data helps to bring the classifica- tion into line with emerging risks, and therefore to obtain added value from the production of this vehicle. The aim of this thesis is to create a vehicle fleet using Machine Learning models. After creating a database using SRA variables and portfolio data, the first step will be to extract the vehicle effect, i.e. the residual of the modelled pure premium that does not include vehicle criteria. This residual will be modelled using Machine Learning models (CART / Random Forest / Gradient Boosting), and these models will then be compared to select the one with the best results. The creation of the vehicle is subject to a number of constraints, particularly in terms of IT, so our vehicle effect will have to be translated into a linear formula. It will not be possible to deliver these ’Black Box’ directly. Interpretability methods (PDP/ALE/Tree Surogate) will then be used to understand and explain the effect of our vehicle characteristics within our models. Finally, clustering methods (K-Means/HAC/CART) will divide our residual into classes to obtain the final segmentation. This will then be compared with the current segmentation to draw conclusions about the gaps, the quality and the production launch of the vehicle.