Mémoires d'Actuariat
Enrichissement des données et modélisation fine du coût des sinistres dégâts des eaux habitation par le biais des rapports d'expertise
Auteur(s) SAME O.
Société Generali IARD
Année 2023
Confidentiel jusqu'au 14/06/2025
Résumé
La garantie dégât des eaux chez Generali se présente actuellement comme étant la plus sinistrée de la branche multirisque habitation. La dégradation observée ces dernières années sur cette garantie est principalement portée par les sinistres expertisés qui occupent de plus en plus un poids prépondérant au niveau de la charge sinistre. La spécificité de ces travaux a ainsi consisté à mettre à disposition une base structurée détaillant poste par poste les montants indemnisés alors qu’initialement la seule information connue était le charge totale. Ce découpage de la sinistralité a ensuite permis de proposer une segmentation plus fine dans l’explication du coût en dégât des eaux. Dans un premier temps, l’objectif de ce mémoire sera de permettre à Generali d’enrichir ses données en dommage aux biens et d’alimenter ses bases. Ce qui a permis par la suite d’atteindre une granularité très fine et d’exploiter des données jusque-là peu utilisées. L’obtention de la base de données est passée tout d’abord par la création d’un outil automatisant l’extraction des informations contenues dans les rapports. Cet algorithme permet aujourd’hui à l’entreprise d’industrialiser la construction d’une base structurée décomposant poste par poste le coût des dommages réglés selon le type de poste : Embellissement, Immobilier, Mobilier et Autres. Un travail important a également dû être effectué sur la qualité des données d’expertise afin d’aboutir à leur fiabilisation grâce à un processus que nous détaillerons dans le corps de ce mémoire. Une fois les étapes d’enrichissement, de nettoyage et de mise en cohérence de la base finalisée, nous proposons dans la seconde partie de ces travaux une approche de modélisation fine des sinistres dégât des eaux, en évaluant désormais le coût moyen des dommages poste par poste. La modélisation se fera dans un premier temps à l’aide du modèle linéaire généralisé correspondant à l’approche actuarielle « traditionnelle » qui sera par la suite challengée par un modèle d’apprentissage avancé, le Random Forest.
Abstract
Generali's water damage cover is currently the most claims-ridden in the comprehensive home insurance sector. The deterioration observed in recent years is mainly due to appraised claims, which increasingly account for the lion's share of the claims burden. The specificity of this work therefore consisted in providing a structured database detailing the amounts compensated item by item, whereas initially the only information known was the total cost. This breakdown of the claims experience then enabled us to propose a finer segmentation in the explanation of the cost of water damage. Initially, the aim of this thesis was to enable Generali to enrich its property damage data and feed its databases. This subsequently enabled the company to achieve very fine granularity, and to exploit data that had previously been little used. The first step in obtaining the database was to create a tool to automate the extraction of the information contained in the reports. Today, this algorithm enables the company to industrialize the construction of a structured database, breaking down the cost of settled damage item by item, according to the type of item: Embellishment, Property, Furniture and Other. A great deal of work also had to be carried out on the quality of the appraisal data in order to ensure their reliability, thanks to a process that we will detail in the body of this report. Once the database enrichment, cleaning and consistency stages have been finalized, we propose in the second part of this work a fine-tuned modeling approach to water damage claims, by assessing the average cost of damage item by item. The modeling will initially be carried out using the generalized linear model corresponding to the "traditional" actuarial approach, which will then be challenged by an advanced learning model, the Random Forest.
Auteur(s) SAME O.
Société Generali IARD
Année 2023
Confidentiel jusqu'au 14/06/2025
Résumé
La garantie dégât des eaux chez Generali se présente actuellement comme étant la plus sinistrée de la branche multirisque habitation. La dégradation observée ces dernières années sur cette garantie est principalement portée par les sinistres expertisés qui occupent de plus en plus un poids prépondérant au niveau de la charge sinistre. La spécificité de ces travaux a ainsi consisté à mettre à disposition une base structurée détaillant poste par poste les montants indemnisés alors qu’initialement la seule information connue était le charge totale. Ce découpage de la sinistralité a ensuite permis de proposer une segmentation plus fine dans l’explication du coût en dégât des eaux. Dans un premier temps, l’objectif de ce mémoire sera de permettre à Generali d’enrichir ses données en dommage aux biens et d’alimenter ses bases. Ce qui a permis par la suite d’atteindre une granularité très fine et d’exploiter des données jusque-là peu utilisées. L’obtention de la base de données est passée tout d’abord par la création d’un outil automatisant l’extraction des informations contenues dans les rapports. Cet algorithme permet aujourd’hui à l’entreprise d’industrialiser la construction d’une base structurée décomposant poste par poste le coût des dommages réglés selon le type de poste : Embellissement, Immobilier, Mobilier et Autres. Un travail important a également dû être effectué sur la qualité des données d’expertise afin d’aboutir à leur fiabilisation grâce à un processus que nous détaillerons dans le corps de ce mémoire. Une fois les étapes d’enrichissement, de nettoyage et de mise en cohérence de la base finalisée, nous proposons dans la seconde partie de ces travaux une approche de modélisation fine des sinistres dégât des eaux, en évaluant désormais le coût moyen des dommages poste par poste. La modélisation se fera dans un premier temps à l’aide du modèle linéaire généralisé correspondant à l’approche actuarielle « traditionnelle » qui sera par la suite challengée par un modèle d’apprentissage avancé, le Random Forest.
Abstract
Generali's water damage cover is currently the most claims-ridden in the comprehensive home insurance sector. The deterioration observed in recent years is mainly due to appraised claims, which increasingly account for the lion's share of the claims burden. The specificity of this work therefore consisted in providing a structured database detailing the amounts compensated item by item, whereas initially the only information known was the total cost. This breakdown of the claims experience then enabled us to propose a finer segmentation in the explanation of the cost of water damage. Initially, the aim of this thesis was to enable Generali to enrich its property damage data and feed its databases. This subsequently enabled the company to achieve very fine granularity, and to exploit data that had previously been little used. The first step in obtaining the database was to create a tool to automate the extraction of the information contained in the reports. Today, this algorithm enables the company to industrialize the construction of a structured database, breaking down the cost of settled damage item by item, according to the type of item: Embellishment, Property, Furniture and Other. A great deal of work also had to be carried out on the quality of the appraisal data in order to ensure their reliability, thanks to a process that we will detail in the body of this report. Once the database enrichment, cleaning and consistency stages have been finalized, we propose in the second part of this work a fine-tuned modeling approach to water damage claims, by assessing the average cost of damage item by item. The modeling will initially be carried out using the generalized linear model corresponding to the "traditional" actuarial approach, which will then be challenged by an advanced learning model, the Random Forest.