Mémoires d'Actuariat
Exploitation d'images de cartes dans la modélisation de la sinistralité en assurance habitation
Auteur(s) KOUASSI Y.
Société Cardif IARD
Année 2024
Résumé
L’évaluation du risque est un sujet central pour chaque compagnie d’assurance, notamment pour la tarification et la politique de sélection des risques. L’efficacité de la stratégie commerciale et la rentabilité d’un assureur dépendent fortement de sa capacité à évaluer précisément chaque risque assuré. Cette évaluation repose sur des modèles statistiques quantifiant pour chaque variable descriptive du risque son impact sur la sinistralité prévisionnelle. Bien que les modèles linéaires généralisés restent, encore aujourd’hui, prépondérants en assurance non-vie pour réaliser cette modélisation, les dernières années ont vu l’émergence de nouveaux modèles basés sur l’apprentissage statistique pour améliorer les résultats. Cependant, la performance de ces algorithmes dépend de la disponibilité et de la qualité d’une quantité massive de données. Ainsi, la donnée apparaît comme un point stratégique central, aussi bien dans sa collecte que dans son stockage, son nettoyage et son utilisation. Toutefois, une importante part de ces données est disponible sous forme non structurée (image, audio ou vidéo), rendant leur exploitation par les algorithmes usuels de modélisation de la sinistralité impossible ou difficilement réalisable. Parmi elles, on trouve des cartes contenant des données géographiques (une carte des zones inondables en France, par exemple), mais dont la base de données d’origine n’est pas aisément accessible. L’objectif des travaux de ce mémoire est de développer un outil algorithmique capable d’extraire des variables géographiques à partir de cartes légendées au format image. Ces variables pourront ensuite être exploitées pour enrichir la modélisation des risques. Après son développement, cet outil a notamment été mis à contribution dans le cadre de l’évaluation du risque de sécheresse et a permis la création d’un zonier simplifié. Mots clefs : Traitement d’images, Apprentissage statistique, GLM, Assurance habitation, Sinistres, Zonier.
Abstract
Risk assessment is a central issue for every insurance company, particularly when it comes to pricing and risk selection policies. The effectiveness of an insurer’s commercial strategy and profitability depend heavily on its ability to accurately assess each insured risk. This assessment is based on statistical models that quantify the impact of each risk descriptor on forecast claims experience. Although generalised linear models still dominate non-life insurance modelling, recent years have seen the emergence of new models based on statistical learning to improve results. However, the performance of these algorithms depends on the availability and quality of a massive quantity of data. As a result, data is a key strategic issue, not only in terms of its collection, but also its storage, cleaning and use. However, a large proportion of this data is available in unstructured form (image, audio or video), making it impossible or difficult to use with the usual loss modelling algorithms. These include maps containing geographical data (a map of flood zones in France, for example), but for which the original database is not easily accessible. The aim of this work is to develop an algorithmic tool capable of extracting geographical variables from maps with captions in image format. These variables can then be used to enhance risk modelling. Once it had been developed, the tool was used to assess the risk of drought and was used to create a simplified zoning system. Keywords: Image processing, Statistical learning, GLM, Home insurance, Claims, Zoning system.
Mémoire complet

Auteur(s) KOUASSI Y.
Société Cardif IARD
Année 2024
Résumé
L’évaluation du risque est un sujet central pour chaque compagnie d’assurance, notamment pour la tarification et la politique de sélection des risques. L’efficacité de la stratégie commerciale et la rentabilité d’un assureur dépendent fortement de sa capacité à évaluer précisément chaque risque assuré. Cette évaluation repose sur des modèles statistiques quantifiant pour chaque variable descriptive du risque son impact sur la sinistralité prévisionnelle. Bien que les modèles linéaires généralisés restent, encore aujourd’hui, prépondérants en assurance non-vie pour réaliser cette modélisation, les dernières années ont vu l’émergence de nouveaux modèles basés sur l’apprentissage statistique pour améliorer les résultats. Cependant, la performance de ces algorithmes dépend de la disponibilité et de la qualité d’une quantité massive de données. Ainsi, la donnée apparaît comme un point stratégique central, aussi bien dans sa collecte que dans son stockage, son nettoyage et son utilisation. Toutefois, une importante part de ces données est disponible sous forme non structurée (image, audio ou vidéo), rendant leur exploitation par les algorithmes usuels de modélisation de la sinistralité impossible ou difficilement réalisable. Parmi elles, on trouve des cartes contenant des données géographiques (une carte des zones inondables en France, par exemple), mais dont la base de données d’origine n’est pas aisément accessible. L’objectif des travaux de ce mémoire est de développer un outil algorithmique capable d’extraire des variables géographiques à partir de cartes légendées au format image. Ces variables pourront ensuite être exploitées pour enrichir la modélisation des risques. Après son développement, cet outil a notamment été mis à contribution dans le cadre de l’évaluation du risque de sécheresse et a permis la création d’un zonier simplifié. Mots clefs : Traitement d’images, Apprentissage statistique, GLM, Assurance habitation, Sinistres, Zonier.
Abstract
Risk assessment is a central issue for every insurance company, particularly when it comes to pricing and risk selection policies. The effectiveness of an insurer’s commercial strategy and profitability depend heavily on its ability to accurately assess each insured risk. This assessment is based on statistical models that quantify the impact of each risk descriptor on forecast claims experience. Although generalised linear models still dominate non-life insurance modelling, recent years have seen the emergence of new models based on statistical learning to improve results. However, the performance of these algorithms depends on the availability and quality of a massive quantity of data. As a result, data is a key strategic issue, not only in terms of its collection, but also its storage, cleaning and use. However, a large proportion of this data is available in unstructured form (image, audio or video), making it impossible or difficult to use with the usual loss modelling algorithms. These include maps containing geographical data (a map of flood zones in France, for example), but for which the original database is not easily accessible. The aim of this work is to develop an algorithmic tool capable of extracting geographical variables from maps with captions in image format. These variables can then be used to enhance risk modelling. Once it had been developed, the tool was used to assess the risk of drought and was used to create a simplified zoning system. Keywords: Image processing, Statistical learning, GLM, Home insurance, Claims, Zoning system.
Mémoire complet
