Mémoires d'Actuariat
Application des méthodes de NLP en assurance spatiale
Auteur(s) COCHET L.
Société SCOR SE
Année 2023
Confidentiel jusqu'au 26/09/2025
Résumé
La gestion des risques dans l'assurance spatiale est cruciale en raison de la vulnérabilité des satellites tout au long de leur cycle de vie. Les échecs au lancement et pendant l'exploitation du satellite ont de lourdes conséquences. Les opérateurs des satellites de communication s'assurent contre ces risques en souscrivant des contrats d'assurance spatiale. Chaque année, les opérateurs assurés chez Scor fournissent à l’entreprise des bilans de santé détaillant les anomalies survenues dans leur flotte de satellites en orbite. Scor enregistre ces anomalies dans une base de données interne à l’entreprise, nommée Asterisk. Cette base est utilisée régulièrement par les souscripteurs des risques spatiaux et intervient dans le processus de tarification des contrats. Le but de se mémoire est de développer un outil capable d’extraire les anomalies des bilans de santé pour automatiser le remplissage de cette base de données. Un deuxième objectif est d'utiliser l’apprentissage automatique et les méthodes de traitement du langage naturel afin de prédire la gravité des anomalies extraites, classées en pertes totales, pertes partielles, pertes de redondance ou événements sans impact. Au cours de ce mémoire, des méthodes propres au traitement du langage naturel ont été réalisées telle que la vectorisation TF IDF et Word2vec. Les modèles de random forest, gradient boosting, support vector machine et réseaux de neurones ont été entraînés et comparés.
Abstract
Risk management in space insurance is crucial due to the vulnerability of satellites throughout their lifecycle. Failures during satellite launch and operation have significant consequences. Operators of communication satellites typically mitigate these risks by subscribing to space insurance contracts. Every year, insured operators provide detailed health assessments to Scor, outlining anomalies in their orbiting satellite fleets. Scor records these anomalies in an internal database called Asterisk, which is regularly used by space risk underwriters and plays a role in the contract pricing process. The aim of this thesis is to develop a tool capable of extracting anomalies from health assessments to automate the filling of the database. A second objective is to use machine learning and natural language processing methods to predict the severity of extracted anomalies, classified into total losses, partial losses, redundancy losses, or events without impact. Throughout this thesis, natural language processing techniques such as TF-IDF vectorization and Word2Vec were employed. Models including random forest, gradient boosting, support vector machine, and neural networks were trained and compared.
Auteur(s) COCHET L.
Société SCOR SE
Année 2023
Confidentiel jusqu'au 26/09/2025
Résumé
La gestion des risques dans l'assurance spatiale est cruciale en raison de la vulnérabilité des satellites tout au long de leur cycle de vie. Les échecs au lancement et pendant l'exploitation du satellite ont de lourdes conséquences. Les opérateurs des satellites de communication s'assurent contre ces risques en souscrivant des contrats d'assurance spatiale. Chaque année, les opérateurs assurés chez Scor fournissent à l’entreprise des bilans de santé détaillant les anomalies survenues dans leur flotte de satellites en orbite. Scor enregistre ces anomalies dans une base de données interne à l’entreprise, nommée Asterisk. Cette base est utilisée régulièrement par les souscripteurs des risques spatiaux et intervient dans le processus de tarification des contrats. Le but de se mémoire est de développer un outil capable d’extraire les anomalies des bilans de santé pour automatiser le remplissage de cette base de données. Un deuxième objectif est d'utiliser l’apprentissage automatique et les méthodes de traitement du langage naturel afin de prédire la gravité des anomalies extraites, classées en pertes totales, pertes partielles, pertes de redondance ou événements sans impact. Au cours de ce mémoire, des méthodes propres au traitement du langage naturel ont été réalisées telle que la vectorisation TF IDF et Word2vec. Les modèles de random forest, gradient boosting, support vector machine et réseaux de neurones ont été entraînés et comparés.
Abstract
Risk management in space insurance is crucial due to the vulnerability of satellites throughout their lifecycle. Failures during satellite launch and operation have significant consequences. Operators of communication satellites typically mitigate these risks by subscribing to space insurance contracts. Every year, insured operators provide detailed health assessments to Scor, outlining anomalies in their orbiting satellite fleets. Scor records these anomalies in an internal database called Asterisk, which is regularly used by space risk underwriters and plays a role in the contract pricing process. The aim of this thesis is to develop a tool capable of extracting anomalies from health assessments to automate the filling of the database. A second objective is to use machine learning and natural language processing methods to predict the severity of extracted anomalies, classified into total losses, partial losses, redundancy losses, or events without impact. Throughout this thesis, natural language processing techniques such as TF-IDF vectorization and Word2Vec were employed. Models including random forest, gradient boosting, support vector machine, and neural networks were trained and compared.