Mémoires d'Actuariat

Vers une Nouvelle Ère de Pilotage de l’Absentéisme : Exploitation de la DSN, Utilisation du Machine Learning pour la Prédiction et Application sur un portefeuille de Prévoyance collective
Auteur(s) BEGUE L.
Société ALPTIS Assurances
Année 2024
Confidentiel jusqu'au 18/04/2026

Résumé
Ces dernières années, l'absentéisme en entreprise a augmenté dans tous les secteurs, créant des défis organisationnels, une baisse de la productivité et des coûts financiers considérables. La pandémie de COVID-19 a exacerbé cette tendance, soulignant l'importance de comprendre et de prévoir l'absentéisme. Ce mémoire vise à approfondir cette compréhension en utilisant le taux d'absentéisme comme principal indicateur. Basé sur des données issues de la Déclaration Sociale Nominative, l'étude couvre près de 210 000 individus sur cinq ans, incluant des personnes en santé et/ou en prévoyance. L'objectif est d'appliquer des techniques avancées de Machine Learning pour analyser l'absentéisme et comparer les bases de données traditionnelles de prévoyance aux récentes bases DSN. En utilisant des algorithmes de Bagging et de Boosting, l'étude cherche à identifier les variables les plus impactantes et à prédire le taux d'absentéisme. Le mémoire mettra ensuite l'accent sur la valeur ajoutée de la DSN, qui fournit des informations transparentes et sans franchise sur les arrêts de travail, contrairement aux bases de prévoyance. L'objectif principal sera de comparer minutieusement les données sur l'absentéisme provenant de ces deux bases, dans le but de révéler le biais potentiel existant. L'avènement de la DSN, associée aux progrès récents du Machine Learning, marque un tournant, ouvrant ainsi une porte vers une analyse du risque d'absentéisme bien plus raffinée que les méthodes traditionnelles. L'étude couvre la période 2018-2022, capturant ainsi les variations de l'absentéisme avant et après la pandémie de COVID-19.

Abstract
In recent years, absenteeism in companies has increased across all sectors, creating organizational challenges, reduced productivity, and significant financial costs. The COVID-19 pandemic has exacerbated this trend, highlighting the importance of understanding and predicting absenteeism. This thesis aims to deepen this understanding by using the absenteeism rate as the main indicator. Based on data from the Nominative Social Declaration, the study covers nearly 210,000 individuals over five years, including those in health and/or provident schemes. The goal is to apply advanced Machine Learning techniques to analyze absenteeism and compare traditional provident fund databases with recent NSD databases. By utilizing Bagging and Boosting algorithms, the study seeks to identify the most impactful variables and predict the absenteeism rate. The thesis will then emphasize the added value of the NSD, which provides transparent information with no deductible on work stoppages, unlike provident fund databases. The main objective is to meticulously compare absenteeism data from these two sources to reveal potential biases. The advent of the NSD, combined with recent advancements in Machine Learning, marks a turning point, paving the way for a more refined analysis of absenteeism risk compared to traditional methods. Covering the period from 2018 to 2022, the study captures the variations in absenteeism before and after the COVID-19 pandemic.