Afin de garantir la protection des données personnelles des personnes testées, un algorithme lie chaque résultat de test à l’émission d’un pseudonyme anonymisé. Cet algorithme vient d’être mis à jour afin qu’il ne décompte qu’un seul patient lorsque celui-ci se fait tester plusieurs fois dans un intervalle de temps court, comme cela peut être parfois le cas avec le suivi renforcé des variants. Les indicateurs ont été recalculés à l’échelle de tout le territoire, ce qui a permis l’élimination de doublons. L’écart entre les indicateurs nouvelle et ancienne méthode est de 12% pour le taux d’incidence et de 8% pour le taux de positivité. Cet écart ne modifie pas l’appréciation de la dynamique de l’épidémie, ces évolutions permettant au système SI-DEP de produire des données plus précises et de renforcer son efficacité.
Etapes essentielles à la production des indicateurs SI-DEP : l’anonymisation des données avec la création d’un pseudonyme et la suppression des doublons
Le système d’information SI-DEP alimente différentes instances avec des objectifs et des besoins différents : Santé publique France et le Ministère de la santé pour le suivi de l’épidémie ; l’Assurance Maladie et les ARS pour le suivi des cas contacts (Contact tracing).
Afin de garantir la protection des données personnelles des personnes testées, un algorithme attribue à chaque personne testée un pseudonyme calculé à partir des données nominatives du patient. Cette étape est appelée « pseudonymisation ».
Les indicateurs épidémiologiques sont ensuite produits par Santé Publique France à partir de cette base de données anonymisées (via des pseudonyme) et retravaillée pour ne décompter qu’une seule personne lorsque celle-ci se fait tester plusieurs fois dans un intervalle de temps court. C’est l’étape de dédoublonnage.
Depuis sa mise en service et le déploiement d’une politique de test à grande échelle, le système SI-DEP a intégré en plus des tests RT-PCR, les tests antigéniques, le criblage des tests positifs pour détecter les variants, et les tests salivaires. Une personne peut donc être testée à plusieurs reprises, dans des endroits différents, avec des types de tests différents et dans des intervalles de temps courts.
Lorsque les données nominatives d’un même patient n’étaient pas saisies exactement de la même façon, deux pseudonymes différents pouvaient être générés pour une seule personne testée deux fois, sans qu’il soit possible de l’identifier comme un doublon.
Un format unique de saisies des informations relatives aux personnes testées
Le travail commun mené pour apporter les solutions indispensables à la production de données robustes a consisté à revoir l’algorithme de pseudonymisation. Une homogénéisation de la saisie des informations (passage automatique en majuscule, caractères spéciaux, etc…) et une simplification des traits d’identité retenus (nom de naissance, premier prénom, âge et sexe) pour générer le pseudonyme ont été développées pour s’assurer que, pour une même personne, le même pseudonyme soit toujours produit.
Ces évolutions permettent dorénavant au système SI-DEP de produire des données encore plus précises et de renforcer son efficacité.
Avant l’open data, une vérification de la fiabilité des nouveaux indicateurs
Les indicateurs ont été recalculés à l’échelle de tout le territoire avec la nouvelle méthode de pseudonymisation. Le correctif a été réalisé sur un historique de 3 mois qui correspond d’une part à la durée de conservation des données nominatives et d’autre part à la montée en charge de la détection des variants. Une période de vérification a également été nécessaire avant la publication en open data de ces indicateurs afin de s’assurer de leur robustesse et fiabilité.
Les indicateurs recalculés avec cette nouvelle méthode montrent :
- Une différence à la baisse de 12% pour le taux d’incidence France entière
- Une différence à la baisse de 8% pour le taux de positivité France entière
- Une différence à la baisse de 6% pour le nombre total de cas confirmés
La comparaison des indicateurs produits avec l’ancienne et la nouvelle méthode de pseudonymisation montre des courbes proches et des tendances similaires sans conséquence sur la dynamique de l’épidémie, son suivi et son interprétation.
Retour sur le travail mené avec tous les acteurs qui contribuent au fonctionnement de SI-DEP
La résolution des écarts dans les indicateurs produits à partir de SI-DEP a mobilisé tous les acteurs – la Direction générale de la Santé, Santé publique France, la Direction de la recherche, des études, de l'évaluation et des statistiques (DREES), les Agences régionales de santé (ARS), l’Assistance publique des hôpitaux de Paris (AP-HP), l’Assurance Maladie - qui contribuent à son fonctionnement pour renforcer son efficacité.