Une étude de l’UCL prouve que les données privées ne sont pas totalement anonymes

isopix
source: sudinfo.be/

Des chercheurs de l’UCLouvain et de l’Imperial College London ont développé un algorithme de « machine learning » prouvant, pour la première fois, qu’il est possible de ré-identifier précisément les individus au sein de bases de données « anonymisées », ont indiqué les responsables de l’université mardi dans un communiqué.

Les organismes traitant des données sensibles ont principalement recours à l’anonymisation pour les partager ou les vendre. Ces techniques, appelées dé-identification, rendent, en théorie, les individus non-identifiables. Les données anonymes ne sont dès lors plus considérées comme des données personnelles et échappent aux régimes de protection des données comme le récent RGPD en Europe.

Or, les chercheurs ont depuis longtemps démontré que certaines données anonymes peuvent être ré-identifiées. Dans une récente étude, les chercheurs de l’UCL et de l’Imperial College London ont réussi à le démontrer.

En effet, ils estiment qu’avec un bon algorithme, il est possible d’estimer, avec grande précision, si des données ré-identifiées appartiennent bien à la bonne personne ou non. Ces résultats sont publiés dans la revue scientifique Nature Communications.

L’algorithme développé évalue la probabilité pour une combinaison de caractéristiques connues d’être suffisamment précise pour décrire un seul individu parmi plusieurs milliards de personnes, indiquent les chercheurs dans leur communiqué. En utilisant cette méthode, ils ont montré que 99,98 % des Américains seraient correctement ré-identifiés dans n’importe quelle base de données en utilisant 15 attributs démographiques, avec des chiffres similaires à travers le monde (16 attributs en ajoutant la nationalité).

Un outil en ligne a également été développé pour aider les utilisateurs à comprendre quelles caractéristiques les rendraient uniques dans les bases de données : https ://cpg.doc.ic.ac.uk/individual-risk/. Les chercheurs précisent que le système ne sauvegarde pas les données et sert uniquement à des fins de démonstration.

Les chercheurs espèrent que « leurs résultats permettront de mettre en place des standards plus rigoureux pour déterminer quelles données sont vraiment anonymes, prenant en compte tout risque futur ».