Sécuriser les données sensibles

    La protection des données à caractère personnel est devenue une exigence réglementaire forte applicable à toute entreprise depuis mai 2018. La mise en conformité obligatoire avec le Règlement Européen sur la Protection des Données (RGPD) évite les éventuelles sanctions (jusqu’à 20 millions d’euros ou 4% du chiffre d’affaires mondial) et une dégradation du business (par fuite de données ou mauvaise réputation). Les entreprises ont été amenées à trouver des solutions pour sécuriser les données sensibles qu’elles détiennent.

    L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, à partir d’un jeu de données, toute identification de la personne par quelque moyen que ce soit et de manière irréversible. C’est simplement l’une des solutions existantes permettant d’exploiter des données personnelles tout en respectant les droits et libertés des personnes. Ce processus peut être utile concernant les publications de données ou dans le cadre de sondages.

    En cas de publication de données qui ne seraient pas anonymisées, le responsable du traitement peut se rendre coupable d’un manquement à son obligation de confidentialité des données et donc à une violation des données qui sera notifiée à la CNIL si elle présente un risque pour les droits et libertés des personnes, et également aux personnes concernées.

    Notons que le RGPD, réglementation européenne adoptée en avril 2016 et mise en application depuis le 25 mai 2018, ayant pour vocation la protection de la vie privée et des données personnelles de chaque citoyen de l’union européenne, ne comporte aucune obligation relative à l’anonymisation des données.

    L’anonymisation de données personnelles

    L’anonymisation n'est pas la pseudonymisation.

    La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire.

    En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.).

    La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces : les données concernées conservent donc un caractère personnel. L’opération de pseudonymisation est également réversible, contrairement à l’anonymisation.

    La pseudonymisation constitue une des mesures recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles.

    Pourquoi anonymiser des données personnelles

    Le règlement général sur la protection des données (RGPD) ne comporte pas d’obligation générale d’anonymisation. Il s’agit d’une solution, parmi d’autres, pour pouvoir exploiter des données personnelles dans le respect des droits et libertés des personnes.

    En effet, l’anonymisation ouvre des potentiels de réutilisation des données initialement interdits du fait du caractère personnel des données exploitées, et permet ainsi aux acteurs d’exploiter et de partager leur données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données au-delà de leur durée légale de conservation.

    Dans ce cas, la législation relative à la protection des données ne s’applique plus, car la diffusion ou la réutilisation des données anonymisées n’a pas d’impact sur la vie privée des personnes concernées.

    Critères d'utilisation de l’anonymisation des données

    Puisque le processus d’anonymisation vise à éliminer toute possibilité de ré-identification, l'exploitation future des données est ainsi limitée à certains types d’utilisation. Ces contraintes sont à prendre en compte dès le début du projet.

    Pour construire un processus d’anonymisation pertinent, il est conseillé de respecter certains critères avant de choisir la technique à utiliser:

    La politique de sécurité de l’entreprise (données de production),

    • Le maintien de l’intégrité et de la cohérence des données intra/inter-applications
    • La cartographie des données sensibles
    • La politique de sécurité de l’entreprise (données de production
    • Il convient de distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables)
    • Définir la finesse idéale et acceptable pour chaque information conservée

    L’anonymisation des données est définie par l’usage et intervient à plusieurs niveaux :

    • Protection du stockage des données: export des données de la production vers les environnements hors production pour des besoins de test.
    • Protection de la diffusion des rapports analytiques: export des données de la production vers un data lake (pool de données brutes) ou un data warehouse (référentiel de données structurées).
    • Sécurisation de la transmission des données: export des données de la production vers des tiers partenaires.

    Les techniques d’anonymisation des données

    Le choix des techniques d’anonymisation des données doit être fait selon l’usage (appauvrissement, chiffrement, masquage, obstruction, remplacement aléatoire, suppression, variance, vieillissement, etc.)

    Une technique d’anonymisation des données efficace est une solution exécutable en temps réel répondant à trois contraintes majeures : rapidité d’exécution (pour ne pas freiner la propagation des données dans les différents systèmes), non-destruction des informations et optimisation du ratio coût/performance.

    Les pré-requis permetent de déterminer le procédé d’anonymisation à appliquer, c’est-à-dire l’enchaînement des techniques d’anonymisation à mettre en place. Celles-ci peuvent être regroupées en deux familles : la randomisation et la généralisation.

    La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence (cf. ci-dessous).

    Exemple : il est possible de permuter les données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

    La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres.

    Exemple : dans un fichier contenant la date de naissance des personnes, il est possible de remplacer cette information par la seule année de naissance.

    Vérifier l’efficacité de l’anonymisation

    Les autorités de protection des données européennes définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :

    • l’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données 
    • la corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu
    • l’inférence : il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

    Les techniques d’anonymisation et de ré-identification étant amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles ainsi que les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

    Voir les articles

    Top