Google analytics et les données personnelles identifiables

Conseils pour respecter les conditions d'utilisation de Google

22 avril 2019
Le législateur a défini au moyen d'un ensemble de lois, pour certaines nationales pour d'autres internationales, ce qu'était une "bonne" gestion des données personnelles. Viennent s'ajouter à ces règles, sur les sites Web, celles définies dans les conditions d'utilisation des divers logiciels et services qu'y s'y trouvent utilisés. Les années passant, les sanctions en cas d'infraction aux lois encadrant la collecte, la gestion et l'usage des données personnelles se sont alourdies. De ce fait, les gestionnaires de sites Web ont employé l'essentiel de leurs moyens à se mettre en conformité avec la loi, parfois au détriment du respect des conditions d'utilisation des logiciels auxquels ils recourent. Pourtant, contrevenir aux règles de gestion des données personnelles de ces outils peut s'avérer lourd de conséquences. Dans le cas de Google analytics la transmission de données personnelles identifiables, fut-elle involontaire, constitue à elle seule un motif de clôture du compte concerné. Afin d'éviter la perte irrémédiable de données stratégiques, il est indispensable de comprendre ce que sont des données personnelles identifiables, les principaux vecteurs de leur transmission vers Google analytics, ainsi que les stratégies permettant d'éviter leur envoi.

Différences entre les données personnelles identifiables de Google analytics et les données personnelles

Les données personnelles identifiables sont des informations permettant à elles seules d'identifier une personne. Ainsi, Google analytics définit comme étant des données personnelles identifiables une adresse e-mail, une adresse postale, un numéro de téléphone, des coordonnées GPS, ou encore le nom d'une personne. A l'inverse, l'adresse IP d'un visiteur, un identifiant généré aléatoirement, ou une donnée personnelle identifiable pseudonymisée ne sont pas considérées comme des données personnelles identifiables par Google analytics.

Le stockage de telles informations dans Google analytics ne contrevient donc pas aux conditions d'utilisation de la plateforme marketing de Google, car elles ne permettent pas d'identifier directement une personne.

A l'inverse, une donnée personnelle, est une information se rapportant à un individu et qui permet son identification de façon directe ou indirecte. Cette différence conduit à ce que des données soient considérées comme sensibles par le Règlement Général sur la Protection des Données, mais pas par Google analytics.

Les principales causes de transmissions de données personnelles identifiables à Google analytics

La majeure partie des données personnelles identifiables collectées par Google analytics le sont de façon automatique et non désirée par les gestionnaires de sites Web. En effet, l'URL des pages et leur titre étant systématiquement collectés par l'outil de mesure d'audience, il peut arriver qu'ils renferment des données personnelles identifiables. De même, un suivi de l'usage des champs de recherche ou de saisie d'une page peuvent conduire involontairement à collecter des données personnelles identifiables.

Dans d'autres cas, les responsables de sites Web envoient volontairement des données à Google analytics, sans avoir conscience qu'il s'agit de données personnelles identifiables selon les conditions d'utilisation de l'outil. Les cas les plus courants sont l'envoi de coordonnées GPS via des événements ou la transmission d'identifiants utilisateurs sensibles, afin de tirer partie de la fonctionnalité User ID.

Dernier cas de figure : celui d'une violation volontaire des conditions d'utilisation de Google analytics. En effet, les gains découlant de l'usage de données personnelles identifiables, notamment à des fins de ciblage publicitaire, sont souvent perçus comme excédant largement le risque d'une détection de l'infraction par les équipes de Google analytics. Dans cette configuration, les imports de données hors-ligne constituent l'un des principaux vecteurs de transmission de données personnelles identifiables.

Méthodes permettant de limiter le risque de transmissions de données personnelles identifiables à Google analytics

Les gestionnaires de site Web désireux de respecter les règles imposées par Google analytics, doivent tout d'abord veiller autant que possible à supprimer les données personnelles à la source. Leur inclusion, dans les urls et les titres de page doit être bannie du moment qu'elles ne sont pas pseudonymisées. Des routines de traitement et de vérification des informations transmises par les utilisateurs, dans les champs de recherche et les formulaires doivent être mises en oeuvre afin de les supprimer ou de les pseudonymiser.

A cette première ligne de défense externe aux systèmes de collecte de Google analytics, qui nécessite des modifications coûteuses et longues à mettre en oeuvre, doit s'en ajouter une seconde plus simple à paramétrer. Installée grâce aux outils de Tag management, qui servent à déployer les codes JavaScript de Google analytics, elle repose sur le recours aux customTasks. Grâce à elles, il s'avère possible de vérifier les valeurs collectées automatiquement par les codes JavaScript de Google analytics AVANT leur envoi aux serveurs de Google, mais aussi de les modifier.

Dès lors, via des expressions régulières il est aisé de tester l'ensemble des valeurs récupérées par Google analytics afin de déterminer si certaines contiennent un motif correspondant à une donnée personnelle identifiable, puis de l'anonymiser. La réécriture est préférable à un blocage pur et simple, car elle permet de ne pas se priver d'un appel à Google analytics. En outre elle offre l'avantage à posteriori de déterminer exactement la page et/ou l'élément où se trouvaient incluses les données personnelles identifiables. Avec cette information il devient possible, preuves à l'appui, de demander aux développeurs de corriger la faille.

En conclusion

Les actions devant être mises en oeuvre afin d'éviter l'envoi de données personnelles identifiables à Google analytics s'inscrivent pleinement dans la mise en conformité avec le RGPD. Respecter les conditions d'utilisation de Google analytics constitue un préalable nécessaire à une utilisation pérenne de l'outil, sans Pour autant s'avérer suffisante pour en rendre l'usage conforme au Règlement Général sur la Protection des Données. Veiller à ne pas transmettre de données personnelles identifiables à Google analytics est indispensable à la sécurisation de ses données de Web analytics.