Ce que les données de localisation révèlent sur vous
Quiconque utilise des applications sur un smartphone et surfe sur Internet génère une multitude de données apparemment sans intérêt, que nous partageons généralement avec des tiers, soit à notre insu, soit par négligence. Chaque clic et chaque activité, aussi anodins soient-ils, sont enregistrés, enrichis et impitoyablement monétisés.
Il en va de même pour les informations sensibles qui peuvent compromettre notre vie privée et présenter un risque élevé d'utilisation abusive, telles que nos données de localisation.
C'est bien connu : Les défenseuses et défenseurs de la protection des données ont depuis longtemps mis en garde contre les risques - et la majorité des utilisateurs et utilisatrices d'aujourd'hui savent implicitement qu'elles et ils paient avec leurs données des services prétendument gratuits sur le web. Paradoxalement, la plupart d'entre elles et eux ne semblent guère s'en préoccuper.
Bien que la sensibilisation à la protection des données ait généralement augmenté ces dernières années, le fameux argument «rien à cacher» est encore très répandu : Si vous vous comportez correctement et que vous n'avez rien à cacher, vous n'avez rien à craindre. La logique sous-jacente est trompeuse : comme si les données des utilisateurs et utilisatrices honnêtes n'étaient pas suffisamment intéressantes pour être utilisées à mauvais escient.
Cet argument méconnaît fatalement le risque de sécurité et témoigne, à mon avis, d'un manque de compréhension des informations en jeu.
Où nous allons, c'est ce que nous sommes
Les données de localisation sont particulièrement sensibles. En effet, elles permettent d'obtenir des informations détaillées sur les préférences et les habitudes personnelles des utilisatrices et utilisateurs : Si vous faites de l'exercice régulièrement, combien de fois vous allez chez le ou la médecin, si vous fréquentez des bars et des clubs ou où vous passez la nuit. Les données de localisation sont donc considérées comme de l'or numérique.
Les exploitantes et exploitants de cette ruée vers l'or numérique sont les courtiers et courtières en données. Leur modèle commercial consiste à créer des profils de mouvement à partir de données brutes et à les combiner avec des données contextuelles publiques telles que les pubs, les magasins ou les institutions gouvernementales. S'il est possible de classer les lieux visités en fonction de ces points d'intérêt, il est possible de tirer des conclusions sur les modèles d'activité et les intérêts personnels.
Ces profils d'utilisateurs et utilisatrices peuvent être vendus de manière lucrative. Que ce soit, comme prévu à l'origine, pour de la publicité personnalisée, ou à des fins abusives - par exemple, pour influencer nos opinions politiques, évaluer notre solvabilité ou estimer les risques d'assurance.
Quelle est l'ampleur réelle du risque ?
Les données de localisation brutes, telles que les traces GPS, sont souvent imprécises et ne permettent pas de savoir directement si l'on se trouve dans un restaurant ou simplement à l'arrêt de bus qui se trouve devant. Les premiers fournisseurs d'applications commencent à dissimuler délibérément les coordonnées. Parallèlement, les techniques d'apprentissage automatique offrent aux attaquants et attaquantes de nouveaux outils puissants pour interpréter de grandes quantités de données.
Nous avons donc voulu savoir : Quel est le risque réel qu'une attaquante ou un attaquant puisse créer un profil comportemental significatif à l'aide de méthodes d'IA uniquement en possession de mes données de localisation, même si elles sont masquées ?
Analyse des scénarios d'attaque
J'ai analysé cette question dans un document de recherche1 en utilisant des données du réseau social Foursquare, où les utilisateurs et utilisatrices «s'enregistrent» dans des lieux. Nous avons formé un modèle d'apprentissage automatique pour reconnaître la catégorie du lieu (bar, médecin ou sport).
Nos résultats montrent clairement qu'il est terriblement facile de compromettre la vie privée de cette manière. Même avec des coordonnées obscurcies, les pertes sont importantes. Des données dont l'imprécision ne dépasse pas 100 mètres permettent encore de prédire les comportements avec dix fois plus de précision qu'une simple supposition. Ce n'est que lorsque les erreurs de localisation dépassent 1000 mètres que les coordonnées perdent leur utilité.
La bonne nouvelle est que la précision de la prédiction diminue de façon exponentielle - d'environ 10% pour chaque 8 mètres supplémentaires de masquage. Cela montre que même si le simple masquage n'est pas parfait, la protection reste judicieuse. Certaines applications offrent déjà la possibilité de masquer les coordonnées. Des progrès ont également été réalisés sur le plan politique : aux États-Unis, un courtier en données s'est récemment vu interdire de vendre des données de localisation sans le consentement explicite des utilisatrices et utilisateurs2.
Néanmoins, nous ne devons pas nous fier à la réglementation et à la bonne volonté. À mon avis, la clé est d'éduquer les gens sur les risques. Les utilisateurs et utilisatrices de smartphones responsables ne peuvent donc pas éviter de prendre soin de leurs données de localisation, c'est-à-dire d'empêcher le partage de ces données chaque fois que possible ou de ne les partager que de manière sélective.3
Même ceux et celles qui n'ont apparemment rien à cacher courent le risque que les données de localisation partagées sans précaution ne révèlent pas seulement des habitudes privées, mais puissent également être utilisées à des fins d'ingénierie sociale. De ce point de vue, nous avons toutes et tous quelque chose à cacher.