Dans la terre inconnue du Big Data

Derniers jours pour visiter l’exposition Terra Data, nos vies à l’ère du numérique à la Cité des Sciences et de l’Industrie de Paris. Une expo pour décrypter le nouveau monde que nous sommes en train de construire.

Avez-vous déjà fait un achat en ligne ? Avez-vous participé à un concours sur internet ou rempli un formulaire pour vous enregistrer sur un site ? Et sur les réseaux sociaux, avez-vous indiqué vos goûts musicaux et vos loisirs ? Combien de données personnelles avez-vous déjà fourni ? Adresse, numéro de téléphone, numéro de carte bancaire… où vont ces informations ?

Eh bien, ces données ne se perdent pas dans les nuages : quelqu’un est prêt à les recueillir, les acheter, les utiliser, avec ou sans votre permission. D’ailleurs, qui lit vraiment les conditions générales, ces longues et ennuyeuses pages, avant de cliquer sur le bouton « j’accepte » ?
Si, comme Neo dans le film Matrix, vous voulez savoir à tout prix ce qu’il y a derrière tout cela, visitez absolument l’expo et continuez la lecture de cet article.

L’être humain est un grand collectionneur : que ce soit pour l’utilité immédiate ou pour la soif de connaissance, il a depuis toujours récolté des données : des données comptables (combien de sacs de blé, combien de bétail), des données démographiques (combien d’habitants) ou encore des données dérivant de l’observation de la nature (enregistrements du mouvement des astres, des tremblements de terre ou du niveau des eaux).

Aujourd’hui la quantité de données collectées, en provenance de tout phénomène devenu mesurable, a atteint un niveau inattendu. Le stockage de cette gigantesque masse d’informations commence à poser des problèmes et pendant que ces données s’accumulent, nous nous demandons comment les exploiter au mieux et comment les protéger.
L’expression Big Data (en français mégadonnées) fait référence à la gestion et à l’analyse de ces grandes masses de données, opérées par des professionnels du secteur qui utilisent des logiciels spécifiques. Les premiers programmes informatiques du Big Data ont été créés par les géants du web comme Google, Amazon ou Yahoo.

L’exposition

Le titre de l’exposition, Terra Data, est un jeu de mots entre le préfixe téra de l’unité de mesure téraoctet (mille milliards d’octets) et le mot latin terra qui signifie terre. Ce titre souligne la taille de la base de données qu’on produit aujourd’hui et fait aussi allusion au fait qu’on s’aventure dans une terre inconnue par rapport aux conséquences que cette masse de d’informations pourrait engendrer. Le but de l’exposition est, donc, d’informer et donner les éléments de compréhension d’un phénomène qui nous touche de près, tout en nous faisant réfléchir sur les changements de la société en cours.

Le parcours est composé de 31 tables équipées de panneaux explicatifs, écrans avec vidéos ou jeux-vidéo et quelques objets. Les tables sont accessibles aux personnes à mobilité réduite. Pour les malentendants, les vidéos et les jeux interactifs sont traduits en langue des signes française. Enfin, six tables sont munies de prises jack et permettent aux malvoyants d’accéder à une description audio grâce à un casque.

Le contenu de l’exposition est très riche et s’articule en 4 grands thèmes, chacun introduit par une courte vidéo d’un expert. Les deux premières parties, plus techniques, fournissent les outils pour se familiariser avec les algorithmes de tri, le fonctionnement d’un moteur de recherche, l’indexation, la datavisualisation, etc. Les deux autres parties, en revanche, permettent d’acquérir les clefs pour se forger une opinion sur les conséquences du Big Data sur nos vies.

Qu’est-ce qu’une donnée numérique ?

Une donnée numérique est assez difficile à définir. On pense tout de suite à un mot, une image, un numéro, une liste, un annuaire. Mais une donnée peut également être un comportement (par exemple le temps de permanence sur un site), la température d’une pièce ou notre fréquence cardiaque si on est connecté à un iPhone avec une application santé. Les données sont insérées directement par les internautes ou collectées à l’aide de capteurs de plusieurs types. Elles sont ensuite stockées sur des serveurs ou dans des data centers (souvent localisés aux États Unis) et traitées par des programmes informatiques. Pour les traiter en temps réel, on développe des ordinateurs de plus en plus puissants et rapides.

Qu’est-ce qu’on entend par traitement des données ?

L’enjeu des calculateurs est de transformer les données brutes en informations utiles. Pour ce faire, elles devront être triées, classées et organisées pour pouvoir, par exemple, être trouvées par un moteur de recherche lors d’une requête. Ces fonctions sont assurées, entre autre, par les algorithmes, des séries d’instructions ou d’opérations programmées pour que les machines puissent exécuter des tâches à notre place.
Pour faciliter la compréhension rapide des données abstraites, on utilise la datavisualisation (ou représentation graphique de données statistiques) : on choisit un type adapté de diagramme (camembert, histogramme, courbe) pour mettre en évidence la corrélation, la comparaison, la répartition géographique etc. Mais il faut savoir bien construire et lire un graphe pour déjouer les pièges pouvant entraîner des fausses interprétations.

Comment le Big Data affecte-t-il la société ?

Le Big Data profite pleinement à la science : la grande quantité de données et son élaboration accélèrent les études de thématiques telles que le climat, le cerveau, l’univers.
Les sciences sociales s’emparent aussi de ces méthodes. Comme exemple on peut citer le Venise time machine, un important projet de numérisation et élaboration des données des archives historiques de la ville de Venise, accumulées lors des derniers 1000 ans. Les résultats de cette étude donneront la possibilité de comprendre les changements de la ville dans le temps, d’un point de vue urbanistique et humain : comment a évolué l’architecture mais aussi quels sont les changements des modes de vie des Vénitiens.

D’autre part, certains secteurs d’utilité publique comme la santé et les renseignements bénéficient également du Big Data, ainsi que certains secteurs commerciaux comme l’assurance et le tourisme.

À notre petite échelle, dans notre quotidien, les technologies numériques nous rendent la vie plus simple et plus agréable, en nous proposant des services toujours plus personnalisés. Pour cette raison nous les avons accueillies à bras ouverts, sans considérer le revers de la médaille. Nous avons accepté certaines technologies sans les connaître.
Interposés entre nous et nos besoins, entre nous et nos achats, les algorithmes jouent le rôle d’intermédiaires (on appelle ça l’intermédiation algorithmique). Ils apprennent à nous connaître à partir des informations que nous avons fournies plus ou moins volontairement et nous proposent des produits ou des services adaptés à nos goûts. Évidemment cela représente un gros avantage pour les vendeurs de ces produits et ces services, mais pour nous, consommateurs, le risque est de se voir renfermer dans une bulle, dans une espèce de prison numérique, entourés seulement de ce qui nous ressemble. Facebook en est un bon exemple : les algorithmes nous proposent seulement des personnes et des publications qui se rapprochent de nos intérêts, extrapolés de nos likes et de nos partages.
Cela ne ressemble plus à la promesse de liberté et d’ouverture sur le monde qui caractérisait les débuts du web.

Données personnelles et cybersécurité

Tout ce qui permet de nous identifier, comme notre nom, notre numéro de sécurité sociale, notre plaque d’immatriculation, l’adresse IP de notre ordinateur, notre géolocalisation ou nos empreintes digitales, constitue une donnée personnelle. Dans le passé ces données étaient enregistrées et conservées sur papier à la mairie, chez le médecin, au travail, etc. Aujourd’hui elles circulent quelque part sur le Net et se nichent dans le Cloud.

Si nous pensons de naviguer anonymement sur le web détrompons-nous… en croisant les données de plusieurs sources, les algorithmes arrivent presque toujours à nous identifier. Et quand nous utilisons des sites gratuits, demandons-nous si, pour payer les personnes qui y travaillent, ces sites ne sont pas en trains de vendre nos données personnelles à des tiers.

Ce système d’échange de données personnelles dans des buts lucratifs se construit au-delà des frontières et des lois nationales, devenant de plus en plus difficile à contrôler.
Bien que cette évolution de l’usage des données soit bien plus rapide que la naissance de nouvelles lois capables de le réguler, il existe tout de même, en France et à l’international, plusieurs institutions qui travaillent pour assurer la sécurité sur le web, ou cybersécurité.

Tout a commencé quand, dans les années 70, le développement de l’informatique et son entrée dans l’administration publique ont fait surgir le problème de l’atteinte aux libertés personnelles, en Europe comme aux États Unis. L’Allemagne fut le premier pays à se doter d’une loi pour protéger les citoyens. En 1978 la France se dota aussi d’une loi, la loi « Informatique et Libertés », et d’une commission, la Commission nationale de l’informatique et des libertés (CNIL). Depuis sa création, la CNIL est responsable de l’information, du contrôle, de la sanction relatifs à l’utilisation des données personnelles. Elle travaille avec ses homologues internationaux, notamment avec les commissions européennes, qui ont fait le choix de considérer la protection des données comme un droit fondamental de l’homme lié au respect de l’autonomie et de la dignité de la personne.
La CNIL considère que la protection de la vie privée des internautes et l’innovation technologique ne sont pas en contradiction si on veille à ce que rapport soit fondé sur des bases saines. Cette commission, en outre, forme les professionnels et conseille les particuliers sur les problématiques éthiques soulevées par le numérique.

Quelques solutions

Même en déconnectant téléphones, ordinateurs et tablettes et renonçant à tout service en ligne, on ne pourra jamais vraiment effacer nos traces numériques. Donc, pas la peine de se soumettre à ces mesures radicales et, disons-le, presque irréalisables. À défaut de pouvoir disparaître, qu’est-ce qu’on peut faire pour se soustraire, au maximum au regard de Big Brother ? Voici quelques suggestions :

  • Abandonner Google ou Yahoo et utiliser des moteurs de recherche comme Qwant ou DuckDuckGo qui ne stockent aucune information personnelle concernant les utilisateurs
  • Comprendre au maximum le fonctionnement des outils numériques qu’on utilise
  • Désactiver, dès qu’on peut, le Wifi du téléphone ou de la tablette
  • Générer des informations inutiles, ambiguës ou inexactes, afin de rendre le ciblage peu efficace
  • Chercher à déjouer les algorithmes en sortant soi-même de sa bulle : faire des recherches différentes, élargir ses intérêts, aller « vers le nouveau »

Ces solutions ont, cependant, un faible impact. La solution la plus efficace est la plus difficile à obtenir : demander la transparence et le respect des règles aux acteurs du numérique.

Ce qu’on considère un monde virtuel est, au contraire, bien réel et derrière il y a des vraies personnes, avec leurs défauts mais aussi avec leur passion et leur créativité. Comme toute innovation technologique, le Big Data n’est, en soi, ni bon ni mauvais. Cela dépend, encore une fois, de l’être humain en général et de nous-même en particulier. Soyons donc acteurs de notre destin numérique !

 « Deep learning »

Comment les algorithmes apprennent-ils à nous connaître ? Comment fonctionne la reconnaissance faciale ? Comment le programme AlphaGo a-t-il réussi à battre, en 2016, le champion coréen du Jeu de Go ? Grâce à l’apprentissage automatique profond, ou deep learning. Le programme en question est soumis à une très grande quantité de données (images de visages, parties de jeu, etc.) pour « apprendre » à en reconnaître les caractéristiques recourantes. À la fin du processus, le programme arrive à faire face à des situations inattendues et à exploiter son apprentissage.

Cet article est paru dans le numéro 194 (juin 2017) de Cosinus, le journal de mathématique et sciences pour jeunes, Editions Faton.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *