View all technologies

Les Big Data

Qu’est-ce que les big data ?

Les « Big Data » sont également des données, mais elles impliquent des quantités de données bien plus importantes que celles qui peuvent généralement être traitées sur un ordinateur de bureau ou dans une base de données traditionnelle. Les Big data ne sont pas seulement massives en termes de volume, mais elles augmentent de manière exponentielle avec le temps. Les Big Data sont tellement volumineuses et complexes qu’aucun des outils traditionnels de gestion des données n’est en mesure de les stocker ou de les traiter efficacement. Si vous disposez d’une quantité de données que vous pouvez traiter sur votre ordinateur ou sur la base de données de votre serveur habituel sans qu’il ne tombe en panne, c’est que vous ne travaillez probablement pas avec les « big data ».

Comment fonctionnent les big data ?

Le domaine des big data a évolué avec la montée en flèche de la capacité de la technologie à saisir constamment des informations. Les big data sont généralement saisies en temps réel sans être introduites dans une base de données par un agent humain : en d’autres termes, les big data sont saisies « passivement » par des dispositifs numériques.

L’Internet offre des possibilités infinies de collecte d’informations, allant des méta-informations ou métadonnées (localisation géographique, adresse IP, heure, etc.) à des informations plus détaillées sur les comportements des utilisateurs. Il s’agit souvent de médias sociaux en ligne ou de comportements d’achat par carte de crédit. Les cookies sont l’un des principaux canaux utilisés par les navigateurs web pour recueillir des informations sur les utilisateurs : il s’agit essentiellement de minuscules données stockées sur un navigateur web, ou de petits fragments de mémoire concernant quelque chose que vous avez fait sur un site web. (Pour en savoir plus sur les cookies, consultez cette ressource).

Des jeux de données peuvent également être constitués à partir de l’Internet des objets qui comprend des capteurs reliés à d’autres appareils et réseaux. Par exemple, les lampadaires munis de capteurs peuvent recueillir des informations sur le trafic routier qui peuvent ensuite être analysées à des fins d’optimisation de la circulation. La collecte de données à l’aide de capteurs est un dénominateur commun à l’infrastructure des villes intelligentes..

Personnel soignant en Indonésie. L’utilisation des big data peut améliorer les systèmes de santé et éclairer les politiques de santé publique. Crédit photo : avec l’aimable autorisation de USAID EMAS.

Les big data peuvent également être des données médicales ou scientifiques, telles que des informations sur l’ADN ou des données relatives à des épidémies. Cela peut s’avérer utile pour les organismes humanitaires et de développement. Par exemple, lors de l’épidémie d’Ebola en Afrique de l’Ouest entre 2014 et 2016, l’UNICEF a combiné des données provenant d’un certain nombre de sources, notamment des estimations de la population, des informations sur les déplacements aériens, des estimations de la mobilité régionale à partir des enregistrements des téléphones portables et des emplacements marqués sur les médias sociaux, des données sur la température et des données sur les cas issus de rapports de l’OMS, afin de mieux comprendre la maladie et prédire les futures épidémies.

Les big data sont créées et utilisées par une multitude d’acteurs. Dans les sociétés qui ont une certaine culture des données, la plupart des acteurs (secteur privé, gouvernements et autres organisations) sont encouragés à collecter et à analyser des données afin d’identifier des modèles et des tendances, de mesurer le succès ou l’échec, d’optimiser leurs processus pour plus d’efficacité, etc. Ce ne sont pas tous les acteurs qui créeront eux-mêmes des jeux de données ; ils collecteront souvent des données accessibles au public ou achèteront même des données à des entreprises spécialisées. Par exemple, dans le secteur de la publicité, les courtiers en données se spécialisent dans la collecte et le traitement d’informations sur les internautes, qu’ils vendent ensuite aux annonceurs. D’autres acteurs créeront leurs propres jeux de données, notamment les fournisseurs d’énergie, les compagnies ferroviaires, les sociétés de co-voiturage et les gouvernements. Les données sont partout, et les acteurs capables de les collecter intelligemment et de les analyser sont nombreux.

Haut de page

En quoi les big data sont-elles pertinentes à l'espace civique et à la démocratie ?

En Tanzanie, une plate-forme open-source permet au gouvernement et aux institutions financières d’enregistrer toutes les transactions foncières afin de créer un jeu de données exhaustif. Crédit photo : Riaz Jahanpour pour USAID / Digital Development Communications.

Qu’il s’agisse de prévoir les élections présidentielles, d’aider les petits exploitants agricoles à faire face aux changements climatiques ou de prédire les épidémies, les analystes trouvent les moyens de transformer les big data en une ressource inestimable à la planification et la prise de décision. Les big data sont capables de fournir à la société civile de puissantes informations et les possibilités de partager des informations vitales. Les outils des big data ont été déployés récemment dans l’espace civique de plusieurs manières intéressantes, par exemple pour :

  • Surveiller les élections et soutenir un gouvernement ouvert (en commençant par le Kenya avec Ushahidi en 2008) ;
  • Suivre des épidémies telles que l’Ebola en Sierra Leone et dans d’autres pays d’Afrique de l’Ouest ;
  • Suivre les décès liés aux conflits dans le monde
  • Compendre l’impact des systèmes d’identification sur les réfugiés en Italie ;
  • Mesurer et prévoir le succès et la répartition de l’agriculture en Amérique latine ;
  • Faire des bonds en avant grâce aux nouvelles découvertes en matière de génétique et de traitement du cancer ;
  • Utiliser les systèmes d’information géographique (applications cartographiques SIG) dans divers contextes, notamment pour planifier durablement la croissance urbaine et la circulation, comme l’a fait la Banque mondiale dans divers pays d’Asie du Sud, d’Asie de l’Est, d’Afrique et des Caraïbes.

L’utilisation des données collectées, traitées et analysées pour améliorer les systèmes de santé ou la durabilité de l’environnement, par exemple, peut en fin de compte bénéficier grandement aux personnes et à la société. Toutefois, un certain nombre de préoccupations et de mises en garde ont été formulées quant à l’utilisation des jeux de données volumineux. Les préoccupations en matière de protection de la vie privée et de sécurité sont primordiales, car les big data sont souvent collectées à notre insu et utilisées d’une manière à laquelle nous n’avons peut-être pas consenti ; parfois vendues plusieurs fois par l’intermédiaire d’une chaîne d’entreprises différentes avec lesquelles nous n’avons jamais eu de contact, ce qui expose les données à des risques de sécurité tels que les violations de données. Il est essentiel de tenir compte du fait que les données anonymes peuvent toujours être utilisées pour « réidentifier » les personnes représentées dans le jeu de données – avec une précision allant jusqu’à 85 % en utilisant ne serait-ce que le code postal, le sexe et la date de naissance – ce qui peut les mettre en danger (voir la discussion sur la « réidentification » ci-dessous).

Il existe également des déséquilibres de pouvoir (clivages) entre ceux qui sont représentés dans les données et ceux qui ont le pouvoir de les utiliser. Ceux qui ont les capacités d’extraire de la valeur des big data sont souvent de grandes entreprises ou d’autres acteurs ayant les moyens financiers et la capacité de collecter (parfois d’acheter), d’analyser et de comprendre les données.

Cela signifie que les personnes et les groupes dont les informations sont intégrées dans des jeux de données (acheteurs dont les données de carte de crédit sont traitées, internautes dont les clics sont enregistrés sur un site web) ne bénéficient généralement pas des données qu’ils ont fournies. Les données relatives aux articles achetés par les clients dans un magasin par exemple, sont plus susceptibles d’être utilisées pour maximiser les profits que pour aider les clients à prendre leurs décisions d’achat. La façon dont les données sont extraites du comportement des individus et utilisées à des fins lucratives a été qualifiée de « capitalisme de surveillance », dont certains pensent qu’il sape l’autonomie personnelle et mine la démocratie.

La qualité des jeux de données doit également être prise en considération, car ceux qui utilisent les données peuvent ne pas savoir comment ni où elles ont été recueillies, traitées ou intégrées à d’autres données. De plus, lors du stockage et de la transmission de données volumineuses, les problèmes de sécurité sont multipliés par le nombre croissant de machines, de services et de partenaires impliqués. Il est également important de garder à l’esprit que les jeux de données massifs ne sont pas intrinsèquement utiles, mais qu’ils le deviennent avec la capacité de les analyser et d’en tirer des enseignements, à l’aide d’algorithmes avancés, de modèles statistiques, etc.

Enfin, il existe des considérations importantes liées à la protection des droits fondamentaux des personnes dont les informations figurent dans les jeux de données. Les informations sensibles, permettant d’identifier ou de potentiellement identifier une personne peuvent être utilisées par d’autres parties ou à des fins autres que celles prévues, au détriment des personnes concernées. Cette question est examinée ci-dessous et dans la section sur les risques, ainsi que dans d’autres documents introductifs.

Protéger l'anonymat des personnes figurant dans un jeu de données

Toute personne ayant fait de la recherche en sciences sociales ou médicales doit être familière avec l’idée que lors de la collecte de données sur des sujets humains, il est important de protéger leur identité pour éviter que ces sujets subissent les conséquences négatives de leur participation à la recherche, tel que le fait d’être connu comme porteur d’une pathologie particulière, d’avoir voté d’une certaine manière, d’avoir eu un comportement stigmatisé, etc. (Voir le document Protection des données). Les méthodes traditionnelles de protection des identités – suppression de certaines informations d’identification ou présentation de statistiques sous forme agrégée – peuvent et doivent également être utilisées lors du traitement de jeux de données volumineux afin de protéger les personnes figurant dans un jeu de données. Les données peuvent également être cachées de plusieurs manières pour protéger la vie privée : les méthodes comprennent le cryptage (encodage), la symbolisation et le masquage des données. Talend identifie les forces et les faiblesses des principales stratégies de dissimulation des données à l’aide de ces méthodes.

L’un des plus grands dangers liés à l’utilisation des jeux de données volumineux est la possibilité de réidentification : découvrir l’identité réelle des personnes figurant dans le jeu de données, même si leurs données à caractère personnel ont été cachées ou supprimées. Pour se faire une idée de la facilité avec laquelle il est possible d’identifier des personnes dans un jeu de données volumineux, une étude a montré qu’en utilisant seulement trois champs d’information (le code postal, le sexe et la date de naissance), il était possible d’identifier 87 % des Américains individuellement, puis de relier leur identité à des bases de données publiques contenant des dossiers hospitaliers. Avec un plus grand nombre de champs, les chercheurs ont démontré une capacité quasi parfaite à identifier les personnes dans un jeu de données : quatre données aléatoires de dossiers de cartes de crédit ont permis d’atteindre une probabilité d’identification allant jusqu’ à 90 %, et les chercheurs ont pu réidentifier les individus avec une précision de 99,98 % en utilisant 15 champs d’informations.

Dix règles simples pour une recherche responsable sur les big data, citées dans un article du même nom par Zook, Barocas, Boyd, Crawford, Keller, Gangadharan, et al, 2017.

  1. Reconnaître que les données sont des personnes et qu’elles peuvent causer du tort. La plupart des données représentent ou affectent des personnes. Le simple fait de partir de l’hypothèse que toutes les données sont des personnes jusqu’à preuve du contraire met au premier plan la difficulté de dissocier les données de personnes spécifiques.
  2. Reconnaître que la vie privée est plus qu’une simple valeur binaire. La protection de la vie privée peut revêtir plus ou moins d’importance pour les individus en fonction du contexte et de la situation. L’examen des données d’une personne dans leur ensemble peut avoir des répercussions différentes sur sa vie privée que l’examen d’un élément isolé. La protection de la vie privée peut être importante pour des groupes de personnes (par exemple, en fonction de la démographie) ainsi que pour des individus.
  3. Empêchez la réidentification de vos données. Sachez que des données apparemment inoffensives et inespérées, comme l’utilisation de la batterie du téléphone, peuvent être utilisées pour réidentifier des données. Veillez à ce que le partage et la communication des données réduisent le risque d’identification des personnes.
  4. Faites un partage éthique des données. Il peut arriver que les participants à votre jeu de données attendent de vous que vous partagiez leurs données (par exemple avec d’autres chercheurs médicaux travaillant sur un remède), ou qu’ils vous fassent confiance pour ne pas les partager. Sachez que d’autres données d’identification concernant vos participants peuvent être recueillies, vendues ou partagées ailleurs, et que la combinaison de ces données avec les vôtres pourrait permettre d’identifier les participants individuellement. Expliquez clairement comment et quand vous partagerez les données et restez responsable de la protection de la vie privée des personnes dont vous collectez les données.
  5. Tenez compte des forces et des limites de vos données ; une grande quantité de données n’est pas automatiquement synonyme d’une meilleure qualité. Comprenez l’origine de votre jeu de données volumineux et la manière dont il peut évoluer au fil du temps. N’exagérez pas vos conclusions et reconnaissez-le lorsqu’elles peuvent être confuses ou avoir des interprétations multiples.
  6. Débattez des choix éthiques difficiles. Parlez de ces questions éthiques avec vos collègues. Suivez les travaux des organisations professionnelles pour rester au parfum des préoccupations.
  7. Élaborez un code de conduite pour votre organisation, votre communauté de recherche ou votre secteur d’activités et faites participer vos pairs à sa création afin de garantir l’inclusion de points de vue inattendus ou sous-représentés.
  8. Concevez vos données et vos systèmes de manière à ce qu’ils soient auditables. Cela renforce la qualité de votre recherche et de vos services et peut donner l’alerte en cas d’utilisation problématique des données.
  9. Prenez en compte les conséquences plus larges des pratiques en matière de données et d’analyse. Gardez à l’esprit l’égalité sociale, l’impact environnemental du traitement des big data et d’autres impacts au niveau de la société lorsque vous planifiez la collecte des big data.
  10. Sachez à quel moment enfreindre ces règles. Avec les discussions, le code de conduite et le caractère auditable comme guide, dites-vous qu’en cas d’urgence de santé publique ou d’autre catastrophe, vous pourriez être obligé de mettre les autres règles de côté.

Obtenir le consentement éclairé

Les personnes qui fournissent leurs données peuvent ne pas savoir à ce moment-là que leurs données peuvent faire l’objet de vente ultérieure à des courtiers en données qui eux-mêmes peuvent les revendre à leur tour.

Malheureusement, les formulaires de consentement à la confidentialité des données sont généralement difficiles à lire pour le commun des mortels, même dans le sillage de l’extension des protections de la vie privée par le Règlement général sur la protection des données (RGPD ). Les conditions d’utilisation sont si difficiles à lire qu’un cinéaste a même réalisé un documentaire sur le sujet. Les chercheurs qui ont étudié les conditions de service et les politiques de protection de la vie privée ont constaté que les utilisateurs les acceptent généralement sans les lire parce qu’elles sont trop longues et complexes. Sinon, les utilisateurs qui ont besoin d’accéder à une plate-forme ou à un service pour des raisons personnelles (par exemple pour entrer en contact avec un parent) ou pour gagner leur vie (livrer leurs produits aux clients) pourraient ne pas être en mesure de rejeter simplement les CGU (Conditions Générales d’Utilisation) s’ils n’ont pas d’autre solution viable ou immédiate.

D’importants travaux sont en cours pour tenter de protéger les utilisateurs de plates-formes et de services contre ce type de situations abusives de partage de données. Par exemple, le laboratoire Usable Privacy and Security laboratory (CUPS) de Carnegie Mellon a développé les bonnes pratiques pour informer les usagers de l’utilisation qui peut être faite de leurs données. Elles prennent la forme d’« étiquettes nutritionnelles » relatives à la confidentialité des données, qui sont similaires aux étiquettes nutritionnelles des aliments spécifiées par la FDA et sont fondées sur des données probantes.

À Chipata, en Zambie, une habitante puise de l’eau dans un puits. Les big data sont source de précieuses informations pour la conception de solutions au changement climatique. Crédit photo : Sandra Coburn.

Haut de page

Les opportunités

Les big data peuvent avoir des effets positifs lorsqu’elles sont utilisées pour faire avancer la démocratie, les droits de l’homme et les questions de gouvernance. Vous trouverez ci-dessous des informations quant à la façon d’approcher les big data de manière plus efficace et plus sûre dans le cadre de votre travail.

Une meilleure compréhension

Des jeux de données massifs peuvent représenter certaines des informations les plus riches et les plus complètes jamais disponibles dans l’histoire de l’humanité. Les chercheurs qui utilisent des jeux de données volumineux ont accès à des informations provenant d’une population massive. Ces informations peuvent être beaucoup plus utiles et pratiques que les données auto-déclarées ou les données recueillies dans le cadre d’études d’observations délicates d’un point de vue logistique. L’un des principaux compromis se situe entre la richesse des informations obtenues à partir de données auto-déclarées ou très soigneusement collectées, et la capacité à généraliser des informations obtenues à partir des big data. Les big data collectées à partir de l’activité des médias sociaux ou de capteurs peuvent également permettre de mesurer en temps réel les activités à grande échelle. Les connaissances en matière de big data sont très importantes dans le domaine de la logistique. Par exemple, le service postal des États-Unis collecte des données sur l’ensemble de ses livraisons de colis à l’aide de GPS et de vastes réseaux de capteurs et d’autres méthodes de suivi, et traite ensuite ces données à l’aide d’algorithmes spécialisés. Ces informations leur permettent d’optimiser les livraisons dans un souci de durabilité environnementale.

Accès accru aux données

La mise à disposition du public de jeux de données volumineux permet de commencer à prendre des mesures pour réduire les disparités en ce qui concerne l’accès aux données. À l’exception de certains jeux de données publiques, les big data finissent souvent par devenir la propriété d’entreprises, d’universités et d’autres grandes organisations. Même si les données produites se rapportent à des individus et leurs communautés, ces individus et ces communautés peuvent ne pas avoir les moyens financiers ou les compétences techniques nécessaires pour accéder à ces données et en faire un usage productif. Cela crée des risques d’aggravation des fractures numériques existantes.

Les données accessibles au public ont permis aux communautés de comprendre et d’agir face à la corruption gouvernementale, aux problèmes municipaux, aux violations des droits de l’homme et aux crises sanitaires, entre autres. Là encore, lorsque les données sont rendues publiques, il est particulièrement important de garantir le respect de la vie privée des personnes dont les données figurent dans le jeu de données. Les travaux du projet Our Data Bodies donnent des conseils supplémentaires en ce qui concerne la manière de s’engager avec les communautés dont les données figurent dans les jeux de données. Le contenu de leurs documents d’atelier peut aider la communauté à comprendre et à s’engager dans la prise de décisions éthiques relativement à la collecte et au traitement des données, ainsi qu’à la manière de contrôler et d’auditer les pratiques sur les données.

Haut de page

Risques

L’utilisation de technologies émergentes pour la collecte des données peut également poser des risques dans les programmes de la société civile. Vous trouverez ci-dessous des informations quant à la manière de discerner les dangers potentiels associés à la collecte et à l’utilisation des big data dans le cadre du travail sur la Démocratie, les Droits de l’homme et la Gouvernance (DDG), ainsi que sur la manière d’atténuer les conséquences imprévues et prévues.

La surveillance

Compte tenu des possibilités de réidentification ainsi que de la nature et des objectifs de certaines utilisations des big data, il existe des risques que les personnes incluses dans un jeu de données fassent l’objet d’une surveillance de la part des gouvernements, des forces de l’ordre ou des entreprises. Cela peut mettre en danger les droits fondamentaux et la sécurité des personnes figurant dans le jeu de données.

Le gouvernement chinois est régulièrement indexé pour sa surveillance invasive de ses citoyens à travers la collecte et le traitement des big data. Qui plus est, ce gouvernement a fait l’objet de critique pour son système de classement social des citoyens basé sur les données relatives aux médias sociaux, aux achats et à l’éducation, ainsi que pour la collecte de l’ADN des membres de la minorité ouïgoure (avec l’aide d’une société américaine, il convient de le préciser). La Chine n’est certainement pas le seul gouvernement à utiliser les données des citoyens de cette manière. Les révélations d’ Edward Snowden à propos de la collecte et de l’utilisation par l’Agence nationale de sécurité des États-Unis des données issues des médias sociaux et d’autres données ont été parmi les premiers avertissements publics sur le potentiel de surveillance des big data. Des inquiétudes ont également été exprimées au sujet des partenariats intervenus dans le développement du système d’identification biométrique indien Aadhar, qui est une technologie que les concepteurs sont désireux de vendre à d’autres pays. Aux États-Unis, les défenseurs de la vie privée se sont inquiétés du fait que les entreprises et les gouvernements recueillent des données à grande échelle sur les élèves en utilisant les appareils fournis par l’école, une préoccupation qui devrait également être soulevée dans tout contexte international lorsque des ordinateurs portables ou des téléphones mobiles sont mis à la disposition des élèves.

Il convient de souligner que les préoccupations en matière de surveillance ne se limitent pas qu’aux institutions qui collectent les données à l’origine, qu’il s’agisse de gouvernements ou d’entreprises. Lorsque les données sont vendues ou combinées avec d’autres jeux de données, il est possible que d’autres acteurs, qu’il s’agisse d’escrocs par courrier électronique ou de partenaires domestiques violents, accèdent aux données et suivent, exploitent ou nuisent d’une autre manière aux personnes figurant dans le jeu de données.

Préoccupations en matière de sécurité des données

La collecte, l’épuration et la combinaison des big data par le biais de longues chaînes complexes de logiciels et de stockage posent d’importants défis sécuritaires. Ces défis sont décuplés lorsque les données sont partagées entre plusieurs organisations. Toute arrivée de flux de données en temps réel (par exemple, des informations sur les personnes se présentant dans un hôpital) devra être spécifiquement protégée contre la falsification, la perturbation ou la surveillance. Vu que les données peuvent présenter des risques importants pour la vie privée et la sécurité des personnes incluses dans les jeux de données et qu’elles peuvent être très précieuses pour les criminels, il est important de veiller à ce que des ressources suffisantes soient affectées à la sécurité.

Les outils de sécurité existants pour les sites web ne sont pas suffisants pour couvrir toute la chaîne des big data. D’importants investissements en personnel et en infrastructure s’imposent pour assurer une couverture sécuritaire adéquate et pour réagir aux violations des données. Malheureusement, le secteur connaît une pénurie de spécialistes en big data, en particulier de personnel de sécurité bien au fait des défis uniques posés par les big data. Les capteurs de l’Internet des objets présentent un risque particulier s’ils font partie de la chaîne de collecte de données ; ces dispositifs sont réputés pour leur faible niveau de sécurité. Par exemple, un acteur malveillant pourrait facilement introduire de faux capteurs dans le réseau ou saturer la chaîne de collecte avec des données invalides afin de rendre votre collecte de données inutile.

Attentes exagérées en matière de précision et d'objectivité

Les entreprises spécialisées dans les big data et leurs promoteurs affirment souvent que les big data peuvent être plus objectifs ou plus précis que les données collectées traditionnellement, soi-disant parce que le jugement humain n’entre pas en jeu et parce que l’échelle à laquelle elles sont collectées est plus riche. Cette image minimise le fait que les algorithmes et les codes informatiques font également intervenir le jugement humain sur les données, y compris les biais et les données qui peuvent accidentellement y être exclues. L’interprétation humaine est également toujours nécessaire pour donner un sens aux tendances qui se dégagent des big data ; là encore, les prétentions à l’objectivité doivent être prises avec un scepticisme de bon aloi.

Il est important de poser des questions sur les méthodes de collecte des données, les algorithmes utilisés dans le traitement et les hypothèses ou déductions faites par les collecteurs/programmeurs de données et leurs analyses afin d’éviter de tomber dans le piège de supposer que les big data sont « meilleurs ». Par exemple, si les données relatives à la proximité de deux téléphones portables vous indiquent que deux personnes étaient proches l’une de l’autre, seule l’interprétation humaine peut vous dire pourquoi ces deux personnes s’étaient rapprochées. La façon dont un analyste interprète cette proximité peut différer de ce que les personnes portant les téléphones portables pourraient vous dire. Il s’agit par exemple d’un défi majeur dans l’utilisation des téléphones pour la « traçabilité de contacts » en épidémiologie. Lors de la crise sanitaire de la maladie à COVID-19, de nombreux pays se sont empressés de créer des applications de traçage de contacts par téléphone portable. Les objectifs précis et le fonctionnement de ces applications varient considérablement (tout comme leur efficacité), mais il convient de noter que les grandes entreprises technologiques ont préféré parler d’applications de « notification du risque d’exposition » plutôt que de traçage de contacts : en effet, ces applications ne peuvent vous indiquer que si vous avez été en contact avec une personne porteuse du coronavirus, et non si vous avez ou non contracté le virus.

Interprétation erronée

Comme pour toutes les données, il existe des pièges lorsqu’il s’agit d’interpréter et de tirer des conclusions. Les big data étant souvent saisies et analysées en temps réel, elles peuvent s’avérer particulièrement inefficaces pour donner un contexte historique aux tendances actuelles qu’elles mettent en évidence. Toute personne analysant des big data doit également se demander quelle est la source ou quelles sont les sources de ces données ; si elles ont été combinées avec d’autres jeux de données et comment elles ont été épurées. L’épuration est le processus de correction ou de suppression des données inexactes ou étrangères. Ceci est particulièrement important pour les données issues des médias sociaux qui peuvent contenir beaucoup de « parasites » (informations supplémentaires) et doivent donc presque toujours être épurées.

Haut de page

Questions

Si vous essayez de comprendre les implications des big data dans votre environnement de travail, ou si vous envisagez d’utiliser des aspects de la big data dans le cadre de votre programme de DDG, posez-vous les questions suivantes :

  1. La collecte de big data est-elle la bonne approche pour la question à laquelle vous essayez de répondre ? En quoi la réponse à votre question serait-elle différente si l’on utilisait des entretiens, des recherches historiques ou si l’on se concentrait sur la signification statistique ?
  2. Disposez-vous déjà de ces données ou sont-elles accessibles au public ? Est-il vraiment nécessaire d’acquérir ces données par vous-même ?
  3. Comment entendez-vous vous y prendre pour rendre impossible l’identification des individus à travers leurs données dans votre jeu de données ? Si les données proviennent de quelqu’un d’autre, quel type de désanonymisation a déjà été entrepris ?
  4. Comment les individus peuvent-ils être rendus plus identifiables par quelqu’un d’autre lorsque vous publiez vos données et vos résultats ? Quelles mesures pouvez-vous prendre pour réduire le risque qu’ils soient identifiés ?
  5. Comment vous y prenez-vous pour obtenir le consentement des personnes dont vous collectez les données ? Comment vous assurerez-vous que votre document de consentement leur est facilement compréhensible ?
  6. Si vos données proviennent d’une autre organisation, comment a-t-elle obtenu le consentement ? Ce consentement inclut-il l’autorisation d’utiliser les données par d’autres organisations ?
  7. Si vous obtenez des données d’une autre organisation, quelle est la source originale de ces données ? Qui les a collectées et quel était leur objectif ?
  8. Que savez-vous de la qualité de ces données ? Quelqu’un vérifie-t-il s’il y a des erreurs et, si oui, comment ? Les outils de collecte ont-ils été défaillants à un moment ou à un autre, ou pensez-vous qu’il puisse y avoir des imprécisions ou des erreurs ?
  9. Ces données ont-elles été intégrées à d’autres jeux de données ? Si des données ont été utilisées pour combler des lacunes, comment cela a-t-il été fait ?
  10. Quel est le plan de sécurité de bout en bout des données que vous saisissez ou utilisez ? Y a-t-il intervention de tiers dont vous devez comprendre les propositions en matière de sécurité ?

Haut de page

Études de cas

Résidente d’un village en Tanzanie. L’analyse des big data permet de mettre en évidence les stratégies qui fonctionnent pour les petits expoitants agricoles. Crédit photo : Riaz Jahanpour pour USAID / Digital Development Communications.
Big Data pour une agriculture climato-intelligente

Big Data pour une agriculture climato-intelligente

« Des scientifiques du Centre international d’agriculture tropicale (CIAT) ont appliqué des outils de big data pour mettre en évidence les stratégies qui fonctionnent pour les petits exploitants agricoles dans un climat en mutation… Des chercheurs ont appliqué l’analyse des big data aux relevés agricoles et météorologiques en Colombie, révélant ainsi l’impact des variations climatiques sur les rendements du riz. Ces analyses identifient les variétés de riz les plus productives et les périodes de semis pour des sites spécifiques et des prévisions saisonnières. Les recommandations pourraient potentiellement augmenter les rendements de 1 à 3 tonnes à l’hectare. Ces outils fonctionnent partout où des données sont disponibles et sont actuellement déployés en Colombie, en Argentine, au Nicaragua, au Pérou et en Uruguay. »

Appareils fournis par l'école et protection de la vie privée des élèves

Appareils fournis par l’école et protection de la vie privée des élèves, en particulier la section « Bonnes pratiques pour les entreprises de technologies de l’éducation ».

« Les élèves utilisent la technologie en classe à un rythme sans précédent… Les ordinateurs portables pour élèves et les services éducatifs sont souvent disponibles à des prix très réduits, voire gratuits. Cependant, ils viennent avec des coûts réels et des questions éthiques non résolues. Tout au long de l’enquête menée par la fondation EFF au cours des deux dernières années, [elle] a découvert que les services de technologie éducative collectent souvent beaucoup plus d’informations sur les enfants qu’il n’est nécessaire et qu’ils stockent ces informations indéfiniment. Ces informations qui portent atteinte à la vie privée vont au-delà des informations d’identification personnelle (PII en anglais) telles que le nom et la date de naissance, et peuvent inclure l’historique de navigation, les termes de recherche, les données de localisation, les listes de contacts et les informations comportementales… Tout cela se produit souvent sans que les élèves et leurs familles en soient conscients ou y consentent ».

Big data et villes prospères : innovations en matière d’analyse pour la construction d’espaces urbains

Big data et villes prospères : innovations en matière d’analyse pour la construction d’espaces urbains (Big Data and Thriving Cities: Innovations in Analytics to Build Sustainable, Resilient, Equitable and Livable Urban Spaces, le titre original en anglais)

Est une communication qui comprend des études de cas de big data utilisées pour suivre l’évolution de l’urbanisation, des embouteillages et de la criminalité dans les villes. « Les applications novatrices des technologies géospatiales et de détection, ainsi que la pénétration de la technologie de la téléphonie mobile, permettent une collecte de données sans précédent. Ces données peuvent être analysées à de nombreuses fins, notamment pour suivre l’évolution de la population et de la mobilité, les investissements du secteur privé et la transparence des autorités fédérales et locales ».

Lutte contre l’Ebola en Sierra Léone: Partage des données en vue d’améliorer la riposte aux crises

Battling Ebola in Sierra Leone: Data Sharing to Improve Crisis Response (Lutte contre l’Ebola en Sierra Léone: Partage des données en vue d’améliorer la riposte aux crises).

« Les données et les informations ont un rôle important à jouer dans la lutte non seulement contre l’Ebola, mais aussi, plus généralement, contre toute une série de crises naturelles ou artificielles. Toutefois, afin de maximiser ce potentiel, il est essentiel de favoriser l’offre d’initiatives en matière de données open-source, c’est-à-dire de garantir la disponibilité d’informations suffisantes et de qualité. Cela peut s’avérer particulièrement difficile lorsqu’il n’y a pas de soutien politique clair pour inciter les acteurs à la conformité et pour fixer des normes claires en matière de qualité et de format de données. Plus particulièrement en période de crise, les premières étapes des efforts en matière de données open-source peuvent être chaotiques et parfois redondantes. L’amélioration de la coordination entre de multiples acteurs travaillant à des fins similaires – bien que difficile en période de crise – pourrait contribuer à réduire les doublons et conduire à des efforts plus importants que la somme de leurs contributions ».

Surveiller les décès liés aux conflits : Aperçu préliminaire des systèmes de suivi.

Surveiller les décès liés aux conflits : Aperçu préliminaire des systèmes de suivi.

« Dans le cadre de l’Agenda 2030 des Nations unies pour le développement durable, les États se sont engagés à suivre le nombre de personnes tuées dans les conflits armés et à ventiler ces données par sexe, âge et cause – conformément à l’indicateur 16 des Objectifs du développement durable (ODD). Cependant, il n’existe pas de consensus international sur les définitions, les méthodes ou les normes à utiliser pour produire les données. En outre, les systèmes de suivi gérés par les organisations internationales et la société civile diffèrent au niveau de la couverture thématique, de l’orientation géographique et du degré de désagrégation ».

Assurer l'équilibre entre l'utilité des données et la confidentialité dans le recensement américain

Assurer l’équilibre entre l’utilité des données et la confidentialité dans le recensement américain (titre original : Balancing data utility and confidentiality in the US census.

Cette communication décrit comment le recensement utilise la confidentialité différentielle pour protéger les données des sondés. « Alors que le Bureau du recensement se prépare à dénombrer la population des États-Unis en 2020, ses dirigeants ont annoncé qu’ils apporteraient des changements significatifs aux tableaux statistiques qu’ils ont l’intention de publier. En raison des progrès de l’informatique et de la disponibilité généralisée des données commerciales, les techniques utilisées par le Bureau pour protéger la confidentialité des champs de données individuels ne peuvent plus résister aux nouvelles approches de reconstitution et de réidentification des données confidentielles… Les recherches menées par le Bureau du recensement ont montré qu’il est désormais possible de reconstituer des informations sur un nombre important de personnes et de les réidentifier à partir de tableaux statistiques accessibles au public. Les anciennes dispositions de protection de la confidentialité des données ne sont tout simplement plus efficaces. Ainsi, les dirigeants du Bureau du recensement ont accepté de ne pas poursuivre leur approche actuelle et d’attendre 2030 pour procéder à des changements ; ils ont décidé d’investir dans une nouvelle approche visant à garantir le respect de la vie privée, qui transformera considérablement la manière dont le Bureau du recensement génère les statistiques ».

Haut de page

Références

Vous trouverez ci-dessous les ouvrages cités dans cette ressource.

Ressources complémentaires

  • Barocas, Solon et al. (2014). Data and civil rights technology primer. Data & Society.
  • Berman, Gabrielle et al. (2018). Ethical considerations when using geospatial technologies for evidence generation. UNICEF: Les technologies géospatiales ont transformé la façon dont nous visualisons et comprenons les phénomènes sociaux et les environnements physiques.. Ce document examine les avantages, les risques et les considérations éthiques liés à la production de preuves à l’aide de technologies géospatiales.
  • Boyd, Danah & Kate Crawford. (2011). Six Provocations for Big Data.
  • Boyd, Danah, Keller, Emily F. & Bonnie Tijerina. (2016). Supporting Ethical Data Research: An Exploratory Study of Emerging Issues in Big Data and Technical Research. Data & Society: comprend une discussion sur le consentement éclairé et le stockage sécurisé des données.
  • Cranor, Lorrie. (2012). Necessary But Not Sufficient: Standardized Mechanisms for Privacy Notice and Choice: Cette étude donne un aperçu des problèmes posés par les politiques existantes en matière de protection de la vie privée telles qu’elles sont présentées aux utilisateurs, examine l’idée sur laquelle la notification, le choix et l’autonomisation des utilisateurs en tant que mécanismes de protection de la vie privée, et propose des pistes d’amélioration.
  • Cyphers, Bennett & Gennie Gebhart. (2019). Behind the One-Way Mirror: A Deep Dive into the Technology of Corporate Surveillance. EFF : Le contexte dans lequel les entreprises collectent nos données, les combinent avec d’autres jeux de données et se les vendent les unes aux autres.
  • Data and Society’s “primers” on data and civil rights in different topic areas: Consumer finance, Criminal justice, Education, Employment, Health and Housing.
  • Data Privacy Project: comprend des ressources pour aider les bibliothécaires, les éducateurs et les membres de la communauté à comprendre comment leurs données sont utilisées et transférées.
  • Garfinkle, Simson. (2015). NIST guidance on de-identification of personal information.
  • Garfinkle, Simson. (2016). NIST guidance on de-identifying government data sets.
  • Global Health Sites Mapping Project: Health Sites est une initiative visant à créer un patrimoine ouvert de données sur les établissements de santé à l’aide d’OpenStreetMap.
  • GSM Association. (2014). GSMA guidelines on the protection of privacy in the use of mobile phone data for responding to the Ebola outbreak: Ce document décrit, dans les grandes lignes, les normes en matière de protection de la vie privée que les opérateurs de téléphonie mobile appliqueront lorsque les données des téléphones mobiles des abonnés seront utilisées, dans ces circonstances exceptionnelles, pour répondre à l’épidémie d’Ebola.
  • Humanitarian Data Exchange: Trouver, partager et utiliser des données humanitaires en un seul endroit, grâce à l’UNOCHA.
  • Humanitarian Tracker’s reports[rapports de Humanitarian Tracker] sur l’utilisation de jeux de données volumineux pour suivre les violations des droits de l’homme et faire une cartographie des crises.
  • Marr, Bernard. (2015). A brief history of data. World Economic Forum.
  • Metcalf, Jacob. (2016). Big Data Analytics and Revision of the Common Rule. Communications of the Association for Computing Machinery 59(7): contient des conseils sur l’évolution des normes éthiques pour la recherche sur des sujets humains à la lumière des préoccupations concernant les big data.
  • (2013). Public bodies regularly releasing personal information by accident in Excel files. mySociety: Lorsque des fonctionnaires d’organismes publics diffusent des informations qu’ils pensent avoir rendues anonymes, ils importent des renseignements permettant d’identifier une personne et tentent de les résumer sous une forme anonyme, souvent à l’aide de tableaux croisés dynamiques ou de graphiques.
  • Nugroho, Rininita Putri et al. (2015). A comparison of national open data policies: Lessons learned. Transforming Government, 9(3): fournit un cadre comparatif transnational complet pour comparer les politiques d’ouverture des données de différents pays et en tirer des leçons pour mettre en place des politiques d’ouverture des données.
  • Onuoha, Mimi. (2017). What it takes to truly delete data. FiveThirtyEight.
  • Open Data Institute. (2018). Guide to Open Data Standards: Des standards ouverts pour les données sont des accords réutilisables qui facilitent la publication, l’accès, le partage et l’utilisation de données de meilleure qualité par les personnes et les organisations. Ce guide aide les personnes et les organisations à créer, développer et adopter des normes ouvertes sur les données.
  • Our Data Bodies: projet qui comprend des supports et des activités pour discuter avec les communautés de la manière dont leurs données sont utilisées et des études de cas de leur travail.
  • Responsible Data Project: un forum communautaire « pour ceux qui utilisent des données dans le cadre du changement social et de la défense des droits, afin de développer des approches pratiques pour relever les défis éthiques, juridiques, sociaux et liés à la protection de la vie privée auxquels ils sont confrontés. [Ils identifient les conséquences involontaires de l’utilisation des données dans ce type de travail et rassemblent les gens pour créer des solutions ». Le projet fournit une liste de ressources pour ceux qui cherchent à faire un usage responsable des big data et dispose d’une mailing list.
  • Technology Association of Grantmakers. (2019). Cybersecurity Essentials for Philanthropy Series: vise à réduire les risques pour votre organisation grâce à des pratiques et des suggestions partagées par des organisations philanthropiques de toute l’Amérique du Nord.
  • The Electronic Frontier Foundation’s Who Has Your Face: de l’Electronic Frontier Foundation, l’outil qui recense les organisations gouvernementales américaines possédant des photos de visages.
  • UN Global Pulse: l’organisation des Nations unies pour les données massives (big data).
  • (2019). Center for Humanitarian Data – Data Responsibility Guidelines: propose un ensemble de principes, de processus et d’outils qui soutiennent la gestion sûre, éthique et efficace des données dans le cadre des interventions humanitaires.
  • (2019). Guidance Note: Data Incident Management: En l’absence d’un langage commun et d’une approche claire de la gestion des incidents liés aux données, les organisations humanitaires risquent d’exacerber les vulnérabilités existantes et d’en créer de nouvelles, ce qui peut avoir des conséquences néfastes pour les personnes touchées et les travailleurs humanitaires. La présente Note d’orientation contribue à combler ces lacunes en matière de compréhension et de pratique.
  • (2019). Guidance Note: Statistical Disclosure Control: Outre un aperçu de ce qu’est le contrôle de la divulgation statistique et des outils disponibles, la Note d’orientation explique comment le Centre utilise ce processus pour atténuer les risques liés aux jeux de données partagés sur HDX (la plate-forme ouverte d’OCHA, Humanitarian Data Exchange).
  • Ur, Blase & Yang Wang. (2013). A Cross-Cultural Framework for Protecting User Privacy in Online Social Media.
  • Usable Privacy Project: un partenariat entre Carnegie Mellon et d’autres universités qui fournit de bonnes informations sur le soutien au consentement éclairé des utilisateurs, y compris des lignes directrices pour des présentations,[RC1] exemplaires de la politique de protection de la vie privée, « des étiquettes nutritionnelles [RC2] » sur la protection de la vie privée et une vidéo résumant les problèmes posés par les politiques existantes en matière de protection de la vie privée.
  •  (2019). Considerations for Using Data Responsibly: fournit aux membres du personnel de l’USAID et aux partenaires locaux un cadre permettant d’identifier et de comprendre les risques liés aux données de développement. Journey to Self-Reliance de l’USAID consiste notamment à aider les pays à développer leurs propres capacités technologiques et à se préparer en s’appropriant leurs données et en les tenant responsables de leur sécurité.
  • Ushahidi’s blog posts, en particulier ceux sur les big data.
  • Ward, Amy, Sample, Forster, Chantal & Karen Graham. (2019). Funder’s Guide: Supporting Cybersecurity with Non-Profit Partners and Grantees: Ce guide répond à deux questions : 1/Comment les fondations peuvent-elles mieux soutenir la cyber sécurité parmi les organisations à but non lucratif et les bénéficiaires de subventions ? 2/Et quelle est la responsabilité des bailleurs de fonds en matière de cybersécurité dans le secteur ?

Haut de page

Categories

Digital Development in the time of COVID-19