Interview de Simon Chignard : « la question de la valeur des données est centrale »

Simon Chignard est un expert de l’open data et des données en général. Il a publié en 2012 l’ouvrage «Open Data, comprendre l’ouverture des données publiques»  et anime un blog sur les données ouvertes.

Open data, big data, données publiques, données personnelles … les données sont partout. Quels sont les enjeux associés à cette avalanche de données ?

Le premier élément qui me frappe, c’est que l’on ajoute toujours un qualificatif aux données : personnelles, ouvertes, «big», mais que finalement on entend peu de choses sur les données elles-mêmes.Cela traduit je pense notre incapacité à voir les points communs entre ces types de données.

Même si les contextes des données ouvertes ou big data sont très différents, je pense que les questions peuvent être communes à un grand nombre de type de data.

Première question,  celle de la production et de la collecte.

Nous sommes aujourd’hui  face à un phénomène d’ombre portée ou d’iceberg. C’est-à-dire que la part des données qu’on produit de manière consciente est très faible par rapport à la masse totale des données que nous produisons.

opendata

Lorsque je poste un tweet par exemple, ce sont près de 50 données aditionnelles qui sont produites et stockées,  ce qu’on appelle les métadonnées (les données sur les données). Dans le cas d’un tweet c’est par exemple le lieu depuis lequel nous écrivons ce tweet : sa localisation plus ou moins précise, mais aussi s’il s’agit d’une territoire urbain ou non, si le fuseau horaire du lieu est différent du pays d’origine de l’utilisateur, …Cela pose de nombreuses questions sur les conditions de collecte des données : les individus sont-ils informés de leur production de leur stockage ?  Le sont-ils quand elles sont réutilisées par la plateforme ou vendues à des tiers ? Pour reprendre l’exemple de Twitter, l’entreprise a attribué des licences d’exploitation et de commercialisation des données historiques (depuis les tous premiers tweets jusqu’à aujourd’hui) à deux sociétés, dont DataSift au Royaume-Uni.

Ces questions sont transverses quel que soit le type de données. Beaucoup de gens réfléchissent aux données aujourd’hui mais toujours de façon focalisée et segmentée, les données ouvertes d’un côté, les données personnelles de l’autre, …

C’est pénalisant pour penser les questions associées aux données, nous avons besoin d’un questionnement commun et transverse. Poser les questions de manière commune ne va pas pour autant dire que les réponses doivent être identiques pour la donnée personnelle, l’open ou le big data !

On pourrait formuler ces questions aussi en termes de gouvernance, quels modèles de gouvernance des données sont à l’œuvre, en quoi se différencient-ils ?

J’en vois 4 très différents, un que l’on peut qualifier de boîte noire, un autre qui est celui des API du web, le troisième est celui de l’open data et le dernier est inspiré de la  restitution des données personnelles.

Prenons Critéo (l’une des plus belles réussites de start-up en France) qui met en place des solutions de reciblage publicitaire. C’est un exemple du premier type de gouvernance, la boîte noire, qui est probablement le moins enviable et surtout le plus problématique car opaque pour l’utilisateur.

Les internautes ont mûri, ils savent parfaitement que leur comportement est enregistré et suivi, ils ont intégré que la contrepartie à l’utilisation gratuite d’un service était qu’ils deviennent le produit par l’utilisation qui est faite de leurs données.

En revanche ce qu’ils savent moins c’est comment ces données sont utilisées, avec qui elles sont partagées et dans quelles conditions. Des utilitaires tels que le plug-in Collusion (pour Firefox et Chrome) ou le service Privowny vous révèlent ainsi la cascade d’acteurs et d’intermédiaires qui ont accès aux données liées à vos comportements en ligne.

Les individus – que l’on peut légitiment considérer comme des (co-)producteurs de ces données -sont totalement exclus des modèles économiques qui s’appuient sur les données qu’ils laissent plus ou moins consciemment (et volontairement) sur internet. On a le droit de considérer que le secret des affaires est primordial et dire en substance aux utilisateurs «it’s not your business». Mais au final je pense que ce sont quand même un peu aussi leurs affaires !

Second modèle de gouvernance, celui des API du web. C’est pour moi le modèle de l’empire romain. En apparence, tout le monde a accès au flux de données, c’est le cas pour Twitter par exemple ou pour certains services de GoogleGoogle.  Ce n’est qu’une ouverture apparente, partielle, décidée par la plateforme. Nous (en tant que développeurs ou même en tant qu’usagers avec le Data Liberation Front de Google) avons accès aux données certes mais pas à toutes les données et notamment celles de l’ombre portée que j’ai déjà évoqué. Or la valeur est bien souvent dans l’ombre portée…

Ces empereurs définissent les règles, elles s’appliquent partout et ils les changent quand elles ne leur sont plus favorables ou qu’une meilleure option se présente.

La gouvernance des API du web pose un certain nombre de questions. Vous pouvez bâtir un service web en Turquie, construire peu à peu une base de clients fidèles jusqu’au jour où un changement des règles de l’API de Twitter décidé à San Francisco mette à mal tout l’édifice que vous aurez patiemment monté… C’est le côté arbitraire de l’empire romain.

Le troisième modèle de gouvernance, c’est celui de l’open data basé selon moi sur deux principes forts.. Le premier c’est la non discrimination, tout le monde est a priori qualifié pour utiliser les données et l’accès est gratuit – ou à tout le moins le tarif ne constitue pas un facteur de discrimination entre réutilisateurs. Le second principe c’est :  « don’t ask / don’t tell », on ne préjuge pas de l’utilisation, on modère a posteriori plutôt que de contrôler a priori. L’open data ne concerne pas que les opérateurs publics, les opérateurs privés peuvent (et certains le font) ouvrir leur données.

Le denier modèle de gouvernance, c’est celui de la restitution des données personnelles. C’est le l’initiative Smart Disclosure du gouvernement des Etats-Unis, Midata en Grande Bretagne ou MesInfos en France avec la Fing. Le principe est d’une part de restituer leurs données aux individus et d’autre part de leur redonner  le contrôle sur ces données pour qu’ils définissent comment ils souhaitent les partager.

C’est un modèle plus complexe que l’open data, puisqu’il est nécessairement tri-partite : clients, entreprises, réutilisateurs.

Finalement, c’est la question de la valeur de données et de la répartition de cette valeur que posent indirectement ces modèles de gouvernance ?

Oui, et on a une vraie difficulté à identifier la valeur des données, car une grande partie de la valeur ne provient pas de l’usage initial des données mais bien de leur réutilisation. Open ou big data, données personnelles, la question «use vs. reuse» est centrale.

Tout le monde sent bien qu’il y a quelque chose mais on a du mal à mesurer ces valeurs, à les monétiser, à les peser, à définir les termes de l’échange.

C’est aujourd’hui pénalisant car tant qu’on n’aura pas progressé sur la question de la valeur des données on ne pourra pas régler la question du partage.

On a besoin d’expérimentations pour faire émerger les critères de valeur des données. J’en vois plusieurs en cours : MesInfos bien sûr pour la restitution des données, mais aussi le projet de Station Data du programme Datact3. L’idée est d’expérimenter une régie locale de données, qui fasse l’intermédiation entre de multiples sources de données (publiques, privées) et gère aussi la répartition de la valeur (par exemple avec des mécanismes de contribution et d’échanges).

source illustration : NetPublic (CC BY-NC-SA 2.0 FR)

Partager

Simon Chignard

À propos de Simon Chignard

Consultant et formateur indépendant, j'interviens régulièrement comme conférencier sur l'économie et les usages du numérique (open data, mobile, réseaux sociaux, infomobilité) et écrit sur ces sujets.

Louis-David Benyayer

À propos de Louis-David Benyayer

Entrepreneur / consultant / chercheur / enseignant, Louis-David Benyayer est passionné par l'innovation, la stratégie, les modèles économiques et l'entrepreneuriat.

Carole Leclerc

À propos de Carole Leclerc

Jeune diplômée en management et économie du numérique, a travaillé à la Fing sur les données personnelles et les business models associés.

2 thoughts on “Interview de Simon Chignard : « la question de la valeur des données est centrale »

  1. Pingback: It Works ! | Interview de Simon Chignard : « la question de la valeur des données est centrale »

  2. Pingback: Mesurer l’open data et ses effets | données ouvertes

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *