Valérie Peugeot fait partie d’Orange Labs, l’entité de Recherche et développement du groupe Orange. Elle travaille depuis plusieurs années sur les questions d’ouverture des données.
Orange a récemment mis à disposition de chercheurs certaines de ses données de communication mobile, dans le cadre du concours « Data 4 development ». Comment s’inscrit cette démarche dans la politique d’ouverture des données d’Orange ?
Il y a déjà plusieurs années qu’Orange Labs explore le sujet des données et notamment des usages de ses données de mobilité. Traditionnellement ces données étaient enfermées, réservées à l’usage de l’entreprise, essentiellement dans le cadre de l’amélioration de la relation client. Avec la montée en puissance des questions d’open data et de big data, celle-ci s’interroge de plus en plus sur les usages innovants possibles de ses données par elle-même comme par des tiers, dans une logique d’innovation ouverte.
L’approche d’Orange est très prudentielle. Nous cherchons d’abord à tester les nouveaux usages et mesurer la valeur des données, valeur étant entendue ici au sens large : valeur économique et sociale, valeur pour l’entreprise bien entendu, mais aussi pour ses clients et pour son écosystème d’innovation. Ces explorations sont portées avec des méthodologies très encadrées.
L’envie est là de comprendre et d’explorer, et dans le même temps, Orange souhaite prendre des précautions de manière à ne jamais fragiliser la protection des données liées à ses clients. La mise à disposition des données ne doit à aucun moment mettre en danger la vie privée des utilisateurs. Pour l’instant nous sommes pour l’essentiel dans des phases de recherches.
Urban mobs a été en 2008 le premier projet significatif en ce sens. C’est une cartographie dynamique de la géographie des appels et SMS envoyés le soir de la fête de la musique à Paris, lors de la finale de Euro à Barcelone ou à Madrid, etc. qui permettait de suivre à travers usage du mobile la dynamique des événements populaires. Il s’agissait d’un projet hybride entre recherche et art, avec de superbes visualisations, il n’y avait pas d’enjeu d’usage fort, c’était une première réalisation.
Depuis les projets de recherche se sont multipliés, autour des questions des déplacements de touristes par exemple, d’aménagement du territoire, et un premier service a vu le jour en 2010 avec Orange trafic Zen. Il s’adresse aux gestionnaires d’autoroutes dans le sud de la France. Orange leur fournit les données sur la vitesse de déplacement des téléphones et cela leur permet d’avoir une vision plus précise et moins coûteuse sur l’état du trafic et d’adapter leur gestion des flux. Les techniques précédentes nécessitaient des investissements importants pour équiper le réseau de capteurs. Il ne s’agit pas d’open data, puisque les données sont mises à disposition d’un acteur précis et encadrées par une relation commerciale.
En quoi a consisté le concours Data 4 development ?
Data 4 Development est une initiative lancée conjointement par Nicolas de Cordes au marketing stratégique d’Orange et Vincent Blondel, chercheur à l’université catholique de Louvain. Ils ont eu l’idée d’un concours à destination de la communauté scientifique sur la base de données des usages du mobile d’une zone géographique. Avec l’aide d’Orange Côte d’Ivoire, 4 jeux de données de Comptes-rendus d’appels (appels entrants et sortants, durée de l’appel et emplacement géographique des BTS) de ce pays, sur une période de 5 mois, ont été mis à disposition.
Là encore, nous avons été extrêmement attentifs aux enjeux de respect de la vie privée. Les équipes ont signé des conditions générales d’utilisation très contraignantes (qui leur imposait par exemple de détruire les jeux de données après les avoir utilisés) et nous avons fait un travail important d’anonymisation et d’agrégation des données afin que l’on ne puisse en aucun cas remonter aux individus. Pour valider nos techniques nous avons fait hacker nos données par deux universités amies. Elles n’ont pas réussi à les désanonymiser et nous ont fait des suggestions pour aller encore plus loin dans l’exigence de sécurité.
Nous avons été frappés par le nombre et surtout la qualité des propositions reçues. 250 demandes d’informations initiales nous sont arrivées, et après différentes étapes sélectives, nous avons finalement reçus 83 articles en provenance des meilleures équipes de recherche en data mining, mathématiques appliquées, informatique… du monde entier.
C’est la première fois dans l’histoire de la recherche qu’un tel jeu de données est mis à disposition, ce qui explique en partie l’appétence des équipes qui ont participé.
Nous apprenons en marchant, c’est une véritable recherche-action. Notre premier apprentissage a concerné la qualité des données, on s’est aperçus de nombreuses imperfections, par exemple qu’il y avait des manques dans les jeux de données, que certains données n’étaient pas disponibles, que parfois des antennes ne fonctionnaient pas, en raison de pannes d’électricité par exemple. La qualité des données n’est pas aussi bonne que ce que l’on pouvait imaginer, ce qui veut dire qu’il va falloir travailler pour améliorer la collecte. Seconde leçon : une démarche de mise à disposition de données nécessite des compétences et des ressources spécifiques conséquentes ; cela peut sembler un truisme, mais nous n’avions pas pris la mesure des ressources à mobiliser : les équipes de Côte d’Ivoire pour la collecte, la R&D pour l’anonymisation et l’infrastructure de mise à disposition, des compétences juridiques et de communications, une animation du jury et de la communauté… ce n’est clairement pas une démarche légère !
Quels sont les résultats de Data 4 development ?
La contrainte que nous avions imposée aux équipes de chercheurs était de produire des résultats utiles en termes de développement pour la Côte d’Ivoire ou plus généralement pour un territoire africain.
Du point de vue thématique, les articles reçus se répartissent pour l’essentiel en trois grandes catégories : l’urbanisme et les transports ; la santé et la lutte contre les épidémies ; la lutte contre la pauvreté et le développement économique. Les résultats sont au delà de nos espérances.
Par exemple, une équipe de chercheurs de Dublin a croisé les données de mobilité avec les trajectoires des transports publics, ce qui leur a permis de proposer des trajectoires alternatives, prenant en compte les déplacements réels des populations ; voilà à terme une piste qui peut participer à mieux penser les schémas directeurs de transport, à réduire la congestion, à diminuer les trajets quotidiens de millions de personnes, dans des villes africaines en croissance permanente.
Autre exemple, une équipe de Birmingham a analysé les déplacements des populations pour comprendre comment les maladies circulent, de manière à ce que les pouvoirs publics puissent mieux organiser leurs actions de prévention et d’endiguement des épidémies.
Ce travail scientifique est bien sûr un premier résultat. Notre apprentissage sur les questions de données en est un autre comme je l’ai expliqué.
Cette initiative est aussi pour Orange une façon d’incarner sa politique de responsabilité sociale de l’entreprise, en participant au développement local des pays dans lesquels elle est présente. A ce titre, Data 4 development a été mené en collaboration avec l’ONU qui porte un programme autour des données et du développement intitulé Global Pulse
Avec cette expérimentation, la démonstration de l’utilité sociale de la recherche appuyée sur les usages des mobiles est faite.
Quelles questions sont ouvertes suite à cette expérimentation ?
Il y a plusieurs types de questions. La première est d’ordre épistémologique, elle concerne les méthodologies de recherche. Un des articles a développé un argument particulièrement intéressant : bien sûr la masse de données et les méthodologies quantitatives pour les analyser nous donnent une nouvelle vision de la réalité, cependant, les méthodologies qualitatives d’enquête terrain sont un corollaire indispensable pour disposer d’une interprétation fiable de ces données. Les données seules ne sont pas suffisantes pour comprendre une réalité. C’est un point important lors que certains prédisent que le big data sonne le glas des théories scientifiques et des sciences humaines et sociales.
La deuxième série de questions concerne la création de valeur et sa monétisation.
L’ouverture des données génère de la valeur pour l’écosystème : les individus, les pouvoirs publics, les communautés, les entreprises. Les mécanismes de partage de cette valeur sont encore en élaboration.
Pour un acteur qui met ses données à disposition comme Orange, il y a plusieurs stratégies possibles sur un continuum qui va de l’open data gratuit au market data vendu de gré à gré avec tous les régimes mixes imaginables. Des expérimentations verront sûrement le jour sur ce sujet aussi.
Une autre question concerne le mésusage possible de ces données. En fonction du contexte politique et social dans lequel les données sont produites, sa mise à disposition peut ouvrir la porte à des usages imprévus, voire aux antipodes des effets espérés. L’exemple de l’ouverture des données du cadastre à Bangalore en Inde illustre le problème. Lorsque ces données ont été numérisées et ouvertes, ce sont les personnes de classe moyennes et supérieures disposant d’un capital cognitif et financier qui s’en sont emparées pour mettre la main sur des terres dont les droits de propriétés n’étaient pas limpides, en chassant des paysans pauvres.
Il ne s’agit pas d’avoir sur le sujet une posture normative, en déclarant ce que seraient a priori les bons ou les mauvais usages, et en cherchant à les contrôler ex ante, ce qui serait totalement illusoire, mais avoir conscience que la mise à disposition des données peut avoir dans certains cas des effets pervers.
Ce qui est certain c’est que la question de l’ouverture des données donne aux entreprises qui s’engagent dans cette démarche bien entendu des opportunités d’affaires, mais aussi une responsabilité supplémentaire.