Laboratoire de la donnée

Transformez votre métier par la donnée

Le datalab

Depuis juin 2016, le datalab soutient la mise en oeuvre de cas d'usages de valorisation des données conduits avec les directions métiers.

Le patrimoine de donnée

Le patrimoine des données du Ministère de l'Intérieur a été cartographié en 2017 (lien interne) en cinq grands domaines : les biens, les personnes morales, les personnes physiques, les titres et les données administratives et géographiques.

Les enjeux, précisés dans un article interne, relèveront à terme du big data. Les données de détail, enfouies au sein de plusieurs systèmes d'information, sont le plus souvent sous-exploitées. Le Laboratoire de la donnée propose un accompagnement pour les valoriser.

Le Laboratoire de la donnée accompagne les métiers dans l'exploration et la valorisation de leurs données avec l'appui de data scientists confirmés.

La data science

La data science complète le métier traditionnel du décisionnel et des statistiques. Grâce à des techniques avancées de traitement de la donnée et de modélisation, les data scientists mettent en exergue des situations métiers anormales et/ou apportent des solutions à des problèmes identifiés par les métiers.

L'application de ces technologies nécessite une étape importante de préparation des données, occupant environ 60% du temps du data scientist selon une étude publiée en 2016. Une fois les données nettoyées et organisées, le data scientist se consacre ensuite à l'élaboration d'algorithmes, la construction de statistiques simples ou l'implémentation de règles de gestion.

Les techniques d'apprentissage profond (deep learning), souvent assimilées à l'intelligence artificielle (IA), ne sont pertinentes que dans des cas bien ciblés et lorsqu'il y a déjà une maturité dans la maîtrise des données.

La compréhension du métier et de ses problématiques est un prérequis au succès des projets de data science.

Ainsi, l'organisation d'ateliers réunissant experts métier et spécialistes de la donnée permet aux premiers de partager leurs connaissances et ainsi d'initier efficacement ce type de projets. Plusieurs itérations sont ensuite nécessaires pour répondre au mieux aux problématiques des métiers.

 

 

Le programme EIG

Chaque année depuis 2016, les administrations ont la possibilité de soumettre leurs projets ambitieux de valorisation de la donnée à Etalab, département de la Direction interministérielle du numérique (DINUM) chargé de la conception et de la mise en oeuvre de la stratégie de l'Etat dans le dommaine de la donnée. Etalab sélectionne les "défis" qui intégreront le programme Entrepreneurs d'intérêt général (EIG).

A travers son programme, Etalab organise le recrutement de profils experts en data, web ou design. Ces derniers sont ensuite intégrés dans les administrations pour une durée de 10 mois. Le Ministère de l'Intérieur a déjà bénéficié de ce programme pour quatre défis.

Shiba Inu

CartAV

Augmenter la sécurité sur les routes en exploitant les données de verbalisations et d’accidents.

2017
French Bulldog

MatchID

Fiabiliser les statistiques de la sécurité routière en rapprochant le Fichier national des permis de conduire (SNPC) avec les registres de décès.

2017
Corgi

Previsecours

Aider les sapeurs-pompiers dans la prévision de leurs interventions.

2018
Corgi

IA Flash

Fiabiliser la constatation des contraventions à partir de la reconnaissance d’images.

2019

L'offre entrepôt

Initié au premier semestre 2018, l'entrepôt vise à industrialiser l'offre de valorisation des données, en permettant de raccourcir pour passer du POC à la mise en production. L'architecture de cet entrepôt et le choix des briques technologiques qui le compose sont assurés par le Laboratoire de la donnée.

L'offre entrepôt accompagne les directions métiers dans le déploiement d'une plateforme "data" standardisée à l'échelle du Ministère de l'Intérieur pour le traitement et la visualisation de leurs données.
Les produits actuellement dans l'offre sont :

  • Data Science Studio (DSS, de la société Dataiku) : transformation et mise en qualité de la donnée, machine learning.
  • Tableau Software : visualisation des données, reporting.
  • Vertica : système de bases de données relationnelles, optimisé pour l'analytique.

Les services de l'entrepôt

Le déploiement de l'entrepôt repose sur la sécurité du cloud pour le cloisonnement et la protection des données. La fonction d'administration des données préconise un déploiement séparant :

  • un entrepôt statistique par direction métier ou programme : cet entrepôt peut contenir des dérivées de données nominatives pseudonimisées pour peu qu'elles n'aient pas d'impact à large échelle. Il doit permettre l'étude de tendances comportementales en conservant la maille la plus fine des données (individu, véhicule, accident) sans viser des individus.
  • un entrepôt par domaine réglementaire, contenant les données nominatives pour, d'une part, assurer la mise en qualité des données et, d'autre part, assurer les traitement d'anonymisation et les traitements de lutte contre la fraude.

 

Équipe

Christophe MARQUAILLE

Chef du Laboratoire de la donnée

Benjamin BARRALON

Chef adjoint du Laboratoire de la donnée

Mathieu MANTA

Data scientist

Eva HOYAU-BOVET

Data scientist

Victor JOURNÉ

Data scientist deep learning (IA Flash)

Cristian PEREZ BROKATE

Data scientist deep learning (IA Flash)

Raphaël Bévenot

Ingénieur en informatique décisionnelle

Thierry Gameiro Martins

Data scientist

Nous contacter