› Plateforme nationale de géocodage

Présentation du projet aux Rencontres DécryptaGéo 2017

Cette page transcrit la présentation faite aux Rencontres DécryptaGéo, le 24 janvier 2017 par Jean-François Gigand.

La démarche

Acteurs du projet

Il s’agit d’un projet financé par le Programme d’Investissement d’Avenir (PIA) et par l’IGN ; co-financement à 50-50.

Il est porté par le ministère de l’environnement, de l’énergie et de la mer, avec l’appui du Secrétariat pour la modernisation de l’action publique pour le suivi technique et financier.

L’IGN est le porteur opérationnel.

Objectifs

L’objectif du projet est d’améliorer, dans le contexte de la Base Adresse Nationale (BAN), la qualité du géocodage disponible à partir de la BAN. En effet :

Phases

Le projet se divise en 3 étapes :

  1. état des lieux : en matière de géocodsage et de donnée adrese, de cerner les usages, d’interroger les utilisateurs et les acteurs et petit à petit traduire/transposer ces attentes et exigences en spécifications techniques et fonctionnelles des exigences sur les services de géocodage
  2. ensuite, ces spécifications permettente de développer et de recetter des services de géocodage afin de vérifier qu’ils satisfont le périmètre établi consensuellement
  3. pour permettre à chacun d’évaluer la qualité des services de géocodages, ces specs sont traduites en tests automatisés autant que possible et grille d’évaluation et en même temps d’aider les développeurs d’orienter leur développement pour satisfaire les demandes. On mutualise ainsi son étude de besoins en rassemblant en synthèse nationale qui profite à chacun, que ce soit sur un géocodage national ou territorial.

Cela peut aussi bien intéresser des acteurs comme Google ou Géoconcept, que des développements internes recettés entre services commanditaire.

Mode opératoire

Le mode d’action de cette démarche, pour ces étapes, se fait en animation de façon collective. C’est une démarche transparente et sa vocation est justement de synthétiser, d’aimanter ces expériences, ces attentes pour aussi suivre dans le temps les évolutions, puisque les services évoluent, les exigences évoluent donc on reste dans une dynamique de création continue façon agile, on pourrait dire, mais en rythme de croisière, sur des cycles plus lonngs : trimestriels ou semestriels .

Ainsi l’état des lieux rassemble des interview d’utilisateurs et acteurs de géocodage dont je vais vous en présenter quelques uns, donnant lieu à des rencontres ouvertes pour que les personnes se rencontrent, les idées s’échangent, à travers des évènements dédiés et/ou sous l’ombrelle de l’AFIGEO par exemple.

C’est une sorte de groupe de travail, informel sur le plan des participations (chacun peut apporter son point de vue), mais formel dans la synthèse, à travers l’etat des lieux, les spécification et bien-sûr le mode opératoire du protocole d’évaluation.

État des lieux

Géocodage : de quoi s’agit-il ?

Le géocodage est la traduction d’une adresse litérale en point géolocalisé.

On évoquera les types et modes de géocodage, des modes de géocodage. On listera ensuite les référentiels de données disponible et un recencement des services.

Cette partie plutôt encyclopédique sera seulement survolée pour attaquer au plus vite les exigences opérationnelles. La matière demeure accessible en ligne sur la plateforme.

Géocodage interactif

C’est quand un humain entre une adresse sur une interface avec des suggestions de résultats apparaissant au fur et à mesure que l’adresse se voit complétée par l’utilisateur.

Ce qui entraîne un mode particulier puisqu’en tapant progressivement, ce n’est pas la même chose qu’une adresse dans un fichier, complète dès le départ, quelle que soit la qualité et la conformité de cette adresse.

6
6 rue
6 rue bl
6 rue blai
6 rue blaidr
6 rue blaid
6 rue blai
6 rue blaise
6 rue blaise pascal

C’est habituellement traité à part dans les algorithmes de géocodage, car par exemple, c’est différent de traiter un début d’adresse qu’une adresse complète avec tous les éléments en même temps.

L’utilisateur peut aussi entrer directement une ville ou un code postal, ce qui change là aussi la façon de rechercher.

9
91
91150
91150 et
91150 etampes

Géocodage de masse

Il y a ensuite le géocodage de masse : on osumet un fichier tableur contenant une liste d’adresse :

Le géocodage produira de nouvelles colonnes : X/Y ou longitude/latitude ajoutées dans le fichier. Dans cet exemple, on classe les colonnes du tableau en 3 groupes :

API de géocodage

Autre mode : l’API de géocodage. Dans ce mode, l’API est fournie par l’organisme offrant le géocodage, qui sera exploité dans un autre contexte. Il faut donc prévoir par exemple un paramètre de préférence géographique ou des contraintes, comme limiter le géocodage à un territoire.

L’exemple ci-dessous provient d’un résultat de l’API du géocodeur Addok, hébergé sur adresse.data.gouv.fr :

"properties":
{
	"context": "80, Somme, Picardie",
	"housenumber": "8",
	"label": "8 Boulevard du Port 80000 Amiens",
	"postcode": "80000",
	"citycode": "80021",
	"id": "ADRNIVX_0000000260875032",
	"score": 0.3351181818181818,
	"name": "8 Boulevard du Port",
	"city": "Amiens",
	"type": "housenumber"
},
"geometry":
{
	"type": "Point",
	"coordinates": [2.29009, 49.897446]
},
"type": "Feature"



Géocodage de territoires

http://api-adresse.data.gouv.fr/search/?q=paris&type=street

On peut aussi préciser le géocodage au territoire, un sous-mode, c’est-à-dire rechercher un quartier, une ville, un département.

Référentiels de données

Passons maintenant aux référentiel de données. Le géocodeur est un moteur de rapprochement entre des adresses soumises en requête et un référentiel d’adresse ; établir la correspondance entre les deux. Le principe est davantage identitaire que linéaire : on cherchera à identifier pour l’adresse recherchée quelle est l’entité adresse (point adresse) correspondante, et s’il n’existe pas la localisation sera interpolée à partir des points d’adresse connus.

Pour géocoder, on a donc besoin de données de référence, idéalement les points adresses. Leur exhaustivité ne peut être garantie : il est difficile de constituer une référentiel exhaustif, d’autant que l’adresse est de la compétence de la commune (pour les voies publiques) et qu’il est difficile de maintenir le référentiel parfaitement à jour.

Données IGN

La BD Topo est importante en matière de lieux-dits, car le BD Adresse ne fournit que les points et tronçons. La base ADMIN Express contient les polygones de communes, établissements publics de coopération intercommunale (EPCI), départements, régions.

Données INSEE

Données cadastrales

BAN et BANO

Il y a aussi bien-sûr que la BAN et la BANO. La BANO est la synthèses des adresses de la base OpenStreetMap augmentée des données ouvertes disponible et des enrichissements du cadastre de la DGFIP.

Depuis 2 ans, la BAN hérite de la BD Adresse de l’IGN enrichie de la base adresse de La Poste.

Offres de géocodage

Offre cloud

Comme offres de géocodage, il y a tout d’abord les offres en mode cloud , exploitables directement, sans liberté relative au référentiel de données utilisées.

On y trouve les API commerciales telles que Google Maps, HERE, GeoConcept et IGN.

Outils à intégrer

Une autre catégorie concerne les outils indépendants du référentiels. Par exemple, la suite logicielle de ESRI contient un moteur de géocodage, qu’il faut alimenter avec son propre référentiel adresse (Base adresse nationale, par exemple). GeoConcept propose un moteur à intégrer. Addok , le géocodeur dit de la BAN est quant à lui un logiciel libre que chacun peut installer.

Contextes d’exploitation

Transports

Avant d’aborder les exigences, nous exposons quelques contextes d’exploitation aux priorités différentes.

Par transport , on entend l’utilisation de résultats de géocodage pour se rendre à une adresse avec un véhicule, qu’il s’agisse de livraison ou d’intervention des services de secours. Ce cas n’est pas le plus exigent en précision fine : une précision de 10-20 mètres suffira en principe, car l’agent pourra se référer aux indications du terrain.

La situation du bon côté de la voie n’est pas non plus cruciale. En revanche, un manque de précision devra absolument être caractérisé, par exemple si l’adresse ne peut être géolocalisée au numéro : un placement au centre de la voie peut s’avérer très impactant sur l’itinéraire d’accès (du fait des sens uniques, etc.).

Analyse spatiale

L’analyse spatiale, telle qu’une étude géo-marketing portant sur la zone de chalandise et la distribution spatiale d’une clientèle, par exemple, ne nécessite pas de grande précision. Sur une échelle départementale, les adresses peuvent éventuellement être placées aux centres des communes sans fausser l’interprétation.

Quartiers de la Politique de la Ville (QPV)

La nouvelle géographie prioritaire de la politique de la ville définit 1514 quartiers en France (dont 218 en outre-mer). Un enjeux est de pouvoir établir, pour une adresse quelconque, à quel quartier prioritaire elle appartient, le cas échéant.

Or un tel géocodage doit être très précis : au numéro près, du bon côté de la voie, etc.

De fait de cette exigence, et de l’absence d’un telle fiabilité dans les services de géocodage disponibles, le Commissariat général à l’égalité des territoires (CGET) exploite un autre principe, rapprochant les adresses aux quartiers directement, sans passer par un géocodage géographique.

Géo-statistiques

Les statistiques ont une autre finalité : la qualité des chiffres agrégés. Un géocodage imprécis (numéro inconnu dans la voie ou adresse inconnue dans la commune, par exemple) aura un impact sur la qualité de la statistiques, cependant de façon moindre grâce à l’imputation aléatoire.

5 exigences

1. Texte libre et souplesse lexicale

Beaucoup de fichiers contiennent des champs structurés (numéro, répétiteur, voie, code postal, commune ou libellé d’acheminement). Quand on entre directement une adresse, le champs est libre, avec potentiellement une restriction géographique. Il est donc nécessaire de pouvoir rechercher une adresse sans structuration, même si la structuration - quand elle est fournie en entrée - est de nature à aider le géocodeur.

Par exemple, Addok (BAN) et Google Maps fonctionnent en texte libre, avec la possibilité d’ajouter des contraintes sur le code postal ou la ville.

Souplesse orthographique

Un moteur de géocodage doit offrir une certaine souplesse, pour prendre en compte différents cas :

Premier exemple :


Ce second exemple porte sur l’adresse du siège de l’IGN : le mot-clef CEDEX doit être ignoré du géocodeur, ainsi que le code postal (94165 est un code postal CEDEX ), à moins que les 2 chiffres du département soient exploités.

L’aptitude du géocodeur à ignorer et inverser des mots ne doit cependant pas le conduire à confondre le nom de voie et celui de la commune :

2. Prise en compte des lieux-dits

La ligne 5 de l’adresse est trop souvent oubliée des structuration d’adresses. Ce n’est pas juste une voie dans une commune, mais aussi le lieu-dit ou quartier, qui peut d’ailleurs être l’ancienne commune qui a été fusionnée dans une autre. La prise en compte de cette ligne 5 avec la flexibilité du moteur pour interpréter les mots dans un ordre différent.


Cas de Marne la Vallée

École Nationale des Sciences Géographiques (ENSG)

6 et 8 Avenue Blaise Pascal
Cité Descartes
Champs-sur-Marne
77455 Marne la Vallée Cedex 2

Il y a les lieux-dits infra-communaux mais aussi supra-communaux. Par exemple, Marne la Vallée qui est une ville nouvelle et souvent inconnue des géocodeurs. L’adresse de l’ENSG par exemple n’est pas trouvée, à plus forte raison du fait du CEDEX. Avenue Blaise Pascal se trouve dans la Cité Descartes. La commune est Champs sur Marne et le libellé d’acheminement "Marne la Vallée". Le nom de la commune n’est pas mentionné. Au moins ça aide d’avoir Cité Descartes dans l’adresse (ligne 5), à condition qu’il soit présent dans le référentiel.

3. Besoin d’historique

On peut justement sur ces cas d’adresses anciennes un besoin d’historique. Les changements communes notamment peuvent poser des questions. Il faut que le changement soit bien-sûr pris en compte aussi vote que possible (par exemple, les nombreuses fusions de communes effectives au 1er octobre 2015 et 1er janvier 2016). Mais les anciennes adresses perdurent des années sur des formulaires, dans les bases, etc., donc il faut pouvoir garder toutes ces informations.

1 rue des Vosges 50100 Cherbourg-Octeville

1 rue des Vosges 50100 Cherbourg-en-Cotentin

4. Stabilité de l’identifiant

C’est une question d’intégrité. Pour que l’adresse soit une information, il faut pouvoir la tracer. Lorsqu’on a apparié à un moment donné un fichier adresse, on intègre les coordonnées, les adresses évoluent. Le point peut évoluer donc il faut pouvoir le mettre à jour dans les fichiers déjà géocodés. L’adresse epeut aussi être complétée donc on a l’expression littérale de l’adresse qui peut évoluer, être complétée (dans un fichier client, par exemple), cela ne doit pas créer de doute sur l’identité de cette adresse, donc la doter d’un identifiant immuable et insignifiant pour qu’il soit décorellé de son expression littérale ainsi que des coordonnées géographiques.

ADRNIVX_0000000272606969

HEXACLEF

osm_id

5. Indicateurs de qualité

En dernier, on parlera des indicateurs de qualité : dans la plupart des géocodeurs, on a bien un coefficient de correspondance (score de matching) qui ressort du résultat : 90 %, 60 %... On jugera par exemple qu’en dessous de 70 % le résultat est réputé non fiable et il faudra repasser à la main. Pour le géocodage de masse, il faut donc avoir cette information dans une colonne afin de permettre à l’opérateur humain de filtrer les résultats douteux pour les vérifier et re-géocoder à la main.

Qualitatif : mode de positionnement

Plus souvent négligés sont les indicateurs de qualité de l’adresse elle-même, qui doivent être renvoyés depuis le référentiel. Par exemple, sur la BD Adresse, il est qualitatif et quantitatif.

Quantitatif : précision du référentiel source

Labels qualité : mode de production, type d’exploitation

Quand plusieurs producteurs mutualisent leur base en cycle de vie complet, avec mises-à-jour continues, il faut pouvoir garantir la validité des objets suivant leur mode de production et/ou type d’exploitation.

On peut imaginer des estampilles qualité IGN , qualité INSEE , etc.

4 besoins opérationnels

1. Le géocodage, moteur de requêtage d’adresses

Pour conclure, on voit souvent le géocodeur comme un simple processus de traduction - et effectivement c’est un véritablement moteur de fusion de données, mais c’est en fait un requêtage d’adresse. Bien plus que d’obtenir un point sur la carte (traduire une adresse en coordonnées géographiques), le géocodeur est en fait un véritable requêteur d’adresse, c’est-à-dire d’information adresse avec ses indicateurs de qualité, son identifiant, sa provenance.

D’ailleurs, le schéma de la BAN prévoit plusieurs localisants possibles : au bâti, à la plaque... Les géocodeurs pourront donc évoluer avec une meilleure flexibilité en fonciton de ce qu’on recherche : plusieurs points, et donc avoir une véritable information.

2. Point d’interopérabilité universel

Ensuite, l’appariement. Pour replacer dans le contexte et les enjeux.

Au delà de cartographier des adresses , le géocodage permet d’apparier des jeux de données entre eux : en ajoutant des coordonnées géographiques à des données reposant sur des adresses, on rend ces données spatiales.

En tant que données géographiques, elle deviennent interopérable entres elles (on peut les comparer, additionner les attributs, chercher des corrélations – même sans sémantique commune). On peut effectuer des jointures spatiales, savoir à quel quartier ou territoire elles appartiennent, de les intégrer dans des statistiques...

3. Synchroniser les bases adresses

Il y a des bases adresses à différents échelons territoriaux, par exemple d’une commune ou de SDIS compte énormément sur son fichier, couvrant un terrain qu’elle connaît bien et à partir de là, même si on partage l’adresse vers l’amont et vers l’aval (remontée nationale), il faut pouvoir synchroniser les bases et garder ses propres données et garder ce qu’on a, que ce ne soit pas modifié.

Tout cela impose la stabilité des identifiants, qui puisse perdurer au delà même de la mort d’une adresse : celle-ci sera marquée comme détruite. Tout ceci se rapporte à la structuration de la donnée Adresse et l’organisation des flux de mises-à-jour car la confiance est nécessairement progressive, même en matière de données, et fonction des essais.

4. Machine learning

Enfin, la Plateforme nationale de géocodage vise à exploiter le journal des requêtes de géocodage pour améliorer les données du référentiel. Les erreurs de géocodage peuvent être détectées pour constituer des alertes (signaler une adresse manquante), voire constituer une base de tolérance en analysant le comportement de l’utilisateur qui écrit puis ré-écrit l’adresse sous différentes formes jusqu’à identifier la forme la mieux reconnue.

Ce faisant, le géocodage sort de sa position de diffusion pour contribuer à la production de la donnée adresse.

Perspectives

Appel à manifestation d’intérêt

Échanges sur le GeoRezo

Groupe de travail

Service public de la donnée

À suivre !

animateur@plateforme-nationale-geocodage.fr

Merci pour votre attention