Collaborant depuis près de 20 ans avec la société éditrice de nos soutions, Gérard Clerquin a su développer un véritable partenariat autour de l’ensemble de leurs outils français et internationaux. Plus particulièrement avec la plateforme technologique Spectrum™ qui propose un ensemble de composants et d’applications permettant d’améliorer la fiabilité et la pertinence des données, grâce à des processus de standardisation, validation, dé-doublonnage et enrichissements (Spectrum™ pouvant intégrer des référentiels comme des bases de données ad hoc permettant des enrichissements divers sur vos bases de données worldwide, comme par exemple les bases télécom, bases déménagés, Robinson, etc…).

Address-Expert commercialise la version Spectrum™ sous forme de licence et propose un accompagnement technique et fonctionnel pour son intégration.

Schéma : Vision Spectrum™

La plateforme technologique Spectrum™ propose un ensemble de composants et applications permettant d’améliorer la fiabilité et la pertinence des données grâce à des processus de standardisation, validation, dé-doublonnage et enrichissement.

Spectrum™ peut traiter les données de tous types y compris les données spatiales dans des domaines aussi variés que ceux de la gestion des données Clients, Produits, ou de Localisation.



Le cycle de vie des données

La plateforme Spectrum™ prend en charge l’ensemble du cycle de vie de la donnée ou un domaine particulier de ce cycle sur lequel d’important efforts de fiabilisation doivent être portés.

Le schéma suivant illustre un processus complet de gestion des données couvrant les étapes clefs de son raffinage depuis sa collecte jusqu'à l’enrichissement pour alimenter de façon pertinente et efficace les différentes applications cibles.


Les 8 étapes présentées dans ce cycle couvrent les besoins suivants :

L’accès aux données
La première étape d’un tel processus consiste à accéder aux données que vous souhaitez traiter. La plateforme Spectrum™ peut se connecter à des données de différentes natures et de sources différentes. Spectrum™ prend en charge l’accès aux données via JDBC et les fichiers plats. Il prend également en charge l'accès aux données par le biais d’implémentations existantes ou par celui d’accès spécifiques tels que les outils ETL (Extract, Transform, Load), EAI (Enterprise Application Integration), et ESB (Enterprise Service Bus).

Interprétation des données
Dans la phase d’interprétatin, Spectrum™ utilise des « patrons d’extraction » et des fonctions de manipulation de données pour séparer (ou « Parser ») les entités que vous souhaitez isoler des données erronées ou parasites d’une chaine de caractères. Cette étape fondamentale vise donc à rendre la donnée consistante et compréhensible pour les processus ou applications qui consommeront ces données. Par exemple, pour normaliser les adresses postales et les rapprocher des référentiels nationaux, le processus de parsing doit pouvoir correctement identifier l’ensemble des éléments constituant l’adresse tels que le nom de rue, le type de voie, le numéro dans la voie, la ville, le code postal,… Spectrum™ peut également analyser les noms propres tels que les noms de personnes, noms de société et de nombreux autres termes et abréviations utilisés pour une culture donnée. En outre, les administrateurs peuvent créer leurs propres listes de termes métier à utiliser comme base d’interprétation du moteur d’interprétation.

Standardisation / Normalisation
La standardisation est un processus critique pour optimiser les phases de rapprochement de données ainsi que celles de dé-doublonnage d’une même source.

      La standardisation consiste à harmoniser les entités reconnues par la phase d’interprétation par les termes faisant l’objet d’un standard déterminé par une organisation publique ou privée. La normalisation, définissant un consensus et approuvé par des organismes reconnus, correspond à la phase de standardisation pour le traitement de certaines données :
    • - Ecriture des numéros de téléphone régie par l’Union internationale des télécommunications : normes UIT-T E.122, E.123 et E.126
    • - Ecriture des adresses française : Norme postale Afnor XP Z 10-011)
    • - Ecriture des codes, noms de pays (ISO 3166-1) et de leurs subdivisions (ISO 3166-2) Etc…

Validation
Les données standardisées ne sont pas nécessairement exactes. Le processus de validation a pour but de vérifier l’existence de la donnée dans des référentiels reconnus pour leur exactitude faisant l’objet de mises à jour régulières. Les sources de données utilisées pour cela peuvent provenir d’organismes liés à la réglementation (postale par exemple) ou de fournisseur de données du marché ou de référence interne à votre propre entreprise (issue d’une solution de MDM ou d’un référentiel métier).

Déduplication / Dé-doublonnage

      Cette étape consiste à :
    • - Identifier les doublons dans une seule source de donnée (On parlera plus précisément de dé-doublonnage)
    • - Identifier les doublons à travers plusieurs sources de données à des fins d’arbitrages sur les données (Réconciliation, fusion,…)
    • - Rapprocher deux sources de données à des fins d’enrichissement
    • - Rapprocher deux ou plusieurs sources de données à des fins de « Repoussoirs »

Spectrum™ permet de spécifier un ensemble cohérent de règles de rapprochement basées sur des algorithmes de « fuzzy » matching élémentaires (appariement par approximation) produisant des scores permettant de valider le rapprochement à partir de seuil d’acceptation définis par l’administrateur. Les différentes règles sont ensuite combinées entre elles par des opérations booléennes. Un score final résultant de l’agrégation des différents scores élémentaires retenus, détermine le degré de vraisemblance final obtenu.

Les algorithmes fournis permettent de traiter les fautes de frappes, les doublements de consonnes, les similitudes phonétiques, les altérations diverses, concaténation/séparation à tort ainsi que la prise en compte de champs oublié.

Consolidation
Une fois les doublons identifiés, une consolidation des enregistrements peut être souhaitable pour supprimer de la redondance d’information dans les différents systèmes ou synchroniser les informations entre elles (Vision unique). Spectrum™ permet de sélectionner le « Golden record » et spécifier comment fusionner les différentes informations en provenance des doublons.

Enrichissement
L’enrichissement intervient à toutes les étapes citées précédemment. L’apport d’une clef exogène permettra de trancher par exemple sur la présence de doublons.

Spectrum™ dispose d’atouts fondamentaux sur cette étape cruciale dans l’apport des référentiels de données de référence dont elle dispose mais également de sa capacité à traiter les problématiques géo-spatiales. Un catalogue de données complet édité annuellement recense l’ensemble des données exogènes que nous pouvons fournir à travers Spectrum™.

Mise à disposition des résultats
      Spectrum™ n’a pas vocation à stocker les informations traitées. Elle dispose de capacités importantes à « délivrer » ses résultats de façon automatisée, en mode batch ou interactif, en s’appuyant sur les standards d’intégration du marché :
    • - Fichiers plats
    • - Connecteurs de base de données
    • - Web Services
    • - Intégration logicielle via API
    • - Intégration avec les principaux middlewares du marché
    • - Implantation hybride sur site ou mode Saas


Haut de page

Spectrum™ est une marque déposée de Pitney Bowes Software