Beruflich Dokumente
Kultur Dokumente
TOS-DI
E. Quinton
IRSTEA
Présentation de Talend Open Studio
Talend
L’écosystème
TOS
Logiciel Data Integration
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base Éric Quinton
de données
Synchroniser des
bases
eric.quinton@irstea.fr
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases CNRS - Rbdd 2015
infocentres
En
conclusion...
21 octobre 2015
21/10/2015
1 / 17
Sommaire
Présentation
TOS-DI
E. Quinton
IRSTEA
1 Talend
Talend
L’écosystème
TOS
TOS DI 2 TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base
de données
3 Cas d’usage
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
4 En conclusion...
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
2 / 17
La société
Présentation
TOS-DI
21/10/2015
3 / 17
TOS : un ensemble de logiciels dédiés aux flux
de données
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème
TOS
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
4 / 17
TOS : un ensemble de logiciels dédiés aux flux
de données
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème
TOS
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
4 / 17
Talend Open Studio
Présentation
TOS-DI Une plate-forme basée sur Eclipse RCP (Rich Client
E. Quinton Platform) :
IRSTEA
possibilité de gérer des connexions multiples,
Talend notamment pour travailler en équipe (disponible dans la
L’écosystème
TOS
version payante) ;
TOS DI
possibilité de gérer des projets multiples ;
Principes une ergonomie classique pour les logiciels basés sur
Les composants
Eclipse RCP :
Cas d’usage
Alimenter une base
de données Un arbre à gauche, avec les
Synchroniser des
bases objets manipulés ;
Extraire les
métadonnées de
couches
une fenêtre centrale, pour
géographiques
Alimenter des bases
dessiner les opérations ;
infocentres
un arbre à droite, avec les
En
conclusion... objets à insérer ;
des boites de paramètres ou
21/10/2015 d’exécution, en bas
5 / 17
Principes généraux
Présentation
TOS-DI
des composants graphiques sont assemblés :
E. Quinton
IRSTEA soit par des flux (entrée, sortie)
soit par des événements (traitement ok, ko)
Talend
L’écosystème
TOS
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
6 / 17
Principes généraux
Présentation
TOS-DI
des composants graphiques sont assemblés :
E. Quinton
IRSTEA soit par des flux (entrée, sortie)
soit par des événements (traitement ok, ko)
Talend
L’écosystème
TOS
TOS génère, puis exécute, du code Java :
TOS DI le code peut être visualisé (pratique pour déboguer) ;
Principes
Les composants
il faut faire attention au typage (int vs Integer,
Cas d’usage
conversions de types) ;
Alimenter une base les tests utilisent la notation ternaire :
de données
Synchroniser des
bases
condition ? ok : ko
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
6 / 17
Principes généraux
Présentation
TOS-DI
des composants graphiques sont assemblés :
E. Quinton
IRSTEA soit par des flux (entrée, sortie)
soit par des événements (traitement ok, ko)
Talend
L’écosystème
TOS
TOS génère, puis exécute, du code Java :
TOS DI le code peut être visualisé (pratique pour déboguer) ;
Principes
Les composants
il faut faire attention au typage (int vs Integer,
Cas d’usage
conversions de types) ;
Alimenter une base les tests utilisent la notation ternaire :
de données
Synchroniser des
bases
condition ? ok : ko
Extraire les
métadonnées de
couches
il est possible d’exporter un job pour l’exécuter en ligne
géographiques
Alimenter des bases
de commande Java.
infocentres
Présentation
TOS-DI Il manipule des matrices de données sous forme de
E. Quinton flux :
IRSTEA
données en lignes, attributs en colonnes ;
Talend
une itération par ligne ;
L’écosystème il n’est pas adapté aux formulaires Excel (A4, B8, F15,
TOS
A12 à récupérer, p. e.) ;
TOS DI
Principes
il vaut mieux recourir à un logiciel de pré-traitement qui
Les composants normalisera les données
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
7 / 17
TOS Data Integration - principes
Présentation
TOS-DI Il manipule des matrices de données sous forme de
E. Quinton flux :
IRSTEA
données en lignes, attributs en colonnes ;
Talend
une itération par ligne ;
L’écosystème il n’est pas adapté aux formulaires Excel (A4, B8, F15,
TOS
A12 à récupérer, p. e.) ;
TOS DI
Principes
il vaut mieux recourir à un logiciel de pré-traitement qui
Les composants normalisera les données
Cas d’usage
Alimenter une base
il peut associer des données de sources multiples :
de données
Synchroniser des
bases de données ;
bases
Extraire les
fichiers textes : Excel, CSV, XML ;
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
7 / 17
TOS Data Integration - principes
Présentation
TOS-DI Il manipule des matrices de données sous forme de
E. Quinton flux :
IRSTEA
données en lignes, attributs en colonnes ;
Talend
une itération par ligne ;
L’écosystème il n’est pas adapté aux formulaires Excel (A4, B8, F15,
TOS
A12 à récupérer, p. e.) ;
TOS DI
Principes
il vaut mieux recourir à un logiciel de pré-traitement qui
Les composants normalisera les données
Cas d’usage
Alimenter une base
il peut associer des données de sources multiples :
de données
Synchroniser des
bases de données ;
bases
Extraire les
fichiers textes : Excel, CSV, XML ;
métadonnées de
couches les données sont associées en jointures internes
géographiques
Alimenter des bases (INNER JOIN) ou externes (OUTER JOIN), gérées par
infocentres
le logiciel
En
conclusion... possibilité de traiter différemment les données non
comprises dans une jointure interne
21/10/2015 intéressant pour détecter des anomalies...
7 / 17
Une gestion paramétrée des données
Présentation
TOS-DI
E. Quinton
IRSTEA
Les données (entrantes ou sortantes) sont décrites
Talend
L’écosystème
sous la forme de métadonnées ;
TOS
Les variables utilisées dans les traitements sont
TOS DI
Principes
regroupées sous l’appellation de Contextes ;
Les composants
un même jeu de variables peut être décrit dans des
Cas d’usage
Alimenter une base
contextes différents
de données
Synchroniser des
les connexions aux bases devraient être traitées sous la
bases
Extraire les
forme de contextes :
métadonnées de
couches développement, pré-production, production...
géographiques
Alimenter des bases
c’est la seule possibilité pour définir un schéma autre
infocentres
que le schéma public
En
conclusion...
21/10/2015
8 / 17
Les composants graphiques
Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
9 / 17
Les composants graphiques
Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
des composants de transformation :
Les composants tMap : mixer plusieurs flux et en créer de nouveaux.
Cas d’usage C’est LE composant à connaître
Alimenter une base
de données tSortRow, tFilterRow, tUniqRow... pour trier, filtrer,
Synchroniser des
bases conserver les valeurs uniques...
Extraire les
métadonnées de
couches
tNormalize et tDenormalize, pour transformer des
géographiques
Alimenter des bases
données présentées en lignes en colonnes et
infocentres
inversement
En
conclusion...
21/10/2015
9 / 17
Les composants graphiques
Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
des composants de transformation :
Les composants tMap : mixer plusieurs flux et en créer de nouveaux.
Cas d’usage C’est LE composant à connaître
Alimenter une base
de données tSortRow, tFilterRow, tUniqRow... pour trier, filtrer,
Synchroniser des
bases conserver les valeurs uniques...
Extraire les
métadonnées de
couches
tNormalize et tDenormalize, pour transformer des
géographiques
Alimenter des bases
données présentées en lignes en colonnes et
infocentres
inversement
En
conclusion...
des composants pour visualiser et déboguer :
tLogRow : affiche les infos traitées
21/10/2015
9 / 17
Les composants graphiques
Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
des composants de transformation :
Les composants tMap : mixer plusieurs flux et en créer de nouveaux.
Cas d’usage C’est LE composant à connaître
Alimenter une base
de données tSortRow, tFilterRow, tUniqRow... pour trier, filtrer,
Synchroniser des
bases conserver les valeurs uniques...
Extraire les
métadonnées de
couches
tNormalize et tDenormalize, pour transformer des
géographiques
Alimenter des bases
données présentées en lignes en colonnes et
infocentres
inversement
En
conclusion...
des composants pour visualiser et déboguer :
tLogRow : affiche les infos traitées
21/10/2015
des composants d’orchestration :
9 / 17 tFileList, pour traiter une liste de fichiers ou dossiers
Extension spatiale pour Talend
Présentation
TOS-DI Il est possible d’intégrer des composants géographiques à
E. Quinton Talend :
IRSTEA
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème Créer ou alimenter une base de données
TOS
En
conclusion...
21/10/2015
11 / 17
Créer ou alimenter une base de données
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème
TOS
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base Attention à la qualité des données
de données
Synchroniser des
bases Libellés différents pour le même contenu ;
Extraire les
métadonnées de
couches formats mal maîtrisés (texte dans des champs
géographiques
Alimenter des bases
infocentres
numériques ou des dates...)
En ...
conclusion...
Toujours réaliser des tests dans une plate-forme dédiée
21/10/2015 avant de passer en production
12 / 17
Synchroniser des bases de données
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème
TOS
TOS DI
Principes
Les données sont synchronisées entre la base
Les composants
Postgresql et une base embarquée dans le bateau
Cas d’usage
Alimenter une base
(application Java de saisie)
de données
Synchroniser des
4 scripts créés :
bases
Extraire les
création de la base de données embarquée
métadonnées de
couches copie des tables de référence ou de paramètres
géographiques
Alimenter des bases synchronisation des données vers la base embarquée
infocentres
synchronisation depuis la base embarquée vers le
En
conclusion... serveur
les scripts sont exécutés en ligne de commande par
21/10/2015
13 / 17
l’utilisatrice
Extraire les métadonnées de couches
géographiques
Présentation
TOS-DI
Projet mené par les Parcs nationaux de France :
E. Quinton
exporter et publier les métadonnées et les attributs de
IRSTEA toutes les couches géographiques
Talend
L’écosystème
TOS
TOS DI
Principes
Les composants
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
http://forum-tic.espaces-naturels.fr/sites/
default/files/fichiers/presentations/bruno_
21/10/2015
14 / 17 lafage_-pnf-forum_tic_2014.pdf
Transformer les données pour alimenter des
bases infocentres
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème
TOS
TOS DI
Principes
Les composants
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
https://help.talend.com/display/
L’écosystème
TOS
ComposantsTalendOpenStudioGuidedereference60FR/
TOS DI
Home
Principes
Les composants
Cas d’usage
l’accès nécessite un enregistrement préalable ;
Alimenter une base
de données il faut être patient...
Synchroniser des
bases
Extraire les mais les composants sont décrits dans le moindre
métadonnées de
couches
géographiques
détail, et en français
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
16 / 17
Ce n’est pas parce que c’est graphique que
c’est évident !
Présentation
TOS-DI
E. Quinton
IRSTEA
Talend
L’écosystème
TOS il faut être méticuleux et tester ;
TOS DI
Principes une plate-forme de test est indispensable ;
Les composants
Cas d’usage
mais... cela reste un outil unique, qui fait gagner un
Alimenter une base
de données
temps énorme lors de la manipulation de données
Synchroniser des
bases hétérogènes.
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres
En
conclusion...
21/10/2015
17 / 17