Sie sind auf Seite 1von 25

Présentation

TOS-DI

E. Quinton
IRSTEA
Présentation de Talend Open Studio
Talend
L’écosystème
TOS
Logiciel Data Integration
TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base Éric Quinton
de données
Synchroniser des
bases
eric.quinton@irstea.fr
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases CNRS - Rbdd 2015
infocentres

En
conclusion...
21 octobre 2015
21/10/2015
1 / 17
Sommaire

Présentation
TOS-DI

E. Quinton
IRSTEA
1 Talend
Talend
L’écosystème
TOS

TOS DI 2 TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base
de données
3 Cas d’usage
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
4 En conclusion...
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
2 / 17
La société

Présentation
TOS-DI

E. Quinton Talend est une société créée en 2006 à Suresnes (France) :


IRSTEA

Talend 400 salariés ;


L’écosystème
TOS siège en France et en Californie ;
TOS DI
Principes
croissance annuelle du chiffre d’affaires > 100 %
Les composants

Cas d’usage Deux familles de logiciels :


Alimenter une base
de données
Synchroniser des
bases des produits professionnels, avec support et travail
Extraire les
métadonnées de
couches
collaboratif ;
géographiques
Alimenter des bases
infocentres
des produits Open Source, parfois limités en matière
En
d’automatisation ;
conclusion...
regroupés sous l’appellation TOS (Talend Open Studio).

21/10/2015
3 / 17
TOS : un ensemble de logiciels dédiés aux flux
de données
Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème
TOS

TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
4 / 17
TOS : un ensemble de logiciels dédiés aux flux
de données
Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème
TOS

TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
4 / 17
Talend Open Studio

Présentation
TOS-DI Une plate-forme basée sur Eclipse RCP (Rich Client
E. Quinton Platform) :
IRSTEA
possibilité de gérer des connexions multiples,
Talend notamment pour travailler en équipe (disponible dans la
L’écosystème
TOS
version payante) ;
TOS DI
possibilité de gérer des projets multiples ;
Principes une ergonomie classique pour les logiciels basés sur
Les composants
Eclipse RCP :
Cas d’usage
Alimenter une base
de données Un arbre à gauche, avec les
Synchroniser des
bases objets manipulés ;
Extraire les
métadonnées de
couches
une fenêtre centrale, pour
géographiques
Alimenter des bases
dessiner les opérations ;
infocentres
un arbre à droite, avec les
En
conclusion... objets à insérer ;
des boites de paramètres ou
21/10/2015 d’exécution, en bas
5 / 17
Principes généraux

Présentation
TOS-DI
des composants graphiques sont assemblés :
E. Quinton
IRSTEA soit par des flux (entrée, sortie)
soit par des événements (traitement ok, ko)
Talend
L’écosystème
TOS

TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
6 / 17
Principes généraux

Présentation
TOS-DI
des composants graphiques sont assemblés :
E. Quinton
IRSTEA soit par des flux (entrée, sortie)
soit par des événements (traitement ok, ko)
Talend
L’écosystème
TOS
TOS génère, puis exécute, du code Java :
TOS DI le code peut être visualisé (pratique pour déboguer) ;
Principes
Les composants
il faut faire attention au typage (int vs Integer,
Cas d’usage
conversions de types) ;
Alimenter une base les tests utilisent la notation ternaire :
de données
Synchroniser des
bases
condition ? ok : ko
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
6 / 17
Principes généraux

Présentation
TOS-DI
des composants graphiques sont assemblés :
E. Quinton
IRSTEA soit par des flux (entrée, sortie)
soit par des événements (traitement ok, ko)
Talend
L’écosystème
TOS
TOS génère, puis exécute, du code Java :
TOS DI le code peut être visualisé (pratique pour déboguer) ;
Principes
Les composants
il faut faire attention au typage (int vs Integer,
Cas d’usage
conversions de types) ;
Alimenter une base les tests utilisent la notation ternaire :
de données
Synchroniser des
bases
condition ? ok : ko
Extraire les
métadonnées de
couches
il est possible d’exporter un job pour l’exécuter en ligne
géographiques
Alimenter des bases
de commande Java.
infocentres

En Il n’est pas nécessaire de connaître Java


conclusion...
mais avoir quelques notions est un plus !
21/10/2015
6 / 17
TOS Data Integration - principes

Présentation
TOS-DI Il manipule des matrices de données sous forme de
E. Quinton flux :
IRSTEA
données en lignes, attributs en colonnes ;
Talend
une itération par ligne ;
L’écosystème il n’est pas adapté aux formulaires Excel (A4, B8, F15,
TOS
A12 à récupérer, p. e.) ;
TOS DI
Principes
il vaut mieux recourir à un logiciel de pré-traitement qui
Les composants normalisera les données
Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
7 / 17
TOS Data Integration - principes

Présentation
TOS-DI Il manipule des matrices de données sous forme de
E. Quinton flux :
IRSTEA
données en lignes, attributs en colonnes ;
Talend
une itération par ligne ;
L’écosystème il n’est pas adapté aux formulaires Excel (A4, B8, F15,
TOS
A12 à récupérer, p. e.) ;
TOS DI
Principes
il vaut mieux recourir à un logiciel de pré-traitement qui
Les composants normalisera les données
Cas d’usage
Alimenter une base
il peut associer des données de sources multiples :
de données
Synchroniser des
bases de données ;
bases
Extraire les
fichiers textes : Excel, CSV, XML ;
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
7 / 17
TOS Data Integration - principes

Présentation
TOS-DI Il manipule des matrices de données sous forme de
E. Quinton flux :
IRSTEA
données en lignes, attributs en colonnes ;
Talend
une itération par ligne ;
L’écosystème il n’est pas adapté aux formulaires Excel (A4, B8, F15,
TOS
A12 à récupérer, p. e.) ;
TOS DI
Principes
il vaut mieux recourir à un logiciel de pré-traitement qui
Les composants normalisera les données
Cas d’usage
Alimenter une base
il peut associer des données de sources multiples :
de données
Synchroniser des
bases de données ;
bases
Extraire les
fichiers textes : Excel, CSV, XML ;
métadonnées de
couches les données sont associées en jointures internes
géographiques
Alimenter des bases (INNER JOIN) ou externes (OUTER JOIN), gérées par
infocentres
le logiciel
En
conclusion... possibilité de traiter différemment les données non
comprises dans une jointure interne
21/10/2015 intéressant pour détecter des anomalies...
7 / 17
Une gestion paramétrée des données

Présentation
TOS-DI

E. Quinton
IRSTEA
Les données (entrantes ou sortantes) sont décrites
Talend
L’écosystème
sous la forme de métadonnées ;
TOS
Les variables utilisées dans les traitements sont
TOS DI
Principes
regroupées sous l’appellation de Contextes ;
Les composants
un même jeu de variables peut être décrit dans des
Cas d’usage
Alimenter une base
contextes différents
de données
Synchroniser des
les connexions aux bases devraient être traitées sous la
bases
Extraire les
forme de contextes :
métadonnées de
couches développement, pré-production, production...
géographiques
Alimenter des bases
c’est la seule possibilité pour définir un schéma autre
infocentres
que le schéma public
En
conclusion...

21/10/2015
8 / 17
Les composants graphiques

Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
9 / 17
Les composants graphiques

Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
des composants de transformation :
Les composants tMap : mixer plusieurs flux et en créer de nouveaux.
Cas d’usage C’est LE composant à connaître
Alimenter une base
de données tSortRow, tFilterRow, tUniqRow... pour trier, filtrer,
Synchroniser des
bases conserver les valeurs uniques...
Extraire les
métadonnées de
couches
tNormalize et tDenormalize, pour transformer des
géographiques
Alimenter des bases
données présentées en lignes en colonnes et
infocentres
inversement
En
conclusion...

21/10/2015
9 / 17
Les composants graphiques

Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
des composants de transformation :
Les composants tMap : mixer plusieurs flux et en créer de nouveaux.
Cas d’usage C’est LE composant à connaître
Alimenter une base
de données tSortRow, tFilterRow, tUniqRow... pour trier, filtrer,
Synchroniser des
bases conserver les valeurs uniques...
Extraire les
métadonnées de
couches
tNormalize et tDenormalize, pour transformer des
géographiques
Alimenter des bases
données présentées en lignes en colonnes et
infocentres
inversement
En
conclusion...
des composants pour visualiser et déboguer :
tLogRow : affiche les infos traitées
21/10/2015
9 / 17
Les composants graphiques

Présentation
TOS-DI
des composants dédiés aux flux entrants ou sortants :
E. Quinton
lecture - écriture des principales bases de données :
IRSTEA tPostgresqlRow, tPostgresqlOutput...
avec ou sans support des transactions
Talend
L’écosystème
lecture - écriture de fichiers textes (excel, xml, csv,
TOS
json...)
TOS DI
Principes
des composants de transformation :
Les composants tMap : mixer plusieurs flux et en créer de nouveaux.
Cas d’usage C’est LE composant à connaître
Alimenter une base
de données tSortRow, tFilterRow, tUniqRow... pour trier, filtrer,
Synchroniser des
bases conserver les valeurs uniques...
Extraire les
métadonnées de
couches
tNormalize et tDenormalize, pour transformer des
géographiques
Alimenter des bases
données présentées en lignes en colonnes et
infocentres
inversement
En
conclusion...
des composants pour visualiser et déboguer :
tLogRow : affiche les infos traitées
21/10/2015
des composants d’orchestration :
9 / 17 tFileList, pour traiter une liste de fichiers ou dossiers
Extension spatiale pour Talend

Présentation
TOS-DI Il est possible d’intégrer des composants géographiques à
E. Quinton Talend :
IRSTEA

Talend fonctionne en s’appuyant sur GeoTools, GDAL et Java


L’écosystème
TOS
Topology Suite
TOS DI
Principes
support des principaux formats SIG : Postgis, ESRI,
Les composants MIF/MID, GPX, KML, Oracle Spatial, OGR Vector
Cas d’usage
Alimenter une base
formats
de données
Synchroniser des possibilité d’alimenter des serveurs géographiques :
bases
Extraire les
métadonnées de
Standards OGC : CSW (envoi de métadonnées), WFS
couches
géographiques Geographic information metadata standard ISO19139
Alimenter des bases
infocentres GeoServer REST API
En
conclusion... Plus d’informations sur :
https://talend-spatial.github.io/
21/10/2015
10 / 17
Quelques exemples de cas d’utilisation

Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème Créer ou alimenter une base de données
TOS

TOS DI Synchroniser des bases de données


Principes
Les composants Extraire les métadonnées de couches géographiques
Cas d’usage
Alimenter une base Transformer les données pour alimenter des bases
de données
Synchroniser des
bases
infocentres
Extraire les
métadonnées de
couches
...
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
11 / 17
Créer ou alimenter une base de données

Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème
TOS

TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base Attention à la qualité des données
de données
Synchroniser des
bases Libellés différents pour le même contenu ;
Extraire les
métadonnées de
couches formats mal maîtrisés (texte dans des champs
géographiques
Alimenter des bases
infocentres
numériques ou des dates...)
En ...
conclusion...
Toujours réaliser des tests dans une plate-forme dédiée
21/10/2015 avant de passer en production
12 / 17
Synchroniser des bases de données

Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème
TOS

TOS DI
Principes
Les données sont synchronisées entre la base
Les composants
Postgresql et une base embarquée dans le bateau
Cas d’usage
Alimenter une base
(application Java de saisie)
de données
Synchroniser des
4 scripts créés :
bases
Extraire les
création de la base de données embarquée
métadonnées de
couches copie des tables de référence ou de paramètres
géographiques
Alimenter des bases synchronisation des données vers la base embarquée
infocentres
synchronisation depuis la base embarquée vers le
En
conclusion... serveur
les scripts sont exécutés en ligne de commande par
21/10/2015
13 / 17
l’utilisatrice
Extraire les métadonnées de couches
géographiques
Présentation
TOS-DI
Projet mené par les Parcs nationaux de France :
E. Quinton
exporter et publier les métadonnées et les attributs de
IRSTEA toutes les couches géographiques
Talend
L’écosystème
TOS

TOS DI
Principes
Les composants

Cas d’usage
Alimenter une base
de données
Synchroniser des
bases
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...
http://forum-tic.espaces-naturels.fr/sites/
default/files/fichiers/presentations/bruno_
21/10/2015
14 / 17 lafage_-pnf-forum_tic_2014.pdf
Transformer les données pour alimenter des
bases infocentres
Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème
TOS

TOS DI
Principes
Les composants

Cas d’usage les informations sont extraites d’une ou plusieurs bases


Alimenter une base
de données de données relationnelles pour alimenter :
Synchroniser des
bases un cube Olap ;
Extraire les
métadonnées de
couches
un moteur noSql ;
géographiques
Alimenter des bases
du web sémantique...
infocentres
objectif : représenter les données sous une forme
En
conclusion... différente
adapter les données aux traitements à effectuer ;
21/10/2015 concilier schéma relationnel et moteurs spécialisés.
15 / 17
De la documentation en ligne

Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
https://help.talend.com/display/
L’écosystème
TOS
ComposantsTalendOpenStudioGuidedereference60FR/
TOS DI
Home
Principes
Les composants

Cas d’usage
l’accès nécessite un enregistrement préalable ;
Alimenter une base
de données il faut être patient...
Synchroniser des
bases
Extraire les mais les composants sont décrits dans le moindre
métadonnées de
couches
géographiques
détail, et en français
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
16 / 17
Ce n’est pas parce que c’est graphique que
c’est évident !
Présentation
TOS-DI

E. Quinton
IRSTEA

Talend
L’écosystème
TOS il faut être méticuleux et tester ;
TOS DI
Principes une plate-forme de test est indispensable ;
Les composants

Cas d’usage
mais... cela reste un outil unique, qui fait gagner un
Alimenter une base
de données
temps énorme lors de la manipulation de données
Synchroniser des
bases hétérogènes.
Extraire les
métadonnées de
couches
géographiques
Alimenter des bases
infocentres

En
conclusion...

21/10/2015
17 / 17

Das könnte Ihnen auch gefallen