Composants Talend Open Studio

Transcription

1 Composants Talend Open Studio Guide de référence Version 2.4_a Convient pour l utilisation de Talend Open Studio v2.4.x.

3 Composants Talend Open Studio Guide de référence... i Avertissement...1 A propos du Guide de référence... 1 Composants Business Intelligence 3 tmysqlscd... 4 Propriétés du tmysqlscd... 4 Scénario : Traquer des modifications avec Slowly Changing Dimension 6 Composants Data Quality...13 tfuzzymatch Propriétés du tfuzzymatch Scénario 1 : Distance de Levenshtein de 0 pour les prénoms 15 Scénario 2 : Distance de Levenshtein de 1 ou 2 pour les prénoms 17 Scénario 3 : Distance métaphonique pour les prénoms 18 Composants Database...21 tldapinput Propriétés du tldapinput Scénario : Afficher le contenu filtré d un annuaire LDAP 23 tldapoutput Propriétés du tldapoutput Scénario : Editer des données dans un annuaire LDAP 27 tmysqlbulkexec Propriétés du tmysqlbulkexec Scénarios associés tmysqlcommit Propriétés du tmysqlcommit Scénario associé tmysqlconnection Propriétés du tmysqlconnection Scénario : Insérer des données dans des tables mère/fille 34 tmysqlinput...39 Propriétés du tmysqlinput...39 Scénario associé...40 tmysqloutput...41 Propriétés du tmysqloutput...41 Scénario : Ajouter une colonne et modifier les données 43 tmysqloutputbulk...45 Propriétés du tmysqloutputbulk...45 Scénario : Insérer des données transformées dans une base MySQL 47 tmysqloutputbulkexec...51 Propriétés du tmysqloutputbulkexec 51 Scénario : Insérer des données dans une base MySQL 52 tmysqlrollback...53 Propriétés du tmysqlrollback...53 Scénario : Annuler l insertion de données dans des tables mère/fille 53 tmysqlrow...54 Propriétés du tmysqlrow...54 Scénario : Supprimer et regénérer un index de table MySQL 55 tmysqlscd...57 tmysqlsp...58 Propriétés du tmysqlsp...58 Scénario : Trouver le libellé State à l aide d une procédure stockée 59 Composants Database Utilities..63 tparserecordset...64 Propriétés du tparserecordset...64 Scénario...64 Composants File...65 tfileinputdelimited...66 Propriétés du tfileinputdelimited...66 Scénario : Afficher le contenu d un fichier délimité 67 tfileinputpositional...69 Propriétés du tfileinputpositional...69 Scénario : Transformer un fichier positionnel en XML 70 tfileinputregex...74 Copyright 2008 Talend Open Studio iii

4 Propriétés du tfileinputregex Scénario : Transformer en fichier Regex en Positional 75 tfileinputxml Propriétés du tfileinputxml Scénario : Extraire des adresses XML 79 tfilelist Propriétés du tfilelist Scénario : Itération sur un répertoire 81 tfileoutputxml Propriétés de tfileoutputxml Scénario : Utiliser un format de sortie XML 85 tpivotoutputdelimited Propriétés du tpivotoutputdelimited 86 Scénario : Utiliser une colonnes pivot pour agréger des données 86 Composants Processing...89 taggregaterow...90 Propriétés du taggregaterow...90 Scénario : Agréger des valeurs et trier des données 91 tmap...95 Propriétés du tmap...95 Scénario 1 : Mapping simple avec filtre et jointure explicite (Perl) 95 Scénario 2 : Mapping avec rejet Inner join (Perl) 101 Scénario 3 : Mapping de jointure en cascade 107 Scénario 4 : Mapping avancé avec filtres, jointures explicites et rejet Inner join 107 Scénario 5 : Mapping avancé avec filtres et vérification des lignes 112 tsortrow Propriétés du tsortrow Scénario : Trier des données iv Talend Open Studio Copyright 2008

5 Avertissement Avertissement A propos du Guide de référence Le présent Guide de référence est la version française non exhaustive du Components Reference Guide anglais. Pour les composants non renseignés, référez-vous à ce dernier. Veillez à consulter régulièrement la site Internet de Talend pour télécharger la dernière version du Guide de référence français. Copyright 2008 Talend Open Studio 1

7 Composants Business Intelligence Composants Business Intelligence Ce chapitre passe en revue les principaux composants présents dans le groupe Business Intelligence de la Palette de Talend Open Studio. La famille BI regroupe tous les connecteurs couvrant des besoins tels que la lecture et l écriture de bases de données multidimensionnelles ou OLAP, la génération de rapports Jasper, le suivi des modifications de bases de données à l aide de tables slow changing dimension, etc. Présentation des Composants Chaque composant possède sa propre liste de propriétés et de paramètres, éditables dans les onglets Basic et Advanced settings dans la vue Component. WARNING Les propriétés des Composants ont été séparés en deux onglets Basic et Advanced settings. Certaines des informations suivantes ayant été rédigées au préalable, un écart entre l interface utilisateur de Talend Open Studio et la description ci-dessous peut subsister. Dans la section de propriétés des composants, une icône ou indique si le composant est disponible en Java et/ou en Perl. Copyright 2008 Talend Open Studio 3

8 Composants Business Intelligence tmysqlscd tmysqlscd Propriétés du tmysqlscd Famille de composant Databases/MySQL Fonction tmysqlscd reflète et traque les modifications d une table SCD MySQL dédiée. Objectif tmysqlscd adresse des besoins en transformation Slowly Changing Dimension, en lisant régulièrement une source de données et en répertoriant les modifications dans une table SCD dédiée. Basic settings Property type Peut être Built-in ou Repository. Host Port Database Username et Password Encoding Table Schema type et Edit Schema Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentification de l utilisateur de la base de données. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Nom de la table à créer. Vous ne pouvez créer qu une seule table à la fois. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également : Paramétrage d un schéma du repository, page 61 4 Talend Open Studio Copyright 2008

9 Composants Business Intelligence tmysqlscd Pour l instant, uniquement disponible en Java. Pour l instant, uniquement disponible en Java. Surrogate key Sélectionnez la colonne sur laquelle la clé de substitution (surrogate key) générée est positionnée. Cette clé peut être générée en fonction de la méthode sélectionnée dans la liste Creation. Creation Sélectionnez la méthode utilisée pour générer la clé : input field : la clé provient d un champ du flux d entrée routine : accédez aux fonctions de base en utilisant le raccourci clavier Ctrl+Espace. table max +1 : la valeur maximum de la table SCD est incrémentée pour créer la clé de substitution. sequence/identity : Clé auto-incrémentale Source Keys Use SCD Type 1 fields Use SCD Type 2 fields Use SCD Type 3 fields Debug Mode Sélectionnez une ou plusieurs colonnes qui serviront de clé, afin d assurer l unicité des données entrantes. Utilisez l option SCD Type 1 si les modifications n ont pas besoin d être répertoriées, notamment pour la correction des coquilles. Sélectionnez les colonnes du schéma qui subiront des modifications. Utilisez l option SCD Type 2 si les modifications doivent être répertoriées, notamment pour suivre les mises à jour. Sélectionnez les colonnes du schéma qui subiront des modifications. Start date : Ajoutez une colonne à votre schéma SCD qui contiendra la date de début. Vous pouvez sélectionner une des colonnes du schéma d entrée comme date de début dans la table SCD. End Date : Ajoutez une colonne à votre schéma SCD qui contiendra la date de fin de l enregistrement. Lorsque l enregistrement est actif, la date de fin apparaît comme nulle, sinon vous pouvez sélectionner Fixed Year value et la renseigner avec une date fictive afin d éviter d avoir une valeur nulle dans le champ End date. Log Active Status : Ajoutez une colonne à votre schéma SCD contenant les valeurs de statut true ou false. Cette colonne permet de repérer facilement les enregistrements actifs. Log versions : Ajoutez une colonne à votre schéma SCD contenant le numéro de version de l enregistrement. Utilisez l option SCD Type 3 lorsque vous souhaitez garder une trace des anciennes valeurs d une colonne modifiée. Current value field : Sélectionnez la colonne dans laquelle la valeur est modifiée. Previous value field : Sélectionnez la colonne dans laquelle l ancienne valeur devrait être stockée. Cochez cette case pour afficher chaque étape du processus SCD. Copyright 2008 Talend Open Studio 5

10 Composants Business Intelligence tmysqlscd Utilisation Ce composant est un composant de sortie. Par conséquent, il requiert un composant d entrée et une connexion de type Row Main en entrée. Scénario : Traquer des modifications avec Slowly Changing Dimension Ce scénario décrit un job qui traque les modifications et les mises à jour du fichier source, puis crée un historique des modifications dans une table SCD. Le fichier source contient les profils de plusieurs personnes, inclus leur nom, le nombre d animaux domestiques qu ils possèdent et la ville dans laquelle ils vivent. Une colonne id permet d assurer l unicité des lignes. Cliquez-déposez le composant suivant de la Palette dans l espace de modélisation : tmysqlconnection, tfileinputpositional, tlogrow, tmysqlscd et tmysqlcommit. Tout d abord, connectez les composants tfileinputpositional, tlogrow, tmysqlscd à l aide d une connexion de type Row Main. Ils représentent le flux principal de votre job. Puis connectez tmysqlconnection au composant tfileinputpositional à l aide d une connexion de type Then Run. Connectez le composant tmysqlscd au composant tmysqlcommit à l aide d une connexion de déclenchement de type OnOK. Tout d abord, configurez la connexion à la table SCD dans laquelle toutes les modifications sont répertoriées. Utilisez le composant tmysqlconnection pour éviter de configurer plusieurs fois la même connexion à la base de données quand plusieurs composants BDD sont utilisés. 6 Talend Open Studio Copyright 2008

11 Composants Business Intelligence tmysqlscd Si les informations sur la base de données sont stockées dans le Repository, sélectionnez Repository dans le champ Property type. Et sélectionnez l entrée correspondante si plusieurs bases de données sont centralisées. Puis définissez les propriétés du tfileinputpositional : Récupérez les propriétés du tfileinputpositional dans le Repository, sinon renseignez les paramètres Built-in. Dans cet exemple, le schéma est composé de quatre colonnes et suit ce modèle : 3,19,11,9 Puis configurez le tlogrow afin d afficher le contenu du fichier d entrée dans la console avant qu il n ait été traité par le composant SCD. Dans cet exemple, cochez la case Print values in cells of a table afin que le contenu s affiche sous forme de table. Puis configurez le composant tmysqlscd afin de traquer les modifications apportées au fichier d entrée. Copyright 2008 Talend Open Studio 7

12 Composants Business Intelligence tmysqlscd Cochez la case Use an existing connection pour réutiliser les informations définies dans les propriétés du composant tmysqlconnection. Nommez la table utilisée pour traquer les modifications. La table SCD doit déjà exister. Définissez le schéma de la table. En plus du schéma de flux, le schéma SCD doit inclure des colonnes SCD spécifiques contenant des informations de log standard, notamment : Start date (date de début), End date (date de fin), Status (Activé/Désactivé) et Version number (numéro de version). Ajoutez ces colonnes au schéma si elles n existent pas. 8 Talend Open Studio Copyright 2008

13 Composants Business Intelligence tmysqlscd Dans la table Source keys, ajoutez au moins une colonne à l aide du bouton (+) et sélectionnez la colonne assurant l unicité des enregistrements. Cette colonne peut être une Surrogate Key. Sinon vous avez la possibilité de créer plusieurs colonnes pour créer une clé assurant l unicité de chaque enregistrement. Puis cochez la case Use SCD type 1 fields pour paramétrer les colonnes qui sont à modifier sans que ces modifications ne soient répertoriées. L option SCD type 1 s utilise principalement pour la correction des coquilles et des petites erreurs qui n ont pas besoin d être répertoriées mais qui doivent se refléter en sortie. Cliquez sur le bouton (+) et sélectionnez le nom de la colonne correspondante. Puis cochez la case Use SCD type 2 fields pour paramétrer les colonnes qui sont à modifier et dont les modifications sont répertoriées dans la table SCD. Copyright 2008 Talend Open Studio 9

14 Composants Business Intelligence tmysqlscd Cliquez sur le bouton (+) pour ajouter autant que colonnes que nécessaire et sélectionnez les noms de colonnes correspondantes. Le principe de l option SCD Type-2 réside dans le fait qu un nouvel enregistrement est ajouté à la table SCD lorsqu une modification est détectée dans les colonnes sélectionnées. Notez que même si plusieurs modifications sont effectuées sur plusieurs colonnes définies en SCD type-2 dans un même enregistrement, une seule ligne répertoriant ces modifications est ajoutée à la table SCD. Définissez les colonnes de votre table contenant les valeurs Start date (date de début) et End date (date de fin). La date de fin est nulle pour les enregistrements en cours jusqu à ce qu une modification soit détectée. Une fois la modification détectée, la date de fin est renseignée et un nouvel enregistrement, sans date de fin, est ajouté. Cochez la case Log active status, et sélectionnez la colonne contenant les valeurs de statut True ou False. True correspond à l enregistrement en cours et False à l enregistrement modifié. Cochez la case Log versions et sélectionnez la colonne contenant le numéro de version (Version number). Cochez la case Debug mode si vous souhaitez suivre les étapes de repérage SCD avec la console Run Job lors de l exécution du job. Puis sélectionnez le composant tmysqlcommit et sélectionnez la connexion correspondante dans le liste. Appuyez sur F6 pour exécuter votre job. 10 Talend Open Studio Copyright 2008

15 Composants Business Intelligence tmysqlscd La console Run Job affiche toutes les étapes SCD ainsi que le contenu du fichier d entrée (uniquement le premier et le dernier dans cet exemple). La table SCD affiche l historique des modifications apportées au fichier d entrée, ainsi que le statut et le numéro de version. La date de fin (End date) est Null (nulle) lorsque le statut de l enregistrement est actif (courant). Copyright 2008 Talend Open Studio 11

17 Composants Data Quality Composants Data Quality Ce chapitre passe en revue les propriétés des principaux composants présents dans la famille Data Quality de la Palette de Talend Open Studio. La famille Data Quality regroupe les composants vous permettant d améliorer la qualité de vos données. Ces composants couvrent divers besoin dont la comparaison de colonnes afin d en extraire des données spécifiques. Présentation des Composants Chaque composant possède sa propre liste de propriétés et de paramètres, éditables dans les onglets Basic et Advanced settings dans la vue Component. WARNING Les propriétés des Composants ont été séparés en deux onglets Basic et Advanced settings. Certaines des informations suivantes ayant été rédigées au préalable, un écart entre l interface utilisateur de Talend Open Studio et la description ci-dessous peut subsister. Dans la section de propriétés des composants, une icône ou indique si le composant est disponible en Java et/ou en Perl. Copyright 2008 Talend Open Studio 13

18 Composants Data Quality tfuzzymatch tfuzzymatch Propriétés du tfuzzymatch Famille de composant Data quality Fonction Objectif Basic settings Le tfuzzymatch compare une colonne du flux principal avec une colonne du flux de référence et extrait les données du flux principal en affichant la distance. Permet d assurer la qualité des données de n importe quelle source de données en la comparant avec une source de données de référence. Schema type et Edit Schema Matching type Min Distance Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local(built-in) soit distant sans le Repository. Deux colonnes en lecture seule sont ajoutées automatiquement au schéma de sortie : Value et Match. Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Sélectionnez l algorithme de correspondance approprié parmi les suivants : Levenshtein : Basé sur la théorie de la distance d édition. Il calcule le nombre d insertion, de suppression ou de substitution nécessaire pour correspondre à la référence. Metaphone : Basé sur la phonétique. Tout d abord, il charge les sonorités de toutes les entrées du flux de référence (Lookup) et les compare avec celles des entrées du flux principal (Main). Double Metaphone : Pour éviter toute ambiguïté que le Metaphone n aurait pas pu détecter, utilisez cette option. (Levenshtein uniquement) Définissez le nombre minimum de modifications autorisées pour correspondre à la référence. Si vous définissez 0, seules les correspondances exactes sont extraites. 14 Talend Open Studio Copyright 2008

19 Composants Data Quality tfuzzymatch Utilisation Limitation/Conditions requises Max Distance Matching Column Unique Matching Matching item separator (Levenshtein uniquement) Définissez le nombre maximum de modificiations pouvant correspondre à la référence. Sélectionnez la colonne du flux principal qui doit être comparée avec la colonne clé du flux de référence (Lookup). Cochez cette case pour obtenir la meilleure correspondance possible, si plusieurs correspondances sont disponibles. Si plusieurs correspondances sont disponibles, elles seront toutes affichées sauf si la case Unique match est cochée. Définissez le délimiteur entre chaque correspondance. Ce composant n est pas un composant de début (fond vert) et il nécessite deux composants d entrée et une composant de sortie. Utilisateurs Perl : Assurez-vous que le package correspondant est installé sur votre ordinateur. Consultez la vue Module pour connaître les modules à installer. Scénario 1 : Distance de Levenshtein de 0 pour les prénoms Ce scénario décrit un job constitué de quatre composants dont le but est de vérifier la distance d édition comprise entre les colonnes First Name (prénom) d un fichier d entrée et de comparer les données avec celles du fichier de référence. Le résultat de cette vérification de la distance de Levenshtein et le contenu du flux principal sont affichés dans une table. Cliquez et déposez les composants suivants de la Palette vers le espace de modélisation : tfileinputdelimited (x2), tfuzzymatch et tfileoutputdelimited. Paramétrez les propriétés du composant tfileinputdelimited à partir de l onglet Basic settings. Parcourez votre répertoire et sélectionnez le fichier d entrée à analyser. Mais surtout définissez le schéma à utiliser par le flux à vérifier. Dans le schéma, définissez le Type de données en version Java, surtout si vous êtes en mode Built-in. Copyright 2008 Talend Open Studio 15

20 Composants Data Quality tfuzzymatch Connectez ce composant d entrée au tfuzzymatch à l aide d une connexion de type Main Row. Définissez le deuxième composant tfileinputdelimited de la même manière. WARNING Assurez-vous que la colonne de référence a bien été définie comme colonne clé dans le schéma du flux de référence (lookup). Puis connectez le deuxième composant d entrée au tfuzzymatch à l aide d une connexion main row (qui apparaît comme une connexion Lookup row dans l espace de modélisation). Définissez les propriétés du tfuzzymatch dans l onglet Basic settings. Le Schéma doit correspondre à celui du flux d entrée principal (Main) afin que le flux principal soit comparé au flux de référence. Notez que deux colonnes : Value et Matching sont ajoutées au schéma de sortie. Elles correspondent à des informations standard de correspondance et sont en lecture seule. Sélectionnez la méthode à utiliser pour la vérification des données entrantes. Dans ce scénario, la correspondance à sélectionner dans le champ Matching type est de type Levenshtein. Ensuite définissez la distance. Dans cette méthode, la distance est le nombre de caractères modifiés (insertion, suppression ou substitution) pour que l entrée principale corresponde exactement à l entrée de référence. 16 Talend Open Studio Copyright 2008

21 Composants Data Quality tfuzzymatch Dans ce scénario, nous souhaitons que la distance soit de 0 en minimum et en maximum. Ce qui signifie que seule une correspondance exacte sera redirigée en flux de sortie. Décochez la case Case sensitive pour ne pas prendre en compte la casse. Et sélectionnez la colonne du flux principal qui doit être vérifiée. Dans cet exemple, le prénom (First name). Ne cochez pas la case Unique matching et ne modifiez pas le séparateur. Connectez le tfuzzymatch à un composant de sortie standard type tlogrow. Ne définissez aucun autre paramètre que le délimiteur pour ce scénario. Enregistrez le job et appuyez sur la touche F6 pour exécuter le job. Comme la distance d édition définie est de 0 (min. et max.), la sortie correspond à une jointure entre le flux principal et le flux de référence (lookup), ainsi seules les correspondances totales avec une valeur égale à 0 sont affichées. Pour un exemple plus évident avec une distance minimum de 1 et une distance maximum de 2, see Scénario 2 : Distance de Levenshtein de 1 ou 2 pour les prénoms on page 17. Scénario 2 : Distance de Levenshtein de 1 ou 2 pour les prénoms Ce scénario est basé sur le scénario 1 décrit ci-dessus. Seuls les paramètres distance min. et max. du composant tfuzzymatch sont modifiés, ce qui modifiera la sortie affichée. Copyright 2008 Talend Open Studio 17

22 Composants Data Quality tfuzzymatch Dans la vue Component du tfuzzymatch, modifiez la distance min. de 0 à 1. Ceci exclut directement les correspondances exactes (qui ont une distance de 0). Maintenant mettez une distance max. de 2 puisque la distance max. ne peut être inférieure à la distance min. La sortie correspond à toutes les données mises en correspondance contenant une différence de 2 caractères au plus. Aucune autre modification de paramètres n est nécessaire. Assurez-vous que le séparateur de champs (Matching item separator) est bien défini, vu que plusieurs entrées de référence peuvent correspondre à l entrée du flux principal. Enregitrez votre nouveau job et appuyez sur F6 pour l exécuter. Vu que la distance d édition a été définie à 2, certaines entrées du flux principal correspondent à plusieurs entrées de référence (lookup). Vous pouvez utiliser une autre méthode, la Métaphone, pour évaluer la distance entre le flux principal et le flux de référence. Scénario 3 : Distance métaphonique pour les prénoms Ce scénario est basé sur le scénario 1 décrit plus haut. 18 Talend Open Studio Copyright 2008

23 Composants Data Quality tfuzzymatch Modifiez le champ Matching type avec l option Metaphone. Aucune distance minimum et aucune distance maximum ne sont à définir puisque cette méthode est basée sur les différences de phonétique avec la référence. Enregistrez le job et appuyez sur F6. La valeur phonétique est affichée avec les correspondances possibles. Copyright 2008 Talend Open Studio 19

25 Composants Database Composants Database Ce chapitre passe en revue les propriétés des principaux composants présents dans la famille Databases de la Palette de Talend Open Studio. La famille Databases regroupe les connecteurs de bases de données les plus populaire. Ces connecteurs couvrent divers besoins : ouverture de connexion, lecture et écriture de tables, commit de transactions, ainsi que des rollbacks pour le traitement des erreurs. Les sous-familles correspondent au différents types de base de données. Plus de 40 SGBDR sont supportés. Présentation des Composants Chaque composant possède sa propre liste de propriétés et de paramètres, éditables dans les onglets Basic et Advanced settings dans la vue Component. WARNING Les propriétés des Composants ont été séparés en deux onglets Basic et Advanced settings. Certaines des informations suivantes ayant été rédigées au préalable, un écart entre l interface utilisateur de Talend Open Studio et la description ci-dessous peut subsister. Dans la section de propriétés des composants, une icône ou indique si le composant est disponible en Java et/ou en Perl. Copyright 2008 Talend Open Studio 21

26 Composants Database tldapinput tldapinput Propriétés du tldapinput Famille de composant Databases/LDAP Fonction tldapinput lit un répertoire et extrait les données en fonction d un filtre défini. Objectif tldapinput exécute une requête LDAP basée sur un filtre prédéfini et correspondant au schéma défini. Puis la liste de champ est transmise au composant suivant via une connexion Main row. Basic settings Property type Peut-être Built-in ou Repository. Host Port Base DN Protocol Authentication User et Password Filter Multi valued field separator Alias dereferencing Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Adresse IP du serveur d annuaire LDAP. Numéro du port d écoute du serveur. Chemin d accès à l arborescence de l utilisateur autorisé. Sélectionnez le type de protocole dans la liste. LDAP : aucun codage n est utilisé LDAPS : LDAP sécurisé TLS : le certificat est utilisé Cochez Authentication si une connexion LDAP est nécessaire. Notez que le login doit correspondre à la syntaxe LDAP pour être valide. Par exemple : cn=directory Manager. Saisissez le filtre comme attendu par l annuaire LDAP db. Saisissez le séparateur de valeur des champs à valeurs multiples. Sélectionnez l option dans la liste. Never permet l amélioration des performances de recherche si vous êtes sûr qu aucun alias n est déréférencé. Par défaut, utilisez Always : Always : les alias sont toujours déréférencés. Never : les alias ne sont jamais déréférencés. Searching : cette option déréférence les alias uniquement après la résolution du nom. Finding : cette option déréférence les alias uniquement lors de la résolution du nom. 22 Talend Open Studio Copyright 2008

27 Composants Database tldapinput Utilisation Referrals handling Sélectionnez l option dans la liste : Ignore : ne tient pas compte des redirections des requêtes Follow : tient compte des redirections des requêtes Limit Time Limit Schema type et Edit Schema Cette option permet de limiter le nombre d enregistrement lus, si nécessaire. Cette option permet de limiter la durée de connexion à l annuaire. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également : Paramétrage d un schéma du repository, page 61 Ce composant couvre toutes les requêtes LDAP possibles. Note : Appuyez sur Ctrl + Espace pour accéder à la liste des variables globales, inclus la variable GetResultName permettant de récupérer automatiquement la base correspondante. Scénario : Afficher le contenu filtré d un annuaire LDAP Le job décrit ci-dessous filtre simplement l annuaire LDAP et affiche le résultat dans la console Run Job. Cliquez et déposez les composants tldapinput et tlogrow. Paramétrez les propriétés du tldapinput. Sélectionnez Repository dans le champ Property type si vous avez stocké les informations de connexion LDAP dans le Metadata Manager du Repository. Puis sélectionnez l entrée adéquate dans la liste. En mode Built-In, renseignez manuellement les champs Host et Port. Host peut être l adresse IP du serveur de l annuaire LDAP ou son nom DNS. Aucune Base DN particulière ne doit être paramétrée. Copyright 2008 Talend Open Studio 23

28 Composants Database tldapinput Puis sélectionnez Protocol adéquat dans la liste. Dans cet exemple : un protocole LDAP simple est utilisé. Cochez la case Authentication et renseignez les informations de connexion pour lire l annuaire, si nécessaire. Dans ce scénario, aucune authentication est nécessaire. Dans la zone Filter, saisissez la commande sur laquelle est basée la sélection de données. Dans cet exemple, le fiiltre est : (&(objectclass=inetorgperson)&(uid=pierre DUPONT)). Renseignez le champ Multi-valued field separator avec une virgule, puisque certains champs contiennent plus d une valeur séparée par une virgule. Comme nous ne savons pas si des alias sont utilisés dans l annuaire LDAP, sélectionnez Always dans la liste. Sélectionnez Ignore dans le champ Referral handling. Définissez la limite à 100 dans cet exemple. 24 Talend Open Studio Copyright 2008

29 Composants Database tldapinput Définissez le Schéma tel qu il est requis par l annuaire LDAP. Dans cet exemple, le schéma est composé de 6 colonnes dont les colonnes objectclass et uid qui seront filtrées. Dans le composant tlogrow, aucune configuration particulière n est exigée. Seule une entrée de l annuaire correspond aux critères du filtre défini dans le composant tldapinput. Copyright 2008 Talend Open Studio 25

30 Composants Database tldapoutput tldapoutput Propriétés du tldapoutput Famille de composant Databases/LDAP Fonction tldapoutput écrit dans un annuaire LDAP. Objectif tldapoutput exécute une requête LDAP basée sur un filtre prédéfini et correspondant à un schéma défini. Puis la liste de champ est transmise au composant suivant via une connexion Main row. Basic settings Property type Peut être Built-in ou Repository. Host Port Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Adresse IP du serveur d annuaire LDAP. Numéro de port d écoute du serveur. Base DN Chemin d accès à l arborescence de l utilisateur autorisé. Protocol Sélectionnez le type de protocole dans la liste : LDAP : aucun codage n est utilisé LDAPS : LDAP sécurisé TLS : le certificat est utilisé User et Password Alias dereferencing Renseignez les champs User (utilisateur) et Password (mot de passe) conformément à l annuaire. Notez que le login doit correspondre à la syntaxe LDAP pour être valide. Par exemple : cn=directory Manager. Sélectionnez l option dans la liste. Never permet l amélioration des performances de recherche si vous êtes sûr qu aucun alias n est déréférencé. Par défaut, utilisez Always. Always : les alias sont toujours déréférencés. Never : les alias ne sont jamais déréférencés. Searching : cette option déréférence les alias uniquement après la résolution du nom. Finding : cette option déréférence les alias uniquement lors de la résolution du nom. Referrals handle Sélectionnez l option dans la liste : Ignore : ne tient pas compte des redirections des requêtes. Follow : tient compte des redirections des requêtes. 26 Talend Open Studio Copyright 2008

31 Composants Database tldapoutput Utilisation Insert mode Sélectionnez l action dans la liste : Insert : insère de nouvelles données Updata : met à jour les données existantes Delete : supprime les données sélectionnées de l annuaire Insert or Updata : insère et met à jour les données Schema type et Edit Schema Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également : Paramétrage d un schéma du repository, page 61 Ce composant couvre toutes les requêtes LDAP possibles. Note : Appuyez sur Ctrl + Espace pour accéder à la liste des variables globales, inclus la variable GetResultName permettant de récupérer automatiquement la base correspondante. Scénario : Editer des données dans un annuaire LDAP Le scénario suivant décrit un job qui lit un annuaire LDAP, met à jour l d une entrée sélectionnée et affiche la sortie avant de mettre à jour l annuaire LDAP en sortie. C est-à-dire qu aucun alias n est déréférencé et qu aucune requête n est redirigée. Ce scénario est basé sur le scénario du LDAPInput (cf. Scénario : Afficher le contenu filtré d un annuaire LDAP, page 23). Le résultat obtenu est une entrée simple, correspondant à une personne organisationnelle dont l est mis à jour. Cliquez et déposez les composants tldapinput, tldapoutput, tmap et tlogrow sur l espace de modélisation. Connectez le composant d entrée au tmap puis au tlogrow puis au composant de sortie. Dans la vue Component du tldapinput, paramétrez les informations de connexion au serveur d annuaire LDAP, ainsi que les filtres tel que décrit dans le Scénario : Afficher le contenu filtré d un annuaire LDAP, page 23. Simplifiez le schéma en enlevant les champs suivants : dc, ou, objectclass. Copyright 2008 Talend Open Studio 27

32 Composants Database tldapoutput Puis ouvrez le mapper pour définir les changements à exécuter. Glissez et déposez la colonne uid de la table d entrée (input) à la table de sortie (output) puisque aucune modification n est nécessaire pour cette colonne. Dans le champ Expression de la colonne dn de la table de sortie (output), saisissez l expression exacte attendue par le serveur LDAP afin qu il atteigne l arborescence souhaitée et permette d écrire dans l annuaire, à condition que vous n ayez pas déjà renseigné le champ Base DN du composant tldapoutput. Dans cet exemple, la variable globale GetResultName est utilisée pour récupérer automatiquement le chemin d accès. Appuyez sur Ctrl+Espace pour accéder à la liste de variable et sélectionnez tldapinput_1_result_name. Dans le champ Expression de la colonne mail, saisissez l adresse qui remplacera celle obsolète dans l annuaire LDAP. Dans cet exemple, le nouvel est : [email protected]. Cliquez sur OK pour valider les modifications. Le composant tlogrow ne nécessite pas de paramétrage particulier. Puis sélectionnez le composant tldapoutput pour définir les propriétés d écriture dans l annuaire. 28 Talend Open Studio Copyright 2008

33 Composants Database tldapoutput Définissez manuellement les champs Port et Host si ces informations ne sont pas stockées dans le Repository. Dans le champ Base DN, définissez la plus haute arborescence à laquelle vous avez accès. Si vous n avez pas défini le chemin complet et exact au DN cible, définissez-le ici. Dans cet exemple, le DN complet est fournit par la sortie dn du composant tmap, Ainsi, seule la plus haute arborescence accessible est fournie : o=directoryroot. Sélectionnez le protocole a utilisé : LDAP pour cet exemple. Puis renseignez les champs User et Password attendus par l annuaire LDAP. Laissez les paramètres par défaut des champs Alias Dereferencing et Referral Handling, c est-à-dire respectivement Always et Ignore. Dans le champ Insert mode, sélectionnez l option Update pour cet exemple (l adresse ). Le schéma est récupéré du composant précédent à l aide d une opération de propagation. Enregistrez le job et exécutez-le en appuyant sur la touche F6. La sortie montre les champs suivants : dn, uid et mail comme défini dans le job. Copyright 2008 Talend Open Studio 29

34 Composants Database tmysqlbulkexec tmysqlbulkexec Propriétés du tmysqlbulkexec Les composants tmysqloutputbulk et tmysqlbulkexec sont généralement utilisés ensemble pour d une part générer en sortie le fichier qui sera d autre part utilisé comme paramètre dans l exécution de la requête SQL énoncée. Cette exécution en deux étapes est unifiée dans le composant tmysqloutputbulkexec, détaillé dans une section séparée. L intérêt de proposer deux composants séparés réside dans le fait que cela permet de procéder à des transformations avant le changement des données dans la base de données. 30 Talend Open Studio Copyright 2008

35 Composants Database tmysqlbulkexec Famille de composant Databases/Mysql Fonction Effectue une action d Insert sur les données fournies. Objectif Le composant tmysqlbulkexec est un composant dédié qui permet un gain de performance pendant les opérations d Insert dans une base de données Mysql. Basic settings Property type Peut être Built-in ou Repository. Utilisation Limitation Host Port Database Username et Password Table File Name Fields terminated by Encoding Commit every Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentication de l utilisateur de base de données. Nom de la table à écrire. Notez qu une seule table peut être écrite à la fois et la table doit exister pour que l opération d Insert soit autorisée. Nom du fichier à traiter. Voir également :Définir les variables à partir de la vue Component, page 137 Caractère, chaîne ou expression régulière séparant les champs. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Nombre de lignes à inclure dans le lot avant de commencer l écriture de la base. Cette option garantit la qualité de transaction (cependant pas de rollback) et surtout une meilleure performance des exécutions. Ce composant est généralement utilisé avec un composant tmysqloutputbulk. Ensemble, ils offrent un gain de performance important pour l alimentation d une base de données Mysql. n/a Copyright 2008 Talend Open Studio 31

36 Composants Database tmysqlbulkexec Scénarios associés Pour plus d informations relatives au fonctionnement de tmysqlbulkexec, consultez les scénarios suivants : tmysqloutputbulk Scénario : Insérer des données transformées dans une base MySQL, page 47 tmysqloutputbulkexec Scénario : Insérer des données dans une base MySQL, page Talend Open Studio Copyright 2008

37 Composants Database tmysqlcommit tmysqlcommit Propriétés du tmysqlcommit Ce composant est étroitement lié aux composants tmysqlconnection et tmysqlrollback. Ils sont généralement utilisés ensemble lors de transactions. Famille de composant Databases/MySQL Fonction Valide les données traitées dans un job à partir d une base de données connectée. Objectif En utilisant une connexion unique, commitez en une seule fois une transaction globale au lieu de commiter chaque ligne ou chaque lot de lignes. Ce composant permet un gain de performance. Basic settings Component list S il y a plus d une connexion dans le job en cours, sélectionnez le composant tmysqlconnection dans la liste. Utilisation Limitation Ce composant est généralement utilisé avec des composants Mysql et notamment avec les composants tmysqlconnection et tmysqlrollback. n/a Scénario associé Ce composant est étroitement lié aux composants tmysqlconnection et tmysqlrollback. Ils sont généralement utilisés avec un composant tmysqlconnection car il permet d ouvrir une connexion pour la transaction en cours. Pour plus d informations relatives au fonctionnement du composant tmysqlcommit, consultez tmysqlconnection page 34 Copyright 2008 Talend Open Studio 33

38 Composants Database tmysqlconnection tmysqlconnection Propriétés du tmysqlconnection Ce composant est étroitement lié aux composants tmysqlcommit et tmysqlrollback. Ils sont généralemet utilisés avec un composant tmysqlconnection car il permet d ouvrir une connexion pour la transaction en cours. Famille de composant Databases/MySQL Fonction Ouvre une connexion vers une base de données afin d effectuer une transaction. Objectif Ce composant permet de commiter les données d un job entier en une seule transaction vers une base de données de sortie. Basic settings Property type Peut être Built-in ou Repository. Utilisation Limitation Host Port Database Username et Password Encoding type Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentication de l utilisateur de base de données. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données des bases de données. Ce composant est généralement utilisé avec des composants Mysql, notamment les composants tmysqlcommit et tmysqlrollback. n/a Scénario : Insérer des données dans des tables mère/fille Le job suivant est dédié à des utilisateurs avancés de base de données qui souhaitent effectuer des insertions dans des tables multiples à l aide de l id d une table parent qui alimentera une table enfant. Avant de créer ce job, suivez les étapes décrites ci-dessous pour créer les tables nécessaires, à l aide d un gestionnaire de table tel que innodb. 34 Talend Open Studio Copyright 2008

39 Composants Database tmysqlconnection Dans un éditeur de ligne de commande, connectez-vous à votre serveur Mysql. Une fois connectée à la base de données correspondante, saisissez la commande suivante afin de créer la table parent : create table f1090_mum(id int not null auto_increment, name varchar(10), primary key(id)) engine=innodb; Puis créez la deuxième table : create table baby (id_baby int not null, years int) engine=innodb; Dans Talend Open Studio, le job est constitué de sept composants, tmysqlconnection et tmysqlcommit inclus. Cliquez et déposez les composants suivants de la Palette : tfilelist, tfileinputdelimited, tmap, tmysqloutput (x2). Connectez le composant tfilelist au composant d entrée tfileinputdelimited à l aide d une connexion de type Iterate. Ainsi, le nom du fichier à traiter sera automatiquement renseigné à partir de la liste de fichiers du tfilelist en utilisant une variable globale. Connectez le composant tfileinputdelimited au tmap et séparez le flux vers deux composants de sortie tmysqloutput. Utilisez des connexions de type Row pour chacune de ces connexions représentant un flux de données principal. Définissez les propriétés du composant tfilelist, notamment le répertoire dans lequel sont stockés les fichiers. Ajoutez le composant tmysqlconnection et connectez-le au composant de départ de ce job, (dans cet exemple, le composant tfilelist) à l aide d une connexion ThenRun afin de définir l ordre d exécution. Dans la vue Component du composant tmysqlconnection, définissez manuellement les informations de connexion ou récupérez-les dans le Repository si vous les avez préalablement stockés dans le dossier DB connection du répertoire Metadata. Pour plus d information concernant les Métadonnées, consultez Définition des schémas de métadonnées page 68 Copyright 2008 Talend Open Studio 35

40 Composants Database tmysqlconnection Dans l onglet Basic settings du composant tfileinputdelimited, appuyez sur la touche Ctrl+Espace pour accéder à la liste des variables. Définissez le champ File Name avec la variable globale : $_globals{tfilelist_1}{current_filepath} Paramétrez les autres champs comme vous le souhaitez, définissez les séparateurs de lignes et de champs (Row et Field Separator) en fonction de la structure de votre document. Puis définissez manuellement le schéma du ficher à l aide du bouton Edit schema ou sélectionnez le schéma dans le Repository. En version Java, assurez-vous que le type de données est correctement défini, conformément à la nature des données traitees. Modifiez l encodage s il ne correspond pas à celui de votre fichier. Dans la zone Output du tmap, ajoutez deux tables de sortie, une que vous nommerez mum pour la table parent et une deuxième que vous nommerez baby pour la table enfant. Cliquez sur la colonne Name de la zone Input et glissez-la dans la table mum. Cliquez sur la colonne Years de la zone Input et glissez-la dans la table baby. Assurez-vous que la table mum est bien au dessus de la table baby car l ordre des tables détermine la séquence des flux et ainsi l insertion de base de données est exécutée correctement. 36 Talend Open Studio Copyright 2008

41 Composants Database tmysqlconnection Puis sélectionnez une connexion de sortie de type Row pour acheminer correctement le flux vers le composant BDD de sortie correspondant. Dans l onglet Basic settings des deux composants tmysqloutput, cochez la case Use an existing connection pour récupérer les informations du composant tmysqlconnection. En version Perl, le champ Commit every n apparaît plus puisque vous utilisez le composant tmysqlcommit au lieu de gérer les commits de transaction globale. En version Java, ignorez ce champ puisque cette commande sera annulée par le composant tmysqlcommit. Nommez votre table dans le champ Table en vous assurant que vous saisissez la bonne table. Dans cet exemple, la table est soit f1090_mum, soit f1090_baby. Ne définissez aucune action dans le champ Action on table puisque les tables ont déjà été créées. Sélectionnez Insert dans le champ Action on data pour les deux composants de sortie (tmysqloutput). Cliquez sur le bouton Sync columns pour récupérer le schéma défini dans le tmap. Modifiez le type d encodage si nécessaire. Dans la zone Additional columns de l onglet Advanced settings du composant tmysqloutput correspondant à la table enfant (f1090_baby), définissez la colonne id_baby de manière à ce que l id de la table parent soit réutilisé. Dans le champ SQL expression, saisissez : '(Select Last_Insert_id())' Dans la colonne Position, sélectionnez l option Before et dans Reference column, l option years. Ajoutez le composant tmysqlcommit à votre job et connectez-le au composant tfilelist à l aide d une connexion de type ThenRun afin que votre job se termine avec un commit de transaction. Copyright 2008 Talend Open Studio 37

42 Composants Database tmysqlconnection Dans la vue Component du tmysqlcommit, sélectionnez dans la liste la connexion à utiliser. Enregistrez votre job et appuyez sur F6 pour l exécuter. L id de la table parent a été réutilisé pour alimenter la colonne id_baby. 38 Talend Open Studio Copyright 2008

43 Composants Database tmysqlinput tmysqlinput Propriétés du tmysqlinput Famille de composant Databases/MySQL Fonction tmysqlinput lit une base de données et en extrait des champs à l aide de requêtes. Objectif tmysqlinput exécute une requête BDD dans laquelle l ordre doit strictement correspondre à l ordre défini dans le schéma. Puis la liste des champs est transmise au composant via une connexion Main row. Basic settings Property type Peut être Built-in ou Repository. Use existing connection Host Port Database Username et Password Schema type et Edit Schema Query type et Query Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Cochez cette case lorsque vous utilisez tmysqlconnection. Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentification de l utilisateur de base de données. Un schéma est une description des lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant (Repository). Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également : Paramétrage d un schéma du repository, page 61 Saisissez votre requête BDD en faisant attention à ce que l ordre des champs corresponde à celui défini dans le schéma. Copyright 2008 Talend Open Studio 39

44 Composants Database tmysqlinput Utilisation Encoding Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données des bases de données. Ce composant couvre toutes les possibilités de requête SQL dans les bases de données Mysql. Scénario associé Aucun scénario n est disponible pour ce composant. 40 Talend Open Studio Copyright 2008

45 Composants Database tmysqloutput tmysqloutput Propriétés du tmysqloutput Famille de composant Databases/MySQL Fonction tmysqloutput écrit, met à jour, modifie ou supprime les données d une base de données. Objectif tmysqloutput exécutes l action définie sur la table et/ou sur les données d une table, en fonction du flux entrant provenant du composant précédent. Basic settings Property type Peut être Built-in ou Repository. En Java, cette fonction n est pas disponible, utilisez le composant tcreatetable pour la remplacer. Use existing connection Host Port Database Username et Password Table Action on table Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Cochez cette case lorsque vous utilisez le composant tmysqlconnection Adresse IP sur serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentification de l utilisateur de base de données Nom de la table à créer. Vous ne pouvez créer qu une seule table à la fois. Vous pouvez effectuer les opérations suivantes sur les données de la table sélectionnée : None : Aucune opération n est effectuée. Drop and create the table : La table est supprimée puis créée à nouveau. Create a table : La table n existe pas et est créée. Clear a table : Le contenu de la table est supprimé. Copyright 2008 Talend Open Studio 41

46 Composants Database tmysqloutput Action on data Clear data in table Schema type et Edit Schema Encoding Additional Columns Vous pouvez effectuer les opérations suivantes sur les données de la table sélectionnée : Insert : Ajouter de nouvelles entrées à la table. Le job s arrête lorsqu il détecte des doublons. Update : Mettre à jour les entrées existantes. Insert or update : Ajouter des entrées ou mettre à jour les entrées existantes. Update or insert : Mettre à jour les entrées existantes ou en créer si elles n existent pas. Delete : Supprimer les entrées correspondantes au flux d entrée. Efface les données de la table sélectionnée avant tout traitement. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également : Paramétrage d un schéma du repository, page 61 Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données des bases de données. Cette option n est pas disponible si vous venez de créer la table de données (que vous l ayez préalablement supprimée ou non). Cette option vous permet d effectuer des actions sur les colonnes, à l exclusion des actions d insertion, de mise à jour, de suppression ou qui nécessitent un pré-traitement particulier. Name : Saisissez le nom de la colonne à modifier ou à insérer. SQL expression : Saisissez la déclaration SQL à exécuter pour modifier ou insérer les données dans les colonnes correspondantes. Position : Sélectionnez Before, Replace ou After, en fonction de l action à effectuer sur la colonne de référence. Reference column : Saisissez une colonne de référence que le composant tdboutput peut utiliser pour situer ou remplacer la nouvelle colonne ou celle à modifier. 42 Talend Open Studio Copyright 2008

47 Composants Database tmysqloutput Utilisation Commit every Die on error Nombre de lignes à inclure dans le lot avant de commencer l écriture de la base. Cette option garantit la qualité de la transaction (cependant pas de rollback) et surtout une meilleure performance d exécution. Décochez cette case pour passer les lignes contenant des erreurs et terminer le traitement avec les lignes sans erreurs. Ce composant offre la flexibilité des requêtes sur les bases de données et couvre toutes les possibilités des requêtes SQL. Scénario : Ajouter une colonne et modifier les données Ce scénario décrit un job composé de trois composants permettant de créer de façon aléatoire des données de test à l aide du composant trowgenerator, dupliquer la colonne à modifier à l aide du tmap et de modifier les données à insérer en utilisant une expression SQL, ainsi qu insérer une nouvelle colonne à l aide du composant tdboutput. Cliquez et déposez les composants suivants dans le designer : trowgenerator, tmap et tmysqloutput. Reliez le trowgenerator au tmap. Paramétrez les propriétés du composant trowgenerator. Créez un schéma à deux colonnes : Name et Random_date. La colonne Name est alimentée de façon aléatoire par l un des noms de la liste créée à cette effet. Dans cet exemple, la liste contient les noms suivants : FabriceB, PierrickL, GabrielM and ElisaS. Double-cliquez sur le composant tmap pour dupliquer la colonne random_date et adaptez le schéma afin de modifier les données dans le composant de sortie (output). Dans le Mapper, créez la sortie que vous relierez au composant tmysqloutput. Ajoutez une colonne supplémentaire qui duplique la colonne random_date de la table d entrée et nommez-la random_date_1 pour la distinguer de l autre colonne. Cliquez-déposez le contenu de la colonne random_date de la zone Input vers la zone Output. Cliquez sur OK pour valider la transformation. Puis double-cliquez sur le composant tmysqloutput pour le paramétrer. Dans un premier temps, renseignez les informations de connexion vers la base de données, soit via le Repository si ces informations y sont centralisées soit manuellement si la connexion est ponctuelle. Copyright 2008 Talend Open Studio 43

48 Composants Database tmysqloutput Sélectionnez la table à modifier, dans cet exemple : Feature516. Aucune Action on table n est requise sur la table, l action sur les données (Action on data) pour cet exemple est Insert. Dans la zone Additional Columns, paramétrez la modificiation à effectuer sur les colonnes ainsi que l insertion spécifique d une nouvelle colonne moment dans la base de données. La colonne One_month_later remplace la colonne random_date_1. En outre, la modification des données elles-mêmes est effectuées à l aide d une expression SQL, qui ajoute un mois à la valeur sélectionnée de façon aléatoire dans la liste de la colonne random_date_1. Ex : devient Par conséquent, le libellé de la nouvelle colonne (One_Month_Later) vient dans le champ Name et dans le champ SQL expression, saisissez le script d addition à effectuer : 'adddate(?, interval 1 month)'. Dans le champ Position, sélectionnez Replace, dans la colonne Reference column, choisissez Random_date_1. Notez que pour ce job particulier, nous avons dupliqué la colonne random_date_1 dans la table de données avant de remplacer la colonne dupliquée par la colonne One_Month_Later, afin de rendre plus visibles les modifications effectuées. La seconde entrée correspond à la nouvelle colonne créée, moment, à insérer dans la table de la base. Dans le champ SQL expression, saisissez la fonction : now() et dans le champ Position, sélectionnez Before. Dans ce cas, la colonne de référence (Reference column) est Name. Une fois le paramétrage de sortie terminé, appuyez sur F6 pour exécuter le job. Deux nouvelles colonnes : One_Month_Later et Moment sont ajoutées ou modifiées dans la table de données. 44 Talend Open Studio Copyright 2008

49 Composants Database tmysqloutputbulk tmysqloutputbulk Propriétés du tmysqloutputbulk Les composants tmysqloutputbulk et tmysqlbulkexec sont généralement utilisés ensemble pour d une part générer en sortie le fichier qui sera d autre part utilisé comme paramètre dans l exécution de la requête SQL énoncée. Cette exécution en deux étapes est unifiée dans le composant tmysqloutputbulkexec, détaillé dans une section séparée. L intérêt de proposer deux composants séparés réside dans le fait que cela permet de procéder à des transformations avant le chargement des données dans la base de données. Copyright 2008 Talend Open Studio 45

50 Composants Database tmysqloutputbulk Famille de composant Databases/MySQL Fonction Ecrit un fichier composé de colonnes et basé sur le délimiteur défini et sur les standards MySql. Objectif Prépare le fichier à utiliser comme paramètre dans la requête INSERT servant à ali:menter une base de données MySQL. Basic settings Property type Peut être Built-in ou Repository. Utilisation File Name Field separator Row separator Append Include header Schema type et Edit Schema Encoding Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide ds données collectées. Nom du fichier à traiter. Voir également : Définir les variables à partir de la vue Component, page 137 Caractère, chaîne ou expression régulière séparant les champs. Chaîne (ex : \n sous Unix) séparant les lignes. Cochez cette option pour ajouter des nouvelles lignes à la fin du fichier. Cochez cette case pour inclure l en-tête des colonnes dans le fichier. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma ets créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Ce composant est généralement utilisé avec le composant tmysqlbulkexec. Ensemble ils offrent un gain de performance important pour l alimentation d une base de données MySQL. 46 Talend Open Studio Copyright 2008

51 Composants Database tmysqloutputbulk Scénario : Insérer des données transformées dans une base MySQL Ce scénario décrit un job contenant quatre composants dont le but est d alimenter un base MySQL à partir d un fichier paramètre contenant des données transformées. Deux étapes sont requises pour ce job, d une part pour créer le fichier paramètre qui sera utilisé dans un second temps. La première étape inclut une phase de transformation des données contenues dans le fichier. Glissez et déposez les composants suivants : trowgenerator, tmap, tmysqloutputbulk et tmysqlbulkexec. Connectez le flux principal à l aide de connexions row main. Et connectez le composant de début (trowgenerator, dans cet exemple) au composant tmysqlbulkexec à l aide d une connexion trigger de type ThenRun. Un composant trowgenerator est utilisé pour générer des données de façon aléatoire. Double-cliquez sur le composant trowgenerator pour lancer l éditeur. Définissez le schéma des lignes à générer et la nature des données à générer. Dans cet exemple, le fichier clients à créer contient les colonnes suivantes : ID, First Name, Last Name, Address, City qui sont toutes de type chaîne de caractères (string) à l exception de l ID qui est de type entier (integer). Copyright 2008 Talend Open Studio 47

52 Composants Database tmysqloutputbulk Certaines informations du schéma n ont pas nécessairement besoin d être affichées. Pour les dissimuler, cliquez sur le bouton Columns dans la barre d outils et décochez les colonnes à cacher, par exemple : Precision ou Parameters. Utilisez le bouton (+) pour ajouter autant de colonnes que possible à votre définition de schéma. Cliquez sur le bouton Refresh pour visualiser un aperçu des lignes générées en sortie. Puis sélectionnez le composant tmap pour paramétrer la transformation. Faites glisser et déposez toutes les colonnes de la table Input vers la table Output. Appliquez la transformation sur la colonne LastName en ajoutant uc devant. Cliquez sur OK pour valider la transformation. Puis double-cliquez sur le composant tmysqloutputbulk. 48 Talend Open Studio Copyright 2008

53 Composants Database tmysqloutputbulk Définissez le nom du fichier à produire dans le champ File Name. Si les propriétés du fichier délimité sont conservées dans le Repository, sélectionnez l entrée correspondante dans le champ Property type afin de les récupérer. Dans cet exemple, le nom de fichier est clients.txt. Le schéma est propagé à partir du composant tmap, si vous cliquez sur Yes lorsque la boîte de dialogue vous demande de confirmer la propagation. Dans cet exemple, ignorez les informations en en-tête de colonnes car la table cible devrait déjà les contenir. L encodage est celui par défaut dans cet exemple. Cliquez sur OK pour valider la sortie. Puis double-cliquez sur le composant tmysqlbulkexec pour paramétrer la requête INSERT à exécuter. Définissez les informations de connexion à la base de données. Nous vous recommandons de conserver ce type d informations dans le Repository, afin de pouvoir les récupérer à tout moment et pour tous vos jobs. Dans le champ Table, définissez la table à alimenter avec les données collectées. Dans le champ Field terminated by de l onglet Advanced settings, renseignez le séparateur de colonnes. Assurez-vous que l encodage correspond à celui des données manipulées. Puis appuyez sur F6 pour exécuter le job. Copyright 2008 Talend Open Studio 49

54 Composants Database tmysqloutputbulk La table de la base clients est alimentée avec les données du fichier notamment les données transformées dans la colonne last name. Pour une simple opération d Insert ne nécessitant pas de transformation, l utilisation du composant tmysqloutputbulkexec permet d économiser une étape dans le processus et ainsi de gagner en performance. Voir également : Propriétés du tmysqloutputbulkexec, page Talend Open Studio Copyright 2008

55 Composants Database tmysqloutputbulkexec tmysqloutputbulkexec Propriétés du tmysqloutputbulkexec Famille de composant Databases/MySQL Fonction Effectue une action d Insert sur les données fournies. Objectif Ce composant est un composant dédié qui permet un gain de performance pendant les opérations d Insert dans une base de données MySQL. Basic settings Property type Peut être Built-in ou Repository. Utilisation Limitation Host Port Database Username et Password Table File Name Field separator Row separator Encoding Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentication de l utilisateur de base de données. Nom de la table à écrire. Notez qu une seule table peut être écrire à la fois et la table doit déjà exister pour que l opération d insert soit autorisée. Nom du fichier à traiter. Voir également :Définir les variables à partir de la vue Component, page 137 Caractère, chaîne ou expression régulière séparant les champs. Chaîne (ex : \n sous Unix) séparant les lignes. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Ce composant est principalement utilisé lorsqu aucune transformation particulière n est requise sur les données à charger dans la base de données. n/a Copyright 2008 Talend Open Studio 51

56 Composants Database tmysqloutputbulkexec Scénario : Insérer des données dans une base MySQL Ce scénario est un job à deux composants qui effecture le même type d opération d alimentation que les composants tmysqloutputbulk, page 45 et tmysqlbulkexec, page 30, mais sans transformation de données. Cliquez et déposez les composants suivants : trowgenerator et tmysqloutputbulkexec. Le trowgenerator est paramétré de la même manière que dans le Scénario : Insérer des données transformées dans une base MySQL, page 47. Le schéma est consitué de quatre colonnes notamment : ID, First Name, Last Name, Address et City. Puis paramétrez la connexion à la base de données si nécessaire, en suivant les recommandations précédentes concernant la conservation des informations de connexion dans la partie Metadata du Repository. Puis nommez la table à alimenter dans le champ Table. Et renseignez le nom du fichier à utiliser dans le champ File Name. Puis appuyez sur F6 pour exécuter le job. Le résultat devrait être relativement identique à celui obtenu dans le Scénario : Insérer des données transformées dans une base MySQL, page 47. Cependant les données elles-mêmes peuvent différer légèrement puisque les données sont regénérées de façon aléatoire à chaque exécution. 52 Talend Open Studio Copyright 2008

57 Composants Database tmysqlrollback tmysqlrollback Propriétés du tmysqlrollback Ce composant est étroitement lié aux composants tmysqlcommit et tmysqlconnection. Ils sont généralement utilisés ensemble lors d une transaction. Famille de composant Databases Fonction Annule la transaction dans une base de données connectée. Objectif Evite involontairement le commit de transaction. Basic settings Component list Sélectionnez le composant tmysqlconnection dans la liste s il y a plus d une connexion dans votre job. Utilisation Limitation Ce component est généralement utilisé avec d autres composants Mysql, notamment les composants tmysqlconnection et tmysqlcommit components. n/a Scénario : Annuler l insertion de données dans des tables mère/fille Basé sur le composant tmysqlconnection, Scénario : Insérer des données dans des tables mère/fille, page 34, insérez une opération de rollback (annulation) afin d éviter un commit inutile. Cliquez et déposez un composant tmysqlrollback et connectez-le au composant de début. Paramétrez l unique champ du Rollback avec la connexion BDD adéquate. Ce nouvel élément ajouté au job assure que la transaction ne sera pas commitée partiellement. Copyright 2008 Talend Open Studio 53

58 Composants Database tmysqlrow tmysqlrow Propriétés du tmysqlrow Famille de composant Databases/MySQL Fonction tmysqlrow est le composant spécifique à ce type de base de données. Il exécute des requêtes SQL déclarées sur la base de données spécifiée. Le suffixe Row signifie que le composant met en place un flux dans le job bien que ce composant ne produise pas de données en sortie. Objectif Selon la nature de la requête et de la base de données, tmysqlrow agit sur la structure même de la base de données ou sur les données (mais sans les manipuler). Le SQLBuilder peut vous aider à rapidement et aisément écrire vos requêtes. Basic settings Property type Peut être Built-in ou Repository. Use existing connection Host Port Database Username et Password Schema type et Edit Schema Query type Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Cochez cette case lorsque vous utilisez le composant tmysqlconnection Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentification de l utilisateur de base de données. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également : Paramétrage d un schéma du repository, page 61 Peut être Built-in ou Repository. 54 Talend Open Studio Copyright 2008

59 Composants Database tmysqlrow Utilisation Query Commit every Encoding Die on error Built-in : Saisissez manuellement votre requête ou construisez-la à l aide de SQLBuilder. Repository : Sélectionnez la requête appropriée dans le Repository. Le champ Query est renseigné automatiquement. Saisissez votre requête en faisant particulièrement attention à l ordre des champs afin qu ils correspondent à la définition du schéma. Nombre de lignes à inclure dans le lot avant de commencer l écriture de la base. Cette option garantit la qualité de la transaction (cependant pas de rollback) et surtout une meilleure performance d exécution. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Décochez cette case pour passer les lignes contenant des erreurs et terminer le traitement avec les lignes sans erreurs. Ce composant offre la flexibilité des requêtes sur les bases de données et couvre toutes les possibilités de requêtes SQL. Scénario : Supprimer et regénérer un index de table MySQL Le scénario suivant crée un job à quatre composants permettant de supprimer un index de table, effectuer un Insert dans cette table avant de regénérer l index. Sélectionnez les composants suivants dans la Palette et déposez-le dans l espace de modélisation : tmysqlrow (x2), trowgenerator, tmysqloutput. Copyright 2008 Talend Open Studio 55

60 Composants Database tmysqlrow Connectez le composant tmysqlintput au trowgenerator. Puis à l aide d une connexion ThenRun, connectez le premier composant tmysqlrow au tmysqlinput. Connectez le composant trowgenerator au second composant tmysqlrow à l aide d une connexion ThenRun à nouveau. Sélectionnez le composant tmysqlrow et renseignez les propriétés de la base de données dans l onglet Basic settings. Dans les champs Property type et Schema type, sélectionnez la base de données appropriée dans la liste. Les détails de connexion à la base de données ainsi que le schéma de la table sont renseignés automatiquement. Propagez les informations de propriétés et de schéma aux autres composants du job. La requête étant conservée dans les Metadata du Repository, vous pouvez également sélectionner Repository dans le champ Query type et cliquer sur la requête correspondante. Si vous ne conservez pas vos requêtes dans le Repository, saisissez la déclaration SQL suivante : drop index <index_name> on <table_name> Puis séléctionnez le deuxième composant tmysqlrow, vérifiez les propriétés et le schéma de base de données. Puis saisissez la déclaration SQL permettant de recréer un index à l aide de la formulation suivante : create index <index_name> on <table_name> (<column_name>); Le composant trowgenerator permet de générer automatiquement les colonnes à ajouter à la table de sortie définie. Sélectionnez le composant tmysqloutput et renseignez les propriétés de connexion à la base de données soit à partir du Repository ou manuellement si les informations de connexion ne sont utilisées que pour ce job. La table à alimenter a pour nom : comprehensive. Le schéma est automatiquement hérité du flux de données du tlogrow. Editez le schéma et vérifiez que sa structure correspond au schéma attendu par la table de base de données spécifiée. Dans le champ Action on table, sélectionnez None et dans le champ Action on data, sélectionnez Insert. Aucune colonne supplémentaire n est requise pour ce job. Appuyez sur F6 pour exécuter ce job. Si vous avez la possibilité d observer l action sur la base de données, remarquez que l index a été supprimé en début de job puis recréé à la fin de l action d Insert. 56 Talend Open Studio Copyright 2008

61 Composants Database tmysqlscd tmysqlscd tmysqlscd appartient à deux familles différentes : Business Intelligence et Databases. Pour plus d informations, consultez tmysqlscd page 4. Copyright 2008 Talend Open Studio 57

62 Composants Database tmysqlsp tmysqlsp Propriétés du tmysqlsp Familles de composant Databases/Mysql Fonction tmysqlsp appelle une procédure stockée de base de données. Objectif tmysqlsp permet de centraliser des requêtes multiples ou complexes dans une base de données et de les appeler plus facilement. Basic settings Property type Peut être Built-in ou Repository. Host Port Database Username et Password Encoding Schema type et Edit Schema SP Name Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier des propriétés du composant. Les champs suivants sont alors pré-remplis. Adresse IP du serveur de base de données. Numéro du port d écoute du serveur de base de données. Nom de la base de données. Informations d authentication sur l utilisateur de base de données. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Dans une procédure stockée, le schéma est un paramètre d entrée. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il est réutilisable. Voir également : Paramétrage d un schéma du repository, page 61 Saisissez le nom exacte de la Procédure Stockée (SP). 58 Talend Open Studio Copyright 2008

63 Composants Database tmysqlsp Utilisation Limitation Is Function / Return result in Parameters Cochez cette case, si une seule valeur doit être retournée. Sélectionnez dans la liste la colonne du schéma sur laquelle est basée la valeur à obtenir. Cliquez sur le bouton (+) et sélectionnez dans le champ Schema Columns les différentes colonnes nécessaires à la procédure. Notez que le schéma de la SP peut contenir plus de colonnes qu il n y a de paramètres utilisés dans la procédures. Sélectionnez le Type de paramètre : IN : paramètre d entrée (Input) OUT : paramètre de sortie (Output)/valeur retournée IN OUT : les paramètres d entrée doivent être retournées sous forme de valeur, même après modifications via la procédure (fonction). RECORDSET : les paramètres d entrée doivent être retournées sous forme d ensemble de valeurs, au lieu d une valeur unique. Ce composant est un composant intermédiaire. Il peut être utilisé comme composant de début. Dans ce cas, seuls les paramètres d entrée sont autorisés. La syntaxe de la Procédure Stockée doit correspondre à celle de la base de données. Scénario : Trouver le libellé State à l aide d une procédure stockée Le job suivant a pour but de trouver les libellés State en fonction des ID impairs de la colonne State d une table Mysql à deux colonnes à l aide d une procédure stockée. Cliquez et déposez les composants suivants dans l espace de modélisation : trowgenerator, tmysqlsp et tlogrow. Connectez les composants à l aide d une connexion de type Row Mainl. Le trowgenerator est utilisé pour générer des ID impairs. Double-cliquez sur le composant pour lancer l éditeur. Copyright 2008 Talend Open Studio 59

64 Composants Database tmysqlsp Cliquez sur le bouton (+) pour ajouter une colonne au schéma à générer. Cochez la case Key pour définir l entrée comme étant une clé primaire et définissez le Type en Int (entier). Dans le champ Length, la longueur est de 2 chiffres max. Utilisez la fonction préétablie appelée sequence mais modifiez les paramètres dans la partie inférieure de la fenêtre. Modifiez la valeur (Value) de step : de 1 à 2 pour cet exemple. Mais la valeur de départ (start value) reste 1. Dans le champ Number of generated rows, définissez le nombre de lignes à générer à 25, afin que tous les ID impairs de State (il y a 50 Etats) soient générés. Cliquez sur OK pour valider la configuration. Puis sélectionnez le composant tmysqlsp et paramétrez ses propriétés. 60 Talend Open Studio Copyright 2008

65 Composants Database tmysqlsp Dans le champ Property type, sélectionnez l option Repository puis sélectionnez l entrée correspondante dans la liste. Les informations de connexion sont remplies automatiquement. Sinon, paramétrez les informations de connexion manuellement. Cliquez sur Sync Column pour récupérer le schéma généré du composant précédent. Puis cliquez sur Edit Schema et ajoutez une colonne supplémentaire contenant les libellés des Etats (State) à obtenir en sortie, en plus de l ID. Sélectionnez le type d encodage dans la liste. Dans le champ SP Name, saisissez le nom de la procédure comme il a été défini dans la base de données (ici, getstate). La procédure à exécuter correpond à : DROP PROCEDURE IF EXISTS `talend`.`getstate` $$ CREATE DEFINER=`root`@`localhost` PROCEDURE `getstate`(in pid INT, OUT pstate VARCHAR(50)) BEGIN SELECT LabelState INTO pstate FROM us_states WHERE idstate = pid; END $$ Dans la zone Parameters, cliquez sur le bouton (+) pour ajouter une ligne à la table. Copyright 2008 Talend Open Studio 61

66 Composants Database tmysqlsp Définissez le champ Column en ID, et le champ Type en IN, ainsi il sera considéré comme paramètre d entrée dans la procédure. Ajoutez une deuxième ligne et définissez le champ Column en State et le champ Type en Out, ainsi il sera considéré comme le paramètre de sortie a retournée. Et enfin, paramétrez les propriétés du composant tlogrow. Synchronisez le schéma avec celui du composant précédent en cliquant sur le bouton Sync columns. Et cochez la case Print values in cells of a table pour un meilleur confort de lecture. Puis enregistrez votre job et exécutez-le. La sortie affiche les différents Etats (State) avec leur ID impair comme défini dans la procédure. 62 Talend Open Studio Copyright 2008

67 Composants Database Utilities Composants Database Utilities Ce chapitre passe en revue les propriétés des principaux composants présents dans la famille Database Utilities de la Palette de Talend Open Studio. La famille Database utilities regroupe les composants courvant les besoins liés à l utilisation des bases de données, notamment la création de table. Présentation des Composants Chaque composant possède sa propre liste de propriétés et de paramètres, éditables dans les onglets Basic et Advanced settings dans la vue Component. WARNING Les propriétés des Composants ont été séparés en deux onglets Basic et Advanced settings. Certaines des informations suivantes ayant été rédigées au préalable, un écart entre l interface utilisateur de Talend Open Studio et la description ci-dessous peut subsister. Dans la section de propriétés des composants, une icône ou indique si le composant est disponible en Java et/ou en Perl. Copyright 2008 Talend Open Studio 63

68 Composants Database Utilities tparserecordset tparserecordset Propriétés du tparserecordset Famille de composant Databases Fonction Objectif Basic settings Utilisation Limitation tparserecordset analyse un ensemble d enregistrements d une table de données ou d une requête SQL et retourne éventuellement des enregistrements seuls. Permet d analyser un ensemble d enregistrements d une table au lieu de les analyser individuellement. Prev. Comp. Column list Schema type et Edit Schema Attribute table Sélectionnez la colonne contenant l ensemble d enregistrements à analyser. Dans une procédure stockée, le schéma est un paramètre d entrée. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant uniquement. Voir également : Paramétrage d un schéma built-in on page 60 Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il est réutilisable. Voir également : Paramétrage d un schéma du repository on page 61 Paramétrez la valeur positionnelle de chaque colonne de chaque enregistrement d un ensemble d enregistrements. Ce composant est un composant intermédiaire. Il peut être utilisé comme composant de début. Dans ce cas, seuls les paramètres d entrée sont autorisés. Ce composant est principalement utiliser avec la fonctionnalité Recordset d un composant SP. Scénario Aucun scénario n est disponible pour ce composant. 64 Talend Open Studio Copyright 2008

69 Composants File Composants File Ce chapitre passe en revue les propriétés des principaux composants présents dans la famille File de la Palette de Talend Open Studio. La famille File regroupe les composants qui lisent et écrivent des données dans tous types de fichiers, du plus utilisé au format le plus spécifique (dans les sous-familles Input et Output). De plus, la sous-famille Management regroupe des composants dédiés aux fichiers qui peuvent effectuer diverses traitements sur les fichiers, notamment le désarchivage, la suppression, la copie, la comparaison de fichiers, etc. Présentation des Composants Chaque composant possède sa propre liste de propriétés et de paramètres, éditables dans les onglets Basic et Advanced settings dans la vue Component. WARNING Les propriétés des Composants ont été séparés en deux onglets Basic et Advanced settings. Certaines des informations suivantes ayant été rédigées au préalable, un écart entre l interface utilisateur de Talend Open Studio et la description ci-dessous peut subsister. Dans la section de propriétés des composants, une icône ou indique si le composant est disponible en Java et/ou en Perl. Copyright 2008 Talend Open Studio 65

70 Composants File tfileinputdelimited tfileinputdelimited Propriétés du tfileinputdelimited Famille de composant File/Input Fonction Objectif tfileinputdelimited lit en fichier ligne par ligne et sépare des champs simples. Ouvre un fichier et le lit ligne par ligne afin de le diviser en champs et d envoyer ses champs au composant suivant, comme défini par le schéma, via une connexion Row. Basic settings Property type Peut être Built-in ou Repository. File Name Field separator Row separator Header Footer Limit Schema type et Edit Schema Skip empty rows Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Nom du fichier à traiter. Voir également : Définir les variables à partir de la vue Component, page 137 Caractère, chaîne ou expression régulière séparant les champs. Chaîne (ex : \n sous Unix) séparant les lignes. Nombre de lignes à ignorer au début d un fichier. Nombre de lignes à ignorer à la fin d un fichier. Nombre maximum de lignes à traiter. Si Limit = 0, aucune ligne n est lue ni traitée. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Cliquez sur Edit Schema pour modifier le schéma. Notez que si vous modifiez le schéma, il devient automatiquement built-in. Cliquez sur Sync columns pour récupérer le schéma du composant précédent. Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et job deisngs. Voir également : Paramétrage d un schéma du repository, page 61 Cochez cette case pout ignorer les lignes vides. 66 Talend Open Studio Copyright 2008

71 Composants File tfileinputdelimited Utilisation Extract lines at random/ Number of lines Encoding Cochez cette case pour définir le nombre de lignes à extraire de façon aléatoire. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Utilisez ce composant pour lire un fichier et séparer les champs à l aide du séparateur spécifié. Scénario : Afficher le contenu d un fichier délimité Le scénario suivant est un job de deux composants ayant pour objectif de lire les lignes d un fichier, de sélectionner des données délimitées et d afficher la sortie dans la console de la vue Run Job. Cliquez et déposez un composant tfileinputdelimited de la Palette dans l espace de modélisation. De la même manière, cliquez et déposez un composant tlogrow. Cliquez-droit sur le composant tfileinputdelimited et sélectionnez Row > Main dans le menu contextuel. Puis glissez ce lien vers le tlogrow et relâchez lorsque le symbole de prise de courant apparaît. Sélectionnez le composant tfileinputdelimited à nouveau et définissez ses propriétés dans l onglet Basic Settings : Renseignez le chemin d accès au fichier dans le champ File Name. Ce champ est obligatoire. Copyright 2008 Talend Open Studio 67

72 Composants File tfileinputdelimited Définissez le séparateur de lignes dans le champ Row separator afin d identifier la fin d une ligne. Puis définissez le séparateur de champs dans Field separator pour délimiter les champs composant une ligne. Dans ce scénario, l en-tête (Header) et le pied de page (Footer) n ont pas besoin d être définis. Et la limite de lignes lues (Limit ) est de 50 pour cet exemple. Sélectionnez soit local (Built-in) soit distant (Repository) comme Schema type pour définir les données qui passent par le composant tlogrow. Vous pouvez charger et/ou éditer le schéma à l aide de la fonction Edit Schema. Voir également : Paramétrage d un schéma built-in et Paramétrage d un schéma du repository, page 61 Assurez-vous que la case Skip empty rows est cochée afin d ignorer les lignes vierges. Saisissez l encodage utilisé dans le fichier d entrée. Ce paramètre permet d assurer l homogénéité de l encodage dans tous les fichiers d entrée et de sortie. Sélectionnez le composant tlogrow et définissez le séparateur de champs de la sortie affichée. Cochez la case Print schema column name in front of each value pour récupérer le libellé des colonnes dans la sortie affichée. Cliquez sur la vue Run Job, puis cliquez sur Run pour exécuter le job. Le fichier est lu ligne par ligne et les champs extraits sont affichés dans la console, tel que défini dans les propriétés du composant (Basic settings). La console affiche l en-tête suivis des données lues par le job. 68 Talend Open Studio Copyright 2008

73 Composants File tfileinputpositional tfileinputpositional Propriétés du tfileinputpositional Famille de composant File/Input Fonction tfileinputpositional lit un fichier ligne par ligne et extrait les champs selon un pattern. Objectif Ouvre un fichier qu il lit ligne par ligne, sépare les champs tels que définis par le schéma et passe les données extraites au composant suivant via une connnexion de type Row. Basic settings Property type Peut être Built-in ou Repository. File Name Field separator Row separator Header Footer Limit Schema type et Edit Schema Skip empty rows Pattern Encoding Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier où sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Nom du fichier à traiter. Voir également :Définir les variables à partir de la vue Component, page 137 Caractère, chaîne ou expression régulière séparant les champs. Chaîne (ex : \n sous Unix) séparant les lignes. Nombre de lignes à ignorer au début d un fichier. Nombre de ligne à ignorer à la fin d un fichier. Nombre maximum de lignes à traiter. Si Limit = 0, aucune ligne n est lue ni traitée. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma sera créé et conservé pour ce composant. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Cochez cette case pour ignorer les lignes vides. Longueurs séparées par de virgules, interpétées comme une chaîne de caractères entre guillemets. Vérifiez que les valeurs saisies dans ce champ sont cohérentes avec le schéma défini. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données des bases de données. Copyright 2008 Talend Open Studio 69

74 Composants File tfileinputpositional Utilisation Utilisez ce composant pour lire un fichier et séparer les champs à l aide du séparateur spécifié. Scénario : Transformer un fichier positionnel en XML Le scénario suivant construit un job avec deux composants, qui a pour objectif de lire les données d un fichier positionnel en entrée et de rendre en sortie des données sélectionnées (selon leur position) dans un fichier XML. Cliquez et déposez un composant tfileinputpositional de la Palette dans l espace de modélisation. Le fichier contient des lignes de données, dans cet exemple, contract nr, customer references et insurance numbers. Cliquez-déposez un composant tfileoutputxml. Ce fichier recevra les références de manière structurée. Cliquez-droit sur le composant tfileinputpositional et sélectionnez une connexion Row > Main. Glissez cette connexion vers le composant tfileoutputxml et relâchez la souris lorsque le symbole de prise de courant apparaît. Sélectionnez le composant tfileinputpositional à nouveau et définissez ses propriétés. Les propriétés de ce job sont de type built-in pour ce scénario. Par conséquent, les informations de propriétés sont renseignées pour ce job seulement et ne peuvent être réutilisées pour un autre job, contrairement à des propriétés de type Repository. Renseignez le chemin d accès au fichier dans le champ File Name. Ce champ est obligatoire. Puis définissez le séparateur de lignes (Row separator) permettant d identifier la fin de la ligne : le retour chariot par défaut. 70 Talend Open Studio Copyright 2008

75 Composants File tfileinputpositional Puis définissez Pattern définissant les champs d une ligne. Le pattern est une série de longueurs correspondant aux valeurs de champs du fichier en entrée. Les valeurs doivent être saisies entre guillemets simples et séparées par une virgule. Veillez à ce que les valeurs saisies correspondent à la longueur des champs définis dans le schéma. Dans ce scénario, les champs d en-tête (Header), de pied de page (Footer) et de limite (Limit) n ont pas besoin d être définis. Sélectionnez le type de schéma (Schema type) pour définir les données à transmettre au composant tfileoutputxml. Vous pouvez sélectionner et/ou modifier le schéma via la fonction Edit Schema. Pour ce schéma, définissez trois colonnes, respectivement Contracts, CustomerRef et InsuranceNr correspondant aux trois valeurs de longueurs définies. Puis définissez les propriétés du composant de sortie. Saisissez le chemin d accès au fichier XML de sortie. Copyright 2008 Talend Open Studio 71

76 Composants File tfileinputpositional Saisissez une (ou plusieurs) balise racine (Root tag) pour envelopper la structure en sortie XML. Dans ce cas, la balise est ContractsList. Définissez la balise de la ligne (Row tag) qui définit chaque ligne. Dans ce cas, la balise est ContractRef. Cochez la case Column name as tag name pour réutiliser le libellé des colonnes du schéma d entrée comme nom de balise pour structurer le fichier XML de sortie. Par défaut, le nom de balise est field, quel que soit le type de valeur dans les colonnes. Saisissez l encodage (Encoding) du fichier d entrée. Notez que pour l instant la vérification de l encodage n est pas fonctionnellement supportée. Sélectionnez le type de schéma dans le champ Schema type. Si vous avez déjà mis en place la connexion entre les composants d entrée et de sortie du job, la propagation du schéma est automatique. Sinon, cliquez sur Sync columns pour les synchroniser. Passez à la vue Run Job et cliquez sur Run pour éxecuter le job. Le fichier est lu ligne par ligne et divisé en champs basés sur les longueurs définies précédemment dans le champ Pattern. Vous pouvez l ouvrir dans n importe quel éditeur XML standard. 72 Talend Open Studio Copyright 2008

78 Composants File tfileinputregex tfileinputregex Propriétés du tfileinputregex Famille de composant File/Input Fonction Puissant composant qui peut remplacer bon nombre des composants File. Il requiert des connaissances avancées en rédaction d expressions régulières. Objectif Ouvre un fichier et le lit ligne par ligne afin de le diviser en champs à l aide d expressions régulières et d envoyer les champs définis dans le schéma au composant suivant via une connexion Row. Basic settings Property type Peut être Built-in ou Repository. File Name Row separator Regex Header Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Nom du fichier à traiter. Voir également :Définir les variables à partir de la vue Component, page 137 Chaîne (ex : \n sous Unix) pour distinguer les lignes. Ce champ est compatible Perl ou Java et peut contenir plusieurs lignes. Intégrez à vos expressions régulières le subpattern correspondant aux champs à extraire. Note : En Java, doublez les antislashes en regexp. La syntaxe Regexp est différente en Java et en Perl et requiert des apostrophes respectivement doubles et simples. Nombre de lignes à ignorer en début de fichier. Footer Nombre de lignes à ignorer en fin de fichier. Limit Nombre maximum de ligne à traiter. Si Limit = 0, aucune ligne n est lue ni traitée. Schema type et Edit Schema Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passées au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page Talend Open Studio Copyright 2008

79 Composants File tfileinputregex Utilisation Limitation Skip empty rows Encoding Repository : Le schéma existe déjà et stocké dans le Repository. Ainsi, il est réutilisable dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Cochez cette case pour ignorer les lignes vides. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Ce composant sert à lire un fichier et à en séparer les champs selon les Regex définies. n/a Scénario : Transformer en fichier Regex en Positional Le scénario suivant est un job formé de deux composants, qui pour objectif de lire les données d un fichier d entrée utilisant des expressions régulières et transformant les données ainsi délimitées en sortie positionnelle. Cliquez et déposez un composant tfileinputregex et tfileoutputpositional de la Palette dans l espace de modélisation. Cliquez droit sur le composant tfileinputregex et sélectionnez une connexion Row > Main dans le menu contextuel. Faites glisser cette connexion vers le composant tfileoutputpositional et relâchez lorsque le symbole approprié apparaît. Sélectionnez tfileinputregex à nouveau et définissez ses propriétés dans l onglet Component : Copyright 2008 Talend Open Studio 75

80 Composants File tfileinputregex Les propriétés de ce job sont de type built-in. Par conséquent, elles ne sont définies que pour ce job et ne peuvent être partagées avec d autres utilisateurs. Indiquez le chemin d accès au fichier dans le champ File Name. Ce champ est obligatoire. Définissez le séparateur de lignes dans le champ Row separator afin d identifer la fin d une ligne. Puis, dans Regular expression, définissez l expression régulière à utiliser pour délimiter les champs d une ligne qui seront passés au composant suivant. Vous pouvez utiliser Perl et saisir une expression régulière multiligne si vous en avez besoin. Veillez à utiliser la bonne expression régulière en fonction de la langue de génération de code que vous utilisez. En effet, la syntaxe n est pas la même en Java et en Perl. Assurez-vous aussi d insérer les expressions régulières dans des guillemets simples ou doubles en fonction de la langue de génération. Assurez-vous d inclure dans cette expression tous les sous-patterns des champs à extraire. Dans ce scénario, ignorez les champs en-tête (Header), pied de page (Footer) et limite (Limit). Dans le Schema type, sélectionnez local (Built-in) comme type de schéma des données à transférer au composant tfileoutputpositional. Vous pouvez charger ou créer à partir de la fonction Edit Schema. Puis définissez les propriétés du deuxième composant : 76 Talend Open Studio Copyright 2008

81 Composants File tfileinputregex Saisissez le chemin d accès au fichier de sortie. Saisissez l encodage du fichier de sortie dans le champ Encoding. Notez que pour l instant, l homogénéité de l encodage dans un job n est pas vérifié. Sélectionnez le type de schéma dans Schema type. Cliquez sur le bouton Sync columns pour récupérer en sortie le schéma d entrée. Passez à l onglet Run Job et cliquez sur Run pour exécuter le job. Le fichier d entrée est lu ligne par ligne puis divisé en champs délimités selon la valeur de l expression regulière définie. Vous pouvez ouvrir le fichier de sortie avec tout éditeur standard. Copyright 2008 Talend Open Studio 77

82 Composants File tfileinputxml tfileinputxml Propriétés du tfileinputxml Famille du composant File/Input Fonction tfileinputxml lit un fichier XML structuré et extrait les données lignes par lignes. Objectif Ouvre un fichier XML structuré et le lit ligne par ligne pour le scinder en champs et envoie les champs tel que définis dans le schéma au composant suivant du job via une connexion Row. Basic settings Property type Peut être Built-in ou Repository. Schema type et Edit Schema File Name Loop XPath query Mapping column/xpath Query Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l aide des données collectées. Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Nom du fichier à traiter. Voir également :Définir les variables à partir de la vue Component, page 137 Noeud de l arborescence sur lequel la boucle est basée. Column : Colonnes à mapper. Elles reflètent le schéma défini par le champ Schema type XPath Query : Saisissez les champs à extraire de l entrée structurée. Limit Nombre maximum de lignes à traiter. Si Limit = 0, auxune ligne n est lue ni traitée. Encoding Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. 78 Talend Open Studio Copyright 2008

83 Composants File tfileinputxml Limitation n/a Scénario : Extraire des adresses XML Ce scénario très basique est constitué de deux composants : un composant tfileinputxml qui extrait des données du fichier XML contenant des adresses et un composant tlogrow qui affiche le résultat de cette opération dans la console Run Job via le composant tlogrow. Sélectionnez un composant tfileinputxml dans le dossier File de la Palette. Cliquez et déposez également un composant tlogrow et connectez ces deux composants. Dans l onglet Basic settings du composant tfileinputxml, définissez les propriétés : Le fichier XML contenant les adresses a été préalablement défini dans la zone Metadata, par conséquent récupérez ses propriétés en sélectionnant Repository dans Property type. De cette manière, les propriétés sont automatiquement récupérés et le reste des champs est renseigné (à l exception du Schéma). Pour plus d informations concernant l assistant de création de métadonnées, consultez Définition des schémas de métadonnées on page 68. De la même manière, sélectionnez le schéma approprié dans la liste de métadonnées du Repository. Cliquez sur Edit schema si vous souhaitez modifier le schéma chargé. Dans le champ Filename, indiquez le fichier struturé d entrée. Copyright 2008 Talend Open Studio 79

84 Composants File tfileinputxml Dans le champ Loop XPath query, modifiez le noeud de boucle si nécessaire. Dans la table de Mapping, renseignez les champs à extraire et à afficher dans la sortie. Si le fichier est volumineux, définissez un nombre de ligne maximum à traiter dans le champ Limit. Saisissez l encodage si nécessaire, puis double-cliquez sur tlogrow pour définir le caractère séparateur. Enfin, appuyez sur F6 ou cliquez sur Run dans la vue Run Job pour exécuter le job. Dans la console, les champs définis sont extraits du fichier XML structuré et sont affichés. 80 Talend Open Studio Copyright 2008

85 Composants File tfilelist tfilelist Propriétés du tfilelist Famille de composant File/Management Fonction tfilelist fait une boucle sur les fichiers d un répertoire donné. Objectif tfilelist récupère un groupe de fichiers suivant un masque donnée et fait une boucle sur chacun des fichiers. Basic settings Directory Chemin d accès au répertoire de fichiers. Utilisation Filemask Case sensitive Nom de fichier ou masque de fichier utilisant un caractère spécial (*). Crée (ou non) un filtre selon la casse des noms de fichiers. tfilelist fournit une liste de fichiers à partir d un répertoire donnée sur lequel il fait une boucle. Scénario : Itération sur un répertoire Le scénario suivant décrit un job de trois composants, qui a pour objectif de répertorier les fichiers d un répertoire donné, de lire chaque fichier par itération, de sélectionner les données délimitées et d afficher ces données en sortie dans la console Run Job. Cliquez et déposez les composants suivants : tfilelist, tfileinputdelimited et tlogrow dans l espace de modélisation. Cliquez droit sur le composant tfilelist et connectez-le au composant tfileinputdelimited via une connexion de type Main Iterate. Puis connectez le tfileinputdelimited au tlogrow à l aide d une connexion de type Main Row. Puis paramétrez les propriétés respectives des composants. Tout d abord, sélectionnez le composant tfilelist et cliquez sur l onglet Basic settings : Copyright 2008 Talend Open Studio 81

86 Composants File tfilelist Dans le champ Directory, indiquez le chemin d accès des fichiers à traiter. Pour faire apparaître ce chemin d accès dans le job lui-même, utilisez le nom de champ ( DIRECTORY ) qui apparaît en bulle info lorsque vous passez le souris sur le champ Directory. Saisissez cette référence dans le champ Label Format de l onglet View. Dans le champ Filemask, indiquez un masque de fichier. Utilisez les caractères joker si besoin est. Définissez le champ Case sensitive sur Yes pour prendre la casse en compte dans cet exemple. Paramétrez les propriétés du deuxième composant tfileinputdelimited : Dans le champ File Name, nommez le fichier à l aide d une variable contenant son chemin d accès, tel que vous l avez renseigné dans les propriétés du tfilelist. Appuyez sur Ctrl+Espace pour accéder à la liste d autocomplétion des variables. Renseignez les autres champs comme pour un fichier délimité tfileinputdelimited standard. Voir également : Propriétés du tfileinputdelimited, page 66 Sélectionnez le composant de sortie tlogrow et renseignez le séparateur de champs qui s affichera dans la console de l onglet Run Job. 82 Talend Open Studio Copyright 2008

87 Composants File tfilelist L itération s effectue sur le répertoire défini. Chacun des fichiers contenus dans ce répertoire est lu. Puis les données délimitées sont transmises au composant de sortie qui les affiche dans la console Log de la vue Run Job. Copyright 2008 Talend Open Studio 83

88 Composants File tfileoutputxml tfileoutputxml Propriétés de tfileoutputxml Famille de composant File/Output Fonction tfileoutputxml produit en sortie des données sous forme de fichier de type XML. Objectif tfileoutputxml écrit dans un fichier XML des données séparées selon un schéma spécifié. Basic settings File name Nom ou chemin d accès du fichier de sortie. Voir également : Définir les variables à partir de la vue Component, page 137 Root tag Row tag Column name as tag name Split output in files Schema type et Edit Schema Sync columns Encoding Enveloppe les données et la structure entière du fichier de sortie. Enveloppe les données et la structure de chaque ligne. Cochez cette case pour récupérer les libellés de colonnes du schéma d entrée et les utiliser comme balise XML. Si le fichier XML en sortie et volumineux, vous pouvez scinder ce fichier en plusieurs parties. Un schéma est une description de lignes, i.e., il définit le nombre de champ qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Cliquez sur ce bouton pour synchroniser le schéma de sortie avec le schéma d entrée. La fonction Sync ne s affiche que si une connexion de type Row est liée au composant de sortie. Sélectionnez l encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. 84 Talend Open Studio Copyright 2008

89 Composants File tfileoutputxml Utilisation Limitation Utilisez ce composant pour écrire dans un fichier XML des données récupérées d autres composants à l aide d une connexion de type Row. n/a Scénario : Utiliser un format de sortie XML Un scénario utilisant le composant tfileoutputxml est décrit dans le Scénario : Transformer un fichier positionnel en XML, page 70. Copyright 2008 Talend Open Studio 85

90 Composants File tpivotoutputdelimited tpivotoutputdelimited Propriétés du tpivotoutputdelimited Famille de composant File/Output Fonction tpivotoutputdelimited extrait les données en fonction d une opération d agrégation exercée sur une colonne pivot. Objectif tpivotoutputdelimited permet d ajuster la sélection de données à transmettre en sortie. Basic settings Pivot column Sélectionnez la colonne qui sert de pivot pour l opération d agrégation dans le flux d entrée. Utilisation Limitation Aggregation column Aggregation function Group by File Name Field separator Row separator Ce composant nécessiteun flux d entrée. n/a Sélectionnez la colonne contenant les données à agréger dans le flux d entrée. Sélectionnez la fonction à utiliser dans le cas où plusieurs valeurs sont disponibles dans la colonne pivot. Définissez les ensembles d agrégation dont les valeurs qui sont utilisées pour les calculs. Input Column : Faites le lien entre les libellés des colonnes d entrée et ceux des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d entrée. Nom ou chemin d accès du fichier de sortie. Voir également : Définir les variables à partir de la vue Component, page 137 Caractère, chaîne ou expression régulière pour séparer les champs du fichier de sortie. Chaîne (ex : \n sous Unix) séparant les lignes. Scénario : Utiliser une colonnes pivot pour agréger des données Le scénario suivant décrit un job qui agrège des données d un fichier d entrée délimité à l aide d une colonne pivot. 86 Talend Open Studio Copyright 2008

91 Composants File tpivotoutputdelimited Cliquez sur les composants suivant et déposez-les dans l espace de modélisation : tfileinputdelimited, tpivotoutputdelimited. Le fichier à utiliser en entrée est composé de 3 colonnes : ID, Question et les réponses correspondantes : Answer Dans l espace de modélisation, sélectionnez le composant tfileinputdelimited. Définissez ses propriétés dans l onglet Basic settings de la vue Component. Sélectionnez le fichier d entrée pour renseigner le champ File Name. Définissez les séparateurs de lignes (Row) et de champs (Field), respectivement : retour chariot et point virgule, dans cet exemple. Le fichier contient un en-tête, ainsi définissez-le. Copyright 2008 Talend Open Studio 87

92 Composants File tpivotoutputdelimited Paramétrez le schéma avec les trois colonnes : ID, Questions, Answers. Puis sélectionnez le composant tpivotoutputdelimited et paramétrez ses propriétés dans l onglet Basic Settings de la vue Component. Dans le champ Pivot column, sélectionnez la colonne pivot dans le schéma d entrée. La colonne pivot est généralement celle présentant le plus de doublons (valeurs d agrégation pivot). Dans le champ Aggregation column, sélectionnez la colonne à agréger dans le schéma d entrée. Dans le champ Aggregation function, sélectionnez la fonction à effectuer lorsque des doublons sont trouvés. Dans la table Group by, ajoutez une entrée dans la colonne Input column, qui sera utilisée pour regrouper la colonne agrégée. Dans le champ File Name, indiquez le chemin d accès et le nom du fichier de sortie. Et dans les champs Row et Field separator, paramétrez les séparateurs pour les lignes et données de sortie ayant été agrégées. Puis, appuyez sur F6 pour exécuter le job. Le fichier de sortie affiche les données qui viennent d être agrégées. 88 Talend Open Studio Copyright 2008

93 Composants Processing Composants Processing Ce chapitre passe en revue les propriétés des principaux composants présents dans la famille Processing de la Palette de Talend Open Studio. La famille Processing regroupe les composants vpous permettant d effectuer différents types de traitement de flux de données, notamment l agrégation, le mapping, la transformation, la dénormalisation, le filtrage, etc. Présentation des Composants Chaque composant possède sa propre liste de propriétés et de paramètres, éditables dans les onglets Basic et Advanced settings dans la vue Component. WARNING Les propriétés des Composants ont été séparés en deux onglets Basic et Advanced settings. Certaines des informations suivantes ayant été rédigées au préalable, un écart entre l interface utilisateur de Talend Open Studio et la description ci-dessous peut subsister. Dans la section de propriétés des composants, une icône ou indique si le composant est disponible en Java et/ou en Perl. Copyright 2008 Talend Open Studio 89

94 Composants Processing taggregaterow taggregaterow Propriétés du taggregaterow Famille de composant Processing Fonction Objectif Basic settings taggregaterow reçoit un flux de données et fait une agrégation basée sur une ou plusieurs colonnes. Pour chacune des lignes en sortie, une clé d agrégation est fournie, ainsi que le résultat de l opération d agrégation correspondant (min, max, sum, etc.). Permet d établir des métriques et des statistiques basées sur des valeurs ou des calculs. Schema type et Edit Schema Group by Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Cliquez sur Edit Schema pour modifier le schéma. Notez que lorsque vous modifiez le schéma, il se met automatiquement en built-in. Built-in : Le schéma est créé et onservé pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Définit les ensembles d agrégation, dont les valeurs sont utilisées pour les calculs. Output Column : Sélectionnez le libellé de colonne dans la liste fournie, basée sur la structure de schéma que vous avez définie. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez afin d affiner les aggrégations. Ex : Sélectionnez Country (Pays) pour calculer la moyenne des valeurs pour chaque pays ou sélectionnez Country et Region pour comparer les résultats des régions d un pays par rapport aux régions d un autre pays. Input Column : Faites la correspondance entre les libellés des colonnes d entrée avec ceux des colonnes de sortie, dans le cas où vous souhaitez que les libellés du schéma de sortie soient différents du schéma d entrée. 90 Talend Open Studio Copyright 2008

95 Composants Processing taggregaterow Utilisation Limitation Operations Sélectionnez le type d opération à effectuer ainsi que la valeur à utiliser pour le calcul et le champ de sortie. Output Column : Sélectionnez le champs de destination dans la liste. Fonction : Sélectionnez l opérateur parmi : count, min, max, avg, first, last. Input column : Sélectionnez la colonne d entrée à partir de laquelle les valeurs sont collectées pour l agrégation. Ce composant est un composant intermédiaire car il traite un flux de données, par conséquant il requiert des composants en entrée comme en sortie. Généralement, l utilisation du composant taggregaterow est combinée au composant tsortrow. n/a Scénario : Agréger des valeurs et trier des données Le scénario suivant décrit un job à quatre composants. Le composant d entrée, un fichier délimité csv, contient des noms de pays et des valeurs de notation à trier par ordre décroissant de moyenne. Ce composant d entrée est connecté à un opérateur taggregaterow qui se charge de calculer les moyennes puis à un composant tsortrow qui se charge du tri. Le flux de sortie est dirigé dans un nouveau fichier CSV. A partir du dossier File de la Palette, cliquez et déposez un composant tfileinputcsv. Cliquez sur le libellé du composant et renommez-le en Countries. Ou passez dans l onglet View pour le changer. Copyright 2008 Talend Open Studio 91

96 Composants Processing taggregaterow Dans l onglet Basic settings, définissez le chemin d accès ainsi que les critères de délimitation. Ou sélectionnez l entrée de métadonnées correspondant à votre fichier d entrée, si vous en avez défini une. Cliquez sur Edit schema... et paramétrez les colonnes : Countries et Points correspondant à la structure du fichier. Si la description du fichier est conservée dans les Metadata du Repository, le schéma est automatiquement chargé lorsque vous cliquez sur Repository dans le champ Schema type. Puis dans le dossier Processing de la Palette, cliquez et déposez le composant taggregaterow. Renommez-le en Calculation. Cliquez-droit et connectez Countries à Calculation à l aide d une connexion Row > Main. Double-cliquez sur Calculation (composant taggregaterow) pour définir les propriétés. Cliquez sur Edit schema et définissez le schéma de sortie. Vous pouvez ajouter autant de colonnes que vous le voulez selon le nombre d opérations d ensemble que vous souhaitez obtenir en sortie. Dans cet exemple, nous calculerons la moyenne de la notation par pays et nous afficherons les valeurs min et max par pays, sachant que chaque pays possède plusieurs notes. Cliquez sur OK lorsque le schéma est terminé. Définissez à présent les différentes opérations d ensemble à effectuer. Dans le champ Group By de la fenêtre Basic settings du composant taggregaterow, définissez les ensembles sur lesquels les opérations sont effectuées. Dans cet exemple, sélectionnez Country comme colonne de regroupement. Notez que dans la colonne de sortie, un champ clé doit être défini dans le schéma. La première colonne citée comme de sortie (Output) dans la table Group By devient l ensemble principal de calcul. Toutes les autres sorties deviennent alors secondaires dans l ordre d affichage. Sélectionnez la colonne d entrée (Input) dont sont extraites les valeurs. Puis renseignez les diverses opérations réalisées. Les fonctions utilisées dans cet exemple sont des moyennes (average), min, max. Sélectionnez la colonne d entrée dont sont extraites les valeurs de calcul. 92 Talend Open Studio Copyright 2008

97 Composants Processing taggregaterow Cliquez-déposez un composant tsortrow dans l espace de modélisation. Pour plus d informations concernant ce composant, consultez Propriétés du tsortrow page 117. Connectez-le au composant taggregaterow à l aide d une connexion de type Row > Main. Dans la vue Component du composant tsortrow, définissez la colonne de tri, le type ainsi que l ordre de tri. Dans ce scénario, la colonne à trier est Country, le type de tri est alphabétique et l ordre est ascendant. Copyright 2008 Talend Open Studio 93

98 Composants Processing taggregaterow Ajoutez un composant de sortie à ce job. Cliquez et déposez un composant tfileoutputdelimited et paramétrez-le. Connectez le composant tsortrow à ce composant de sortie. Dans la vue Component, saisissez le chemin d accès au fichier de sortie. Cliquez sur Edit schema pour le configurer si nécessaire. Dans ce scénario, le fichier délimité est de type CSV. Cochez la case Include Header afin de réutiliser les libellés des colonnes du schéma dans le flux de sortie. Appuyez sur F6 pour exécuter le job. Le fichier CSV est ainsi créé et il contient les résultats des opérations d agrégation. 94 Talend Open Studio Copyright 2008

99 Composants Processing tmap tmap Propriétés du tmap Famille de composant Processing Fonction Le tmap est un composant avancé qui s intègre à Talend Open Studio comme un plugin. Objectif Le tmap transforme et dirige les données à partir d une ou plusieurs sources et vers une ou plusieurs destinations. Basic settings Preview L aperçu est un instantané des données du Mapper. Il n est visible que lorsque les propriétés du Mapper sont renseignées. La synchronisatin de l aperçu ne prend effet qu après la sauvegarde des modifications. Utilisation Limitation Mapping links display as Map editor Auto : par défaut, les liens sont en forme de courbes. Curves : les liens du mapping sont en forme de courbes. Lines : les liens du mapping sont en forme de lignes droites. Cette dernière option améliore légèrement les performances. Le Mapper est l éditeur du tmap. Il vous permet de définir les propriétés d aiguillage et de transformation des données. Plusieurs utilisations sont possibles, de la simple réorganisation des champs de données aux transformations les plus complexes, telles que le multiplexage et le démultiplexage de données, la concaténation, l inversion, le filtrage, etc. L utilisation du composant tmap requiert un niveau moyen de connaissances Perl ou Java afin d exploiter au mieux ses fonctionnalités. Ce composant est utilisé comme une étape intermédiaire, c est pourquoi il ne peut pas être utilisé comme composant de début ou de fin de job. Note: Pour plus d informations, consultez Mapping de flux de données page 104. Scénario 1 : Mapping simple avec filtre et jointure explicite (Perl) Le job décrit ci-dessous a pour objectif de lire des données d un fichier CSV stocké dans le Repository, de rechercher des données d un fichier de référence distant puis d extraire des données de ces deux fichiers en fonction de filtres et d envoyer ces données vers le fichier de sortie et de rejet. Copyright 2008 Talend Open Studio 95

100 Composants Processing tmap Ce job a été réalisé en Perl mais peut aussi être réalisé en Java. Cliquez sur File dans la Palette de composants, sélectionnez tfileinputcsv et déposez-le dans l espace de modélisation. Changez le libellé en Cars (véhicules), soit en double-cliquant sur le libellé directement dans le workspace, soit via l onglet View de la vue Component. Répétez cette opération et renommez le second composant d entrée en Owners (propriétaires). Cliquez sur Processing dans la Palette de composants, sélectionnez le tmap et déposez-le dans l espace de modélisation. Réliez les deux composants d entrée, Owners et Cars au composant tmap et renommez les libellés des connexions respectives. Les Métadonnées des fichiers délimités Cars et Owners sont définies dans le gestionnaire Metadata du Repository. Ainsi vous pouvez leur assigner les propriétés stockées dans le Repository dans la vue Component. Double-cliquez sur Cars pour paramétrer les propriétés. Sélectionnez Repository dans les champs Property type et Schema type. Le reste des champs est automatiquement renseigné lorsque vous sélectionnez la métadonnée appropriée dans la liste. 96 Talend Open Studio Copyright 2008

101 Composants Processing tmap Double-cliquez sur le composant Owners et définissez à nouveau les propriétés. Sélectionnez la métadonnée appropriée si elle existe. Sinon définissez manuellement chacune des propriétés. Pour plus d informations concernant la création de métadonnées dans le Repository, consultez Définition des schémas de métadonnées page 68. Puis double-cliquez sur le composant tmap pour ouvrir le Mapper. La zone Input (données en entrée) est déjà renseignée avec les schémas des composants d entrée et la première table correspond au flux principal (Main Row). Les libellés de chacune des connexions d entrée apparaissent en en-tête des tables. Créez une jointure entre les deux tables d entrée en faisant simplement glisser le champ ID_Owner de la table principale vers le champ équivalent de la table de référence. Définissez le lien en Inner Join en cochant la case correspondante. Cliquez sur le signe (+) dans la zone Output (sortie) du Mapper et ajoutez trois tables de sortie : Insured, Reject_NoInsur, Reject_Inner. Copyright 2008 Talend Open Studio 97

102 Composants Processing tmap Glissez et déposez le contenu de la table principale d entrée vers la première table de sortie. Pour plus d informations concernant le mapping de données, consultez Mapping de flux de données page 104. Cliquez sur la flèche dotée d un (+) pour ajouter une ligne de filtre. La table Insured rassemble les données des tables Cars et Owners qui possèdent un ID Insurance. 98 Talend Open Studio Copyright 2008

103 Composants Processing tmap Par conséquent, glissez-déposez le champ ID_Insurance vers la zone de filtre qui vient d être créée et saisissez la formule d exclusion des valeurs non définies suivante : $Owners_data[ID_Insurance] ne '' La table Reject_NoInsur est un flux de rejet standard regroupant les données qui ne satisfont pas la condition de filtre définie. Cliquez sur la flèche orange pour définir cette table comme table de rejet standard. La troisième et dernière table est une table de rejets spécifiques pour les jointures Inner Join qui ne peuvent être établis. Il s agit par exemple du cas où un champ Owners_ID de la table Cars ne correspond à aucune entrée du fichier Owners. Copyright 2008 Talend Open Studio 99

104 Composants Processing tmap Cliquez sur la flèche de couleur violette pour définir la dernière table comme table de rejet Inner Join. Cliquez sur OK pour valider et revenir à l espace de modélisation. Ajoutez trois composants tfileoutputdelimited au job et reliez-les au job à partir du composant tmap à l aide d un lien Row > Main. Réutilisez les trois libellés définis précédemment dans le mapper pour renommer vos connexions. Puis double-cliquez sur chacun des composants de sortie afin de définir leur chemin d accès respectif. Si vous souhaitez créer un nouveau fichier, parcourez votre système de fichier jusqu au dossier de destination et saisissez le nom du ficher avec son extension. Cochez la case Include header pour réutiliser les libellés des colonnes du schéma d entrée dans votre fichier de sortie. Appuyez sur F6 pour exécuter le job ou passez à l onglet Run Job et cliquez sur Run. 100 Talend Open Studio Copyright 2008

105 Composants Processing tmap Les fichiers de sortie sont créés. Scénario 2 : Mapping avec rejet Inner join (Perl) Ce scénario, basé sur le scénario 1, requiert l ajout d un fichier d entrée, Resellers, contenant les informations sur les revendeurs, ainsi que l ajout de champs supplémentaires dans le fichier de sortie principal. De plus, deux filtres sont ajoutés sur les jointures Inner Join afin de récupérer les rejets spécifiques. Cliquez sur File dans la Palette des Composants et déposez un composant tfileinputcsv sur le workspace. Connectez ce nouveau composant au mapper et ajoutez un libellé au composant et à cette connexion : ici, Resellers. Double-cliquez sur le composant Resellers pour définir les propriétés d entrée. Copyright 2008 Talend Open Studio 101

106 Composants Processing tmap Parcourez votre système de fichier jusqu au Resellers.csv. Editez le schéma et ajoutez les colonnes pour refléter la structure du fichier d entrée. Vous pouvez également créer une métadonnée contenant la description de ce fichier et avoir la possibilité de réutiliser ses propriétés et son schéma en sélectionnant Repository dans les champs adéquats. Pour plus d informations, consultez Configurer un schéma File Delimited page 73. Double-cliquez sur le composant tmap et vous remarquerez que le schéma est automatiquement ajouté à la zone Input des schémas d entrée. Créez une jointure entre le flux d entrée principal (Row Main) et l entrée de référence (Lookup), Resellers. Cochez la case Inner Join pour définir le type de jointure créé. 102 Talend Open Studio Copyright 2008

107 Composants Processing tmap Glissez-déposez les champs de la table Resellers vers la table de sortie principale. Note: Lorsque deux Inner Joins sont définis, vous devez soit définir deux tables de rejet inner join pour différencier les deux rejets, soit rassembler les deux rejets inner join dans une seule et même table de sortie, s il n y a qu une seule sortie. Dans la zone de sortie Output, cliquez sur le signe (+) pour ajouter une nouvelle table de sortie. Donnez un nom à cette nouvelle connexion, Reject_ResellerID Cliquez sur le bouton Inner Join Reject (flèche violette) pour définir cette nouvelle sortie comme étant une table de rejet Inner Join. Glissez-déposez deux champs de la table d entrée principale (Cars) dans cette nouvelle table. Par conséquent, dans cet exemple, si la jointure Inner Join ne peut être établie pour une entrée, les données (ID_Cars & ID_resellers) seront rejetées dans le fichier de sortie approprié et permettront d identifier rapidement le goulot d étranglement. Copyright 2008 Talend Open Studio 103

108 Composants Processing tmap Appliquez maintenant un filtre sur chacune des sorties de rejet Inner Join afin de distinguer les deux types de rejets. Dans la première table de rejet (Reject_OwnerID), cliquez sur la flèche dotée d un signe (+) pour ajouter une ligne de filtre et renseignez ce champ avec la formule suivante pour ne recueillir que les rejets liés au champ OwnerID non défini : not defined $Owners_data[ID_Owner] Dans la seconde table de rejet Inner Join (Reject_ResellerID), renouvelez l opération et utilisez la formule suivante : not defined $Resellers_data[ID_Reseller] Cliquez sur OK pour valider et fermer le Mapper. Cliquez-droit sur le composant tmap, cliquez sur Row et sélectionnez Reject_ResellerID dans la liste. Connectez le flux principal du Mapper au composant de sortie Reseller. 104 Talend Open Studio Copyright 2008

109 Composants Processing tmap Dans ce scénario, retirez du fichier Resellers.csv les lignes correspondant aux Reseller ID 5 et 8. Puis exécuter le job via la touche F6 du clavier, ou à partir de l onglet Run Job. Copyright 2008 Talend Open Studio 105

110 Composants Processing tmap Les quatre fichiers de sortie sont tous créés dans le dossier défini dans les propriétés de la vue Component. Remarquez que dans le fichier de rejet lié à l Inner Join, NoResellerID.csv, le champ ID_Owners correspond aux entrées du fichier Cars dont le Reseller ID est égal à 5 et 8 tel que défini précédemment. 106 Talend Open Studio Copyright 2008

111 Composants Processing tmap Scénario 3 : Mapping de jointure en cascade Un troisième scénario plus avancé et basé sur le scénario 2 requiert l ajout d une nouvelle entrée contenant les informations d assurance, par exemple. Dans le Mapper, mettez en place une jointure Inner Join entre deux tables de référence (Lookup) des flux secondaires Owners et Insurance afin de gérer les références en cascade et par conséquent de récupérer les informations de la table Insurance via les données de la table Owners. Scénario 4 : Mapping avancé avec filtres, jointures explicites et rejet Inner join Ce scénario présente un job (en Java) utilisant le tmap et permettant de trouver les clients potentiels d un Reseller (revendeur). Ces clients doivent être propriétaires d une marque définie et avoir entre 2 et 6 enfants (inclus) dans un but de vente incitative. Cliquez-déposez les composants suivants de la Palette : tfileinputdelimited (x3), tmap, tfileoutputdelimited (x2) Connectez les composants d entrée au tmap à l aide de connexions de type Main row. Faites attention au premier composant que vous connectez car son flux de données sera automatiquement un flux Main (principal). Et toutes les autres connexions seront alors de type Lookup (flux de référence). Définissez les propriétés de chaque composant d entrée dans l onglet Basic settings. Par exemple, sélectionnez le chemin d accès au fichier Resellers utilisé comme flux principal dans votre job. Copyright 2008 Talend Open Studio 107

112 Composants Processing tmap Sélectionnez le fichier délimité à utiliser, les séparateurs de lignes et de champs (Row et Field Separator), les lignes d en-tête (Header) et de bas de page (Footer), si nécessaire. Cliquez sur Edit the Schema, si le schéma n est pas stocké dans le Repository. Vous retrouverez ce schéma dans la table principale en haut de la zone d entrée Input du Mapper. Répétez ces étapes pour les autres composants d entrée : Cars et Owners. Ces deux flux de référence (Lookup) renseigneront les tables secondaires (lookup) de la zone d entrée du Mapper. Cliquez sur le composant tmap pour ouvrir le Mapper et définir le mapping et les filtres. Tout d abord, configurez les jointures explicites entre le flux Main et le flux Lookup. D un simple glisser-déposer, déplacez la colonne ID_Resellers vers les colonnes correspondantes puis renseignez le champ Expression key dans la table Lookup. 108 Talend Open Studio Copyright 2008

113 Composants Processing tmap La jointure explicite apparaît en couleur tout comme la clé de hachage. Puis dans le champ Expr. Key de la colonne Make (Marque), saisissez (en Java) le filtre à appliquer. Dans ce cas d utilisation, saisissez simplement BMW puisque ce qui est recherché ce sont les propriétaires (Owners) de cette marque en particulier. Effectuez une jointure en cascade entre les deux tables de référence Cars et Owners, afin de retrouver les informations sur les propriétaires et plus précisemment le nombre d enfant qu ils ont. D un simple glisser-déposer, déplacez la colonne ID_Owners de la table Cars vers le champ Expr. Key de la colonne id_owner de la table Owners. Copyright 2008 Talend Open Studio 109

114 Composants Processing tmap Cliquez sur le bouton Filter près de la case Inner Join pour afficher la zone de saisie du Filtre. Saisissez la déclaration de Filtre pour réduire le nombre de lignes prises en compte dans le flux Lookup. Dans cet exemple, la déclaration est la suivante : Owners.Children_Nr > 1 && Owners.Children_Nr < 6 Et comme vous souhaitez exclure les valeurs nulles du flux de sortie principal et les traiter dans une table différente, cochez la case Inner Join pour chaque table Lookup à filtrer. Dans l Inner join, vous pouvez ensuite sélectionner une des options suivantes : Unique match, First match, Last match ou All Matches. Dans cet exemple, sélectionnez l option All matches. Ainsi, si plusieurs correspondances sont trouvées dans l Inner Join (i.e. les lignes répondant à la jointure explicite ainsi qu au filtre), elles seront toutes prises en compte dans le flux de sortie (soit dans le flux de rejet, soit dans le flux de sortie standard). Puis dans la zone Output du Mapper, ajoutez deux tables : une pour les correspondances répondant à la jointure explicite et au filtre et une pour les rejets. Cliquez sur le bouton (+) pour ajouter des tables et donnez un nom aux flux de sortie. 110 Talend Open Studio Copyright 2008

115 Composants Processing tmap Glissez-déposez les données des tables Main et Lookup de la zone Input vers les tables de sortie respectives, suivant le type d informations que vous souhaitez obtenir. Dans la table de rejet utilisée pour diriger les données ne répondant pas ni à la jointure externe ni au filtre, cliquez sur le bouton Inner Join Reject (flèche violette) pour l activer. Dans le Designer, cliquez droit sur le tmap et créez une connexion de sortie vers le composant correspondant. Définissez les paramètres des composants de sortie dans l onglet Basic settings. Définissez le chemin d accès, les séparateurs de lignes (Row) et de champs (Field), si nécessaire. Et pour cet exemple, cochez la case Include Header. Copyright 2008 Talend Open Studio 111

116 Composants Processing tmap Le Schéma devrait se propager automatiquement à l aide du Mapper. Enregistrez votre job, puis cliquez sur l onglet Run Job et cochez la case Statistics pour suivre l exécution du job. Les statistiques montre que plusieurs correspondances ont été trouvées et ainsi la somme des lignes de sortie (Main + Rejet) est supérieure au nombre de lignes du flux d entrée principal. Scénario 5 : Mapping avancé avec filtres et vérification des lignes Ce scénario est une version modifiée du scénario précédent. Il décrit un job qui applique des filtres et vérifie chaque ligne d une entrée de référence. 112 Talend Open Studio Copyright 2008

117 Composants Processing tmap Reprenez le job du Scénario 4 : Mapping avancé avec filtres, jointures explicites et rejet Inner join, page 107. Aucune modifications n a été apportée aux fichiers Input delimited. Lancez le Mapper pour modifier le mapping et les filtres. Supprimez toutes les jointures explicites entre la table principale et la table de référence, Cars. Copyright 2008 Talend Open Studio 113

118 Composants Processing tmap Notez que l option All Matches se change automatiquement en All Rows. En fait, comme aucune jointure explicite n est déclarée (il n y a pas de clés de hachage), toutes les lignes du flux de référence doivent être prises en compte et vérifiées en fonction des lignes du flux principal. Supprimez le filtre ( BMW ) du champ Expr. key de la table Cars. Et cliquez sur le bouton Filter pour afficher la zone de saisie du filtre. Puis saisissez le nouveau filtre pour réduire la recherche aux marques BMW ou Mercedes. La déclaration du filtre est la suivante : Cars.Make.equals("BMW") Cars.Make.equals("Mercedes") Le filtre appliqué sur la table de référence Owners ne change pas par rapport au scénario précédent. Définissez les nouveaux chemins d accès pour les flux de sortie respectifs. Enregistrez le job et activez les Statistiques dans l onglet Run Job avant d exécuter le job. 114 Talend Open Studio Copyright 2008

119 Composants Processing tmap Les Statistiques montre qu un produit cartésien a été effectué entre les lignes du flux principal avec les lignes filtrées du flux de référence. Le contenu du flux de sortie principal montre que les lignes filtrées sont bien passées. Copyright 2008 Talend Open Studio 115

121 Composants Processing tsortrow tsortrow Propriétés du tsortrow Famille de composant Processing Fonction Objectif Basic settings Utilisation Limitation Ce composant trie les données d entrée basées sur une ou plusieurs colonnes, selon un type de tri et un ordre. Il permet d établir des métriques et des tables de classification. Schema type et Edit Schema Criteria Un schéma est une description de lignes, i.e., il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository. Cliquez sur Edit Schema pour modifier le schéma. Notez que si vous modifiez le schéma dans cette vue, il devient automatiquement built-in. Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le job. Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également : Paramétrage d un schéma built-in, page 60 Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et job designs. Voir également : Paramétrage d un schéma du repository, page 61 Cliquez sur (+) pour ajouter autant de lignes que nécessaire pour mettre en place le tri. La première colonne définie dans le schéma est sélectionnée par défaut. Schema column : Sélectionnez la colonne de votre schéma sur laquelle vous souhaitez baser votre tri. Notez que l ordre est important car il détermine la priorité de tri. Sort type : Numérique ou Alphabeétique. D autres types de tri sont à venir. Order : Ordre ascendant ou descendant. Ce composant manipule le flux de données et par conséquent requiert un composant en entrée et un composant en sortie. Il s agit donc d un composant intermédiaire. n/a Copyright 2008 Talend Open Studio 117

122 Composants Processing tsortrow Scénario : Trier des données Le scénario suivant décrit un job constitué de trois composants. Un composant trowgenerator est utilisé pour créer des entrées de façon aléatoire. Ces entrées seront ensuite envoyées au composant tsortrow afin d être triées selon une valeur définie. Dans ce scénario, Le flux d entrée contient des noms de vendeurs ainsi que leur volume de vente respectif et leur nombre d années d ancienneté dans l entreprise. Le résultat de l opération de tri est affiché dans la console Run job. Cliquez et déposez les trois composants requis pour ce scénario : trowgenerator, tsortrow et tlogrow. Connectez-les à l aide de connexions de type Row Main. Dans le RowGenerator editor, définissez les valeurs qui seront créées de manière aléatoire et qui seront ensuite triées par le tsortrow. Pour plus d informations concernant l utilisation du trowgenerator. Dans ce scénario, chaque vendeur est classé en fonction de la valeur de ses ventes (Sales) et de son ancienneté dans l entreprise (YearsInComp). Double-cliquez sur tsortrow pour afficher l onglet Basic settings. Définissez la priorité de tri sur la valeur des ventes et, en second critère, sur l ancienneté. 118 Talend Open Studio Copyright 2008

123 Composants Processing tsortrow Utilisez le bouton (+) pour ajouter le nombre de lignes de critères requis. Paramétrez le type de tri, dans cet exemple, les deux critères sont de type numérique. Enfin, étant donné que la sortie est une classification, définissez l ordre de tri comme descendant. Assurez-vous que ce flux est connecté au composant de sortie tlogrow, afin d afficher le résultat dans la console Run Job. Appuyez sur F6 pour exécuter le Job ou passez à la vue Run Job et cliquez sur Run. Le classement est d abord basé sur la valeur des ventes puis sur le nombre d années d ancienneté. Copyright 2008 Talend Open Studio 119

125 B Business Intelligence tmysqlscd... 4 C Component, Composant... 3, 13, 21, 63, 65, 89 D Data Quality tfuzzymatch Database tldapinput tldapoutput tmysqlbulkexec tmysqlcommit tmysqlconnection tmysqlinput tmysqloutput tmysqloutputbulk tmysqloutputbulkexec tmysqlrollback tmysqlrow...54 tmysqlsp...58 Database Utilities tparserecordset...64 F File tfileinputdelimited...66 tfileinputpositional...69 tfileinputregex...74 tfileinputxml...78 tfilelist...81 tfileoutputxml...84 tpivotoutputdelimited...86 P Processing taggregaterow...90 tmap...95 tsortrow Copyright 2008 Talend Open Studio i

Montrer encore