Beruflich Dokumente
Kultur Dokumente
0 HotFix 3)
Benutzerhandbuch
Informatica Data Explorer Benutzerhandbuch Fassung 9.1.0 HotFix 3 Dezember 2011 Copyright (c) 1998-2011 Informatica. Alle Rechte vorbehalten. Diese Software und die zugehrige Dokumentation enthalten proprietre Informationen der Informatica Corporation, werden unter einem Lizenzvertrag mit Einschrnkungen hinsichtlich Verwendung und Verffentlichung zur Verfgung gestellt und sind urheberrechtlich geschtzt. Das Zurckentwickeln der Software ist untersagt. Ohne ausdrckliche schriftliche Genehmigung der Informatica Corporation darf kein Teil dieses Dokuments zu irgendeinem Zweck vervielfltigt oder bertragen werden, unabhngig davon, auf welche Art und Weise oder mit welchen Mitteln (elektronisch, mechanisch, durch Fotokopieren, Aufzeichnen usw.) dies geschieht. Diese Software ist mglicherweise durch US-amerikanische und/oder internationale Patente und weitere angemeldete Patente geschtzt. Die Verwendung, Vervielfltigung oder Verffentlichung der Software durch die US-Regierung unterliegt den Bestimmungen des jeweiligen Softwarelizenzvertrags sowie ggf. den Bestimmungen in DFARS 227.7202-1(a) und 227.7702-3(a) (1995), DFARS 252.227-7013 (1)(ii) (OKT. 1988), FAR 12.212(a) (1995), FAR 52.227-19 oder FAR 52.227-14 (ALT III). Die in diesem Produkt und in dieser Dokumentation enthaltenen Informationen knnen jederzeit ohne vorherige Ankndigung gendert werden. Sollten Sie mit diesem Produkt oder dieser Dokumentation Probleme haben, teilen Sie uns dies bitte schriftlich mit. Informatica, Informatica Platform, Informatica Data Services, PowerCenter, PowerCenterRT, PowerCenter Connect, PowerCenter Data Analyzer, PowerExchange, PowerMart, Metadata Manager, Informatica Data Quality, Informatica Data Explorer, Informatica B2B Data Transformation, Informatica B2B Data Exchange Informatica On Demand, Informatica Identity Resolution, Informatica Application Information Lifecycle Management, Informatica Complex Event Processing, Ultra Messaging und Informatica Master Data Management sind Marken oder eingetragene Marken der Informatica Corporation in den USA und anderen Lndern. Alle weiteren Firmen- und Produktnamen sind mglicherweise Handelsbezeichnungen oder Marken der jeweiligen Eigentmer. Teile dieser Software und/oder Dokumentation sind durch die Urheberrechte Dritter geschtzt, einschlielich und ohne Einschrnkung: Copyright DataDirect Technologies. Alle Rechte vorbehalten. Copyright Sun Microsystems. Alle Rechte vorbehalten. Copyright RSA Security Inc. Alle Rechte vorbehalten. Copyright Ordinal Technology Corp. Alle Rechte vorbehalten. Copyright Aandacht c.v. Alle Rechte vorbehalten. Copyright Genivia, Inc. Alle Rechte vorbehalten. Copyright Isomorphic Software. Alle Rechte vorbehalten. Copyright Meta Integration Technology, Inc. Alle Rechte vorbehalten. Copyright Intalio. Alle Rechte vorbehalten. Copyright Oracle. Alle Rechte vorbehalten. Copyright Adobe Systems Incorporated. Alle Rechte vorbehalten. Copyright DataArt, Inc. Alle Rechte vorbehalten. Copyright ComponentSource. Alle Rechte vorbehalten. Copyright Microsoft Corporation. Alle Rechte vorbehalten. Copyright Rouge Wave Software, Inc. Alle Rechte vorbehalten. Copyright Teradata Corporation. Alle Rechte vorbehalten. Copyright Yahoo! Inc. Alle Rechte vorbehalten. Copyright Glyph & Cog, LLC. Alle Rechte vorbehalten. Copyright Thinkmap, Inc. Alle Rechte vorbehalten.. Copyright Clearpace Software Limited. Alle Rechte vorbehalten. Copyright Information Builders, Inc. Alle Rechte vorbehalten. Copyright OSS Nokalva, Inc. Alle Rechte vorbehalten.. Copyright Edifecs, Inc. Alle Rechte vorbehalten.. Copyright Cleo Communications, Inc. Alle Rechte vorbehalten. Copyright International Organization for Standardization 1986. Alle Rechte vorbehalten. Copyright ej-technologies GmbH . Alle Rechte vorbehalten. Copyright Jaspersoft Corporation. Alle Rechte vorbehalten. Dieses Produkt enthlt Software, die von der Apache Software Foundation (http://www.apache.org/) entwickelt wurde, und andere Software, die unter den Bedingungen des Apache-Lizenzvertrags, Version 2.0, lizenziert ist (Lizenz). Eine Kopie des Lizenzvertrags erhalten Sie unter http://www.apache.org/licenses/LICENSE-2.0. Die unter dem Lizenzvertrag vertriebene Software wird WIE BESEHEN, OHNE JEGLICHE GEWHRLEISTUNG, weder ausdrcklich noch konkludent, vertrieben, es sei denn, dies wird durch anwendbares Recht angeordnet oder schriftlich vereinbart. Berechtigungen und Einschrnkungen fr bestimmte Sprachen finden Sie in der Lizenz. Dieses Produkt enthlt Software, die von Mozilla (http://www.mozilla.org/) entwickelt wurde, Software Copyright The JBoss Group, LLC. Alle Rechte vorbehalten; Software Copyright 1999-2006 by Bruno Lowagie und Paulo Soares, und andere Software, die gem dem GNU Lesser General Public License Agreement unter http://www.gnu.org/licenses/lgpl.html lizenziert ist. Die Materialien werden wie besehen kostenlos von Informatica bereitgestellt, ohne ausdrckliche oder stillschweigende Gewhrleistung, einschlielich, jedoch nicht beschrnkt auf die stillschweigenden Gewhrleistungen der Handelsblichkeit und der Eignung fr einen bestimmten Zweck. Das Produkt enthlt ACE(TM) und TAO(TM) Software, Copyright Douglas C. Schmidt und seine Forschungsgruppe an der Washington University, University of California, Irvine und Vanderbilt University, Copyright ( ) 1993-2006. Alle Rechte vorbehalten. Dieses Produkt enthlt Software, die von OpenSSL Project zur Verwendung im OpenSSL Toolkit entwickelt wurde (Copyright The OpenSSL Project. Alle Rechte vorbehalten). Die erneute Verteilung dieser Software unterliegt den Bedingungen, die unter http://www.openssl.org und http://www.openssl.org/source/license.html einsehbar sind. Dieses Produkt enthlt urheberrechtlich geschtzte Curl-Software (Copyright 1996-2007, Daniel Stenberg, <daniel@haxx.se>). Alle Rechte vorbehalten. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://curl.haxx.se/docs/copyright.html verfgbaren Bedingungen. Die Erlaubnis, diese Software fr jeden beliebigen Zweck gegen Gebhr oder kostenlos zu verwenden, zu kopieren, zu ndern und zu verteilen, wird hiermit erteilt, sofern die oben genannten urheberrechtlichen Hinweise und diese Erlaubnis in allen Exemplaren angegeben werden. Das Produkt enthlt Software, Copyright 2001-2005 ( ) MetaStuff, Ltd. Alle Rechte vorbehalten. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http:///www.dom4j.org/license.html einsehbaren Bedingungen. Das Produkt enthlt Software mit dem Copyright 2004-2007, The Dojo Foundation. Alle Rechte vorbehalten. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://dojotoolkit.org/license einsehbaren Bedingungen. Dieses Produkt enthlt urheberrechtlich geschtzte ICU-Software, Copyright International Business Machines Corporation und andere. Alle Rechte vorbehalten. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://source.icu-project.org/repos/icu/icu/trunk/license.html einsehbaren Bedingungen. Dieses Produkt enthlt Software, Copyright 1996-2006 Per Bothner. Alle Rechte vorbehalten. Das Ihnen erteilte Recht, diese Materialien zu verwenden, unterliegt den unter http://www.gnu.org/software/ kawa/Software-License.html einsehbaren Bedingungen. Dieses Produkt enthlt urheberrechtlich geschtzte OSSP UUID-Software (Copyright 2002 Ralf S. Engelschall, Copyright 2002 The OSSP Project Copyright 2002 Cable & Wireless Deutschland). Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://www.opensource.org/licenses/ mit-license.php einsehbaren Bedingungen. Dieses Produkt enthlt Software, die von Boost (http://www.boost.org/) oder unter der Softwarelizenz von Boost entwickelt wurde. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://www.boost.org/LICENSE_1_0.txt einsehbaren Bedingungen. Dieses Produkt enthlt Software, Copyright 1997-2007 University of Cambridge. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://www.pcre.org/license.txt einsehbaren Bedingungen. Dieses Produkt enthlt Software, Copyright 2007 The Eclipse Foundation. Alle Rechte vorbehalten. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://www.eclipse.org/org/documents/epl-v10.php einsehbaren Bedingungen. Dieses Produkt enthlt Software, deren Lizenzbedingungen unter http://www.tcl.tk/software/tcltk/license.html, http://www.bosrup.com/web/overlib/?License, http:// www.stlport.org/doc/ license.html, http://www.asm.ow2.org/license.html, http://www.cryptix.org/LICENSE.TXT, http://hsqldb.org/web/hsqlLicense.html, http:// httpunit.sourceforge.net/doc/ license.html, http://jung.sourceforge.net/license.txt, http://www.gzip.org/zlib/zlib_license.html, http://www.openldap.org/software/release/ license.html, http://www.libssh2.org, http://slf4j.org/license.html, http://www.sente.ch/software/OpenSourceLicense.html, http://fusesource.com/downloads/licenseagreements/fuse-message-broker-v-5-3- license-agreement; http://antlr.org/license.html; http://aopalliance.sourceforge.net/; http://www.bouncycastle.org/licence.html; http://www.jgraph.com/jgraphdownload.html; http://www.jcraft.com/jsch/LICENSE.txt; http://jotm.objectweb.org/bsd_license.html; http://www.w3.org/Consortium/Legal/ 2002/copyright-software-20021231; http://www.slf4j.org/license.html; http://developer.apple.com/library/mac/#samplecode/HelpHook/Listings/HelpHook_java.html; http:// www.jcraft.com/jsch/LICENSE.txt; http://nanoxml.sourceforge.net/orig/copyright.html; http://www.json.org/license.html; http://forge.ow2.org/projects/javaservice/, http:// www.postgresql.org/about/licence.html, http://www.sqlite.org/copyright.html, http://www.tcl.tk/software/tcltk/license.html, http://www.jaxen.org/faq.html, http:// www.jdom.org/docs/faq.html und http://www.slf4j.org/license.html einsehbar sind. Dieses Produkt enthlt Software, die unter der Academic Free License (http://www.opensource.org/licenses/afl-3.0.php), der Common Development and Distribution License (http://www.opensource.org/licenses/cddl1.php), der Common Public License (http://www.opensource.org/licenses/cpl1.0.php), den Sun Binary Code License
Agreement Supplemental License Terms, der BSD License (http:// www.opensource.org/licenses/bsd-license.php), der MIT License (http://www.opensource.org/licenses/ mit-license.php) und der Artistic License (http://www.opensource.org/licenses/artistic-license-1.0) lizensiert ist. Dieses Produkt enthlt Software, Copyright 2003-2006 Joe WaInes, 2006-2007 XStream Committers. Alle Rechte vorbehalten. Die mit dieser Software verbundenen Berechtigungen und Einschrnkungen unterliegen den unter http://xstream.codehaus.org/license.html verfgbaren Bedingungen. Dieses Produkt enthlt Software, die von der Indiana University Extreme! Lab. entwickelt wurde. Weitere Informationen finden Sie unter http://www.extreme.indiana.edu/. Diese Software ist durch die US-amerikanischen Patente Nummer 5.794.246, 6.014.670, 6.016.501, 6.029.178, 6.032.158, 6.035.307, 6.044.374, 6.092.086, 6.208.990, 6.339.775, 6.640.226, 6.789.096, 6.820.077, 6.823.373, 6.850.947, 6.895.471, 7.117.215, 7.162.643, 7.254.590, 7.281.001, 7.421.458, 7.496.588, 7.523.121, 7.584.422, 7.720.842, 7.721.270 sowie 7.774.791, internationale Patente und andere angemeldete Patente geschtzt. HAFTUNGSAUSSCHLUSS: Informatica Corporation stellt diese Dokumentation wie besehen bereit, ohne ausdrckliche oder stillschweigende Gewhrleistung, einschlielich, jedoch nicht beschrnkt auf die Gewhrleistungen der Nichtverletzung der Rechte von Dritten, der Handelsblichkeit oder Eignung fr einen bestimmten Zweck. Informatica Corporation gewhrleistet nicht die Fehlerfreiheit dieser Software oder Dokumentation. Die in dieser Software oder Dokumentation bereitgestellten Informationen knnen technische Ungenauigkeiten oder Druckfehler enthalten. Die in dieser Software und in dieser Dokumentation enthaltenen Informationen knnen jederzeit ohne vorherige Ankndigung gendert werden. HINWEISE Dieses Informatica-Produkt (die Software) umfasst bestimmte Treiber (die DataDirect-Treiber) von DataDirect Technologies, einem Betreiber von Progress Software Corporation (DataDirect), die folgenden Bedingungen und Bestimmungen unterliegen: 1. DIE DATADIRECT-TREIBER WERDEN WIE GESEHEN OHNE JEGLICHE GEWHRLEISTUNG, WEDER AUSDRCKLICH NOCH STILLSCHWEIGEND, BEREITGESTELLT, EINSCHLIESSLICH, JEDOCH NICHT BESCHRNKT AUF DIE STILLSCHWEIGENDEN GEWHRLEISTUNGEN DER HANDELSBLICHKEIT, EIGNUNG FR EINEN BESTIMMTEN ZWECK UND DER NICHTVERLETZUNG VON RECHTEN DRITTER. 2. IN KEINEM FALL SIND DATADIRECT ODER DRITTANBIETER DEM ENDBENUTZER GEGENBER HAFTBAR FR UNMITTELBARE, MITTELBARE, KONKRETE, NEBEN-, FOLGE- ODER ANDERE SCHDEN, DIE SICH AUS DER VERWENDUNG DER ODBC-TREIBER ERGEBEN, UNABHNGIG DAVON, OB SIE IM VORAUS BER DIE MGLICHKEIT SOLCHER SCHDEN INFORMIERT WORDEN SIND ODER NICHT. DIESE BESCHRNKUNGEN GELTEN FR ALLE KLAGEGEGENSTNDE, EINSCHLIESSLICH, JEDOCH NICHT BESCHRNKT AUF VERTRAGSBRUCH, GEWHRLEISTUNGSBRUCH, FAHRLSSIGKEIT, KAUSALHAFTUNG, FALSCHDARSTELLUNG UND ANDERE UNERLAUBTE HANDLUNGEN. Teilenummer: IN-PRG-91000-HF3-0001
Inhalt
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Informatica-Ressourcen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Informatica-Kundenportal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Informatica-Dokumentation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Informatica-Website. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Informatica-How-To-Bibliothek. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Informatica-Knowledge-Datenbank. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Informatica-Multimedia-Knowledge-Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Informatica Weltweiter Kundensupport. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Teil I: Einfhrung in Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Kapitel 1: Einfhrung in Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . 2
Einfhrung in Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Architektur des Informatica Data Explorers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Data Discovery-Prozess. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Kapitel 3: Spaltenprofilkonzepte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Spaltenprofilkonzepte - bersicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Spaltenprofiloptionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Regeln. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Scorecards. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Teil II: Data Discovery mit Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Kapitel 4: Spaltenprofile in Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Spaltenprofile in Informatica Analyst - bersicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Spalten-Profilingprozess. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Profil-Optionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Profilergebnisse-Option. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Stichprobenoptionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Drilldown-Optionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Erstellen eines Spaltenprofils mit dem Analyst-Tool. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Ausfhren eines Profils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Synchronisieren eines Einfachdatei-Datenobjekts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Synchronisieren eines nicht-relationalen Datenobjekts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Inhalt
Teil III: Data Discovery mit Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Kapitel 8: Informatica Developer-Profile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Informatica Developer-Profile - bersicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Informatica Developer-Profilansichten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
ii
Inhalt
Kapitel 9: Datenobjektprofile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Datenobjektprofile - bersicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Spaltenprofile in Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Filteroptionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Stichprobeneigenschaften. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Primrschlssel-Erkennung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Rckschlusseigenschaften von Primrschlsseln. . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Gefolgerte Primrschlsseleigenschaften. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Schlsselversto-Eigenschaften. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Funktionale Abhngigkeitserkennung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Funktionaler Abhngigkeitsrckschluss - Eigenschaften. . . . . . . . . . . . . . . . . . . . . . . 41 Gefolgerte funktionale Abhngigkeit - Eigenschaften. . . . . . . . . . . . . . . . . . . . . . . . . 41 Funktionale Abhngigkeitsverste - Eigenschaften. . . . . . . . . . . . . . . . . . . . . . . . . . 41 Erstellen eines einzelnen Datenobjektprofils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Erstellen mehrerer Datenobjektprofile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Synchronisieren eines Einfachdatei-Datenobjekts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Synchronisieren eines nicht-relationalen Datenobjekts. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Inhalt
iii
Ergebnisse der Fremdschlsselanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Join-Analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Erstellen eines Join-Profils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Ergebnisse der Join-Analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Exportieren von Join-Profilergebnissen in eine Datei. . . . . . . . . . . . . . . . . . . . . . . . . 56 berschneidungserkennung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Ergebnisse der berschneidungserkennung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Erkennen von sich berschneidenden Daten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
iv
Inhalt
Einleitung
Das Handbuch fr Informatica Data Explorer wurde fr Benutzer von Informatica Analyst und Informatica Developer geschrieben. Es enthlt Informationen ber das Arbeiten mit Profilen zum Analysieren des Inhalts und der Struktur von Daten. Profile dienen der Erkennung von Datenqualittsproblemen in Datenstzen und dem Verstndnis der Beziehungen zwischen Spalten in einem oder mehreren Datenstzen.
Informatica-Ressourcen
Informatica-Kundenportal
Als Informatica-Kunde knnen Sie auf die Website fr das Informatica-Kundenportal unter http://mysupport.informatica.com zugreifen. Die Site enthlt Produktinformationen, Benutzergruppeninformationen sowie Newsletters und bietet Zugriff auf das Informatica-Verwaltungssystem fr den Kundensupport (ATLAS), die Informatica-How-To-Bibliothek, die Informatica-Multimedia-KnowledgeDatenbank, die Informatica-Produktdokumentation und die Informatica User Community.
Informatica-Dokumentation
Das Informatica-Dokumentationsteam ist sehr um genaue, brauchbare Dokumentationen bemht. Wenn Sie Fragen, Kommentare oder Ideen zu dieser Dokumentation haben, wenden Sie sich bitte per E-Mail an das Informatica-Dokumentationsteam unter infa_documentation@informatica.com. Mithilfe Ihrer Rckmeldungen knnen wir unsere Dokumentationen verbessern. Bitte teilen Sie uns mit, ob wir Sie bezglich Ihrer Kommentare kontaktieren drfen. Das Dokumentationsteam aktualisiert die Dokumentation nach Bedarf. Um die neueste Dokumentation zu erhalten, navigieren Sie von http://mysupport.informatica.com zur Produktdokumentation.
Informatica-Website
Auf die Unternehmenswebsite von Informatica knnen Sie unter http://www.informatica.com zugreifen. Auf der Website finden Sie Informationen ber Informatica, seinen Hintergrund, bevorstehende Veranstaltungen und Niederlassungen. Darber hinaus finden Sie dort Produkt- und Partnerinformationen. Der Bereich Services enthlt wichtige Informationen zur technischen Untersttzung, zu Schulungen und zu den Implementierungsdienstleistungen.
Informatica-How-To-Bibliothek
Als Informatica-Kunde knnen Sie auf die Informatica-How-To-Bibliothek unter http://mysupport.informatica.com zugreifen. Die How-To-Bibliothek ist eine Ressourcensammlung, die Ihnen hilft, mehr ber Informatica-Produkte und -Funktionen zu erfahren. Sie umfasst Artikel und interaktive Demonstrationen, die Lsungen fr hufige Probleme bieten, Funktionen und Verhaltensweisen vergleichen und Sie durch spezifische realittsnahe Aufgaben fhren.
Informatica-Knowledge-Datenbank
Als Informatica-Kunde knnen Sie auf die Informatica-Knowledge-Datenbank unter http://mysupport.informatica.com zugreifen. In der Knowledge-Datenbank knnen Sie nach dokumentierten Lsungen zu bekannten technischen Problemen mit Informatica-Produkten suchen. Auerdem finden Sie dort Antworten auf hufig gestellte Fragen sowie technische Whitepapers und Tipps. Wenn Sie Fragen, Kommentare oder Ideen zur Knowledge-Datenbank haben, wenden Sie sich bitte per E-Mail an das Informatica-Knowledge-Datenbankteam unter KB_Feedback@informatica.com.
Informatica-Multimedia-Knowledge-Datenbank
Als Informatica-Kunde knnen Sie auf die Informatica-Multimedia-Knowledge-Datenbank unter http://mysupport.informatica.com zugreifen. Die Multimedia-Knowledge-Datenbank ist eine Sammlung von Multimedia-Schulungsdateien, mit denen Sie hufig verwendete Konzepte erlernen knnen und die Sie durch spezifische Aufgaben fhren. Wenn Sie Fragen, Kommentare oder Ideen zur Multimedia-KnowledgeDatenbank haben, wenden Sie sich bitte per E-Mail an das Informatica-Knowledge-Datenbankteam unter KB_Feedback@informatica.com.
Standardtarif Belgien: +31 30 6022 797 Frankreich: +33 1 4138 9226 Deutschland: +49 1805 702 702 Niederlande: +31 306 022 797 Grobritannien und Nordirland: +44 1628 511445
vi
Einleitung
KAPITEL 1
Erkennen von Fremdschlsseln in einem Satz von einer oder mehreren Datenquellen. Erkennen von funktionalen Abhngigkeiten zwischen Spalten in einer Datenquelle.
Wenn Sie ein Profil ausfhren, erhlt der Analyst Service oder das Developer-Tool die Profildefinition vom Model Repository Service. Der Analyst Service oder das Developer-Tool rufen dann das Profiling-Plugin im Data Integration Service auf. Das Profiling-Plugin verarbeitet danach den Profiljob und schickt den Job an den Data Integration Service. Der Data Integration Service generiert die Profiling-Ergebnisse. Er schreibt die Profiling-Ergebnisse dann in das Profiling Warehouse. Die folgende Tabelle zeigt die Komponenten des Informatica Data Explorers:
Komponente Informatica Analyst Beschreibung Eine webbasierte Client-Anwendung, die Sie zum Erkunden, Analysieren und zur Berichterstellung ber Daten und Metadaten von Datenquellen verwenden knnen. Eine Client-Anwendung, die Sie zur Durchfhrung erweiterter Datenerkundungen verwenden knnen, wie wie Erkennen von Primrschlssel, Fremdschlssel und funktionalen Abhngigkeiten.
Informatica Developer
Beschreibung Ein Anwendungsdienst, der das Analysetool ausfhrt und Verbindungen zwischen Dienstkomponenten und Benutzern des Analysetools verwaltet. Ein Anwendungsdienst, der das Model Repository verwaltet. Ein Anwendungsdienst, der Datenintegrationsaufgaben fr das Analysetool, das Developer-Tool und externe Clients bernimmt. Eine relationale Datenbank, die die Metadaten fr Projekte speichert, die im Analysetool oder Developer-Tool erstellt wurden. Eine Datenbank, die Profiling-Informationen speichert, wie Profilergebnisse und Scorecard-Ergebnisse.
Model Repository
Profiling Warehouse
Data Discovery-Prozess
Wenn Sie mit einem Datenintegrationsprojekt beginnen, ist Profiling oft der erste Schritt. Sie knnen Profile erstellen, um den Inhalt, die Qualitt und Struktur der Datenquellen zu analysieren. Sie erkunden als Teil des Profiling-Prozesses die Metadaten der Datenquellen. Fr unterschiedliche Typen der Datenanalyse, wie Spalten-Profiling, Primrschlsselerkennung, funktionale Abhngigkeitserkennung, Fremdschlsselerkennung, berschneidungserkennung und Join-Validierung, verwenden Sie unterschiedliche Profile. Sie decken Datenqualittsprobleme auf und dokumentieren sie. Die folgenden Schritte beschreiben den Erkundungsprozess im Data Explorer: 1. 2. 3. 4. 5. 6. 7. 8. Finden und Analysieren des Inhalts der Daten in den Datenquellen. Umfasst Datentypen, Werthufigkeit, Musterhufigkeit und Datenstatistiken, wie Mindestwert und Maximalwert. Erkennen der Datenstruktur. Umfasst Schlssel, funktionale Abhngigkeiten und Fremdschlssel. Prfen von Profiling-Ergebnissen. Erstellen von Referenzdaten. Drilldown der Profilergebnisse. Dokumentieren von Datenproblemen. Erstellen und Ausfhren von Regeln. Erstellen von Scorecards, um die Datenqualitt zu berwachen.
Der Data Explorer verwendet die folgenden Tools zum Management des Erkundungsprozesses: Informatica Administrator Sie verwenden dieses Tool zum Management von Benutzern, Gruppen, Berechtigungen und Rollen. Sie knnen den Analyst Service administrieren und Berechtigungen fr Projekte und Objekte in Informatica Analyst verwalten. Mit diesem Tool knnen Sie die Zugangsberechtigungen in Informatica Developer kontrollieren. Informatica Developer Erstellen Sie Profile in diesem Tool und fhren Sie sie aus, um die Metadaten von einer oder mehreren Datenquellen zu analysieren und auch die Beziehungen zwischen Spalten zu erkennen. Profile werden mit einem Assistenten erstellt.
Informatica Analyst Sie knnen im Analyst-Tool ein Spaltenprofil an Datenobjekten ausfhren. Auerdem knnen Sie mit einem Profil ein Drilldown auf Datenzeilen in einer Datenquelle durchfhren.
Data Discovery-Prozess
KAPITEL 2
Data Discovery
Dieses Kapitel umfasst die folgenden Themen:
Data Discovery - bersicht, 6 Datenprofile und Analyse, 6 Profiling-Komponenten, 7 Profilergebnisse, 8
Funktionales Abhngigkeitsprofil Erkennt funktionale Abhngigkeiten zwischen Spalten in einer Tabelle oder Datei. Mit dem DeveloperTool knnen Sie Profile fr die funktionale Abhngigkeitsanalyse definieren. Fremdschlssel-Profil Erkennt Fremdschlssel-Beziehungen zwischen Spalten ber mehrere Tabellen oder mehrere Dateien hinweg. Mit dem Developer-Tool knnen Sie Profile fr die Fremdschlsselanalyse definieren. Join-Profil Bestimmt den Grad der berschneidung zwischen Spalten in einer Datenquelle bzw. ber mehrere Datenquellen hinweg. Im Developer-Tool knnen Sie Profile fr die Join-Analyse definieren. Die Ergebnisse werden im Venn-Diagramm angezeigt. berschneidungserkennung Bestimmt den Prozentsatz sich berschneidender Daten zwischen Spaltenpaaren einer Datenquelle oder mehreren Datenquellen. Sie knnen die berschneidungserkennung ber ein Profilmodell im DeveloperTool durchfhren. Sie knnen die Ergebnisse validieren und in Form eines Venn-Diagramms anzeigen. Hinweis: nderungen, die Sie im Analysetool an Profilen vornehmen, erscheinen erst im Developer-Tool, wenn Sie die Verbindung zwischen Developer-Tool und Repository aktualisiert haben. Beenden Sie die Verbindung zum Repository im Developer-Tool, und stellen Sie die Verbindung anschlieend wieder her, um die Verbindung zu aktualisieren.
Profiling-Komponenten
Ein Profil im Data Explorer hat mehrere Komponenten, die Sie verwenden knnen, um den Inhalt und die Struktur der Datenquellen effektiv zu analysieren. Ein Profil hat folgende Komponenten: Filter Erstellt eine Teilmenge der ursprnglichen Daten, die spezifische Kriterien erfllt. Sie knnen die Beispieldaten dann profilieren. Regel Geschftslogik, die Bedingungen definiert, welche auf Daten angewendet werden, wenn ein Profil ausgefhrt wird. Sie knnen dem Profil eine Regel hinzufgen, um Daten zu bereinigen, zu ndern oder zu validieren. Tag Metadaten, die ein Objekt im Model Repository anhand der Unternehmensanwendung definieren. Erstellen Sie Tags, um Objekte entsprechend ihrer Unternehmensanwendung zu gruppieren. Kommentar Beschreibung des Profils. Mit Hilfe von Kommentaren knnen Sie mit anderen Benutzern des Analysetools Informationen ber Profile gemeinsam nutzen Scorecard Eine Scorecard ist die grafische Darstellung von gltigen Werten fr eine Spalte oder die Ausgabe einer Regel in Profilergebnissen. Mit Scorecards knnen Sie den Fortschritt der Datenqualitt messen.
Profiling-Komponenten
Profilergebnisse
Nachdem Sie ein Profil ausgefhrt haben, knnen Sie die Profilergebnisse anzeigen. Sie knnen eine Zusammenfassung, Werte, Muster und Statistiken fr Spalten und Regeln in dem Profil anzeigen. Sie knnen Eigenschaften fr die Spalten und Regeln in dem Profil anzeigen. Die Vorschau der Profildaten ist ebenfalls mglich. Die folgende Tabelle beschreibt die Profilergebnisse fr jeden Profiltyp:
Profiltyp Spaltenprofil Ergebnisse - Anzahl und Prozentsatz der eindeutigen Werte und Nullwerte in Spalten und der gefolgerten Datentypen fr Spaltenwerte. - Hufigkeit und Charaktermuster von Datenwerten in einer ausgewhlten Spalte und eine statistische Zusammenfassung fr die Spalte. - Aus der Analyse der Spaltendaten gefolgerte Datentypen - Dokumentierter Datentyp der Daten. - Maximal- und Mindestwerte. - Datum und Uhrzeit des zuletzt ausgefhrten Profildurchlaufs. - Anzahl und Prozentsatz von eindeutigen, doppelten und Nullwerten fr gefolgerte Primrschlsselkandidaten. - Anzahl der Schlsselverste in den gefolgerten Primrschlsselkandidaten. - Gefolgerte Funktionsabhngigkeiten - Anzahl der funktionalen Abhngigkeitsverste. - Primr- und Fremdschlsselspalten, die das von Ihnen definierte Primrschlssel-FremdschlsselRckschlusskriterium erfllen. - Anzahl der Datenwerte, die zwischen den Primr- und Fremdschlsseln ein Match ergeben, angegeben in Prozent. - Der vor dem Ausfhren des Profils fr die Primr- und Fremdschlsselspalten definierte Beziehungstyp. - Venn-Diagramm, das die Beziehungen zwischen Spalten zeigt. - Anzahl und Prozentsatz der verwaisten, Null- und JoinedWerte in Spalten. - Prozentsatz von berschneidungen zwischen zwei Spalten. - Venn-Diagramm, das die berschneidungen zwischen Spalten zeigt.
Primrschlssel-Profil
Funktionales Abhngigkeitsprofil
Fremdschlssel-Profil
Join-Profil
berschneidungserkennung
KAPITEL 3
Spaltenprofilkonzepte
Dieses Kapitel umfasst die folgenden Themen:
Spaltenprofilkonzepte - bersicht, 9 Spaltenprofiloptionen, 9 Regeln, 10 Scorecards, 10
Spaltenprofilkonzepte - bersicht
Ein Spaltenprofil bestimmt die Charakteristika der Spalte in einer Datenquelle, wie Werthufigkeit, Prozentstze und Muster. Anhand des Spalten-Profiling ist es mglich, folgende Erkenntnisse ber die Daten zu gewinnen:
Die Anzahl der eindeutigen und Null-Werte in jeder Spalte, angegeben als Zahl und als Prozentwert. Das Muster der Daten in jeder Spalte und die Hufigkeit, mit der diese Werte vorkommen. Statistiken zu den Spaltenwerten, wie Maximal- und Minimallnge der Werte und erster und letzter Wert in
jeder Spalte. Verwenden Sie die Spaltenprofiloptionen, um die Spalten auszuwhlen, mit denen Sie ein Profil ausfhren mchten, sowie Daten-Stichprobenoptionen und Drilldown-Optionen festzulegen, wenn Sie ein Profil erstellen. Eine Regel ist eine Geschftslogik, die Bedingungen definiert, welche auf Quelldaten angewendet werden, wenn ein Profil ausgefhrt wird. Sie knnen dem Profil eine Regel hinzufgen, um Daten zu bereinigen, zu ndern oder zu validieren. Erstellen von Scorecards, um die Datenqualitt zu prfen. Bevor und nachdem Sie Regeln auf Profile anwenden, erstellen Sie Scorecards, damit Sie eine grafische Darstellung der gltigen Werte fr Spalten anzeigen knnen.
Spaltenprofiloptionen
Beim Erstellen eines Profils mit der Option Spalten-Profiling knnen Sie den Profilassistenten zum Definieren der Filter- und Stichprobenoptionen verwenden. Diese Optionen bestimmen, wie das Profil Zeilen aus dem Datensatz liest. Nachdem Sie die Schritte im Profilassistenten abgeschlossen haben, knnen Sie eine Regel zum Profil hinzufgen. Die Regel kann die Business-Logik aufweisen, um vor dem Spalten-Profiling Datenumwandlungsoperationen an den Daten vorzunehmen.
Regeln
Erstellen und Anwenden von Regeln innerhalb von Profilen. Eine Regel ist eine Geschftslogik, die Bedingungen definiert, welche auf Quelldaten angewendet werden, wenn ein Profil ausgefhrt wird. Verwenden Sie Regeln zur weiteren Validierung von Daten in einem Profil und zur Messung des Fortschritts in der Datenqualitt. Nachdem Sie ein Profil erstellt haben, knnen Sie eine Regel hinzufgen. Sie knnen Regeln, die im Analysetool oder Developer-Tool erstellt wurden, in beiden Tools wiederverwenden. Um Regeln zu einem Profil hinzufgen, whlen Sie eine vordefinierte Regel aus, oder erstellen Sie eine Expressionsregel. Eine Expressionsregel verwendet sowohl Expressionsfunktionen als auch Spalten zur Definition der Regellogik. Nachdem Sie eine Expressionsregel erstellen, knnen Sie die Regel wiederverwendbar machen. Expressionsregeln erstellen Sie im Analysetool. Sie knnen im Developer-Tool ein Mapplet erstellen und das Mapplet als Regel validieren. Sie knnen Regeln sowohl vom Analysetool als auch vom Developer-Tool aus ausfhren.
Scorecards
Eine Scorecard ist die grafische Darstellung von gltigen Werten fr eine Spalte oder die Ausgabe einer Regel in Profilergebnissen. Mit Scorecards knnen Sie den Fortschritt der Datenqualitt messen. Sie knnen eine Scorecard aus einem Profil erstellen und den Fortschritt der Datenqualitt im Laufe der Zeit berwachen. Eine Scorecard beinhaltet mehrere Komponenten, wie Spalten, Schwellenwerte und Gruppen. Nachdem Sie ein Profil ausgefhrt haben, knnen Sie einer Scorecard Spalten hinzufgen und die gltigen Werte fr die Spalten konfigurieren. Ein Schwellenwert gibt den Bereich als Prozentsatz schlechter Daten, die fr Spalten in einem Datensatz akzeptabel sind, an. Sie knnen Schwellenwerte fr gute, akzeptable oder inakzeptable Datenbereiche einstellen. Verwenden Sie eine Gruppe, um verwandte Scores in einer Scorecard zu einem Satz zu kategorisieren. Wenn Sie eine Scorecard ausfhren, knnen Sie konfigurieren, ob Sie ein Drilldown an den Spalten fr einen Score an den Live-Daten oder den zwischengespeicherten Daten durchfhren mchten. Nachdem Sie eine Scorecard ausfhren und die Scores anzeigen, knnen Sie ein Drilldown an jeder Spalte durchfhren, um gltige Datenstze und ungltige Datenstze zu identifizieren. Um die Datenqualitt effektiv verfolgen zu knnen, knnen Sie Trendcharts verwenden und berwachen, wie sich die Scores ber einen Zeitraum verndern.
10
Kapitel 3: Spaltenprofilkonzepte
11
KAPITEL 4
Spalten-Profilingprozess
Sie knnen sich im Rahmen eines Spalten-Profilingprozesses fr die Erstellung eines Schnellprofils oder eines benutzerdefinierten Profils fr ein Datenobjekt entscheide. Ein Schnellprofil dient dem Zweck, alle Spalten fr ein Datenobjekt einzuschlieen und Standardprofiloptionen zu verwenden. Mit einem benutzerdefinierten Profil whlen Sie Spalten fr ein Datenobjekt aus und konfigurieren die Profilergebnisse, Stichproben und Drilldown-Optionen. Die folgenden Schritte beschreiben den Spalten-Profilingprozess: 1. 2. 3. Whlen Sie das Datenobjekt, die Sie profilieren mchten. Entscheiden Sie sich, ob Sie ein Schnellprofil oder ein benutzerdefiniertes Profil erstellen mchten. Whlen Sie, wo Sie das Skript speichern mchten.
12
4. 5. 6. 7. 8. 9.
Whlen Sie die Spalten, die profiliert werden sollen. Whlen Sie die Profilergebnisoption. Whlen Sie die Stichprobenoptionen. Whlen Sie die Drilldown-Optionen. Definieren Sie einen Filter, um die Zeilen festzulegen, die das Profil zur Laufzeit liest. Fhren Sie das Profil aus.
Hinweis: Bercksichtigen Sie die folgenden Regeln und Richtlinien fr Spaltennamen und das Profiling von mehrsprachigen und Unicode-Daten:
Sie knnen einem Profil keine Spalte hinzufgen, wenn der Spaltenname und der Profilname
bereinstimmen. Selbst wenn Sie den Spaltennamen ndern, knnen Sie dieselbe Spalte nicht zweimal zu einem Profil hinzufgen.
Sie knnen mehrsprachige Daten aus verschiedenen Quellen profilieren und die Profilergebnisse
basierend auf den Gebietsschemaeinstellungen des Browsers anzeigen. Das Analysetool ndert die Datetime-, numerischen und dezimalen Datentypen basierend auf dem Browser-Gebietsschema.
Sortieren an mehrsprachigen Daten. Sie knnen mehrsprachige Daten sortieren. Die Sortierreihenfolge
Datenbankumgebungsvariable GB2CODEPAGE fest und starten den Data Integration Service neu.
Profil-Optionen
Profil-Optionen beinhalten die Option Profilergebnisse, Datenstichprobenoptionen und Daten-DrilldownOptionen. Sie knnen diese Optionen konfigurieren, wenn Sie ein Spaltenprofil fr ein Datenobjekt erstellen. Sie verwenden den Neues Profil-Assistenten, um die Profiloptionen zu konfigurieren. Sie knnen sich fr die Erstellung eines Profils mit den Standardoptionen fr Spalten, Stichproben- und Drilldown-Optionen entscheiden. Wenn Sie ein Profil fr mehrere Datenquellen erstellen, verwendet das Analysetool die standardmigen Spalten-Profiling-Optionen.
Profilergebnisse-Option
Sie knnen whlen, ob Sie frhere Profilergebnisse verwerfen oder die Ergebnisse frherer Profilierungen anzeigen mchten. In der folgenden Tabelle ist die Option fr die Profilergebnisse eines Profils beschrieben:
Option Nur Ergebnisse fr Spalten anzeigen, Regeln in aktuellem Lauf ausgewhlt Beschreibung Verwirft die Profilergebnisse fr zuvor profilierte Spalten und zeigt die Ergebnisse fr die bei der letzten Profilausfhrung ausgewhlten Spalten und Regeln an. Whlen Sie diese Option nicht, wenn Sie mchten, dass im Analyst-Tool Profilergebnisse fr zuvor profilierte Spalten angezeigt werden.
Profil-Optionen
13
Stichprobenoptionen
Stichprobenoptionen bestimmen die Anzahl der Zeilen, die das Analyst Tool zum Profilieren auswhlt Stichprobenoptionen knnen Sie beim Durchlaufen des Assistenten oder beim Ausfhren eines Profils konfigurieren. Die folgende Tabelle beschreibt die Stichprobenoptionen fr ein Profil:
Option Alle Zeilen Erste <number> Zeilen Beschreibung Whlt alle Zeilen im Datenobjekt. Die Anzahl der Zeilen, fr die Sie das Profil ausfhren mchten. Das Analyst Tool whlt die Zeilen aus den ersten Zeilen in der Quelle aus. Die Anzahl der Zeilen fr eine zufllige Stichprobe, fr die das Profil ausgefhrt werden soll. Zufllige Stichproben zwingen das Analyst Tool zum Drilldown fr zwischengespeicherte Daten. Bitte beachten Sie, dass dies die Drilldown-Leistung beeinflussen kann. Gre der zuflligen Stichproben basierend auf der Anzahl Zeilen im Datenobjekt. Zufllige Stichproben zwingen das Analyst Tool zum Drilldown fr zwischengespeicherte Daten. Bitte beachten Sie, dass dies die Drilldown-Leistung beeinflussen kann.
Zufllige Stichprobe
Drilldown-Optionen
Drilldown-Optionen knnen Sie beim Durchlaufen des Assistenten oder beim Ausfhren eines Profils konfigurieren. Die folgende Tabelle beschreibt die Drilldown-Optionen fr ein Profil:
Optionen Zeilen-Drilldown aktivieren Spalten auswhlen Beschreibung Drilldown zu Zeilendaten in den Profilergebnissen. Kennzeichnet Spalten, die Sie nicht zum Profilieren ausgewhlt haben, fr den Drilldown. Drilldown fr Live-Daten zum Lesen laufender Daten in der Datenquelle. Drilldown fr zwischengespeicherte Daten zum Lesen von Profildaten, die im Profiling-Warehouse zwischengespeichert wurden.
14
2.
Klicken Sie im Bereich Inhalt mit der rechten Maustaste auf das Datenobjekt, und whlen Sie Neu > Profil. Der Assistent Neues Profil wird eingeblendet.
3. 4.
Whlen Sie ein Datenobjekt im Fenster Quellen. Entscheiden Sie sich fr die Erstellung eines Standardprofils oder eines benutzerdefinierten Profils.
Um ein Standardprofil zu erstellen, klicken Sie auf Speichern oder Speichern und Ausfhren. Um ein benutzerdefiniertes Profil zu erstellen, klicken Sie auf Weiter.
5. 6.
Geben Sie einen Namen und eine optionale Beschreibung fr das Profil ein. Whlen Sie im Fenster Ordner das Projekt bzw. den Ordner, in dem Sie das Profil erstellen mchten. Im Analysetool werden das von Ihnen gewhlte Projekt sowie gemeinsam genutzte Projekte mit Ordnern, in denen Sie das Profil erstellen knnen, angezeigt. Die Profilobjekte im Ordner stehen im Eingabefeld Profile.
7. 8.
Klicken Sie auf Weiter. Whlen Sie im Fenster Spalten die Spalten, die Sie profilieren mchten. Die Spalten enthalten alle Regeln, die Sie auf das Profil angewandt haben. Im Analysetool werden der Name, der Datentyp, die Prferenz und die Skala fr jede Spalte aufgelistet. Whlen Sie optional Name, um alle Spalten auszuwhlen.
9.
Akzeptieren Sie die Standardoption im Fenster Profilergebnisse-Optionen. Wenn Sie das Profil erstmals ausfhren, erscheinen im Analysetool die Profilergebnisse fr alle zum Profilieren ausgewhlten Spalten.
10. 11.
Konfigurieren Sie die Stichprobenoptionen im Fenster Stichprobenoptionen. Im Fenster Drilldown-Optionen konfigurieren Sie die Drilldown-Optionen. Optional knnen Sie auf Spalten auswhlen klicken, um Spalten fr den Drilldown auszuwhlen. Whlen Sie im Fenster Drilldown-Spalten die Spalten, fr die Sie detailliertere Werte anzeigen mchten, und klicken Sie auf OK.
Klicken Sie auf Weiter. Definieren Sie optional einen Filter fr das Profil. Klicken Sie auf Speichern, um das Profil zu erstellen, oder auf Speichern und Ausfhren, um das Profil zu erstellen und es dann auszufhren.
15
5.
Whlen Sie optional im Fenster Profilergebnisoptionen die Option zum Entfernen der Profilergebnisse zuvor profilierter Spalten und Regeln. Wenn ein Profil erstmals ausgefhrt wird, zeigt das Analyst-Tool die Profilergebnisse fr alle zum Profiling ausgewhlten Spalten an.
6. 7. 8. 9. 10.
Konfigurieren Sie die Stichprobenoptionen im Fenster Stichprobenoptionen. Im Fenster Drilldown-Optionen konfigurieren Sie die Drilldown-Optionen. Optional knnen Sie auf Spalten auswhlen klicken, um Spalten fr den Drilldown auszuwhlen. Whlen Sie die Spalten fr den Drilldown im Fenster Drilldown-Spalten aus. Klicken Sie auf OK. Klicken Sie aufAusfhren Im Analyst-Tool werden die Profilergebnisse angezeigt.
16
KAPITEL 5
Nullwerte, gefolgerter Datentypen sowie Datum und Uhrzeit der letzten Ausfhrung.
Werte fr Spalten und die Hufigkeit, mit der der Wert in der Spalte auftaucht. Die Hufigkeit wird in Form
17
Statistik ber die Spaltenwerte, als Durchschnitt, Lnge sowie oberster und unterster Wert.
Hinweis: Sie knnen einen Wert oder ein Muster auswhlen und profilierte Zeilen anzeigen, die mit dem Wert oder dem Muster im Fenster Details bereinstimmen. In der Ansicht Eigenschaften knnen Sie im Fenster Eigenschaften die Profileigenschaften ansehen. In den Fenstern Spalten und Regeln stehen die Eigenschaften fr Spalten und Regeln. Die Ansicht Datenvorschau ermglicht eine Vorschau der Profildaten. Das Analysetool enthlt alle Spalten in den Profilanzeigen der ersten 100 Datenzeilen.
Profil-Zusammenfassung
Die Zusammenfassung fr eine Profilausfhrung enthlt die Anzahl der einmaligen und Nullwerte, ausgedrckt in Zahlen und prozentual, die gefolgerten Datentypen sowie Datum und Uhrzeit der letzten Ausfhrung. Sie knnen jede Profilzusammenfassungseigenschaft anklicken, um die Werte der Eigenschaft zu sortieren. Die folgende Tabelle beschreibt die Profilzusammenfassungseigenschaften:
Eigenschaft Name Eindeutige Werte Eindeutig % Null Null % Datentyp Beschreibung Name der Spalte in dem Profil. Anzahl der einmaligen Werte fr die Spalte. Prozentsatz der einmaligen Werte in der Spalte. Anzahl der Nullwerte fr die Spalte. Prozentsatz der Nullwerte fr die Spalte. Von den Werten fr die Spalte abgeleiteter Datentyp. Das Analyst-Tool kann folgende Datentypen aus den Datentypen der Spaltenwerte ableiten: - String - Varchar - Dezimal - Ganzzahl - "-" fr Nullen Hinweis: Das Analyst Tool kann den Datentyp nicht von den Werten einer numerischen Spalte ableiten, deren Przision grer als 38 ist. Das Analyst Tool kann den Datentyp nicht von den Werten einer Stringspalte ableiten, deren Przision grer als 255 ist. Wenn Sie eine Datumsspalte haben, fr die Sie ein Spaltenprofil mit einem Jahreswert frher als 1800 erstellen, erscheint als gefolgerter Datentyp mglicherweise ein String mit fester Lnge. Den Standardwert fr den Parameter Jahreszahlenminimum knnen Sie bei Bedarf in InferDateTimeConfig.xml ndern. Prozentsatz der Werte, die dem Datentyp entsprechen, der von dem Datentyp gefolgert wurde Datentyp, der fr die Spalte in dem profilierten Objekt deklariert wurde. Maximalwert in der Spalte. Mindestwert in der Spalte. Datum und Profil der letzten Profilausfhrung. Fhrt, sofern ausgewhlt, einen Drilldown mit Live-Daten fr die Spalte aus.
Gefolgert %
18
Spaltenwerte
Die Spaltenwerte enthalten Werte fr Spalten und die Hufigkeit, mit der der Wert in der Spalte auftaucht. Die folgende Tabelle beschreibt die Eigenschaften fr die Spaltenwerte:
Eigenschaft Wert Beschreibung Liste aller Spaltenwerte im Profil. Hinweis: Das Analysetool schliet in Spaltenwerten in einem Profil die Datentypen CLOB, BLOB, roh und binr aus. Gibt in Form einer Zahl, prozentual und als Balkendiagramm an, wie oft ein Wert in einer Spalte auftaucht. Hufigkeit, mit der ein Wert in einer Spalte auftaucht, in Prozent Diagramm fr prozentuale Angabe.
Hufigkeit
Prozent Diagramm
Hinweis: Um die Spalten Wert und Hufigkeit zu sortieren, whlen Sie die Spalten aus. Wenn Sie die Ergebnisse der Spalte Frequenz sortieren, sortiert das Analysetool die Ergebnisse basierend auf dem Datentyp der Spalte.
Spaltenmuster
Die Spaltenmuster enthalten die Wertmuster fr die Spalten und die Hufigkeit, mit der das Muster erscheint. Das Profiling Warehouse speichert standardmig 16.000 einmalige Hufigkeitshchstwerte einschlielich NULL-Werte fr Profilergebnisse. Wenn die Profilergebnisse mindestens einen NULL-Wert enthalten, kann das Analysetool NULL-Werte als Muster anzeigen. Hinweis: Das Analysetool kann kein Muster fr eine numerische Spalte mit einer Przision grer 38 ableiten. Das Analysetool kann kein Muster fr eine String-Spalte mit einer Przision grer 255 ableiten. Die Eigenschaften fr die Spaltenmuster sind in folgender Tabelle beschrieben:
Eigenschaft Muster Hufigkeit Prozent Diagramm Beschreibung Muster fr die Spalten im Profil. Gibt in Form eines Zahlenwertes an, wie oft ein Muster fr eine Spalte erscheint. Prozentuale Hufigkeit des Erscheinens eines Musters fr eine Spalte. Diagramm fr prozentuale Angabe.
Die folgende Tabelle beschreibt die Musterzeichen und was diese darstellen:
Zeichen 9 Beschreibung Stellt ein beliebiges numerisches Zeichen dar. Informatica Analyst zeigt bis zu drei Zeichen separat im Format "9" an. Das Tool zeigt mehr als drei Zeichen als Wert in Klammern eingeschlossen an. Format "9(8)" stellt beispielsweise einen numerischen Wert mit 8 Ziffern dar. Stellt ein beliebiges alphabetisches Zeichen dar. Informatica Analyst zeigt bis zu drei Zeichen separat im Format "X" an. Das Tool zeigt mehr als drei Zeichen als Wert in Klammern eingeschlossen an. Das Format "X(6)" kann beispielsweise den Wert "Boston" darstellen".
Spaltenwerte
19
Zeichen
Beschreibung Hinweis: Das Musterzeichen X unterliegt nicht der Gro-/Kleinschreibung und kann Gro- oder Kleinbuchstaben aus der Datenquelle darstellen.
p q b
Stellt "(" dar, die linke Klammer. Stellt ")" dar, die rechte Klammer. Stellt ein Leerzeichen dar.
Spaltenstatistik
Die Spaltenstatistik enthlt Statistiken ber die Spaltenwerte, wie Mittelwert, Lnge, sowie obere und untere Werte. Die erscheinenden Statistiken hngen vom Spaltentyp ab. Die folgende Tabelle beschreibt die Typen der Spaltenstatistiken fr jeden Spaltentyp:
Statistik Mittelwert Standardabweichung Spaltentyp Integer Integer Beschreibung Mittelwert ber die Spaltenwerte. Die Standardabweichung bzw. Variabilitt zwischen den Spaltenwerten fr alle Spaltenwerte. Lnge des lngsten Wertes fr die Spalte. Lnge des krzesten Wertes fr die Spalte. Niedrigster Spaltenwert Hchster Spaltenwert
Spaltenprofil-Drilldown
Mithilfe der Drilldown-Optionen fr ein Spaltenprofil knnen Sie ein Drilldown auf spezifische Zeilen in der Datenquelle auf Grundlage eines Spaltenwerts durchfhren. Sie knnen die aktuellen Daten in einer Datenquelle zum Drilldown lesen oder Profildaten lesen, die im Profil-Warehouse zwischengespeichert wurden. Wenn Sie mit zwischengespeicherten Daten ein Drilldown auf eine spezifische Zeile durchfhren, erstellt das Analysetool einen Drilldown-Filter fr den passenden Spaltenwert. Nach dem Drilldown knnen Sie den Drilldown-Filter bearbeiten, erneut aufrufen, zurcksetzen und speichern. Sie knnen Spalten fr das Drilldown auswhlen, auch wenn Sie diese Spalten nicht fr das Profiling ausgewhlt haben. Sie knnen die aktuellen Daten in einer Datenquelle zum Drilldown lesen oder Profildaten lesen, die im Profiling-Warehouse zwischengespeichert wurden. Nachdem Sie ein Drilldown auf einen Spaltenwert durchgefhrt haben, knnen Sie Drilldown-Daten fr die ausgewhlten Werte oder Muster an eine CSV-Datei an einen Ort Ihrer Wahl exportieren. Obwohl Informatica Analyst die ersten 200 Werte der Drilldown-Daten anzeigt, exportiert das Tool alle Werte an die CSV-Datei.
Drilldown an Zeilendaten
Nachdem Sie ein Profil ausgefhrt haben, knnen Sie ein Drilldown zu spezifischen Zeilen durchfhren, die dem Spaltenwert oder Muster entsprechen.
20
1.
Fhren Sie ein Profil aus. Das Profil wird in einer Registerkarte eingeblendet.
2. 3. 4.
Whlen Sie in der Ansicht Zusammenfassung einen Spaltennamen, um die Profilergebnisse fr die Spalte anzuzeigen. Whlen Sie einen Spaltenwert auf der Registerkarte Werte, oder whlen Sie ein Spaltenmuster auf der Registerkarte Muster. Klicken Sie zum Anzeigen der Datenzeilen auf Aktionen > Drilldown. In der Maske Drilldown stehen die Zeilen mit den Werten oder Mustern. Der Spaltenwert oder das Muster wird oben im Fenster angezeigt. Hinweis: Sie knnen Drilldown von Echtzeitdaten oder Staging-Daten whlen.
Filterergebnissen zurckzukehren.
Mit Drilldown-Filter > Zurcksetzenknnen Sie die Drilldown-Filterergebnisse zurcksetzen.
21
Die folgende Tabelle beschreibt die Informationen, die in jedem Arbeitsblatt in der Exportdatei angezeigt werden.
Tab Spaltenprofil Beschreibung Nach der Ausfhrung des Profils aus der Spalten-ProfilingAnsicht exportierte Zusammenfassungsinformationen. Beispiele: Spaltennamen, Regelnamen, Zahlen von eindeutigen Werten, Zahlen von Nullwerten, abgeleitete Datentypen und Datum und Uhrzeit der letzten Profilausfhrung. Werte fr die Spalten und Regeln und die Hufigkeit, mit der die Werte fr jede Spalte angezeigt werden. Wertmuster fr die Spalten und Regeln, fr die Sie das Profil ausfhren, und die Hufigkeit, mit der die Muster angezeigt werden. Statistiken ber jede Spalte und Regel. Beispiele: Durchschnitt, Lnge, obere und untere Werte und Standardabweichung. Informationen der Eigenschaftenansicht. Dazu zhlen Profilname, Typ, Stichprobenrichtlinie und Zeilenzhler.
Werte
Muster
Statistiken
Eigenschaften
7. 8. 9.
Geben Sie ein Dateiformat ein. Das Format lautet Excel fr die Option Alle und CSV fr die brigen Optionen. Whlen Sie die Codeseite der Datei. Klicken Sie auf OK.
22
KAPITEL 6
Expressionsregeln erstellen Sie im Analysetool. Der Analytiker kann eine Expressionsregel erstellen und sie zu einer wiederverwendbaren Regel machen, die von anderen Analytikern in mehreren Profilen verwendet werden knnen.
Vordefinierte Regeln Umfasst wiederverwendbare Regeln, die ein Entwickler im Developer-Tool erstellt.
Regeln, die ein Entwickler im Developer-Tool als Mapplets erstellt, knnen im Analysetool als wiederverwendbare Regeln erscheinen. Nachdem Sie eine Regel zu einem Profil hinzugefgt haben, knnen Sie das Profil erneut fr die Regelspalte ausfhren. Das Analysetool zeigt die Profilergebnisse fr die Regelspalte an. Sie knnen die Regel ndern und das Profil erneut ausfhren, um nderungen an den Profilergebnissen anzuzeigen. Die Ausgabe einer Regel kann in einer oder mehreren virtuellen Spalten erfolgen. Die virtuellen Spalten existieren nur in den Profilergebnissen. Das Analysetool profiliert die virtuellen Spalten. Beispielsweise knnen Sie eine vordefinierte Regel benutzen, die eine Spalte mit Vor- und Nachnamen in die virtuellen Spalten FIRST_NAME und LAST_NAME aufteilt. Das Analysetool profiliert die Spalten FIRST_NAME und LAST_NAME. Hinweis: Wenn Sie ein Regelobjekt lschen, das von anderen Objekttypen referenziert wird, erscheint im Analysetool eine Meldung mit einer Liste der referenzierten Objekttypen. Ermitteln Sie vor dem Lschen einer Regel die Auswirkungen des Lschvorgangs.
23
Vordefinierte Regeln
Vordefinierte Regeln sind Regeln, die im Developer Tool erstellt oder mit dem Developer Tool und dem Analyst Tool zur Verfgung gestellt wurden. Vordefinierte Regeln mssen Sie auf die Analyst-Tool-Profile anwenden, um Quelldaten zu ndern oder zu validieren. Vordefinierte Regeln verwenden zum Definieren der Regellogik Umwandlungen. Vordefinierte Regeln knnen mit Mehrfachprofilen eingesetzt werden. In einem Model Repository ist eine vordefinierte Regel ein Mapplet mit einer Eingabegruppe, einer Ausgabegruppe und Umwandlungen fr die Definition der Regellogik.
Vordefinierte Regeln-Prozess
Zum Anwenden einer vordefinierten Regel auf ein Profil verwenden Sie den Neuen Regelassistenten. Sie knnen die folgenden Schritte durchfhren, um eine vordefinierte Regel anzuwenden: 1. 2. 3. 4. 5. ffnen Sie ein Profil. Whlen Sie eine vordefinierte Regel. Prfen Sie die Parameter der Regel. Whlen Sie die Eingabespalte. Konfigurieren Sie die Profiling-Optionen.
24
Expressionsregeln
Expressionsregeln verwenden Expressionsfunktionen und Spalten zum Definieren der Regellogik. Erstellen Sie Expressionsregeln, und fgen Sie sie zu einem Profil im Analyst Tool hinzu. Expressionsregeln verwenden Sie zum ndern oder Validieren von Werten fr Spalten in einem Profil. Sie knnen eine oder mehrere Expressionsregeln fr die Verwendung in einem Profil erstellen. Expressionsfunktionen sind SQL-hnliche Funktionen zum Umwandeln von Quelldaten. Sie knnen die Expressionsregellogik mit folgenden Funktionstypen erstellen:
Zeichen Umwandlung Datenbereinigung Datum Codierung Finanz Numerisch Wissenschaftlich Spezial Test
Expressionsregeln-Prozess
Verwenden Sie den Neuen Regelassistenten zum Erstellen einer Expressionsregel, und fgen Sie sie zu einem Profil hinzu. Der Neue Regelassistent enthlt einen Expressions-Editor. Den Expressions-Editor knnen Sie verwenden, um Expressionsfunktionen hinzuzufgen, Spalten als Eingabe in die Funktionen zu konfigurieren, die Expression zu validieren und den Rckgabetyp, die Przision und die Skala zu konfigurieren. Die Ausgabe einer Expressionsregel ist eine virtuelle Spalte, die den Namen der Regel als Spaltenname verwendet. Das Analysetool profiliert die virtuelle Spalte. Beispielsweise verwenden Sie eine Expressionsregel zum Validieren einer Postleitzahl. Die Regel gibt 1 zurck, wenn die Postleitzahl gltig ist, und 0, wenn die Postleitzahl nicht gltig ist. Informatica Analyst profiliert die Ausgabewerte 0 und 1 der Regel. Sie knnen die folgenden Schritte durchfhren, um eine Expressionsregel zu erstellen: 1. 2. 3. ffnen Sie ein Profil. Konfigurieren Sie die Regellogik mithilfe von Expressionsfunktionen und Spalten als Parameter. Konfigurieren Sie die Profiling-Optionen.
Expressionsregeln
25
6. 7.
Geben Sie einen Namen und eine optionale Beschreibung fr die Regel ein. Sie knnen die Regel optional als wiederverwendbare Regel deklarieren und den Projekt- und OrdnerSpeicherort konfigurieren. Falls Sie die Regel als wiederverwendbare Regel definieren, knnen Sie oder andere Benutzer die Regel als vordefinierte Regel in einem anderen Profil verwenden.
8. 9.
Whlen Sie auf der Registerkarte Funktionen eine Funktion aus, und klicken Sie auf den rechten Pfeil, um die Parameter fr die Funktion einzugeben. Whlen Sie auf der Registerkarte Spalten eine Eingabespalte aus, und klicken Sie auf den rechten Pfeil, um die Expression im Expressions-Editor hinzuzufgen. Sie knnen ebenfalls logische Operatoren zu der Expression hinzufgen. Klicken Sie auf Validieren. Wenn die Expression gltig ist, knnen Sie mit dem nchsten Schritt fortfahren. Klicken Sie optional auf Bearbeiten, um den Rckgabetyp, die Przision und die Skala zu konfigurieren. Klicken Sie auf Weiter. Whlen Sie im Fenster Spalten die Spalten aus, die Sie profilieren mchten. Die Spalten enthalten alle Regeln, die Sie auf das Profil angewandt haben. Whlen Sie optional Namen , um alle Spalten auszuwhlen. Im Analyst-Tool werden der Name, der Datentyp, die Prferenz und die Skala fr jede Spalte aufgelistet.
Konfigurieren Sie die Stichprobenoptionen im Fenster Stichprobenoptionen. Im Fenster Drilldown-Optionen konfigurieren Sie die Drilldown-Optionen. Klicken Sie auf Speichern, um die Regel zu erstellen, oder auf Speichern & Ausfhren, um die Regel zu erstellen und das Profil auszufhren.
26
KAPITEL 7
27
Sie knnen das Datenobjekt auswhlen und von einem Score auf einer Scorecard zu dem Datenobjekt navigieren. Das Analysetool ffnet das Datenobjekt in einer anderen Registerkarte. Sie knnen die folgenden Aufgaben durchfhren, wenn Sie mit Scorecards arbeiten: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Erstellen einer Scorecard im Developer-Tool und Hinzufgen von Spalten aus einem Profil. Gegebenenfalls Verbinden mit dem Analysetool und ffnen der Scorecard im Analysetool. Hinzufgen von Profilspalten zu der Scorecard, nachdem Sie ein Profil ausgefhrt haben. Ausfhren der Scorecard, um die Scores fr Spalten zu generieren. Anzeigen der Scorecard, um die Scores fr jede Spalte in einem Datensatz zu sehen. Drilldown an den Spalten fr einen Score. Bearbeiten einer Scorecard. Festlegen von Schwellenwerten fr jeden Score in einer Scorecard. Erstellen einer Gruppe, um der Scorecard verwandte Scores zuzufgen oder diese in der Scorecard zu verschieben. Bearbeiten oder Lschen einer Gruppe nach Bedarf. Trenddiagramme fr jeden Score dienen der berwachung der Score-Vernderungen im Zeitverlauf.
bereinstimmen.
Das zweimalige Hinzufgen ein- und derselben Spalte zu einer Scorecard ist auch dann nicht mglich,
wenn Sie den Spaltennamen ndern. 5. Whlen Sie die Spalten und Regeln aus, die Sie zu einer Scorecard hinzufgen mchten. Klicken Sie optional auf das Kontrollfeld in der linken Spaltenberschrift, um alle Spalten auszuwhlen. Optional knnen Sie auch Spaltenname auswhlen, um die Spaltennamen zu sortieren. Whlen Sie optional einen Score-Namen, um den Score-Namen zu ndern und eine Beschreibung hinzuzufgen. Klicken Sie auf Weiter. Whlen Sie die Scorecard aus, zu der Sie die Spalten hinzufgen mchten, oder klicken Sie auf Neu, konfigurieren Sie Namen, Beschreibung und Speicherort der Scorecard im Fenster Neue Scorecard, und klicken Sie auf OK. Klicken Sie auf Weiter.
6. 7. 8.
9.
28
10.
Whlen Sie jede im Fenster Scores aus, und konfigurieren Sie die gltigen Werte aus der Liste aller Werte im Fenster Score verwendet: Werte. Whlen Sie optional Ist gltig, um alle gltigen Werte darin einzuschlieen.
11.
Whlen Sie jede Spalte im Fenster Scores aus, und whlen Sie Benutzerdef. Schwellenwerte fr diesen Score festlegen im Fenster Score-Einstellungen, um die Score-Schwellenwerte zu konfigurieren. Einstellbar sind Schwellenwerte fr gute, akzeptable und inakzeptable Scores.
12.
29
1. 2.
Whlen Sie im Navigator das Projekt bzw. den Ordner, in dem die Scorecard enthalten ist. Klicken Sie auf die Scorecard, um sie zu ffnen. Die Scorecard wird auf einer Registerkarte angezeigt.
3.
Klicken Sie auf Aktionen > Bearbeiten. Das Fenster Scorecard bearbeiten wird angezeigt.
4. 5. 6.
Whlen Sie auf der Registerkarte Scoresjeden Score im Fenster Scores, und konfigurieren Sie die gltigen Werte aus der Liste aller Werte im Fenster Score verwendet: Werte. Whlen Sie Benutzerdef. Schwellenwerte fr diesen Score festlegen im Fenster ScoreEinstellungen, um Score-Schwellenwerte zu konfigurieren. Klicken Sie auf Speichern, um die nderungen an der Scorecard zu speichern.
Fenster Zur Scorecard hinzufgenSpalten aus dem Profil zu der Scorecard hinzu.
Optional whlen Sie im Navigator das Projekt bzw. den Ordner, das bzw. der die Scorecard enthlt, und
klicken auf die Scorecard, um sie im Fenster Scorecard bearbeiten zu bearbeiten. 1. 2. 3. 4. Whlen Sie im Fenster Zu Scorecard hinzufgen oder im Fenster Scorecard bearbeiten jede Spalte im Eingabefeld Score aus. Whlen Sie Benutzerdef. Schwellenwerte fr diesen Score festlegen in der Spalte ScoreEinstellungen aus. Geben Sie die Schwellenwerte ein, die die obere Grenze des inakzeptablen Bereiches und die untere Grenze des Gutbereiches darstellen. Klicken Sie auf Fertigstellen oder auf Speichern.
Score-Gruppen
Erstellen Sie eine Scoregruppe, um verwandte Scores in einer Scorecard zu einem Satz zu kategorisieren. Das Analysetool kategorisiert standardmig alle Scores zu einer Standardgruppe. Nachdem Sie eine Gruppe erstellt haben, knnen Sie Scores aus der Standardgruppe in eine andere Gruppe verschieben. Sie knnen eine Gruppe bearbeiten, um deren Namen und Beschreibung zu ndern. Sie knnen den Namen der Standardgruppe ndern. Sie knnen Gruppen lschen, die Sie nicht lnger verwenden. Die Standardgruppe knnen Sie nicht lschen.
30
2.
Klicken Sie auf die Scorecard, um sie zu ffnen. Die Scorecard wird auf einer Registerkarte angezeigt.
3.
Klicken Sie auf Aktionen > Bearbeiten. Das Fenster Scorecard bearbeiten wird angezeigt.
4.
Klicken Sie auf die Registerkarte Gruppen bewerten. Die Standardgruppe wird im Fenster Score-Gruppen angezeigt, und die Scores in der Standardgruppe werden im Fenster Scores angezeigt.
5.
Klicken Sie auf Neu, um eine Gruppe zu erstellen. Das Fenster Neue Gruppe erscheint.
6. 7. 8.
Geben Sie einen Namen und eine optionale Beschreibung ein. Klicken Sie auf OK. Klicken Sie auf Speichern, um die nderungen an der Scorecard zu speichern.
Score-Gruppen
31
Spalten-Drilldown
Drilldown fr die Spalten eines Score zum Auswhlen von Spalten, die beim Einblenden der gltigen oder ungltigen Datenzeilen erscheinen. Die Spalten, die Sie zum Drilldown auswhlen, werden im Fenster Drilldown angezeigt. 1. 2. 3. 4. Fhren Sie eine Scorecard aus, um die Scores anzuzeigen. Whlen Sie eine Spalte, die den anzuzeigenden Score enthlt. Klicken Sie auf Aktionen > Zeilen anzeigen, um die Zeilen der gltigen bzw. ungltigen Daten der Spalte anzuzeigen. Klicken Sie auf Aktionen > Drilldown-Spalten Das Fenster Drilldown-Spalten wird aufgrufen. 5. Whlen Sie die Spalten, die im Drilldown-Fenster angezeigt werden sollen. Whlen Sie optional die Spalte Namen, die alle Spalten enthalten soll. 6. Klicken Sie auf OK. Die Spalten erscheinen im Fenster Drilldown fr den ausgewhlten Score. Im Analyst-Tool werden standardmig die Zeilen mit gltigen Daten fr die Spalten angezeigt. Optional knnen Sie auf Ungltig klicken, um die ungltigen Datenzeilen anzuzeigen.
32
4.
Klicken Sie auf Aktionen > Trenddiagramm anzeigen. Das Fenster Trenddiagramm-Detail wird aufgerufen. Sie knnen die im Laufe der Zeit vernderten Score-Werte anzeigen. Das Analyst-Tool nutzt fr jedes Datum historische Scorecard-Ausfhrungsdaten und fr die Berechnung des Scores die neuesten Score-Werte. Fr die Darstellung der Farbe der ScorePunkte verwendet das Analyst-Tool die neuesten Schwellenwerteinstellungen im Diagramm.
33
34
KAPITEL 8
Informatica Developer-Profile
Dieses Kapitel umfasst die folgenden Themen:
Informatica Developer-Profile - bersicht, 35 Informatica Developer-Profilansichten, 36
Zum Erstellen der Profile im Developer-Tool wird der Assistent verwendet. Der Profilerstellungsassistent bietet Ihnen die Optionen Profil, Mehrere Profile und Profilmodell, um Profile zu erstellen.
Profil
Erstellen eines Profils fr ein einzelnes Datenobjekt. Sie definieren fr ein einzelnes Profil Filter, Regeln und Drilldown-Optionen zum Spalten-Profiling. Sie knnen auch erweiterte Optionen auswhlen, um ein Spaltenprofil, ein Primrschlssel-Profil und ein funktionales Abhngigkeitsprofil zu erstellen. Die Ergebnisse zeigen Spalten-Profiling, Primrschlsselstrung und Strung der funktionalen Abhngigkeit an.
Mehrfachprofile
Erstellen eines Satzes von Profilen fr mehrere Objekte. Sie erstellt ein Profil fr jedes Objekt und fhrt die Profile gleichzeitig aus. Wenn Sie gleichzeitig mehrere Profile erstellen, knnen Sie Daten nicht objektbergreifend analysieren.
Profilmodell
Aufbauen eines Datenmodells aus mehreren Datenobjekten und Erstellen eines Profils, das Daten objektbergreifend analysiert. Erstellen Sie ein Profilmodell und fgen ihm physikalische Datenobjekte zu, die Sie zusammen profilieren mchten. Sie knnen ein Datenobjektprofil, ein Fremdschlsselprofil und ein JoinProfil erstellen. Sie knnen fr jedes Datenobjekt in dem Profilmodell allgemeine Eigenschaften, Spalten zum Profilieren, Schlssel und Beziehungen konfigurieren. Sie knnen sich berschneidende Daten in einer Datenquelle oder in mehreren Datenquellen erkennen.
35
Welche Operationen Sie mit dem jeweiligen Profiltyp durchfhren knnen, geht aus folgender Tabelle hervor:
Profil-Optionen Profil Profil-Operationen - Ausfhren eines Spaltenprofils fr einen einzelnen Datensatz - Suchen nach Primrschlsseln - Suchen nach funktionalen Abhngigkeiten Gleichzeitiges Erstellen und Ausfhren von Spaltenprofilen fr mehrere Objekte Ausfhren eines Spaltenprofils fr einen einzelnen Datensatz Suchen nach Primrschlsseln Suchen nach Fremdschlsseln Suchen nach funktionalen Abhngigkeiten Durchfhren von Join-Analysen Erkennen von berschneidungen zwischen Spalten
Mehrfachprofile Profilmodell
Informatica Developer-Profilansichten
Sie knnen im Informatica Developer mit den Ansichten bersicht, Definition, Kommentare und Ergebnisse Informationen zu einem Profil anzeigen und hinzufgen. Wenn Sie ein Profil aus dem Object Explorer ffnen, zeigt der Editor im rechten Bereich unter den folgenden Ansichten die Profilinformationen an: bersicht Ansicht und allgemeine Informationen zu dem Profil, wie Name, Beschreibung und Ort. Definition Ansicht und Einrichtung der Profildefinition. Zu diesen Informationen gehren Listen von Filtern und Regeln, die dem Profil zugeordnet sind, Drilldown-Optionen und die Funktionen, die whrend der Profilausfhrung aktiviert werden. Kommentare Ansicht und Hinzufgen von Kommentaren zu dem Profil. Ergebnisse Anzeigen der Ergebnisse der Profilausfhrung.
36
KAPITEL 9
Datenobjektprofile
Dieses Kapitel umfasst die folgenden Themen:
Datenobjektprofile - bersicht, 37 Spaltenprofile in Informatica Developer, 38 Primrschlssel-Erkennung, 39 Funktionale Abhngigkeitserkennung, 40 Erstellen eines einzelnen Datenobjektprofils, 42 Erstellen mehrerer Datenobjektprofile, 42 Synchronisieren eines Einfachdatei-Datenobjekts, 43 Synchronisieren eines nicht-relationalen Datenobjekts, 43
Datenobjektprofile - bersicht
Ein Datenobjektprofil erkennt Informationen ber die Spaltendaten und Metadaten in einer Datenquelle. Sie knnen im Developer-Tool ein Profil an einem einzelnen Datenobjekt und mehreren Datenobjekten ausfhren. Ein einzelnes Datenobjektprofil analysiert eine Datenquelle. Mehrere Datenobjektprofile analysieren mehr als eine Datenquelle. Wenn Sie mehrere Datenobjektprofile erstellen, knnen Sie Spalten-Profiling daran durchfhren. Die folgende Tabelle beschreibt die Data Discovery-Tasks, die in einem einzelnen Datenobjektprofil durchgefhrt werden knnen:
Task Spalten-Profiling Beschreibung Erkundet die Charakteristika der Daten, wie Hufigkeiten, Prozentstze und Muster. Um zu bestimmen, welche Zeilen das Profil whrend der Laufzeit liest, knnen Sie Filter hinzufgen. Zeilen, die die Filterkriterien nicht erfllen, werden vom Profil nicht bearbeitet. Erkennt Spalten mit Werten, die die Zeilen in einer Datenquelle eindeutig identifizieren knnen. Liefert Informationen zu Abhngigkeiten zwischen Spaltenpaaren in einer Datenquelle.
Primrschlssel-Erkennung
Funktionale Abhngigkeitserkennung
37
Die folgende Tabelle beschreibt die Datenerkennungsaufgaben, die Sie an mehreren Datenobjekten durchfhren knnen, wenn Sie mit der Option Profilmodell ein Datenmodell erstellen:
Task Fremdschlssel-Erkennung Beschreibung Erkennt Spalten, die Werte aufweisen, die den Primrschlsselwerten in einer anderen Datenquelle entsprechen. Bestimmt den Grad potenzieller Joins zwischen den Daten in zwei Spalten einer Datenquelle oder zwischen zwei Datenquellen. Bestimmt die prozentuale berschneidung zwischen Spaltenpaaren einer Datenquelle oder mehreren Datenquellen.
Join-Analyse
berschneidungserkennung
Sie knnen ein Spaltenprofil fr ein Datenobjekt in einem Mapping oder Mapplet oder einem Objekt im Model Repository definieren. Das Objekt in dem Repository kann in einem einzigen Datenobjektprofil, mehreren Datenobjektprofilen oder einem Profilmodell sein. Zu einem Spaltenprofil knnen Sie Regeln hinzufgen. Anhand von Regeln whlen Sie ein Quelldaten-Subset zum Profilieren aus. Darber hinaus knnen Sie die Optionen fr den Detaillierungsgrad fr Spaltenprofile ndern, um zu bestimmten, ob beim Drilldown aus Staging-Daten oder Echtzeitdaten gelesen werden soll.
Filteroptionen
Sie knnen Filter hinzufgen, um die Zeilen zu bestimmen, die ein Spaltenprofil fr Profilingoperationen verwendet. Zeilen, die die Filterkriterien nicht erfllen, werden vom Profil nicht bearbeitet. 1. 2. 3. 4. 5. 6. 7. 8. Erstellen oder ffnen Sie ein Spaltenprofil. Whlen Sie die Ansicht Filter. Klicken Sie auf Hinzufgen. Whlen Sie einen Filtertyp aus, und klicken Sie auf Weiter. Geben Sie einen Namen fr den Filter ein. Geben Sie optional einen beschreibenden Text fr den Filter ein. Whlen Sie Als aktiv festlegen, um den Filter auf das Profil anzuwenden. Klicken Sie auf Weiter. Definieren Sie die Filterkriterien. Klicken Sie auf Fertigstellen.
38
Kapitel 9: Datenobjektprofile
Stichprobeneigenschaften
Konfigurieren Sie die Stichprobeneigenschaften, um zu bestimmen, wie viele Zeilen das Profil whrend einer Profiling-Operation liest. In der folgenden Tabelle werden die Stichprobeneigenschaften beschrieben:
Eigenschaft Alle Zeilen Erste Zufllige Stichprobe von Zufllige Stichprobe (Auto) Beschreibung Liest alle Zeilen aus der Quelle. Aktiviert ist der Standard. Liest aus der ersten Zeile bis zur angegebenen Zeile. Liest eine zufllige Stichprobe aus der angegebenen Anzahl von Zeilen. Liest aus einer zuflligen Stichprobe von Zeilen.
Primrschlssel-Erkennung
Bei der Analyse der Primrschlssel werden aus den angegebenen Spalten Primrschlsselkandidaten generiert. Ein Primrschlssel ist eine Spalte oder Kombination von Spalten mit einer einmaligen Kennung fr eine Zeile in einer Datenquelle. Die Primrschlsselanalyse erkennt die Spalten und Spaltenkombinationen einer bestimmten Sicherheitsstufe. Die Sicherheitsstufe sowie die maximale Anzahl der fr Primrschlsselkennungen zu kombinierenden Spalten knnen bearbeitet werden. Mit Hilfe der Primrschlsselerkundung knnen Sie potenzielle Datenqualittsprobleme erkennen, indem die Zeilen, die in einem Primrschlsselkandidaten nicht einmalig vorkommen, ermittelt werden. Diese Funktion ist insbesondere dann von Nutzen, wenn bei der Primrschlsselerkennung viele Spalten kombiniert werden, da nicht konforme Datenstze wahrscheinlich doppelte Informationen enthalten.
Primrschlssel-Erkennung
39
Gefolgerte Primrschlsseleigenschaften
Nachdem Sie ein einzelnes Datenobjektprofil ausgefhrt haben, knnen Sie die Ansicht PrimrschlsselProfiling verwenden, um die Details der gefolgerten Primrschlssel in der Datenquelle anzuzeigen. In der folgenden Tabelle werden die gefolgerten Primrschlsseleigenschaften in der Ansicht Primrschlssel-Profiling beschrieben:
Eigenschaft Spalte % Konformitt Duplikate % Null berprft Letzte Ausfhrung Beschreibung Name der Spalte im Profil. Prozentsatz der einmaligen Werte in der Spalte. Prozentsatz der doppelten Werte einer Spalte. Prozentsatz der Nullwerte fr die Spalte. Ermittelt, ob die Spalte eine Primrschlsselspalte ist. Datum und Uhrzeit der letzten Ausfhrung des Primrschlsselprofils.
Schlsselversto-Eigenschaften
Nachdem Sie ein einzelnes Datenobjektprofil ausgefhrt haben, knnen Sie die Ansicht PrimrschlsselProfiling verwenden, um die Details der Primrschlsselverste in der Datenquelle anzuzeigen. In der folgenden Tabelle sind die Eigenschaften der Schlsselverste in der Ansicht PrimrschlsselProfiling beschrieben:
Eigenschaft Spalte(n) Anzahl der Schlsselverste Beschreibung Name der Spalte(n), aus der das Profil einen Kandidatenprimrschlssel folgert. Anzahl der Schlsselverste im Primrschlsselkandidaten.
Funktionale Abhngigkeitserkennung
Die funktionale Abhngigkeitserkennung liefert Informationen ber die Abhngigkeiten zwischen Spaltenpaaren in einer Datenquelle. Ein Spaltenpaar ist funktionell abhngig, wenn anhand der Werte in einer Spalte die Werte in einer anderen Spalte zuverlssig vorausgesagt werden kann. Wenn ein Datensatz beispielsweise eine Spalte Arbeitgeber-ID und eine Spalte Geburtsdatum enthlt, muss die Spalte Geburtsdatum in allen Zeilen mit einer bestimmten Arbeitgeber-ID gleich sein. Anhand funktionaler Abhngigkeiten knnen potenzielle Qualittsprobleme hervorgehoben werden, indem die Datenstze bestimmt werden, die in voneinander abhngigen Spalten nicht bereinstimmen. Sind zum Beispiel 99,8 % der Zeilen in einer Datenquelle funktionell voneinander abhngig, besteht eine hohe Wahrscheinlichkeit, dass die brigen Zeilen falsche Daten enthalten.
40
Kapitel 9: Datenobjektprofile
Funktionale Abhngigkeitserkennung
41
Abhngigkeitsrckschluss verwenden, um die Details der funktionalen Abhngigkeitsverste in der Datenquelle anzuzeigen. In der folgenden Tabelle werden die Eigenschaften der funktionalen Abhngigkeitsverste in der Ansicht Funktionales Abhngigkeits-Profiling beschrieben:
Eigenschaft Determinantenspalte Eigenstndige Abhngige Beschreibung Name der auf funktionale Abhngigkeiten hin analysierten Spalte. Anzahl der einmaligen funktionalen Abhngigkeiten.
Hinweis: Whlen Sie zum Aktivieren einer Profiloperation Als Teil der Aktion "Profil ausfhren" aktiviert fr die betreffende Operation. Standardmig ist Spalten-Profiling aktiviert. 9. Prfen Sie die Optionen Ihres Profils. Sie knnen die Filter- und Stichproben-Optionen fr Spaltenprofile bearbeiten, und Sie knnen die Folgerungsoptionen fr Primrschlssel- und funktionale Abhngigkeitsprofile bearbeiten. 10. berprfen Sie die Drilldown-Optionen, und bearbeiten Sie sie, falls erforderlich. Sie knnen DrilldownOptionen fr Spaltenprofile bearbeiten. Die Optionen bestimmen, ob Drilldown-Operationen aus der Datenquelle oder aus Staging-Daten gelesen werden sollen, und ob das Profil Ergebnisdaten aus vorherigen Profildurchlufen speichert. Klicken Sie auf Fertigstellen. Das Profil ist zum Ausfhren bereit.
11.
42
Kapitel 9: Datenobjektprofile
1. 2. 3. 4.
Whlen Sie in der Ansicht Objekt-Explorer das Datenobjekt aus, das Sie profilieren mchten. Klicken Sie auf Datei > Neu > Profil, um den Assistenten Neues Profil zu ffnen. Whlen Sie die Option Mehrfachprofile, und klicken Sie auf Weiter. Whlen Sie den Speicherort, an dem Sie die Profile erstellen mchten. Sie knnen jedes Profil an demselben Speicherort wie dessen profiliertes Objekt erstellen oder einen gemeinsamen Speicherort fr die Profile angeben. berprfen Sie, dass die Namen der von Ihnen ausgewhlten Datenobjekte im Abschnitt Datenobjekte erscheinen. Optional knnen Sie auch auf Hinzufgen klicken, um ein anderes Datenobjekt hinzuzufgen.
5.
6. 7. 8. 9.
Geben Sie optional die Anzahl der zu profilierenden Zeilen an, und whlen Sie, ob das Profil ausgefhrt werden soll, wenn der Assistent beendet ist. Klicken Sie auf Fertigstellen. Geben Sie optional die Prfix- und Suffix-Strings ein, die den Profilnamen hinzugefgt werden sollen. Klicken Sie auf OK.
43
KAPITEL 10
Primrschlssel-Profiling
Funktionales Abhngigkeitsprofil
44
Spaltenwert-Eigenschaften
Die Spaltenwert-Eigenschaften zeigen die Werte in den profilierten Spalten und die Hufigkeit, mit der die einzelnen Werte in jeder Spalte auftauchen. Die Hufigkeiten werden als Zahlenwert, prozentual und als Balkendiagramm angezeigt. Um die Spaltenwert-Eigenschaften anzuzeigen, whlen Sie den Punkt Werte aus dem Men Anzeigen Doppelklicken Sie auf einen Spaltenwert, um zu den Zeilen zu gelangen, die den Wert enthalten. Die folgende Tabelle beschreibt die Eigenschaften des Spaltenwertes:
Eigenschaft Werte Hufigkeit Prozent Beschreibung Liste aller Spaltenwerte im Profil. Gibt an, wie oft ein Wert in einer Spalte auftaucht. Gibt fr alle Werte in der Spalte an, wie oft ein Wert prozentual in einer Spalte auftaucht. Balkendiagramm fr prozentuale Angabe.
Diagramm
Spaltenmuster-Eigenschaften
Spaltenmuster-Eigenschaften zeigen die Muster der Daten in den profilierten Spalten und die Hufigkeit, mit der die Muster in jeder Spalte auftauchen. Die Muster werden in Form von Zahlen, prozentual und als Balkendiagramm dargestellt. Um Musterinformationen anzuzeigen, whlen Sie Muster aus dem Men Anzeigen. Doppelklicken Sie auf ein Muster, um auch die Zeilen anzuzeigen, die die Muster enthalten. Die folgende Tabelle beschreibt die Eigenschaften fr Spaltenwertmuster:
Eigenschaft Muster Hufigkeit Prozent Diagramm Beschreibung Muster fr die ausgewhlte Spalte. Gibt an, wie oft ein Muster in einer Spalte auftaucht. Gibt prozentual an, wie oft ein Muster in einer Spalte auftaucht. Balkendiagramm fr prozentuale Angabe.
Spaltenstatistik-Eigenschaften
Die Spaltenstatistik-Eigenschaften stellen die maximale und minimale Lnge der Werte sowie die ersten und letzten Werte zur Verfgung. Um die Statistikinformationen anzuzeigen, whlen Sie Statistik aus dem Men Anzeigen.
Spaltenwert-Eigenschaften
45
Hinweis: Das Profil enthlt auerdem die Mittelwert- und Standardabweichungs-Statistik fr Spalten des Typs Ganzzahl.
9. 10.
46
KAPITEL 11
Datenquellen verwenden.
Sie kann Expressions-Umwandlungen, Lookup-Umwandlungen und passive Datenqualitts-Umwandlungen
enthalten. Andere Umwandlungstypen darf sie nicht enthalten. So darf eine Regel beispielsweise keine Match-Umwandlung enthalten, da es sich hierbei um eine aktive Umwandlung handelt.
Sie gibt keine Kardinalitt zwischen Eingabegruppen an.
47
1. 2.
Durchsuchen Sie den Objekt-Explorer nach dem bentigten Profil. Klicken Sie mit der rechten Maustaste auf das Profil, und whlen Sie ffnen. Das Profil wird im Editor geffnet.
3. 4.
Klicken Sie auf die Registerkarte Definition und whlen Sie Regeln aus. Klicken Sie auf Hinzufgen. Das Dialogfenster Regel anwenden wird geffnet.
5.
Klicken Sie auf Durchsuchen, um die Regel zu finden, die Sie anwenden mchten. Whlen Sie eine Regel aus einem Repository-Projekt, und klicken Sie auf OK.
6. 7.
Klicken Sie auf die Spalte Wert unter Eingabewerte, um einen Eingabeport fr die Regel auszuwhlen. Optional klicken Sie auf die Spalte Wert unter Ausgabewerte zum Bearbeiten des Namens des Regelausgabeports. Die Regel wird nun auf der Registerkarte Definition angezeigt.
48
KAPITEL 12
49
KAPITEL 13
50
51
KAPITEL 14
Profilmodelle
Dieses Kapitel umfasst die folgenden Themen:
Profilmodelle - bersicht, 52 Erstellen eines Profilmodells , 52 Fremdschlssel-Erkennung, 53 Join-Analyse, 55 berschneidungserkennung, 56
Profilmodelle - bersicht
Ein Profilmodell ist ein Objekt, das die Metadaten fr eine Anwendung oder ein Schema erfasst. Es enthlt Datenobjekte, um auf Daten zuzugreifen, die zum Profiling und zur Verifizierung verwendet werden, und Strukturobjekte, wie Beziehungen, Schlssel und funktionale Abhngigkeiten. Ein Profilmodell hat eine Modellierungsarbeitsflche, die Sie zum Aufbau eines Datenmodells aus mehreren Datenobjekten und zum Erstellen eines Profils verwenden knnen, das Daten objektbergreifend analysiert. Sie knnen die folgenden Profilierungsaufgaben an einem Profilmodell vornehmen:
Ausfhren eines Spaltenprofils fr einen einzelnen Datensatz Erkennen von Primrschlsseln in einem Datensatz Erkennen funktionaler Abhngigkeitsbeziehungen in einem Datensatz Durchfhren einer Join-Analyse fr einen Datensatz Erkennen von Fremdschlsseln in einem Datensatz. Erkennen von sich berschneidenden Spaltenpaaren innerhalb einer Datenquelle oder in mehreren
Datenquellen.
52
Klicken Sie auf Fertigstellen, falls Sie spter Datenobjekte hinzufgen mchten. Der Assistent fordert Sie auf, Datenobjekte hinzuzufgen, wenn Sie auf Weiter klicken. 6. Fgen Sie dem Profil ein oder mehrere Datenobjekte hinzu:
Klicken Sie auf Neuund auf den Pfeil Durchsuchen in SpalteDatenobjekt. Durchsuchen Sie das Modell-Repository und whlen Sie ein Datenobjekt mithilfe des Dialogfensters
Datenobjekte auswhlen.
Klicken Sie auf OK, um das Dialogfenster zu schlieen. Klicken Sie auf Neu, und fgen Sie auf dieselbe Weise ein weiteres Objekt hinzu.
7.
Die Datenobjekte werden auf der Arbeitsflche angezeigt. Hinweis: Sie knnen jederzeit ein Datenobjekt aus dem Objekt-Explorer in ein Profilmodell ziehen.
Fremdschlssel-Erkennung
Eine Spalte ist ein Fremdschlssel, wenn ihre Datenwerte mit den Primrschlssel-Spaltenwerten in einem anderen Datenobjekt bereinstimmen. Mit dem Developer-Tool knnen Sie Fremdschlsselanalysen fr Mehrfachdatenobjekte durchfhren. Erstellen Sie ein Profilmodell, um Datenobjekte auszuwhlen und das Profil zu definieren. Bevor Sie die Fremdschlsselanalyse durchfhren, mssen Sie die bergeordneten und Kind-Datenobjekte im Profilmodell bestimmen. Das Profil nutzt einen oder mehrere Schlssel im bergeordneten Objekt einschlielich dessen Primrschlssel, um Fremdschlssel im Kind-Objekt zu erkennen. Nachdem Sie die bergeordneten und Kind-Objekte definiert und die Schlssel in dem bergeordneten Objekt identifiziert haben, erstellen Sie das Profil und fhren es aus.
Schlssel.
Klicken Sie auf OK im Dialogfenster Neuer Schlssel. Vergewissern Sie sich, dass der
Primrschlssel im Abschnitt Ausgewhlte Felder steht und dass die Option Primrschlssel aktiviert ist. Erstellen Sie ein Fremdschlsselprofil, um das Kindobjekt auf Fremdschlssel zu untersuchen.
Fremdschlssel-Erkennung
53
2. 3. 4. 5.
Klicken Sie mit der rechten Maustaste auf den Namen eines Datenobjekts, und whlen Sie Fremdschlsselprofil. Geben Sie einen Namen fr das Profil ein, und berprfen Sie den Projektspeicherort. Suchen Sie ggf. nach einem neuen Speicherort. Geben Sie optional eine Textbeschreibung des Profils ein. Whlen Sie die Schlssel in dem bergeordneten Objekt aus, die das Profil verwendet, um Fremdschlssel in dem Kindobjekt zu suchen. Speichern und Ausfhren des Profils.
Kind-Fremdschlssel
Inklusion %
Beziehungstyp
54
Join-Analyse
Die Join-Analyse beschreibt den Grad der potenziellen Joins zwischen zwei Datenspalten. Die Analyse der Spalten-Joins in einer Datenquelle bzw. ber mehrere Datenquellen ist anhand eines Join-Profils mglich. In einem Join-Profil werden die Ergebnisse als Venn-Diagramm und als numerische und prozentuale Werte angezeigt. Die Erstellung und Ausfhrung eines Join-Profils erfolgt von einem Profilmodell aus.
Join-Analyse
55
Analysenergebnisse enthalten ebenfalls Venn-Diagramme, aus denen die Beziehungen zwischen Spalten hervorgehen. In der folgenden Tabelle sind die auf der Registerkarte Ergebnisse angezeigten Eigenschaften beschrieben.
Eigenschaft Linke Tabelle Beschreibung Name der linken Tabelle und in der Join-Analyse verwendete Spalten Name der rechten Tabelle und in der Join-Analyse verwendete Spalten Anzahl der Zeilen in der linken Tabelle, die nicht verbunden werden knnen. Anzahl der Zeilen in der rechten Tabelle, die nicht verbunden werden knnen. Anzahl der in den Join einbezogenen Zeilen.
Rechte Tabelle
Join-Zeilen
Whlen Sie eine Join-Bedingung fr die Anzeige eines Venn-Diagramms zur Darstellung der Beziehungen zwischen den Spalten. Der Bereich unterhalb des Venn-Diagramms enthlt auerdem die Anzahl und den Prozentsatz der verwaisten, Null- und verbundenen Werte in Spalten. Mit einem Doppelklick auf einen Abschnitt im Venn-Diagramm knnen Sie Datenstze anzeigen, die der Abschnitt enthlt. Diese Datenstze werden in der Daten-Viewer-Ansicht geffnet. Hinweis: Sie knnen die Liste der Datenstze aus der Daten-Viewer-Ansicht in eine Einfachdatei exportieren.
berschneidungserkennung
Durch die berschneidungserkennung erhalten Sie Informationen zu Datenberschneidungen in zwei Spalten einer Datenquelle oder mehreren Datenquellen. Sie knnen sich berschneidende Daten eines Profilmodells finden. Sie knnen die Profilergebnisse validieren und die Ergebnisse in Form eines Venn-Diagramms anzeigen. Bei der berschneidungserkennung werden sich berschneidende Daten basierend auf den Standardeinstellungen oder den von Ihnen vorgenommenen Einstellungen erkannt. Sie knnen die Standardeinstellungen berschreiben und Strungsoptionen angeben. Dazu zhlt die maximale Anzahl an Top-Paaren, die die berschneidungserkennung basierend auf dem Prozentsatz der berschneidung zurckgibt. Sie knnen ebenfalls eine Truststufe angeben, mit der Sie die Eignung fr die berschneidungserkennung definieren.
56
berprft
Letzte Ausfhrung
In Informatica Developer wird jedes sich berschneidende Paar zwei Mal in den berschneidungserkennungsErgebnissen angezeigt. Beachten Sie die Datenquellen "Eintrge" und "Auftrge". Die Datenquelle "Eintrge" weist die Spalten "m" und "n" auf. Die Datenquelle "Auftrge" enthlt die Spalten "p" und "q". In der folgenden Tabelle werden die Ergebnisse der berschneidungserkennung fr "Eintrge" und "Auftrge" dargestellt:
Linke Spalte Eintrge m m n n Auftrge p p q q Items.m Items.n Items.m Items.m Orders.p Orders.q Orders.p Orders.q Rechte Spalte
berschneidungserkennung
57
Sie knnen ein einzelnes Datenobjekt auswhlen, um nach sich berschneidenden Daten innerhalb von Spaltenpaaren zu suchen, oder mehrere Datenobjekte auswhlen. 3. Klicken Sie mit der rechten Maustaste auf die Objekte und whlen Sie berschneidungserkennung. Das Dialogfeld Neue berschneidungserkennung wird angezeigt. 4. 5. 6. 7. 8. 9. 10. Geben Sie einen Namen ein. Geben Sie optional eine Textbeschreibung fr die berschneidungserkennung ein. berprfen Sie, ob die Namen der Datenobjekte im Assistenten unter Datenobjekte erscheinen. Whlen Sie optional Ausfhren des Profils nach Beenden, um das Profil auszufhren, wenn die Konfiguration der Einstellungen abgeschlossen ist. Klicken Sie auf Weiter. Whlen Sie die Anzahl der Spalten fr die berschneidungserkennung. Klicken Sie auf Weiter. Die Standardinferenzoptionen werden im Dialogfeld angezeigt. 11. 12. Geben Sie optional die Inferenzoptionen fr die berschneidungserkennung an, um die Standardeinstellungen zu berschreiben. Klicken Sie auf Fertigstellen.
58
ANHANG A
Glossar
S
Spaltenprofil
Ein Profiltyp bestimmt die Charakteristika von Spalten in einer Datenquelle, wie Werthufigkeit, Prozentstze, Muster und Datentypen.
D
Data Explorer
Data Discovery-Produkt von Informatica, das Sie einsetzen knnen, um den Inhalt, die Qualitt und die Struktur von Datenquellen einer Anwendung, eines Schemas oder eines Unternehmens zu untersuchen.
Datenobjektprofil
Ein Repository-Objekt, das den Typ der Analyse definiert, die Sie mit einer Datenquelle ausfhren.
A
Abhngige Spalte
In einer funktionalen Abhngigkeit die Spalte mit den Werten, die von einer Determinantenspalte festgelegt werden.
D
Determinantenspalte
In einer funktionalen Abhngigkeit eine Gruppe von Spalten, die den Wert der abhngigen Spalte festlegt. Wenn der Determinant keine Spalten aufweist, handelt es sich bei der abhngigen Spalte um eine Konstante.
F
Fremdschlssel-Erkennung
Der Prozess, der Spalten in einer Datenquelle sucht, die mit den Primrschlssel-Spalten in der bergeordneten Datenquelle bereinstimmt.
Funktionale Abhngigkeit
Die Beziehung zwischen einer Gruppe von Spalten in einer bestimmten Tabelle, in der die Determinantenspalte die abhngige Spalte funktional festlegt.
Funktionale Abhngigkeitserkennung
Der Prozess, der funktionale Abhngigkeitsverhltnisse zwischen Spalten in einer Datenquelle sucht.
J
Join-Profil
Ein Profiltyp, der den Grad der berschneidung zwischen einer Gruppe von einer oder mehreren Spalten in einer Datenquelle und eine hnliche Gruppe in derselben oder einer anderen Datenquelle festlegt.
P
Primrschlssel-Erkennung
Ein Prozess zur Erkennung einer Spalte oder Kombination von Spalten mit einer einmaligen Kennung fr eine Zeile in einer Datenquelle.
Profil
Ein Objekt, das Regeln zum Erkennen von Mustern in einer Datenquelle enthlt. Fhren Sie ein Profil zum Evaluieren der Datenstruktur aus und stellen Sie sicher, dass Datenspalten die erwarteten Informationstypen enthalten.
Profilmodell
Ein Repository-Objekt, das Metadaten fr eine Anwendung oder ein Schema aufzeichnet. Ein Profilmodell enthlt Datenobjekte, die der Daten-Explorer verwendet, um auf Daten zuzugreifen, die zum Profiling und zur Verifizierung verwendet werden. Es enthlt ebenfalls strukturelle Objekte wie Beziehungen, Schlssel und funktionale Abhngigkeiten.
R
Regel
Wiederverwendbare Geschftslogik, die Bedingungen definiert, welche auf Daten angewendet werden, wenn ein Profil ausgefhrt wird. Verwenden Sie Regeln zur weiteren Validierung von Daten in einem Profil und zur Messung des Fortschritts in der Datenqualitt. Sie knnen eine Regel in Informatica Analyst oder Informatica Developer erstellen.
60
Glossar
INDEX
D
Data Discovery Prozess 4 Data Explorer Architektur 3 Einfhrung 2 Datenobjektprofile Erstellen eines einzelnen Profils 42 Erstellen mehrerer Kundenprofile 43 bersicht 37
Exportieren 21 Exportieren aus Informatica Analyst 22 Exportieren in Informatica Developer 46 Spaltenmuster 19 Spaltenstatistik 20 Spaltenwerte 19 Zusammenfassung 18 Profilmodell bersicht 52
R
Regeln Anwenden einer vordefinierten Regel 24 Anwenden in Informatica Developer 48 Erstellen einer Expressionsregel 25 Erstellen in Informatica Developer 47 Expression 25 bersicht 10 vordefiniert 24
E
Erstellen einer Expressionsregel Regeln 25 Erstellen eines benutzerdefinierten Profils Profile 14 Expressionsregeln Prozess 25
F
Fremdschlssel-Erkennung bersicht 53 Fremdschlssel-Profil Erkennen 53 Funktionale Abhngigkeitserkennung bersicht 40
S
Scorecards anzeigen 29 bearbeiten 30 Bearbeiten einer Gruppe 31 Definieren von Schwellenwerten 30 Drilldown 32 Erstellen einer Gruppe 30 Hinzufgen von Spalten zu einer Scorecard 28 Informatica Analyst 27 Informatica Analyst-Prozess 27 Informatica Developer 49 Lschen einer Gruppe 32 Score-Gruppen 30 bersicht 10 Verschieben von Scores 31 wird ausgefhrt 29 Spaltenprofil Drilldown 20 Informatica Developer 38 Optionen 9 Prozess 12 bersicht 9 Spaltenprofilergebnisse Informatica Developer 44
I
Informatica Analyst Regeln 23 Spaltenprofile - bersicht 12 Spaltenprofilergebnisse 17 Informatica Developer Profilansichten 36 Profilbersicht 35 Regeln 47
M
Mapplet- und Mapping-Profiling bersicht 50
P
Primrschlssel-Erkennung bersicht 39 Profil Komponenten 7 Profile ausfhren 15 Erstellen eines benutzerdefinierten Profils 14 Profilergebnisse Drilldown 21 Excel 22
T
Trenddiagramme anzeigen 32
U
berschneidungserkennung durchfhren 57 Ergebnisse 57 bersicht 56
61
V
Vordefinierte Regeln Prozess 24
62
Index