Informatica ETL: een beginnershandleiding om ETL te begrijpen met Informatica PowerCenter

De concepten van Informatica ETL en de verschillende stadia van het ETL-proces begrijpen en een use-case oefenen met de Medewerker database.

Het doel van Informatica ETL is om de gebruikers niet alleen een proces te bieden van het extraheren van gegevens uit bronsystemen en deze in het datawarehouse te brengen, maar ook om de gebruikers een gemeenschappelijk platform te bieden om hun gegevens van verschillende platforms en applicaties te integreren.Dit heeft geleid tot een toename van de vraag naar .Voordat we het hebben over Informatica ETL, moeten we eerst begrijpen waarom we ETL nodig hebben.

Waarom hebben we ETL nodig?

Elk bedrijfdeze dagen moeten grote hoeveelheden gegevens uit verschillende bronnen verwerken. Deze gegevens moeten worden verwerkt om inzichtelijke informatie te geven voor het nemen van zakelijke beslissingen. Maar vaak hebben dergelijke gegevens de volgende uitdagingen:



  • Grote bedrijven genereren veel gegevens en zo'n enorme hoeveelheid gegevens kan in elk formaat zijn. Ze zouden beschikbaar zijn in meerdere databases en veel ongestructureerde bestanden.
  • Deze gegevens moeten worden verzameld, gecombineerd, vergeleken en tot een naadloos geheel worden gemaakt. Maar de verschillende databases communiceren niet goed!
  • Veel organisaties hebben interfaces tussen deze databases geïmplementeerd, maar ze stonden voor de volgende uitdagingen:
    • Elk paar databases vereist een unieke interface.
    • Als u één database wijzigt, moeten mogelijk veel interfaces worden bijgewerkt.

Hieronder ziet u de verschillende databases van een organisatie en hun interacties:

Diverse datasets van een organisatie - Informatica - ETL - Edureka

Diverse databases die door verschillende afdelingen van een organisatie worden gebruikt

Verschillende interacties van de databases in een organisatie

Zoals hierboven te zien is, kan een organisatie verschillende databases hebben in de verschillende afdelingen en wordt de interactie tussen deze databases moeilijk te implementeren omdat er verschillende interactie-interfaces voor moeten worden gemaakt. Om deze uitdagingen het hoofd te bieden, is de best mogelijke oplossing het gebruik van de concepten van Gegevens integratie waardoor gegevens uit verschillende databases en formaten met elkaar kunnen communiceren. De onderstaande afbeelding helpt ons te begrijpen hoe de Data Integration-tool een gemeenschappelijke interface wordt voor communicatie tussen de verschillende databases.

Diverse databases verbonden via data-integratie

Maar er zijn verschillende processen beschikbaar om gegevensintegratie uit te voeren. Van deze processen is ETL het meest optimale, efficiënte en betrouwbare proces. Via ETL kan de gebruiker niet alleen de gegevens uit verschillende bronnen binnenhalen, maar hij kan ook de verschillende bewerkingen op de gegevens uitvoeren voordat deze gegevens op het einddoel worden opgeslagen.

Van de verschillende beschikbare ETL-tools die op de markt beschikbaar zijn, is Informatica PowerCenter het toonaangevende data-integratieplatform op de markt. Na getest te hebben op bijna 500.000 combinaties van platforms en applicaties, werkt Informatica PowerCenter inter met het breedst mogelijke scala aan ongelijksoortige standaarden, systemen en applicaties. Laten we nu de stappen begrijpen die betrokken zijn bij het Informatica ETL-proces.

Informatica ETL | Informatica Architecture | Informatica PowerCenter-zelfstudie | Edureka

Deze tutorial van Edureka Informatica helpt u de basisprincipes van ETL met Informatica Powercenter tot in detail te begrijpen.

hoe je iets tot een macht in java kunt verheffen

Stappen in het Informatica ETL-proces:

Voordat we verder gaan met de verschillende stappen die betrokken zijn bij Informatica ETL, laten we eerst een overzicht hebben van ETL. In ETL is extractie waar gegevens worden geëxtraheerd uit homogene of heterogene gegevensbronnen, transformatie waarbij de gegevens worden getransformeerd voor opslag in het juiste formaat of de juiste structuur met het oog op query's en analyse en laden waar de gegevens worden geladen in de uiteindelijke doeldatabase, operationele datastore, datamart of datawarehouse. De onderstaande afbeelding zal u helpen begrijpen hoe het Informatica ETL-proces verloopt.

ETL-procesoverzicht

Zoals hierboven te zien is, kan Informatica PowerCenter gegevens uit verschillende bronnen laden en opslaan in één datawarehouse. Laten we nu eens kijken naar de stappen die betrokken zijn bij het Informatica ETL-proces.

Er zijn hoofdzakelijk 4 stappen in het Informatica ETL-proces, laten we ze nu grondig begrijpen:

  1. Extraheren of vastleggen
  2. Schrobben of reinigen
  3. Transformeren
  4. Laden en indexeren

1. Extraheren of vastleggen: Zoals te zien is in de onderstaande afbeelding, is Capture of Extract de eerste stap van het Informatica ETL-proces.Het is het proces van het verkrijgen van een momentopname van de gekozen subset van gegevens uit de bron, die in het datawarehouse moet worden geladen. Een momentopname is een alleen-lezen statische weergave van de gegevens in de database. Het extractieproces kan uit twee typen bestaan:

  • Volledig uittreksel: De gegevens worden volledig uit het bronsysteem gehaald en het is niet nodig om wijzigingen in de gegevensbron bij te houden sinds de laatste succesvolle extractie.
  • Incrementeel extract: Hiermee worden alleen wijzigingen vastgelegd die zijn opgetreden sinds het laatste volledige extract.

Fase 1: extraheren of vastleggen

2. Schrobben of reinigen: Dit is het proces van het opschonen van de gegevens die uit de bron komen door verschillende patroonherkenning en AI-technieken te gebruiken om de kwaliteit van de voortgezette gegevens te verbeteren. Gewoonlijk zijn de fouten zoals spelfouten, verkeerde datums, onjuist veldgebruik, niet-overeenkomende adressen, ontbrekende gegevens, dubbele gegevens, inconsistentiesgemarkeerd en vervolgens gecorrigeerd of verwijderdin deze stap. Ook worden in deze stap bewerkingen zoals decoderen, opnieuw formatteren, tijdstempelen, conversie, sleutelgeneratie, samenvoegen, foutdetectie / logboekregistratie, lokaliseren van ontbrekende gegevens uitgevoerd. Zoals te zien is in de onderstaande afbeelding, is dit de tweede stap van het Informatica ETL-proces.

Fase 2: opschonen of opschonen van gegevens

3. Transformeren: Zoals te zien is in de onderstaande afbeelding, is dit de derde en meest essentiële stap van het Informatica ETL-proces. Transformaties is de bewerking van het converteren van gegevens van het formaat van het bronsysteem naar het skelet van Data Warehouse. Een transformatie wordt in feite gebruikt om een ​​set regels weer te geven, die de gegevensstroom definiëren en hoe de gegevens in de doelen worden geladen. Voor meer informatie over transformatie, ga naar Transformaties in Informatica Blog.

Fase 3: transformatie

4. Belasting en index: Dit is de laatste stap van het Informatica ETL-proces, zoals te zien is in de onderstaande afbeelding. In deze fase plaatsen we de getransformeerde gegevens in het magazijn en maken we indexen voor de gegevens. Er zijn twee hoofdtypen voor het laden van gegevens beschikbaar op basis van het laadproces:

  • Volledige lading of bulklading :Het gegevenslaadproces wanneer we het voor de eerste keer doen. De taak haalt het volledige gegevensvolume uit een brontabel en laadt in het doeldatawarehouse na het toepassen van de vereiste transformaties. Het wordt een eenmalige taak die wordt uitgevoerd, waarna alleen de wijzigingen worden vastgelegd als onderdeel van een incrementeel extract.
  • Incrementeel laden of Vernieuwen laden : Alleen de gewijzigde gegevens worden in het doel bijgewerkt, gevolgd door volledige belasting. De wijzigingen worden vastgelegd door de gemaakte of gewijzigde datum te vergelijken met de datum van de laatste uitvoering van de taak.Alleen de gewijzigde gegevens worden uit de bron gehaald en zullen in het doel worden bijgewerkt zonder de bestaande gegevens te beïnvloeden.

Fase 4: laden en indexeren

Als u het Informatica ETL-proces heeft begrepen, kunnen we nu beter begrijpen waarom Informatica in dergelijke gevallen de beste oplossing is.

Kenmerken van Informatica ETL:

Voor alle data-integratie en ETL-operaties heeft Informatica ons voorzien Informatica PowerCenter . Laten we nu enkele belangrijke kenmerken van Informatica ETL bekijken:

  • Biedt de mogelijkheid om een ​​groot aantal transformatieregels met een GUI op te geven.
  • Genereer programma's om gegevens te transformeren.
  • Behandel meerdere gegevensbronnen.
  • Ondersteunt gegevensextractie, opschoning, aggregatie, reorganisatie, transformatie en laadbewerkingen.
  • Genereert automatisch programma's voor gegevensextractie.
  • Snel laden van target datawarehouses.

Hieronder staan ​​enkele typische scenario's waarin Informatica PowerCenter wordt gebruikt:

  1. Data migratie:

Een bedrijf heeft voor zijn boekhoudafdeling een nieuwe crediteurenaanvraag aangeschaft. PowerCenter kan de bestaande accountgegevens naar de nieuwe applicatie verplaatsen. De onderstaande afbeelding zal u helpen begrijpen hoe u Informatica PowerCenter for Data-migratie kunt gebruiken. Informatica PowerCenter kan tijdens het datamigratieproces gemakkelijk de gegevensafkomst bewaren voor belasting-, boekhoudkundige en andere wettelijk verplichte doeleinden.

Gegevensmigratie van een oudere boekhoudapplicatie naar een nieuwe applicatie

  1. Applicatie-integratie:

Laten we zeggen dat bedrijf-A bedrijf-B koopt. Om de voordelen van consolidatie te behalen, moet het factureringssysteem van Bedrijf-B dus worden geïntegreerd in het factureringssysteem van Bedrijf-A, wat eenvoudig kan worden gedaan met Informatica PowerCenter. Onderstaande figuur zal u helpen begrijpen hoe u Informatica PowerCenter kunt gebruiken voor de integratie van applicaties tussen de bedrijven.

Applicatie tussen bedrijven integreren

  1. Data opslagplaats

Typische acties die nodig zijn in datawarehouses zijn:

  • Informatie uit vele bronnen samenvoegen voor analyse.
  • Gegevens verplaatsen van veel databases naar het datawarehouse.

Alle bovenstaande typische gevallen kunnen eenvoudig worden uitgevoerd met Informatica PowerCenter. Hieronder ziet u dat Informatica PowerCenter wordt gebruikt om de gegevens uit verschillende soorten databases zoals Oracle, SalesForce, enz. Te combineren en naar een gemeenschappelijk datawarehouse te brengen dat is gemaakt door Informatica PowerCenter.

Data Uit verschillende databases geïntegreerd in een gemeenschappelijk datawarehouse

  1. Middleware

Stel dat een retailorganisatie gebruikmaakt van SAP R3 voor haar Retail-applicaties en SAP BW als datawarehouse. Een directe communicatie tussen deze twee applicaties is niet mogelijk vanwege het ontbreken van een communicatie-interface. Informatica PowerCenter kan echter worden gebruikt als middleware tussen deze twee toepassingen. In de onderstaande afbeelding ziet u de architectuur van hoe Informatica PowerCenter wordt gebruikt als middleware tussen SAP R / 3 en SAP BW. De applicaties van SAP R / 3 dragen hun gegevens over naar het ABAP-framework, dat ze vervolgens naar hetSAP Point of Sale (POS) en SAPServicevestigingen (BOS). Informatica PowerCenter helpt bij de overdracht van gegevens van deze services naar het SAP Business Warehouse (BW).

Informatica PowerCenter als middleware in SAP Retail Architecture

Hoewel u enkele belangrijke kenmerken en typische scenario's van Informatica ETL hebt gezien, hoop ik dat u begrijpt waarom Informatica PowerCenter de beste tool is voor ETL-processen. Laten we nu eens kijken naar een use case van Informatica ETL.

Gebruiksvoorbeeld: twee tabellen samenvoegen om één gedetailleerde tabel te verkrijgen

Stel dat u uw medewerkers afdelingsgewijs vervoer wilt bieden, aangezien de afdelingen zich op verschillende locaties bevinden. Om dit te doen, moet u eerst weten tot welke afdeling elke medewerker behoort en de locatie van de afdeling. De gegevens van werknemers worden echter in verschillende tabellen opgeslagen en u moet de gegevens van de afdeling toevoegen aan een bestaande database met de gegevens van alle werknemers. Om dit te doen, laden we eerst beide tabellen in Informatica PowerCenter, voeren we Source Qualifier Transformation uit op de gegevens en laden we ten slotte de details naar Target Database..Laten we beginnen:

Stap 1 : Open PowerCenter Designer.

Hieronder vindt u de startpagina van Informatica PowerCenter Designer.

Laten we nu verbinding maken met de repository. Als u uw opslagplaatsen niet heeft geconfigureerd of problemen ondervindt, kunt u onze Blog.

Stap 2: Klik met de rechtermuisknop op uw repository en selecteer de verbindingsoptie.

Als u op de verbindingsoptie klikt, wordt u gevraagd naar het onderstaande scherm, waarin u wordt gevraagd om uw gebruikersnaam en wachtwoord voor de opslagplaats.

Zodra je verbinding hebt gemaakt met je repository, moet je je werkmap openen zoals hieronder te zien is:

U wordt gevraagd om de naam van uw mapping. Specificeer de naam van uw mapping en klik op OK (ik heb het genoemd als m-WERKNEMER ).

Stap 3: Laten we nu de tabellen uit de database laden. Begin door verbinding te maken met de database. Om dit te doen, selecteert u het tabblad Bronnen en de optie Importeren uit database, zoals hieronder te zien is:

Als u op Importeren uit database klikt, wordt het onderstaande scherm weergegeven waarin u de details van uw database en de gebruikersnaam en het wachtwoord voor verbinding vraagt ​​(ik gebruik de oracle-database en de HR-gebruiker).

Klik op Verbinden om verbinding te maken met uw database.

c ++ sorteert een array

Stap 4: Omdat ik me bij de WERKNEMERS en AFDELING tabellen, ik zal ze selecteren en op OK klikken.
De bronnen zijn zichtbaar in de werkruimte van uw kaartontwerper, zoals hieronder te zien is.

Stap 5: Laad op dezelfde manier de doeltabel naar de mapping.

Stap 6: Laten we nu de bronkwalificatie en de doeltabel koppelen. Klik met de rechtermuisknop op een lege plek in de werkruimte en selecteer Autolink zoals hieronder te zien is:

Hieronder ziet u de mapping die door Autolink is gekoppeld.

Stap 7: Omdat we beide tabellen aan de Source Qualifier moeten koppelen, selecteert u de kolommen van de Department-tabel en zet u deze neer in de Source Qualifier zoals hieronder te zien is:

Zet de kolomwaarden neer in de Source Qualifier SQ_EMPLOYEES .

Hieronder vindt u de bijgewerkte Source Qualifier.

Stap 8: Dubbelklik op Source Qualifier om de transformatie te bewerken.

Je krijgt de Edit Transformation pop-up zoals hieronder te zien is. Klik op het tabblad Eigenschappen.

Stap 9: Klik op het tabblad Eigenschappen op het veld Waarde van de rij UserDefined Join.

U krijgt de volgende SQL-editor:

Stap 10: Enter EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID als voorwaarde om beide tabellen in het SQL-veld samen te voegen en klik op OK.

Stap 11: Klik nu op de rij SQL Query om de SQL te genereren om mee te doen, zoals hieronder te zien is:

U krijgt de volgende SQL-editor, klik op de optie SQL genereren.

De volgende SQL wordt gegenereerd voor de voorwaarde die we in de vorige stap hadden opgegeven. Klik op OK.

Stap 12: Klik op Toepassen en OK.

Hieronder ziet u de voltooide mapping.

We hebben het ontwerp voltooid van de manier waarop de gegevens van de bron naar het doel moeten worden overgedragen. De daadwerkelijke overdracht van gegevens moet echter nog plaatsvinden en daarvoor moeten we het PowerCenter Workflow Design gebruiken. De uitvoering van de workflow zal leiden tot de overdracht van gegevens van de bron naar het doel. Raadpleeg onze voor meer informatie over workflow Informatica-zelfstudie: workflow Blog

Stap 13: L.et ons starten nu de Workflow Manager door op het W-pictogram te klikken, zoals hieronder te zien is:

Hieronder vindt u de startpagina van de workflowontwerper.

Stap 14: Laten we nu een nieuwe workflow maken voor onze mapping. Klik op het tabblad Workflow en selecteer Create Option.

U krijgt de onderstaande pop-up. Specificeer de naam van uw workflow en klik op OK.

Stap 15 : Zodra een workflow is gemaakt, krijgen we het startpictogram in de Workflow Manager-werkruimte.

Laten we nu een nieuwe sessie aan de werkruimte toevoegen zoals hieronder te zien is door op het sessiepictogram te klikken en op de werkruimte te klikken:

Klik op de werkruimte om het sessiepictogram te plaatsen.

Stap 16: Bij het toevoegen van de sessie moet u de mapping selecteren die u in de bovenstaande stappen heeft gemaakt en opgeslagen. (Ik had het opgeslagen als m-WERKNEMER).

Hieronder ziet u de werkruimte na het toevoegen van het sessiepictogram.

Stap 17 : Nu u een nieuwe sessie heeft aangemaakt, moeten we deze aan de starttaak koppelen. We kunnen het doen door op het pictogram Link Task te klikken, zoals hieronder te zien is:

Klik eerst op het pictogram Start en vervolgens op het pictogram Sessie om een ​​koppeling tot stand te brengen.

Hieronder vindt u een gekoppelde workflow.

Stap 18: Nu we het ontwerp hebben voltooid, kunnen we de workflow starten. Klik op het tabblad Workflow en selecteer de optie Start Workflow.

Workflowmanager die Workflowmonitor start.

Stap 19 : Zodra we de workflow starten, wordt de Workflow Manager automatisch gestartenstelt u in staat om de uitvoering van uw workflow te volgen. Hieronder ziet u dat de Workflow Monitor de status van uw workflow laat zien.

Stap 20: Om de status van de workflow te controleren, klikt u met de rechtermuisknop op de workflow en selecteert u Get Run Properties zoals hieronder weergegeven:

Selecteer het tabblad Bron- / doelstatistieken.

java classpath instellen in linux

Hieronder ziet u het aantal rijen dat na transformatie is overgedragen tussen de bron en het doel.

U kunt uw resultaat ook verifiëren door uw doeltabel te controleren, zoals hieronder te zien is.

Ik hoop dat dit Informatica ETL-blog nuttig was om uw begrip van de concepten van ETL met Informatica te vergroten en voor u voldoende interesse heeft gewekt om meer over Informatica te leren.

Als u deze blog nuttig vond, kunt u ook onze serie Informatica Tutorial-blogs bekijken , Informatica-zelfstudie: Informatica ‘Inside Out’ begrijpen en Informatica Transformations: The Heart and Soul of Informatica PowerCenter . Als u op zoek bent naar informatie over Informatica-certificering, kunt u onze blog raadplegen Informatica-certificering: alles wat er te weten valt .

Als je al hebt besloten om Informatica als carrière op te nemen, raad ik je aan om eens een kijkje te nemen bij onze cursuspagina. De Informatica-certificeringstraining bij Edureka maakt van u een expert in Informatica door middel van live sessies onder leiding van een instructeur en hands-on training waarbij gebruik wordt gemaakt van praktijkvoorbeelden.