Talend ETL-tool - Talend Open Studio voor gegevensverwerking



Deze blog over de Talend ETL-tool gaat over een open source ETL-tool - Talend for Data Integration, die een gebruiksvriendelijke GUI biedt om het ETL-proces uit te voeren.

Omgaan met heterogene gegevens is zeker een vervelende taak, maar naarmate het gegevensvolume toeneemt, wordt het alleen maar vermoeiender. Dit is waar de ETL-tools helpen bij het omzetten van deze gegevens in homogene gegevens. Nu zijn deze getransformeerde gegevens gemakkelijk te analyseren en de nodige informatie hieruit af te leiden. In deze blog over Talend ETL zal ik het hebben over hoe Talend uitzonderlijk werkt als ETL-tool om waardevolle inzichten uit Big Data te benutten.

In deze Talend ETL-blog ga ik in op de volgende onderwerpen:





Je kunt ook deze uitgebreide video-tutorial doorlopen waar onze Expert legt Talend ETL en de gegevensverwerking daarmee op een gedetailleerde manier uit met heldere voorbeelden.

Talend ETL-zelfstudie | Talend online training | Edureka

Wat is een ETL-proces?



ETL staat voor Extract, Transform en Load. Het verwijst naar een drietal processen die nodig zijn om de onbewerkte gegevens van de bron naar een datawarehouse of een database te verplaatsen. Laat me elk van deze processen in detail uitleggen:

  1. Extract

    Extractie van gegevens is de belangrijkste stap van ETL waarbij toegang wordt verkregen tot de gegevens van alle opslagsystemen. De opslagsystemen kunnen RDBMS, Excel-bestanden, XML-bestanden, platte bestanden, ISAM (Indexed Sequential Access Method), hiërarchische databases (IMS), visuele informatie enz. Zijn. Omdat het de meest essentiële stap is, moet het zo worden ontworpen. dat het de bronsystemen niet negatief beïnvloedt. Het extractieproces zorgt er ook voor dat de parameters van elk item duidelijk worden geïdentificeerd, ongeacht het bronsysteem.

  2. Transformeren

    Transformatie is het volgende proces in de pijplijn. In deze stap worden volledige gegevens geanalyseerd en worden er verschillende functies op toegepast om deze om te zetten in het vereiste formaat. Over het algemeen zijn de processen die worden gebruikt voor de transformatie van de gegevens conversie, filteren, sorteren, standaardiseren, verwijderen van duplicaten, vertalen en verifiëren van de consistentie van verschillende gegevensbronnen.

  3. Laden

    Het laden is de laatste fase van het ETL-proces. In deze stap worden de verwerkte gegevens, d.w.z. de geëxtraheerde en getransformeerde gegevens, vervolgens geladen in een doelgegevensopslagplaats, meestal de databases. Bij het uitvoeren van deze stap moet ervoor worden gezorgd dat de laadfunctie nauwkeurig wordt uitgevoerd, maar met minimale middelen. Bovendien moet u tijdens het laden de referentiële integriteit behouden, zodat u de consistentie van de gegevens niet verliest. Zodra de gegevens zijn geladen, kunt u elk deel van de gegevens oppikken en deze gemakkelijk met andere delen vergelijken.

ETL-proces - Talent ETL - Edureka



Nu u weet van het ETL-proces, vraagt ​​u zich misschien af ​​hoe u dit allemaal moet uitvoeren? Welnu, het antwoord is eenvoudig met ETL Tools. In de volgende sectie van deze Talend ETL-blog zal ik het hebben over de verschillende ETL-tools die beschikbaar zijn.

Diverse ETL-tools

Maar voordat ik het heb over ETL-tools, laten we eerst eens kijken wat een ETL-tool precies is.

Zoals ik al heb besproken, zijn ETL drie afzonderlijke processen die verschillende functies vervullen. Wanneer al deze processen worden gecombineerd tot een enkele programmeertool die kunnen helpen bij het voorbereiden van de gegevens en bij het beheren van verschillende databases.Deze tools hebben grafische interfaces waardoor het hele proces van het toewijzen van tabellen en kolommen tussen de verschillende bron- en doeldatabases wordt versneld.

Enkele van de belangrijkste voordelen van de ETL-tools zijn:

  • Het is erg makkelijk te gebruiken omdat het de noodzaak om de procedures en code te schrijven overbodig maakt.
  • Omdat de ETL-tools op GUI zijn gebaseerd, bieden ze een visuele stroom van de logica van het systeem.
  • De ETL-tools hebben een ingebouwde foutafhandelingsfunctionaliteit waardoor ze dat hebben operationele veerkracht .
  • Bij het omgaan met grote en complexe gegevens bieden ETL-tools een beter gegevensbeheer door de taken te vereenvoudigen en u te helpen met verschillende functies.
  • ETL-tools bieden een geavanceerde reeks reinigingsfuncties in vergelijking met de traditionele systemen.
  • ETL-tools hebben een verbeterde bedrijfsinformatie wat een directe impact heeft op de strategische en operationele beslissingen.
  • Vanwege het gebruik van de ETL-tools is de kosten verminderen door veel en de bedrijven zijn in staat om hogere inkomsten te genereren.
  • Prestatie van de ETL-tools is veel beter omdat de structuur van het platform de constructie van een hoogwaardig datawarehousing-systeem vereenvoudigt.

Er zijn verschillende ETL-tools op de markt, die vrij algemeen worden gebruikt. Sommige ervan zijn:

Tussen al deze tools zal ik in deze Talend ETL-blog het hebben over hoe Talend een ETL-tool is.

Talend ETL-tool

Talend open studio voor data-integratie is een van de krachtigste data-integratie ETL-tools die op de markt verkrijgbaar zijn. Met TOS kunt u eenvoudig alle stappen beheren die bij het ETL-proces betrokken zijn, vanaf het eerste ETL-ontwerp tot de uitvoering van het laden van ETL-gegevens. Deze tool is ontwikkeld op de grafische ontwikkelomgeving van Eclipse. Talend open studio biedt u de grafische omgeving waarmee u eenvoudig de gegevens tussen de bron en het doelsysteem kunt toewijzen. Het enige dat u hoeft te doen, is de vereiste componenten van het palet naar de werkruimte slepen en neerzetten, ze configureren en uiteindelijk met elkaar verbinden. Het biedt u zelfs een opslagplaats voor metagegevens van waaruit u uw werk gemakkelijk kunt hergebruiken en opnieuw kunt gebruiken. Dit zal u zeker helpen uw efficiëntie en productiviteit in de loop van de tijd te verhogen.

Hiermee kun je concluderen dat de open studio van Talend voor DI een geïmproviseerde data-integratie biedt samen met een sterke connectiviteit, eenvoudig aanpassingsvermogen en een soepele stroom van extractie- en transformatieproces.

Laten we in het volgende gedeelte van dit Talend ETL-blog kijken hoe u het ETL-proces in Talend kunt uitvoeren.

Talend Open Studio: een ETL-taak uitvoeren

Om het ETL-proces te demonstreren, zal ik gegevens uit een Excel-bestand extraheren en het transformeren door een filter toe te passennaarde gegevens en vervolgens de nieuwe gegevens in een database laden. Hieronder volgt het formaat van mijn Excel-gegevensset:

Uit deze dataset zal ik de rijen met gegevens filteren op basis van het klanttype en ze allemaal opslaan in een andere databasetabel. Volg de onderstaande stappen om dit uit te voeren:

STAP 1: Maak een nieuwe job en versleep de volgende componenten vanuit het palet:
  1. tMysqlConnection
  2. tFileExcelInput
  3. tRepliceren
  4. ( tFilterRow ) X4
  5. ( tMysqlOutput ) X4

STAP 2: Verbind de componenten met elkaar zoals hieronder getoond:

bedrijven die de programmeertaal r gebruiken

STAP 3: Ga naar het componenttabblad van tMysqlConnection en selecteer bij ‘Property Type’ welk type verbinding u gebruikt Ingebouwd of Repository. Als u een ingebouwde verbinding gebruikt, moet u de volgende details specificeren:
  1. Gastheer
  2. Haven
  3. Database
  4. Gebruikersnaam
  5. Wachtwoord

Maar als u een Repository-verbinding gebruikt, worden de details standaard opgehaald uit de Repository.

STAP 4: Dubbelklik op de tFileInputExcel en specificeer in het componenttabblad het pad van uw bronbestand, het aantal rijen dat wordt gebruikt voor de koptekst in het veld 'Header' en het nummer van de kolom van waaruit Talend uw gegevens moet beginnen lezen in de 'Eerste kolom' 'veld. Ontwerp in het ‘Schema bewerken’ het schema volgens uw gegevenssetbestand.

STAP 5 :Klik op het componententabblad van tReplicate op ‘Kolommen synchroniseren’.

STAP 6: Ga naar het componenttabblad van de eerste tFilterRow en controleer het schema. Afhankelijk van uw conditie kunt u de kolom (men) selecteren en de functie, operator en de waarde specificeren waarop gegevens moeten worden gefilterd.

STAP 7: Herhaal hetzelfde voor alle tFilterRow-componenten.

STAP 8: Ten slotte, op het componententabblad van tMysqlOutput, vink het vakje aan voor ‘Gebruik een bestaande verbinding’. Geef vervolgens de tabelnaam op in het veld ‘Tabel’ en selecteer de ‘Actie op tafel’ en ‘Actie op gegevens’ zoals vereist.

STAP 9: Herhaal hetzelfde voor alle tMysqlOutput-componenten.

STAP 10: Als u klaar bent, gaat u naar het tabblad 'Uitvoeren' en voert u de taak uit.

Dit brengt ons bij het einde van deze blog over Talend ETL. Ik zou deze blog willen afsluiten met een simpele gedachte die je moet volgen:

'De toekomst is voor degenen die hun gegevens kunnen beheren'

Als je deze Talend ETL blog, relevant, bekijk de door Edureka, een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld. De Edureka Talend voor DI en Big Data Certification Training-cursus helpt je om Talend en Big Data Integration Platform onder de knie te krijgen en eenvoudig al je data te integreren met je datawarehouse en applicaties, of data tussen systemen te synchroniseren. Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.