Big Data-zelfstudie: alles wat u moet weten over big data!



Deze blog over Big Data Tutorial geeft je een compleet overzicht van Big Data, de kenmerken, toepassingen en uitdagingen met Big Data.

Big Data-zelfstudie

Big Data, heb je deze term nog niet eerder gehoord? Ik weet zeker dat je dat hebt gedaan. In de afgelopen 4 tot 5 jaar heeft iedereen het over Big Data. Maar weet u echt wat deze Big Data precies is, hoe het een impact heeft op ons leven en waarom organisaties op jacht zijn naar professionals met ? In deze Big Data Tutorial geef ik je een compleet inzicht in Big Data.

Hieronder staan ​​de onderwerpen die ik in deze Big Data Tutorial zal behandelen:





  • Verhaal van Big Data
  • Big Data-drijvende factoren
  • Wat is Big Data?
  • Big Data-kenmerken
  • Soorten big data
  • Voorbeelden van Big Data
  • Toepassingen van Big Data
  • Uitdagingen met big data

Big Data-zelfstudie - Edureka

Laat me deze Big Data-tutorial beginnen met een kort verhaal.



Verhaal van Big Data

Vroeger reisden mensen van het ene dorp naar het andere op een door paarden aangedreven kar, maar naarmate de tijd verstreek, werden dorpen steden en verspreidden mensen zich. De afstand om van de ene stad naar de andere te reizen, nam ook toe. Het werd dus een probleem om tussen steden te reizen, samen met de bagage. Uit het niets, stelde een slimme kerel voor: we zouden een paard meer moeten verzorgen en voeren om dit probleem op te lossen. Als ik naar deze oplossing kijk, valt het mee, maar denk je dat een paard een olifant kan worden? Ik denk het niet. Een andere slimme man zei: in plaats van 1 paard dat de kar trekt, laten we 4 paarden hebben om dezelfde kar te trekken. Wat vinden jullie van deze oplossing? Ik vind het een fantastische oplossing. Nu kunnen mensen grote afstanden in minder tijd afleggen en zelfs meer bagage meenemen.

Hetzelfde concept is van toepassing op Big Data. Big Data zegt dat we tot op de dag van vandaag oké waren met het opslaan van de gegevens op onze servers omdat het volume van de gegevens vrij beperkt was, en de hoeveelheid tijd om deze gegevens te verwerken ook goed was. Maar nu in deze huidige technologische wereld groeien de gegevens te snel en vertrouwen mensen vaak op de gegevens. Ook door de snelheid waarmee de data groeit, wordt het onmogelijk om de data op een server op te slaan.

Laten we met deze blog over Big Data Tutorial de bronnen van Big Data verkennen, die de traditionele systemen niet kunnen opslaan en verwerken.



Big Data-drijvende factoren

De hoeveelheid gegevens op aarde groeit om verschillende redenen exponentieel. Verschillende bronnen en onze dagelijkse activiteiten genereren veel gegevens. Met de uitvinding van het web is de hele wereld online gegaan, alles wat we doen laat een digitaal spoor achter. Nu de slimme objecten online gaan, is de datagroei snel toegenomen. De belangrijkste bronnen van Big Data zijn sociale mediasites, sensornetwerken, digitale afbeeldingen / video's, mobiele telefoons, gegevens over aankooptransacties, weblogs, medische dossiers, archieven, militaire bewaking, e-commerce, complex wetenschappelijk onderzoek, enzovoort. Al deze informatie komt neer op ongeveer enkele Quintillion bytes aan gegevens. Tegen 2020 zullen de datavolumes ongeveer 40 Zettabyte bedragen, wat overeenkomt met het toevoegen van elke zandkorrel op de planeet vermenigvuldigd met vijfenzeventig.

Wat is Big Data?

Big Data is een term die wordt gebruikt voor een verzameling datasets die groot en complex zijn, die moeilijk op te slaan en te verwerken zijn met behulp van beschikbare databasebeheertools of traditionele dataverwerkingstoepassingen. De uitdaging omvat het vastleggen, beheren, opslaan, zoeken, delen, overdragen, analyseren en visualiseren van deze gegevens.

Big Data-kenmerken

De vijf kenmerken die Big Data definiëren zijn: Volume, Velocity, Variety, Veracity en Value.

  1. VOLUME

    Volume verwijst naar de ‘hoeveelheid gegevens’, die met een zeer snel tempo met de dag groeit. De omvang van de gegevens die door mensen, machines en hun interacties op sociale media zelf worden gegenereerd, is enorm. Onderzoekers hebben voorspeld dat tegen 2020 40 Zettabytes (40.000 Exabytes) zullen worden gegenereerd, wat een toename is van 300 keer ten opzichte van 2005.

  2. SNELHEID

    Snelheid wordt gedefinieerd als het tempo waarmee verschillende bronnen de gegevens elke dag genereren. Deze gegevensstroom is enorm en continu. Er zijn vanaf nu 1,03 miljard dagelijkse actieve gebruikers (Facebook DAU) op mobiel, wat een stijging is van 22% op jaarbasis. Dit laat zien hoe snel het aantal gebruikers op sociale media groeit en hoe snel de data dagelijks wordt gegenereerd. Als u de snelheid aankan, kunt u inzichten genereren en beslissingen nemen op basis van realtime gegevens.

  3. VERSCHEIDENHEID

    Aangezien er veel bronnen zijn die bijdragen aan Big Data, is het type gegevens dat ze genereren verschillend. Het kan gestructureerd, semi-gestructureerd of ongestructureerd zijn. Daarom wordt er elke dag een verscheidenheid aan gegevens gegenereerd. Vroeger haalden we de gegevens uit Excel en databases, nu komen de gegevens in de vorm van afbeeldingen, audio, video's, sensorgegevens enz. Zoals weergegeven in de onderstaande afbeelding. Daarom zorgt deze verscheidenheid aan ongestructureerde gegevens voor problemen bij het vastleggen, opslaan, ontginnen en analyseren van de gegevens.

  4. VERACITY

    Waarheidsgetrouwheid verwijst naar de gegevens in twijfel of onzekerheid over de beschikbare gegevens als gevolg van inconsistentie en onvolledigheid van de gegevens. In de onderstaande afbeelding kun je zien dat er enkele waarden ontbreken in de tabel. Ook zijn een paar waarden moeilijk te accepteren, bijvoorbeeld - 15000 minimumwaarde in de 3e rij is niet mogelijk. Deze inconsistentie en onvolledigheid is Waarheid.
    Beschikbare gegevens kunnen soms rommelig worden en misschien moeilijk te vertrouwen. Met veel vormen van big data zijn kwaliteit en nauwkeurigheid moeilijk te controleren, zoals Twitter-berichten met hashtags, afkortingen, typefouten en spreektaal. Het volume is vaak de reden voor het gebrek aan kwaliteit en nauwkeurigheid van de gegevens.

    • Vanwege onzekerheid van gegevens vertrouwt 1 op de 3 bedrijfsleiders de informatie die ze gebruiken om beslissingen te nemen niet.
    • Uit een enquête bleek dat 27% van de respondenten niet zeker wist hoeveel van hun gegevens onnauwkeurig waren.
    • Een slechte datakwaliteit kost de Amerikaanse economie ongeveer 3,1 biljoen dollar per jaar.
  5. WAARDE

    Na het bespreken van Volume, Velocity, Variety en Waarheid, is er nog een V waarmee rekening moet worden gehouden bij het kijken naar Big Data, d.w.z. waarde. Het is allemaal goed en wel om toegang te hebben tot grootgegevensmaartenzij we het in waarde kunnen veranderen, is het nutteloos. Door er waarde van te maken bedoel ik: draagt ​​het bij aan de voordelen van de organisaties die big data analyseren? Realiseert de organisatie aan Big Data een hoge ROI (Return On Investment)? Tenzij het bijdraagt ​​aan hun winst door aan Big Data te werken, is het nutteloos.

Bekijk onze Big Data-video hieronder om meer te weten te komen over Big Data:

Big data-zelfstudie voor beginners | Wat zijn big data | Edureka

Zoals besproken in Variety, zijn er verschillende soorten gegevens die elke dag worden gegenereerd. Dus laten we nu de soorten gegevens begrijpen:

Soorten big data

Er kunnen drie soorten big data zijn:

  • Gestructureerd
  • Semi-gestructureerd
  • Ongestructureerd

  1. Gestructureerd

    De gegevens die in een vast formaat kunnen worden opgeslagen en verwerkt, worden gestructureerde gegevens genoemd. Gegevens die zijn opgeslagen in een relationeel databasebeheersysteem (RDBMS) zijn een voorbeeld van ‘gestructureerde’ gegevens. Het is gemakkelijk om gestructureerde gegevens te verwerken omdat het een vast schema heeft. Structured Query Language (SQL) wordt vaak gebruikt om dergelijke gegevens te beheren.

  2. Semi-gestructureerd

    Semi-gestructureerde data is een type data dat geen formele structuur heeft van een datamodel, dat wil zeggen een tabeldefinitie in een relationeel DBMS, maar het heeft niettemin enkele organisatorische eigenschappen zoals tags en andere markeringen om semantische elementen te scheiden, wat het gemakkelijker maakt analyseren. XML-bestanden of JSON-documenten zijn voorbeelden van semi-gestructureerde gegevens.

  3. Ongestructureerd

    De gegevens die een onbekende vorm hebben en niet kunnen worden opgeslagen in RDBMS en niet kunnen worden geanalyseerd, tenzij ze worden omgezet in een gestructureerd formaat, worden ongestructureerde gegevens genoemd. Tekstbestanden en multimedia-inhoud zoals afbeeldingen, audio, video's zijn voorbeelden van ongestructureerde gegevens. De ongestructureerde data groeien sneller dan andere, experts zeggen dat 80 procent van de data in een organisatie ongestructureerd is.

Tot nu toe heb ik zojuist de introductie van Big Data behandeld. Verder gaat deze Big Data tutorial over voorbeelden, toepassingen en uitdagingen in Big Data.

Voorbeelden van Big Data

Dagelijks uploaden we miljoenen bytes aan gegevens. 90% van de gegevens van de wereld is in de afgelopen twee jaar gemaakt.

  • Walmart behandelt meer dan 1000000 klantentransacties elk uur.
  • Facebook slaat op, opent en analyseert 30+ Petabytes van door gebruikers gegenereerde gegevens.
  • 230+ miljoenen van tweets worden elke dag gemaakt.
  • Meer dan 5 miljard mensen bellen, sms'en, tweeten en browsen op mobiele telefoons over de hele wereld.
  • YouTube-gebruikers uploaden 48 uur elke minuut van de dag nieuwe video's.
  • Amazon handvatten 15 miljoen klantklik streamt gebruikersgegevens per dag om producten aan te bevelen.
  • 294 miljard e-mails worden elke dag verzonden. Services analyseert deze gegevens om de spams te vinden.
  • Moderne auto's hebben er dichtbij 100 sensoren die het brandstofpeil, de bandenspanning enz. controleert, genereert elk voertuig veel sensorgegevens.

Toepassingen van Big Data

We kunnen niet over data praten zonder over de mensen te praten, mensen die baat hebben bij Big Data-toepassingen. Bijna alle industrieën maken tegenwoordig op een of andere manier gebruik van Big Data-toepassingen.

  • Slimmere gezondheidszorg : Door gebruik te maken van de petabytes aan patiëntgegevens, kan de organisatie zinvolle informatie extraheren en vervolgens applicaties bouwen die de verslechterende toestand van de patiënt van tevoren kunnen voorspellen.
  • Telecom : Telecomsectoren verzamelen informatie, analyseren deze en bieden oplossingen voor verschillende problemen. Door gebruik te maken van Big Data-applicaties zijn telecombedrijven in staat om datapakketverlies, dat optreedt wanneer netwerken overbelast zijn, aanzienlijk te verminderen en zo een naadloze verbinding met hun klanten te bieden.
  • Kleinhandel : Retail heeft enkele van de kleinste marges en is een van de grootste begunstigden van big data. Het mooie van het gebruik van big data in de detailhandel is inzicht in consumentengedrag. De aanbevelingsengine van Amazon geeft suggesties op basis van de browsegeschiedenis van de consument.
  • Verkeerscontrole : Verkeersopstoppingen vormen een grote uitdaging voor veel steden wereldwijd. Effectief gebruik van gegevens en sensoren zal de sleutel zijn om het verkeer beter te beheren naarmate steden steeds dichter bevolkt worden.
  • Productie : Het analyseren van big data in de maakindustrie kan defecten aan componenten verminderen, de productkwaliteit verbeteren, de efficiëntie verhogen en tijd en geld besparen.
  • Zoekkwaliteit : Elke keer dat we informatie uit Google halen, genereren we er tegelijkertijd gegevens voor. Google slaat deze gegevens op en gebruikt ze om de zoekkwaliteit te verbeteren.

Iemand heeft terecht gezegd: 'Niet alles in de tuin is Rosy!' . Tot nu toe heb ik je in deze Big Data-tutorial zojuist het rooskleurige beeld van Big Data laten zien. Maar als het zo gemakkelijk zou zijn om gebruik te maken van big data, denk je dan niet dat alle organisaties erin zouden investeren? Laat me je van tevoren vertellen, dat is niet het geval. Er zijn verschillende uitdagingen die zich voordoen wanneer u met Big Data werkt.

Nu u bekend bent met Big Data en de verschillende functies ervan, zal het volgende deel van deze blog over Big Data Tutorial enig licht werpen op enkele van de belangrijkste uitdagingen waarmee Big Data te maken heeft.

converteer decimaal naar binair python

Uitdagingen met big data

Ik zal u enkele uitdagingen vertellen die gepaard gaan met Big Data:

  1. Data kwaliteit - Het probleem hier is de 4thV d.w.z. waarachtigheid. De gegevens hier zijn erg rommelig, inconsistent en onvolledig. Vervuilde gegevens kosten de bedrijven in de Verenigde Staten elk jaar $ 600 miljard.
  1. Ontdekking - Inzichten vinden in Big Data is als het vinden van een speld in een hooiberg. Het analyseren van petabytes aan gegevens met behulp van extreem krachtige algoritmen om patronen en inzichten te vinden, is erg moeilijk.
  1. Opslag - Hoe meer gegevens een organisatie heeft, hoe complexer de problemen bij het beheer ervan kunnen worden. De vraag die hier opkomt is 'Waar bewaar ik het?'. We hebben een opslagsysteem nodig dat eenvoudig op aanvraag kan worden vergroot of verkleind.
  1. Analytics - In het geval van Big Data zijn we ons meestal niet bewust van het soort gegevens waarmee we te maken hebben, dus het analyseren van die gegevens is nog moeilijker.
  1. Veiligheid - Omdat de gegevens enorm groot zijn, is het beveiligen ervan een andere uitdaging. Het omvat gebruikersauthenticatie, toegang beperken op basis van een gebruiker, geschiedenissen van gegevenstoegang vastleggen, correct gebruik van gegevenscodering enz.
  1. Gebrek aan talent - Er zijn veel Big Data-projecten bij grote organisaties, maar een uitgekiend team van developers, datawetenschappers en analisten die ook over voldoende domeinkennis beschikken, is nog een uitdaging.

Hadoop schiet te hulp

We hebben een redder om met Big Data-uitdagingen om te gaan - zijn Hadoop . Hadoop is een open source, op Java gebaseerd programmeerraamwerk dat de opslag en verwerking van extreem grote datasets in een gedistribueerde computeromgeving ondersteunt. Het maakt deel uit van het Apache-project dat wordt gesponsord door de Apache Software Foundation.

Hadoop met zijn gedistribueerde verwerking verwerkt grote hoeveelheden gestructureerde en ongestructureerde gegevens efficiënter dan het traditionele enterprise datawarehouse. Hadoop maakt het mogelijk om applicaties te draaien op systemen met duizenden standaard hardwareknooppunten en om duizenden terabytes aan data te verwerken. Organisaties gebruiken Hadoop omdat het open source-software is en kan draaien op standaardhardware (uw personal computer).De aanvankelijke kostenbesparingen zijn dramatisch aangezien standaardhardware erg goedkoop is. Naarmate de organisatiegegevens toenemen, moet u on-the-fly steeds meer commodity-hardware toevoegen om deze op te slaan en daarom blijkt Hadoop zuinig te zijn.Bovendien heeft Hadoop een robuuste Apache-gemeenschap achter zich die blijft bijdragen aan de vooruitgang ervan.

Zoals eerder beloofd, heb ik je via deze blog over Big Data Tutorial het maximale inzicht gegeven in Big Data. Dit is het einde van de Big Data-zelfstudie. De volgende stap voorwaarts is het kennen en leren van Hadoop. We hebben een serie Hadoop-tutorials blogs die in detail kennis zullen geven van het complete Hadoop-ecosysteem.

Het allerbeste, Happy Hadooping!

Nu u weet wat Big Data is, kunt u het door Edureka, een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld. De Edureka Big Data Hadoop-certificeringstraining helpt leerlingen expert te worden in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume en Sqoop met behulp van real-time use cases op het gebied van Retail, Social Media, Aviation, Tourism, Finance.

Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.

Gerelateerde berichten: