Data Science Tutorial - Leer Data Science vanaf het begin!



Deze Data Science-tutorial is ideaal voor wie op zoek is naar een verschuiving naar het Data Science-domein. Het bevat alle Data Science-essentials met een carrièrepad.

Wil je je carrière beginnen als Data Scientist, maar weet je niet waar je moet beginnen? Dan bent u bij ons aan het goede adres! Hey jongens, welkom bij deze geweldige Data Science Tutorial-blog, het geeft je een kickstart in de data science-wereld. Om diepgaande kennis op te doen over Data Science, kunt u zich inschrijven voor live door Edureka met 24/7 ondersteuning en levenslange toegang. Laten we eens kijken wat we vandaag zullen leren:

    1. Waarom data science?
    2. Wat is datawetenschap?
    3. Wie is een datawetenschapper?
    4. Jobtrends
    5. Hoe los je een probleem op in Data Science?
    6. Data Science-componenten
    7. Functierollen van datawetenschapper





Waarom data science?

Er wordt gezegd dat Data Scientist de 'meest sexy baan van de 21e eeuw' is. Waarom? Omdat bedrijven de afgelopen jaren hun gegevens hebben opgeslagen. En dit door elk bedrijf gedaan, heeft plotseling geleid tot een data-explosie. Gegevens zijn tegenwoordig het meest voorkomende ding geworden.

Maar wat gaat u met deze gegevens doen? Laten we dit aan de hand van een voorbeeld begrijpen:



Stel dat u een bedrijf heeft dat mobiele telefoons maakt. Je hebt je eerste product uitgebracht en het werd een enorme hit. Elke technologie heeft een leven, toch? Dus nu is het tijd om met iets nieuws te komen. Maar u weet niet wat er moet worden geïnnoveerd om te voldoen aan de verwachtingen van de gebruikers, die met spanning wachten op uw volgende release?

Iemand in uw bedrijf komt met een idee om de door gebruikers gegenereerde feedback te gebruiken en dingen te kiezen die gebruikers volgens ons verwachten in de volgende release.

Komt in Data Science, je past verschillende dataminingtechnieken toe zoals sentimentanalyse etc en krijgt de gewenste resultaten.



Dit is niet alleen dit, u kunt betere beslissingen nemen, u kunt uw productiekosten verlagen door efficiënte manieren te bedenken en uw klanten te geven wat ze werkelijk willen!

Hiermee zijn er talloze voordelen waar Data Science in kan resulteren, en daarom is het voor uw bedrijf absoluut noodzakelijk geworden om een ​​Data Science Team te hebben.Vereisten zoals deze leidden vandaag tot 'Data Science' als onderwerp, en daarom schrijven we deze blog over Data Science Tutorial voor u. :)

Data Science-zelfstudie: wat is datawetenschap?

De term Data Science is onlangs opgekomen met de evolutie van wiskundige statistieken en data-analyse. De reis was geweldig, we hebben vandaag zoveel bereikt op het gebied van Data Science.

De komende jaren kunnen we de toekomst voorspellen zoals onderzoekers van MIT beweren. Ze hebben al een mijlpaal bereikt in het voorspellen van de toekomst, met hun geweldige onderzoek. Ze kunnen nu met hun machine voorspellen wat er in de volgende scène van een film zal gebeuren! Hoe? Het is misschien een beetje ingewikkeld voor u om vanaf nu te begrijpen, maar aan het einde van deze blog hoeft u zich geen zorgen te maken, daar zult u ook een antwoord op hebben.

Terugkomend hadden we het over Data Science, het staat ook wel bekend als datagedreven wetenschap, waarbij gebruik wordt gemaakt van wetenschappelijke methoden, processen en systemen om kennis of inzichten te extraheren uit data in verschillende vormen, dus gestructureerd of ongestructureerd.

Wat zijn deze methoden en processen, gaan we vandaag bespreken in deze Data Science Tutorial.

Vooruitkijkend, wie doet al deze hersenstorming, of wie beoefent Data Science? EEN Data scientist .

Wie is een datawetenschapper?

Zoals u op de afbeelding kunt zien, is een Data Scientist de meester van alle beroepen! Hij zou vaardig moeten zijn in wiskunde, hij zou zich in het bedrijfsleven moeten begeven en moet ook over goede computerwetenschappelijke vaardigheden beschikken. Bang? Dat hoeft niet. Hoewel je op al deze gebieden goed moet zijn, maar zelfs als je dat niet bent, ben je niet de enige! Er bestaat niet zoiets als 'een complete datawetenschapper'. Als we het hebben over werken in een zakelijke omgeving, wordt het werk verdeeld over teams, waarbij elk team zijn eigen expertise heeft. Maar het punt is dat u vaardig moet zijn in ten minste een van deze velden. Zelfs als deze vaardigheden nieuw voor je zijn, kun je chillen! Het kan even duren, maar deze vaardigheden kunnen worden ontwikkeld, en geloof me dat het de tijd die u erin investeert, waard zou zijn. Waarom? Laten we eens kijken naar de jobtrends.

java c ++ python

Trends in datawetenschapper

Nou, de grafiek zegt het al, er zijn niet alleen veel vacatures voor een datawetenschapper, maar de banen worden ook goed betaald! En nee, onze blog behandelt de salariscijfers niet, ga google!

Nou, we weten nu dat het leren van data science echt zinvol is, niet alleen omdat het erg nuttig is, maar je hebt er ook een geweldige carrière in in de nabije toekomst.

Laten we nu beginnen met het leren van datawetenschap en beginnen met,

Hoe los je een probleem op in Data Science?

Laten we nu eens kijken hoe we een probleem moeten aanpakken en oplossen met data science. Problemen in Data Science worden opgelost met behulp van algoritmen. Maar het belangrijkste om te beoordelen is welk algoritme je moet gebruiken en wanneer je het moet gebruiken?

In principe zijn er 5 soorten problemen waarmee u te maken kunt krijgen in data science.

Laten we elk van deze vragen en de bijbehorende algoritmen een voor een bespreken:

Is dit A of B?

Met deze vraag verwijzen we naar problemen die een categorisch antwoord hebben, zoals bij problemen die een vaste oplossing hebben, het antwoord kan een ja of nee zijn, 1 of 0, geïnteresseerd, misschien of niet geïnteresseerd.

Bijvoorbeeld:

V. Wat heb je, thee of koffie?

Hier kun je niet zeggen dat je een cola zou willen! Omdat de vraag alleen thee of koffie bevat, mag u er dus maar één beantwoorden.

Als we slechts twee soorten antwoorden hebben, d.w.z. ja of nee, 1 of 0, wordt dit 2-klassenclassificatie genoemd. Met meer dan twee opties wordt het Classificatie van meerdere klassen genoemd.

Concluderend, wanneer je vragen tegenkomt waarvan het antwoord categorisch is, in Data Science zul je deze problemen oplossen met behulp van classificatiealgoritmen.

Het volgende probleem in deze Data Science Tutorial, dat je misschien tegenkomt, misschien zoiets als dit,

Is dit raar?

Dergelijke vragen hebben betrekking op patronen en kunnen worden opgelost met behulp van algoritmen voor afwijkingsdetectie.

Bijvoorbeeld:

Probeer het probleem 'is dit raar?' Te associëren. naar dit diagram,

Wat is er raar in het bovenstaande patroon? De rode man, is het niet?

Elke keer dat er een patroonbreuk is, markeert het algoritme die specifieke gebeurtenis zodat we deze kunnen beoordelen. Een echte toepassing van dit algoritme is geïmplementeerd door creditcardmaatschappijen waarbij elke ongebruikelijke transactie door een gebruiker wordt gemarkeerd voor beoordeling. Vandaar het implementeren van beveiliging en het verminderen van de menselijke inspanningen voor bewaking.

Laten we eens kijken naar het volgende probleem in deze Data Science Tutorial, wees niet bang, handelt over wiskunde!

Hoeveel of hoeveel?

Degenen onder jullie die niet van wiskunde houden, zijn opgelucht! Regressie-algoritmen zijn er!

Dus als er een probleem is dat om cijfers of numerieke waarden vraagt, lossen we het op met behulp van regressie-algoritmen.

Bijvoorbeeld:

Wat wordt de temperatuur voor morgen?

Omdat we een numerieke waarde verwachten in de reactie op dit probleem, zullen we het oplossen met behulp van regressie-algoritmen.

Laten we verdergaan in deze Data Science-zelfstudie, laten we het volgende algoritme bespreken,

Hoe is dit georganiseerd?

Stel dat u enkele gegevens heeft, nu heeft u geen idee hoe u deze gegevens kunt interpreteren. Vandaar de vraag, hoe is dit georganiseerd?

Nou, je kunt het oplossen met behulp van clusteralgoritmen. Hoe lossen ze deze problemen op? Laten we zien:

Clusteringalgoritmen groeperen de gegevens in termen van gemeenschappelijke kenmerken. In het bovenstaande diagram zijn de punten bijvoorbeeld georganiseerd op basis van kleuren. Evenzo, of het nu om gegevens gaat, proberen clusteralgoritmen te begrijpen wat er tussen hen gemeenschappelijk is, en 'clustert' ze ze daarom samen.

Het volgende en laatste soort probleem in deze Data Science Tutorial dat u kunt tegenkomen, is:

Wat zou ik vervolgens doen?

Telkens wanneer je een probleem tegenkomt, waarbij je computer een beslissing moet nemen op basis van de training die je hem hebt gegeven, gaat het om versterkingsalgoritmen.

Bijvoorbeeld:

Uw temperatuurcontrolesysteem, wanneer het moet beslissen of het de temperatuur van de kamer moet verlagen of verhogen.

Hoe werken deze algoritmen?

Deze algoritmen zijn gebaseerd op menselijke psychologie. We houden ervan om gewaardeerd te worden, toch? Computers implementeren deze algoritmen en verwachten dat ze worden gewaardeerd wanneer ze worden getraind. Hoe? Laten we zien.

In plaats van de computer te leren wat hij moet doen, laat u hem beslissen wat hij moet doen, en aan het einde van die handeling geeft u positieve of negatieve feedback. Daarom, in plaats van te definiëren wat goed en wat fout is in uw systeem, laat u uw systeem 'beslissen' wat te doen, en geeft u uiteindelijk feedback.

Het is net alsof u uw hond traint. U heeft geen controle over wat uw hond doet, toch? Maar je kunt hem uitschelden als hij iets verkeerds doet. Evenzo, hem misschien een schouderklopje geven als hij doet wat wordt verwacht.

Laten we dit begrip toepassen in het bovenstaande voorbeeld, stel je voor dat je het temperatuurregelsysteem traint, dus wanneer de nee. van de mensen in de kamer neemt toe, er moet een actie worden ondernomen door het systeem. Verlaag de temperatuur of verhoog deze. Omdat ons systeem niets begrijpt, neemt het een willekeurige beslissing, laten we aannemen dat het de temperatuur verhoogt. Daarom geef je een negatieve feedback. Hiermee begrijpt de computer wanneer het aantal mensen in de kamer toeneemt, nooit de temperatuur verhogen.

Evenzo moet u feedback geven voor andere acties.Met elke feedback leert uw systeem en wordt het daarom nauwkeuriger bij de volgende beslissing, dit type leren wordt Reinforcement Learning genoemd.

De algoritmen die we hierboven in deze Data Science Tutorial hebben geleerd, omvatten een gemeenschappelijke 'leerpraktijk'. We laten de machine toch leren?

Wat is machine learning?

Het is een soort kunstmatige intelligentie die de computers in staat stelt om zelfstandig te leren, dat wil zeggen zonder expliciet te worden geprogrammeerd. Met machine learning kunnen machines hun eigen code bijwerken wanneer ze een nieuwe situatie tegenkomen.

Afsluitend in deze Data Science Tutorial, weten we nu dat Data Science wordt ondersteund door Machine Learning en zijn algoritmen voor de analyse ervan. Hoe we de analyse doen, waar doen we het. Data Science heeft verder enkele componenten die ons helpen bij het beantwoorden van al deze vragen.

Laat me daarvoor eerst beantwoorden hoe MIT de toekomst kan voorspellen, omdat ik denk dat jullie het nu misschien kunnen vertellen. Dus, onderzoekers van MIT trainden hun model met films en de computers leerden hoe mensen reageren, of hoe ze handelen voordat ze een actie ondernemen.

Als u bijvoorbeeld iemand de hand wilt schudden, haalt u uw hand uit uw zak of leunt u misschien op de persoon. In principe is er aan alles wat we doen een 'pre-action' verbonden. De computer werd met behulp van filmpjes getraind in deze “pre-actions”. En door steeds meer films te observeren, konden hun computers voorspellen wat de volgende actie van het personage zou kunnen zijn.

Makkelijk is het niet? Laat me je dan nog een vraag stellen in deze Data Science Tutorial! Welk algoritme van Machine Learning moeten ze hierin geïmplementeerd hebben?

Data Science-componenten

1. Datasets

Waar ga je op analyseren? Data, toch? Je hebt veel data nodig die geanalyseerd kunnen worden, deze data wordt naar je algoritmen of analytische tools gevoerd. U krijgt deze gegevens uit verschillende onderzoeken die in het verleden zijn uitgevoerd.

2. R Studio

R is een open source programmeertaal en softwareomgeving voor statistische berekeningen en grafische afbeeldingen die wordt ondersteund door de R-stichting. De R-taal wordt gebruikt in een IDE genaamd R Studio.

Waarom wordt het gebruikt?

  • Programmering en statistische taal
    • Behalve dat het wordt gebruikt als een statistische taal, kan het ook worden gebruikt als een programmeertaal voor analytische doeleinden.
  • Data-analyse en visualisatie
    • Behalve dat het een van de meest dominante analysetools is, is R ook een van de meest populaire tools die worden gebruikt voor datavisualisatie.
  • Eenvoudig en gemakkelijk te leren
    • R is eenvoudig en gemakkelijk te leren, lezen en schrijven

  • Gratis en open source
    • R is een voorbeeld van een FLOSS (Free / Libre en Open Source Software), wat betekent dat men vrijelijk kopieën van deze software kan verspreiden, de broncode kan lezen, wijzigen, enz.

R Studio was voldoende voor analyse, totdat onze datasets enorm werden, tegelijk ook ongestructureerd. Dit type data werd Big Data genoemd.

3. Big data

Big data is de term voor een verzameling datasets die zo groot en complex is dat het moeilijk wordt om deze te verwerken met voorhanden databasebeheertools of traditionele dataverwerkingstoepassingen.

Om deze gegevens te temmen, moesten we een tool bedenken, omdat geen enkele traditionele software dit soort gegevens aankon, en daarom kwamen we met Hadoop.

4. Hadoop

verschil tussen interface en klasse

Hadoop is een raamwerk dat ons daarbij helpt op te slaan en werkwijze grote datasets parallel en op een distributiemethode.

Laten we ons concentreren op het winkel- en procesgedeelte van Hadoop.

Op te slaan

Het opslaggedeelte in Hadoop wordt afgehandeld door HDFS, d.w.z. Hadoop Distributed File System. Het biedt een hoge beschikbaarheid in een gedistribueerd ecosysteem. De manier waarop het werkt, is als volgt: het verdeelt de binnenkomende informatie in stukjes en distribueert ze naar verschillende knooppunten in een cluster, waardoor gedistribueerde opslag mogelijk is.

Werkwijze

MapReduce is het hart van Hadoop-verwerking. De algoritmen voeren twee belangrijke taken uit, in kaart brengen en verminderen. De mappers splitsen de taak op in kleinere taken die parallel worden verwerkt. Zodra alle mappers hun deel van het werk doen, voegen ze hun resultaten samen, en vervolgens worden deze resultaten teruggebracht tot een eenvoudigere waarde door het Reduce-proces. Voor meer informatie over Hadoop kunt u onze .

Als we Hadoop gebruiken als onze opslag in Data Science, wordt het moeilijk om de invoer met R Studio te verwerken, vanwege het onvermogen om goed te presteren in een gedistribueerde omgeving, daarom hebben we Spark R.

5. Spark R

Het is een R-pakket, dat een lichtgewicht manier biedt om Apache Spark met R te gebruiken. Waarom ga je het gebruiken in plaats van traditionele R-toepassingen? Omdat het een gedistribueerde dataframe-implementatie biedt die bewerkingen ondersteunt zoals selectie, filtering, aggregatie, enz. Maar op grote datasets.

Neem nu een adempauze! We zijn klaar met het technische gedeelte in deze Data Science Tutorial, laten we het nu vanuit uw werkperspectief bekijken. Ik denk dat je de salarissen van een datawetenschapper inmiddels zou hebben gegoogeld, maar laten we het toch hebben over de functies die voor jou als datawetenschapper beschikbaar zijn.

Functierollen van datawetenschapper

Enkele van de prominente functietitels van Data Scientist zijn:

  • Data scientist
  • Data Engineer
  • Gegevensarchitect
  • Gegevensbeheerder
  • Data-analist
  • Bedrijfsanalist
  • Data / Analytics Manager
  • Business Intelligence Manager

De grafiek van Payscale.com in deze Data Science Tutorial hieronder toont het gemiddelde Data Scientist-salaris per vaardigheid in de VS en India.

De tijd is rijp om kennis te maken met Data Science en Big Data Analytics om te profiteren van de carrièremogelijkheden op het gebied van Data Science die op je pad komen. Dit brengt ons bij het einde van de Data Science tutorial blog. Ik hoop dat deze blog informatief en een meerwaarde voor je was. Dit is het moment om de Data Science-wereld te betreden en een succesvolle Data Scientist te worden.

Edureka heeft een speciaal samengesteld waarmee u expertise opdoet in Machine Learning-algoritmen zoals K-Means Clustering, Decision Trees, Random Forest, Naive Bayes. Je leert ook de begrippen Statistieken, Tijdreeksen, Text Mining en een inleiding tot Deep Learning. Nieuwe batches voor deze cursus beginnen binnenkort !!

Heeft u een vraag voor ons in de Data Science Tutorial? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.