SQL voor gegevenswetenschap: alles-in-één oplossing voor beginners



Deze blogpost over SQL for Data Science zal u helpen begrijpen hoe SQL kan worden gebruikt om gegevens op te slaan, te openen en op te halen om gegevensanalyses uit te voeren.

Sinds de tijd dat Data Science op nummer 1 stond omdat het de meest veelbelovende baan van het tijdperk was, proberen we allemaal mee te doen aan de race van . Deze blogpost over SQL for Data Science zal u helpen begrijpen hoe SQL kan worden gebruikt om gegevens op te slaan, te openen en op te halen om gegevensanalyses uit te voeren.

Hier is een lijst met onderwerpen die zullen zijn behandeld in deze blog:





    1. Waarom is SQL nodig voor datawetenschap?
    2. Wat is SQL?
    3. Basisprincipes van SQL
    4. MySQL installeren
    5. Hands-on

Waarom is SQL nodig voor datawetenschap?

Wist je dat we elke dag meer dan 2,5 triljoen bytes aan gegevens genereren? Dit tempo van gegevensgeneratie is de reden achter de populariteit van geavanceerde technologieën zoals Data Science , , enzovoort.

java wordt dubbel in int

Nuttige inzichten afleiden uit data wordt Data Science genoemd. Data Science omvat het extraheren, verwerken en analyseren van tonnen gegevens. Op dit moment hebben we dat nodig die kan worden gebruikt om deze enorme hoeveelheid gegevens op te slaan en te beheren.



Wat is datawetenschap - Edureka

Dit is waar SQL komt binnen.

SQL kan worden gebruikt om enorme hoeveelheden gegevens op te slaan, te openen en te extraheren om het hele Data Science-proces soepeler te laten verlopen.



Wat is SQL?

SQL wat staat voor Structured Query Language is een querytaal die bedoeld is om relationele databases te beheren.

Maar wat is precies een relationele database?

Een relationele database is een groep goed gedefinieerde tabellen van waaruit gegevens kunnen worden geopend, bewerkt, bijgewerkt enzovoort, zonder de databasetabellen te hoeven wijzigen. SQL is de standaard (API) voor relationele databases.

Terugkomend op SQL, SQL-programmering kan worden gebruikt om meerdere acties op gegevens uit te voeren, zoals opvragen, invoegen, bijwerken en verwijderen van databaserecords. Voorbeelden van relationele databases die SQL gebruiken, zijn MySQL Database, Oracle, enz.

Voor meer informatie over SQL kunt u het volgende blogs:

  1. SQL-gegevenstypen begrijpen - Alles wat u moet weten over SQL-gegevenstypen
  2. CREATE TABLE in SQL - Alles wat u moet weten over het maken van tabellen in SQL

Voordat we aan de slag gaan met een demo over SQL, moeten we eerst de basis SQL-opdrachten leren kennen.

Basisprincipes van SQL

SQL biedt een reeks eenvoudige opdrachten om gegevenstabellen te wijzigen, laten we enkele van de standaard SQL-opdrachten bekijken:

  • DATABASE MAKEN - maakt een nieuwe database aan
  • TABEL MAKEN - maakt een nieuwe tafel aan
  • INVOEGEN IN - voegt nieuwe gegevens in een database in
  • SELECTEER - haalt gegevens uit een database
  • BIJWERKEN - werkt gegevens in een database bij
  • VERWIJDEREN - verwijdert gegevens uit een database
  • ALTER DATABASE - wijzigt een database
  • ALTER TAFEL - wijzigt een tabel
  • DROP TAFEL - verwijdert een tabel
  • INDEX MAKEN - maakt een index om een ​​element te zoeken
  • DROP INDEX - verwijdert een index

Laten we MySQL installeren en kijken hoe u met gegevens kunt spelen om SQL beter te begrijpen.

MySQL installeren

MySQL installeren is een eenvoudige taak. Hier is een stap voor stap gids waarmee u MySQL op uw systeem kunt installeren.

Als u klaar bent met installeren MySQL, volg het onderstaande gedeelte voor een eenvoudige demo die u laat zien hoe u gegevens kunt invoegen, manipuleren en wijzigen.

SQL voor gegevenswetenschap - MySQL-demo

In deze demonstratie zullen we zien hoe u databases maakt en verwerkt. Dit is een demonstratie op beginnersniveau om u op weg te helpen met gegevensanalyse op SQL.

Dus laten we beginnen!

Stap 1: Maak een SQL-database

Een SQL-database is een opslagmagazijn waar gegevens gestructureerd kunnen worden opgeslagen. Laten we nu een database maken met MySQL :

DATABANK MAKEN edureka GEBRUIK edureka

In de bovenstaande code zijn er twee SQL-opdrachten:

Opmerking : SQL-opdrachten worden gedefinieerd in hoofdletters en een puntkomma wordt gebruikt om een ​​SQL-opdracht te beëindigen.

  1. CREATE DATABASE: met deze opdracht wordt een database gemaakt met de naam ‘edureka’

  2. GEBRUIK: Dit commando wordt gebruikt om de database te activeren. Hier activeren we de ‘edureka’-database.

Stap 2: Maak een tabel met de vereiste gegevensfuncties

Het maken van een tabel is net zo eenvoudig als het maken van een database. U hoeft alleen de variabelen of de kenmerken van de tabel te definiëren met hun respectievelijke gegevenstypen. Laten we eens kijken hoe dit kan worden gedaan:

TABEL-speelgoed MAKEN (TID INTEGER NOT NULL PRIMARY KEY AUTO_INCREMENT, Item_name TEXT, Price INTEGER, Number INTEGER)

In het bovenstaande codefragment komen de volgende dingen voor:

  1. Gebruik het 'CREATE TABLE'-commando om een ​​tafel te maken met de naam speelgoed.
  2. De speelgoedtafel bevat 4 functies, namelijk TID (transactie-ID), artikelnaam, prijs en hoeveelheid.
  3. Elke variabele wordt gedefinieerd met hun respectievelijke gegevenstypen.
  4. De TID-variabele wordt gedeclareerd als een primaire sleutel. Een primaire sleutel geeft in feite een variabele aan die een unieke waarde kan opslaan.

U kunt de details van de gedefinieerde tabel verder controleren door de volgende opdracht te gebruiken:

hoe getallen te sorteren in c ++
BESCHRIJF speelgoed

Stap 3: gegevens in de tabel invoegen

Nu we een tabel hebben gemaakt, gaan we deze vullen met enkele waarden. Eerder in deze blog heb ik al gezegd hoe je gegevens aan een tabel kunt toevoegen door slechts één commando te gebruiken, namelijk INSERT INTO.

Laten we eens kijken hoe dit wordt gedaan:

INVOEGEN IN speelgoed WAARDEN (NULL, 'Train', 550, 88) INVOEGEN IN speelgoed WAARDEN (NULL, 'Hotwheels_car', 350, 80) INVOEGEN IN speelgoed WAARDEN (NULL, 'Magic_Pencil', 70, 100) INVOEGEN IN speelgoed WAARDEN ( NULL, 'Dog_house', 120, 54) INVOEGEN IN speelgoed WAARDEN (NULL, 'Skateboard', 700, 42) INVOEGEN IN speelgoed WAARDEN (NULL, 'GI Joe', 300, 120)

In het bovenstaande codefragment hebben we eenvoudig 6 observaties in onze ‘speelgoed’-tabel ingevoegd met behulp van de opdracht INSERT INTO. Voor elke observatie, tussen haakjes, heb ik de waarde gespecificeerd van elke variabele of functie die is gedefinieerd tijdens het maken van de tabel.

De TID-variabele is ingesteld op NULL omdat deze automatisch wordt verhoogd vanaf 1.

Laten we nu alle gegevens in onze tabel weergeven. Dit kan gedaan worden door het onderstaande commando te gebruiken:

SELECTEER * UIT speelgoed


Stap 4: Wijzig de gegevensinvoer

Stel dat u heeft besloten de prijs van de G.I. Joe, omdat het je veel klanten oplevert. Hoe zou u de prijs van de variabele in een database bijwerken?

Het is eenvoudig, gebruik gewoon de onderstaande opdracht:

UPDATE speelgoed SET Prijs = 350 WAAR TID = 6

Met het UPDATE-commando kunt u alle waarden / variabelen die in de tabel zijn opgeslagen, wijzigen. Met de SET-parameter kunt u een bepaald kenmerk selecteren en de WHERE-parameter wordt gebruikt om de variabele / waarde die u wilt wijzigen te identificeren. In de bovenstaande opdracht heb ik de prijs bijgewerkt van de gegevensinvoer waarvan de TID 6 is (G.I. Joe).

Laten we nu de bijgewerkte tabel bekijken:

SELECTEER * UIT speelgoed

U kunt ook wijzigen wat u wilt weergeven door alleen te verwijzen naar de kolommen die u wilt bekijken. Het onderstaande commando geeft bijvoorbeeld alleen de naam van het speeltje en de bijbehorende prijs weer:

SELECTEER Item_name, Price FROM speelgoed

Stap 5: gegevens ophalen

wat zijn tokens in java

Dus nadat u de gegevens heeft ingevoegd en gewijzigd, is het eindelijk tijd om de gegevens te extraheren en op te halen volgens de zakelijke vereisten. Hier kunnen gegevens worden opgehaald voor verdere gegevensanalyse en gegevensmodellering.

Merk op dat dit een eenvoudig voorbeeld is om u op weg te helpen met SQL, maar in praktijkscenario's zijn de gegevens veel gecompliceerder en groter van omvang. Desondanks blijven de SQL-opdrachten hetzelfde en dat maakt SQL zo eenvoudig en begrijpelijk. Het kan complexe gegevenssets verwerken met een reeks eenvoudige SQL-opdrachten.

Laten we nu gegevens ophalen met een paar aanpassingen. Raadpleeg de onderstaande code en probeer te begrijpen wat het doet zonder naar de uitvoer te kijken:

SELECTEER * UIT speelgoedlimiet 2

Je hebt het geraden! Het toont de eerste twee waarnemingen die in mijn tabel aanwezig zijn.

Laten we iets interessants proberen.

SELECTEER * UIT speelgoed BESTEL OP Prijs ASC

Zoals weergegeven in de figuur, zijn de waarden gerangschikt ten opzichte van de oplopende volgorde van de prijsvariabele. Wat zou u doen als u de drie meest gekochte artikelen wilt zoeken?

Het is eigenlijk heel simpel!

SELECTEER * UIT speelgoed BESTEL OP Aantal DESC LIMIET 3

Laten we er nog een proberen.

SELECTEER * UIT speelgoed WAAR Prijs> 400 BESTEL OP Prijs ASC


Deze query extraheert de details van het speelgoed waarvan de prijs hoger is dan 400 en rangschikt de uitvoer in oplopende volgorde van de prijs.

Dus zo kunt u gegevens verwerken met behulp van SQL. Nu je de basis van SQL voor Data Science kent, ben ik er zeker van dat je nieuwsgierig bent naar meer. Hier zijn een paar blogs om u op weg te helpen:

  1. Wat is datawetenschap? Een beginnershandleiding voor datawetenschap
  2. MySQL-zelfstudie - een beginnershandleiding om MySQL te leren kennen

Als je je wilt inschrijven voor een complete cursus over kunstmatige intelligentie en machine learning, heeft Edureka een speciaal samengesteld dat zal je bekwaam maken in technieken als begeleid leren, onbewaakt leren en natuurlijke taalverwerking. Het omvat training over de nieuwste ontwikkelingen en technische benaderingen op het gebied van kunstmatige intelligentie en machine learning, zoals diep leren, grafische modellen en versterkend leren.