Wat zijn de voorwaarden voor machine learning?



Deze blog over vereisten voor machine learning helpt je de basisconcepten te begrijpen die je moet kennen voordat je aan de slag gaat met machine learning.

Machine Learning is ongetwijfeld de meest gevraagde technologie van het tijdperk! Als u een beginner bent die aan de slag gaat met machine learning, is het belangrijk dat u de voorwaarden voor machine learning kent. Deze blog helpt je de verschillende concepten te begrijpen die je moet kennen voordat je aan de slag gaat met Machine Learning.

Om diepgaande kennis te krijgen van kunstmatige intelligentie en machine learning, kunt u zich inschrijven voor live door Edureka met 24/7 ondersteuning en levenslange toegang.





Hier is een lijst met onderwerpen behandeld in deze blog:

  1. Vereisten voor machine learning
  2. Machine Learning begrijpen met een use case

Vereisten voor machine learning

Om mee te beginnenMachine Learning Je moet bekend zijn met de volgende concepten:



  1. Statistieken
  2. Lineaire algebra
  3. Calculus
  4. Waarschijnlijkheid
  5. Programmeertalen

Statistieken

Statistieken bevatten tools die kunnen worden gebruikt om resultaten uit de gegevens te halen. Er zijn beschrijvende statistieken die worden gebruikt om onbewerkte gegevens om te zetten in belangrijke informatie. Ook kunnen inferentiële statistieken worden gebruikt om belangrijke informatie uit een steekproef van gegevens te halen in plaats van een volledige gegevensset te gebruiken.

Om meer te weten te komen over Statistieken die u kunt doornemen via de volgende blogs:

Lineaire algebra

Lineaire algebra dealsmet vectoren, matrices en lineaire transformaties. Het is erg belangrijk bij machine learning, omdat het kan worden gebruikt om bewerkingen op de dataset te transformeren en uit te voeren.



Calculus

Calculus is een belangrijk veld in de wiskunde en speelt een integrale rol in veel algoritmen voor machine learning. Datasets met meerdere functies zijnwordt gebruikt om machine learning-modellen te bouwen, aangezien functies zijn meerdere multivariabele calculus speelt een belangrijke rol bij het bouwen van een machine learning-model. Integraties en differentiaties zijn een must.

Waarschijnlijkheid

Waarschijnlijkheid helpt bij het voorspellen van de waarschijnlijkheid van de gebeurtenissen. Het helpt ons te redeneren dat de situatie zich wel of niet opnieuw kan voordoen. Voor machine learning is kans een fundament.

Mathematics

Om meer te weten te komen over Waarschijnlijkheid, kunt u dit doornemen Blog.

Programmeertaal

Het is essentieel om programmeertalen zoals R en Python te kennen om het hele Machine Learning-proces te implementeren. Python en R bieden beide ingebouwde bibliotheken die het heel eenvoudig maken om Machine Learning-algoritmen te implementeren.

Naast basiskennis van programmeren is het ook belangrijk dat je weet hoe je data moet extraheren, verwerken en analyseren. Dit is een van de belangrijkste vaardigheden die nodig zijn voor machine learning.

Voor meer informatie over het programmeren talen voor Machine Learning, kunt u de volgende blogs doornemen:

  1. De beste Python-bibliotheken voor datawetenschap en machine learning

Gebruiksvoorbeeld van machine learning

Bij machine learning draait alles om het maken van een algoritme dat kan leren van gegevens om een ​​voorspelling te doen, zoals wat voor soort objecten er op de foto staan, of de aanbevelingsengine, de beste combinatie van medicijnen om de bepaalde ziekte te genezen of spamfiltering.

Machine learning is gebaseerd op wiskundige vereisten en als je weet waarom wiskunde wordt gebruikt bij machine learning, wordt het leuk. U moet de wiskunde kennen achter de functies die u gaat gebruiken en welk model geschikt is voor de gegevens en waarom.

hoe macht te doen in python

Laten we dus beginnen met een interessant probleem: het voorspellen van huizenprijzen, met een dataset met een geschiedenis van verschillende functies en prijzen, voor nu kijken we naar de oppervlakte van de woonruimte in vierkante meters en de prijzen.

Nu hebben we een dataset met twee kolommen, zoals hieronder weergegeven:

Er moet een verband zijn tussen deze twee variabelen om erachter te komen dat we een model moeten bouwen dat de prijs van huizen kan voorspellen, hoe kunnen we dat doen?

Laten we deze gegevens in een grafiek zetten en zien hoe ze eruit zien:

Hier is de X-as de prijs per m2 woonoppervlak en de Y-as de prijs van het huis. Als we alle datapunten plotten, krijgen we een scatterplot dat kan worden weergegeven door een lijn zoals weergegeven in de bovenstaande afbeelding en als we wat gegevens invoeren, zal het een resultaat voorspellen. Idealiter moeten we een lijn vinden die de maximale datapunten snijdt.

Hier proberen we een regel te maken die wordt aangeduid als:

Y = mX + c

Deze methode voor het voorspellen van de lineaire relatie tussen het doel (afhankelijke variabele) en voorspellende variabele (onafhankelijke variabele) wordt lineaire regressie genoemd. Het stelt ons in staat om een ​​relatie tussen twee variabelen te bestuderen en samen te vatten.

  • X = onafhankelijke variabele
  • Y = afhankelijke variabele
  • c = y-snijpunt
  • m = Slop of line

Als we de vergelijking beschouwen, hebben we waarden voor X die een onafhankelijke variabele is, dus alles wat we hoeven te doen is de waarden voor m en c berekenen om de waarde van Y te voorspellen.

Dus hoe vinden we deze variabelen?

Om deze variabelen te vinden, kunnen we een aantal waarden proberen en proberen een lijn te vinden die het maximale aantal gegevenspunten snijdt. Maar hoe kunnen we de best passende lijn vinden?

Dus om de best passende lijn te vinden, kunnen we de kleinste kwadratenfoutfunctie gebruiken die de fout tussen de werkelijke waarde van y en de voorspelde waarde y` vindt.

De kleinste-kwadratenfoutfunctie kan worden weergegeven met behulp van de volgende vergelijking:

Met behulp van deze functie kunnen we de fout voor elk voorspeld datapunt achterhalen door het te vergelijken met de werkelijke waarde van het datapunt. Je neemt dan de som van al deze fouten en kwadrateert ze om de afwijking in de voorspelling te achterhalen.

Als we de derde as aan onze grafiek met alle mogelijke foutwaarden toevoegen en deze in een driedimensionale ruimte uitzetten, ziet het er als volgt uit:

In de bovenstaande afbeelding bevinden de ideale waarden zich in het onderste zwarte gedeelte, wat de prijzen zal voorspellen die dicht bij het werkelijke gegevenspunt liggen. De volgende stap is het vinden van de best mogelijke waarden voor m en c. Dit kan worden gedaan door de optimalisatietechniek te gebruiken die gradiëntafdaling wordt genoemd.

Gradient Descent is een iteratieve methode, waarbij we beginnen met het initialiseren van een aantal waarden voor onze variabelen en deze langzaam verbeteren door de fout tussen de werkelijke waarde en de voorspelde waarde te minimaliseren.

Als we nu denken dat de prijzen van het appartement praktisch niet alleen afhangen van de prijs per vierkante meter, zijn er veel factoren zoals het aantal slaapkamers, badkamers, enz. Als we ook naar die eigenschappen kijken, ziet de vergelijking er als iets uit zoals dit

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Dit is multilineaire regressie, dit behoort tot lineaire algebra, hier kunnen we matrices van grootte mxn gebruiken, waarbij m features zijn en n datapunten.

Laten we eens kijken naar een andere situatie waarin we waarschijnlijkheid kunnen gebruiken om de staat van het huis te vinden om een ​​huis te classificeren op basis van of het in goede of slechte staat verkeert. Om dit te kunnen doen, zullen we een techniek moeten gebruiken genaamd Logistische Regressie die werkt op de waarschijnlijkheid van gebeurtenissen die worden vertegenwoordigd door een sigmoïde functie.

In dit artikel hebben we de vereisten van machine learning besproken en hoe deze worden toegepast bij machine learning. Dus eigenlijk bestaat het uit statistiek, calculus, lineaire algebra en kansrekening. Calculus heeft technieken die worden gebruikt voor optimalisatie, lineaire algebra heeft algoritmen die kunnen werken met enorme gegevenssets, met waarschijnlijkheid kunnen we de waarschijnlijkheid van gebeurtenissen voorspellen en statistieken helpen ons om nuttige inzichten af ​​te leiden uit de steekproef van gegevenssets.

Nu u de vereisten voor machine learning kent, weet ik zeker dat u nieuwsgierig bent naar meer informatie. Hier zijn een paar blogs die je op weg helpen met Data Science:

Als je je wilt inschrijven voor een complete cursus over kunstmatige intelligentie en machine learning, heeft Edureka een speciaal samengesteld dat zal je bekwaam maken in technieken als begeleid leren, onbewaakt leren en natuurlijke taalverwerking. Het omvat training over de nieuwste ontwikkelingen en technische benaderingen op het gebied van kunstmatige intelligentie en machine learning, zoals diep leren, grafische modellen en versterkend leren.