Statistieken voor machine learning: een handleiding voor beginners



Dit artikel over Statistics for Machine Learning is een uitgebreide gids over de verschillende concepten van statistiek met voorbeelden.

Gegevens begrijpen en er waarde uit kunnen creëren, is de vaardigheid van het decennium. Machine Learning is zo'n kernvaardigheid die bedrijven helpt deze te vervullen. Om echter aan de slag te gaan, moet u uw basis goed bouwen. Daarom zal ik in dit artikel een paar basisconcepten behandelen en u richtlijnen geven om uw reis in Machine Learning te beginnen. In dit artikel over statistieken voor machine learning worden daarom de volgende onderwerpen besproken:

  1. Waarschijnlijkheid
  2. Statistieken
  3. Lineaire algebra

Waarschijnlijkheid en statistieken voor machinaal leren:





Wat is waarschijnlijkheid?

Waarschijnlijkheid kwantificeert de waarschijnlijkheid dat een gebeurtenis plaatsvindt. Als je bijvoorbeeld een eerlijke, onbevooroordeelde dobbelsteen gooit, dan is de kans op een opduiken is 1/6 . Nu, als je je afvraagt ​​why? Dan is het antwoord vrij simpel!

Dit komt omdat er zes mogelijkheden zijn en ze allemaal even waarschijnlijk zijn (eerlijke die). Daarom kunnen we toevoegen 1 + 1 + 1 + 1 + 1 + 1 = 6. Maar aangezien we geïnteresseerd zijn in de evenement waarbij 1 opduikt . Er bestaat slechts één manier waarop de gebeurtenis kan plaatsvinden. Daarom



Kans dat 1 opduikt = 1/6

Hetzelfde is het geval met alle andere nummers, aangezien alle gebeurtenissen even waarschijnlijk zijn. Simpel toch?

wat is overfitting in machine learning

Welnu, een frequentistische definitie van waarschijnlijkheid voor dit voorbeeld zou klinken als: de kans dat 1 opduikt is de verhouding tussen het aantal keren dat 1 opgedraaid is tot het totaal aantal keren dat de dobbelsteen werd gegooid als de dobbelsteen een oneindig aantal werd gegooid keer.Hoe is dit logisch?



Laten we het interessanter maken. Beschouw de twee gevallen: je hebt 5 keer een eerlijke dobbelsteen gegooid. In één geval is de volgorde van getallen die verschijnen - [1,4,2,6,4,3]. In het andere geval krijgen we - [2,2,2,2,2,2]. Welke is volgens jou waarschijnlijker?

Beide zijn even waarschijnlijk. Lijkt raar toch?

Overweeg nu een ander geval waarin alle 5 rollen in elk geval zijn onafhankelijk . Dit betekent dat de ene rol de andere niet beïnvloedt. In het eerste geval, toen er 6 opdoken, had het geen idee dat er 2 eerder opdook. Daarom zijn alle 5 worpen even waarschijnlijk.

Evenzo kunnen de rechte 2-en in het tweede geval worden begrepen als een opeenvolging van onafhankelijke gebeurtenissen. En al deze gebeurtenissen zijn even waarschijnlijk. Over het algemeen, aangezien we dezelfde dobbelstenen hebben, de kans dat een bepaald nummer opduikt in geval één is hetzelfde als in geval twee. Laten we vervolgens in dit artikel over statistieken voor machine learning de term begrijpen Onafhankelijkheid.

Onafhankelijkheid

Twee evenementen A en B zouden onafhankelijk zijn als het optreden van A geen invloed heeft op gebeurtenis B . Als u bijvoorbeeld een munt opgooit en een dobbelsteen gooit, heeft de uitkomst van de dobbelsteen geen invloed op het feit of de munt kop of munt vertoont. Ook voor twee onafhankelijke gebeurtenissen A en B , de kans dat A en B samen kunnen voorkomen . Dus als je bijvoorbeeld de kans wilt hebben dat een munt kop laat zien en die 3 laat zien.

P (A en B) = P (A) * P (B)

Daarom P = & frac12 (kans dat hoofden omhoog gaan) * ⅙ (kans dat 3 omhoog gaan) = 1/12

In het vorige voorbeeld geldt voor beide gevallen P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Laten we het nu hebben over evenementen die niet onafhankelijk zijn. Beschouw de volgende tabel:

Zwaarlijvig Niet zwaarlijvig
Hart problemenVier vijfvijftien
Geen hartproblemen1030

Er werd een enquête gehouden onder 100 mensen. 60 hadden hartproblemen en 40 niet. Van de 60 met een hartprobleem, waren er 45 zwaarlijvig. Van de 40 die geen hartprobleem hadden, waren er 10 zwaarlijvig. Als iemand je vraagt ​​-

  1. Wat is de kans op een hartprobleem?
  2. Hoe groot is de kans dat u een hartprobleem heeft en niet zwaarlijvig bent?

Het antwoord op de eerste vragen is eenvoudig - 60/100. Voor de tweede zou het 15/100 zijn. Beschouw nu de derde vraag - Een persoon werd willekeurig gekozen. Hij bleek een hartaandoening te hebben. Wat is de kans dat hij zwaarlijvig is?

Denk nu eens aan de informatie die u krijgt - het is bekend dat hij een hartaandoening heeft. Daarom kan hij niet van de 40 zijn die geen hartaandoening hebben. Er zijn slechts 60 mogelijke opties (de bovenste rij in de tabel). Onder deze verminderde mogelijkheden is de kans dat hij zwaarlijvig is 45/60. Nu u weet wat onafhankelijke gebeurtenissen zijn, laten we vervolgens in dit artikel over statistieken voor machine learning de voorwaardelijke kansen begrijpen.

Voorwaardelijke kansen

Laten we onze bespreking voortzetten met het bovenstaande voorbeeld om voorwaardelijke kansen te begrijpen. De status van zwaarlijvig zijn en de status van het hebben van hartproblemen is niet onafhankelijk. Als zwaarlijvigheid geen invloed had op hartproblemen, dan zou het aantal zwaarlijvige en niet-zwaarlijvige gevallen voor mensen met hartproblemen hetzelfde zijn geweest.

We kregen ook te horen dat de persoon hartproblemen heeft en we moesten uitzoeken hoe groot de kans is dat hij zwaarlijvig is. In dit geval zou de waarschijnlijkheid dus afhankelijk zijn van het feit dat hij een hartprobleem heeft. Als de kans dat gebeurtenis A optreedt, afhankelijk is van gebeurtenis B, stellen we dit voor als

P (A | B)

Nu is er een stelling die ons helpt deze voorwaardelijke kans te berekenen. Het heet de Bayes-regel .

P (A | B) = P (A en B) / P (B)

U kunt deze stelling controleren door het voorbeeld te gebruiken dat we zojuist hebben besproken. Als je het tot nu toe hebt begrepen, kun je aan de slag met het volgende - Naïeve Bayes . Het gebruikt voorwaardelijke kansen om te classificeren of een e-mail spam is of niet. Het kan vele andere classificatietaken uitvoeren. Maar in wezen vormt voorwaardelijke waarschijnlijkheid de kern van .

Statistieken:

Statistieken zijn gebruikt om een ​​groot aantal gegevenspunten samen te vatten en conclusies te trekken. Bij Data Science en Machine Learning kom je vaak de volgende terminologie tegen

visuele studio-tutorials voor beginners
  • Centraliteits maatregelen
  • Uitkeringen (vooral normaal)

Centraliteitsmetingen en metingen van spreads

Gemeen:

Mean is gewoon een gemiddelde van aantallen . Om de gemiddelde waarde te achterhalen, moet u de getallen optellen en deze delen door het aantal getallen. Het gemiddelde van [1,2,3,4,5] is bijvoorbeeld 15/5 = 3.

mean-statistics-for-machine-learning

Mediaan:

Mediaan is de middelste element van een reeks getallen wanneer ze in oplopende volgorde zijn gerangschikt. Getallen [1,2,4,3,5] zijn bijvoorbeeld in oplopende volgorde gerangschikt [1,2,3,4,5]. De middelste daarvan is 3. Daarom is de mediaan 3. Maar wat als het aantal getallen even is en dus geen middelste getal heeft? In dat geval neem je het gemiddelde van de twee middelste getallen. Voor een reeks van 2n getallen in oplopende volgorde, het gemiddelde van de n-de en (n + 1)thgetal om de mediaan te krijgen. Voorbeeld - [1,2,3,4,5,6] heeft de mediaan (3 + 4) / 2 = 3,5

Modus:

Modus is gewoon de meest voorkomende nummer in een reeks getallen . De modus van [1,2,3,3,4,5,5,5] is bijvoorbeeld 5.

Variantie:

Variantie is geen centrale maatstaf. Het meet hoe uw gegevens over het gemiddelde worden verspreid . Het wordt gekwantificeerd als

Xis het gemiddelde van N-nummers. Je neemt een punt, trekt het gemiddelde af, neemt het kwadraat van dit verschil. Doe dit voor alle N-nummers en het gemiddelde. De vierkantswortel van de variantie wordt de standaarddeviatie genoemd. Laten we vervolgens in dit artikel over statistieken voor machine learning de normale distributie begrijpen.

Normale verdeling

Distributie helpt ons begrijpen hoe onze gegevens worden verspreid . In een steekproef van leeftijden kunnen we bijvoorbeeld jongeren meer hebben dan oudere volwassenen en dus kleinere waarden van leeftijd meer dan grotere waarden. Maar hoe definiëren we een distributie? Beschouw het onderstaande voorbeeld

De y-as vertegenwoordigt de dichtheid. De modus van deze distributie is 30 omdat dit de piek is en dus het meest frequent. We kunnen ook de mediaan lokaliseren. Mediaan ligt op het punt op de x-as waar de helft van het gebied onder de curve bedekt is. Het gebied onder elke normale verdeling is 1 omdat de som van de kansen van alle gebeurtenissen 1 is. Bijvoorbeeld:

Mediaan in het bovenstaande geval is ongeveer 4. Dit betekent dat het gebied onder de curve vóór 4 hetzelfde is als dat na 4. Beschouw een ander voorbeeld

We zien drie normale verdelingen. De blauwe en rode hebben hetzelfde gemiddelde. De rode heeft een grotere variantie. Daarom is het meer verspreid dan de blauwe. Maar aangezien het gebied 1 moet zijn, is de piek van de rode curve korter dan de blauwe curve, om het gebied constant te houden.

Ik hoop dat je de basisstatistieken en normale distributies hebt begrepen. Laten we nu, in dit artikel over statistieken voor machine learning, meer leren over lineaire algebra.

Lineaire algebra

Moderne AI zou niet mogelijk zijn zonder lineaire algebra. Het vormt de kern van Diep leren en is zelfs gebruikt in eenvoudige algoritmen zoals . Laten we zonder verdere vertraging aan de slag gaan.

U moet bekend zijn met vectoren. Het zijn een soort geometrische voorstellingen in de ruimte. Een vector [3,4] heeft bijvoorbeeld 3 eenheden langs de x-as en 4 eenheden langs de y-as. Beschouw de volgende afbeelding -

Vector d1 heeft 0,707 eenheden langs de x-as en 0,707 eenheden langs de y-as. Een vector heeft 1 dimensie. Het heeft noodzakelijkerwijs een omvang en een richting. Bijvoorbeeld,

De bovenstaande afbeelding heeft een vector (4,3). De magnitude is 5 en maakt 36,9 graden met de x-as.

Nu, wat is een matrix? Matrix is ​​een meerdimensionale reeks getallen. Waar wordt het voor gebruikt? We zien vooruit. Maar laten we eerst eens kijken hoe het wordt gebruikt.

Matrix

Een matrix kan vele dimensies hebben. Laten we eens kijken naar een tweedimensionale matrix. Het heeft rijen (m) en kolommen (n). Daarom heeft het m * n elementen.

Bijvoorbeeld,

Deze matrix heeft 5 rijen en 5 kolommen. Laten we het A noemen. Daarom is A (2, 3) de invoer op de tweede rij en de derde kolom die 8 is.

beste ide voor Java-ontwikkeling

Nu u weet wat een matrix is, kunnen we kijken naar de verschillende operaties van matrix.

Matrixbewerkingen

Toevoeging van matrices

Twee matrices van de dezelfde afmetingen kunnen worden toegevoegd. De toevoeging gebeurt elementair.

Scalaire vermenigvuldiging

Een matrix kan worden vermenigvuldigd met een scalaire grootheid. Zo'n vermenigvuldiging leidt ertoe dat elk item in de matrix wordt vermenigvuldigd met de scalair. Een scalair is slechts een getal

Matrix transponeren

Matrixtransponering is eenvoudig. Voor een matrix A (m, n), laat A ’de transponering zijn. Vervolgens

A '(ik, j) = EEN (j, ik)

Bijvoorbeeld,

Matrix vermenigvuldiging

Dit is waarschijnlijk een beetje lastig dan andere bewerkingen. Laten we, voordat we erin duiken, het puntproduct tussen twee vectoren definiëren.

Beschouw vector X = [1,4,6,0] en vector Y = [2,3,4,5]. Dan wordt het puntproduct tussen X en Y gedefinieerd als

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Het is dus elementgewijs vermenigvuldigen en optellen. Nu,Laten we eens kijken naar twee matrices A (m, n) en B (n, k), waarbij m, n, k dimensies en dus gehele getallen zijn. We definiëren matrixvermenigvuldiging als

In het bovenstaande voorbeeld wordt het eerste element van het product (44) verkregen door het puntproduct van de eerste rij van de linker matrix met de eerste kolom van de rechter matrix. Evenzo wordt 72 verkregen door het puntproduct van de eerste rij van de linkermatrix met de tweede kolom van de rechtermatrix.

Merk op dat voor de linkermatrix het aantal kolommen gelijk moet zijn aan het aantal rijen in de rechterkolom. In ons geval bestaat het product AB maar niet BA aangezien m niet gelijk is aan k. Voor twee matrices A (m, n) en B (n, k) is het product AB gedefinieerd en is de afmeting van het product (m, k) (de buitenste afmetingen van (m, n), (n, k )). Maar BA is niet gedefinieerd tenzij m = k.

Hiermee komen we een einde aan dit artikel over Statistics for Machine Learning. Ik hoop dat je wat van het Machine Learning-jargon hebt begrepen. Hier houdt het echter niet op. Om er zeker van te zijn dat u klaar bent voor de industrie, kunt u de cursussen van Edureka over datawetenschap en AI bekijken. Ze zijn te vinden