Wat is bias-variantie bij machinaal leren?



Dit artikel behandelt het concept van bias en variantie in machine learning, waarbij een onderlinge relatie de voorspellende nauwkeurigheid van het model bepaalt.

In , zijn de prestaties van een model gebaseerd op zijn voorspellingen en hoe goed het generaliseert naar ongeziene, onafhankelijke gegevens. Een manier om de nauwkeurigheid van een model te meten, is door rekening te houden met de bias en variantie in het model. In dit artikel zullen we leren hoe bias-variantie een belangrijke rol speelt bij het bepalen van de authenticiteit van het model. In dit artikel komen de volgende onderwerpen aan bod:

Onherleidbare fout

Elk model in wordt beoordeeld op basis van de voorspellingsfout op een nieuwe onafhankelijke, ongeziene dataset. Fout is niets anders dan het verschil tussen de werkelijke output en de voorspelde output. Om de fout te berekenen, doen we de sommatie van reduceerbare en onherleidbare fout, ook wel bias-variantie-decompositie genoemd.





Onomkeerbare fouten zijn niets anders dan die fouten die niet kunnen worden verminderd, ongeacht welke fouten die u in het model gebruikt. Het wordt veroorzaakt door ongebruikelijke variabelen die een directe invloed hebben op de outputvariabele. Dus om uw model efficiënt te maken, zitten we met de reduceerbare fout die we koste wat het kost moeten optimaliseren.

Een reduceerbare fout heeft twee componenten - Bias en variantie , de aanwezigheid van bias en variantie beïnvloeden de nauwkeurigheid van het model op verschillende manieren, zoals overfitting, ondermaats , enzovoort.Laten we bias en variantie eens bekijken om te begrijpen hoe we met de reduceerbare fout in .



Wat is vooringenomenheid bij machinaal leren?

Bias is in feite hoe ver we de waarde hebben voorspeld ten opzichte van de werkelijke waarde. We zeggen dat de bias te hoog is als de gemiddelde voorspellingen ver afwijken van de werkelijke waarden.

Een hoge bias zorgt ervoor dat het algoritme een dominant patroon of relatie tussen de invoer- en uitvoervariabelen mist. Wanneer de bias te hoog is, wordt aangenomen dat het model vrij eenvoudig is en de complexiteit van de dataset om de relatie te bepalen niet doorgrondt en dus,waardoor onderfitting ontstaat.

Variantie in een machine learning-model?

Op een onafhankelijke, ongeziene dataset of een validatieset. Wanneer een model niet zo goed presteert als met de getrainde dataset, bestaat de mogelijkheid dat het model een variantie heeft. Het vertelt in feite hoe verspreid de voorspelde waarden zijn van de werkelijke waarden.



Een hoge variantie in een dataset betekent dat het model heeft getraind met veel ruis en irrelevante data. Hierdoor ontstaat overfitting in het model. Wanneer een model een hoge variantie heeft, wordt het erg flexibel en maakt het verkeerde voorspellingen voor nieuwe datapunten. Omdat het zich heeft afgestemd op de datapunten van de trainingsset.

Laten we ook proberen het concept van bias-variantie wiskundig te begrijpen. Stel dat de variabele die we voorspellen Y is en de andere onafhankelijke variabelen X. Laten we nu aannemen dat er een relatie is tussen de twee variabelen, zodat:

Y = f (X) + e

In de bovenstaande vergelijking, hier is is de geschatte fout met een gemiddelde waarde van 0. Wanneer we een classifier maken met behulp van algoritmen zoals lineaire regressie , , enz., zal de verwachte vierkante fout op punt x zijn:

err (x) = Bias2+ Variantie + onherleidbare fout

Laten we ook begrijpen hoe de Bias-Variance een Machine leren prestaties van het model.

Welke invloed heeft het op het Machine Learning-model?

We kunnen de relatie tussen bias-variantie in vier onderstaande categorieën onderbrengen:

  1. Hoge variantie - hoge bias - Het model is inconsistent en ook gemiddeld onnauwkeurig
  2. Lage variatie-hoge afwijking - Modellen zijn consistent maar gemiddeld laag
  3. Hoge variantie-lage bias - Enigszins nauwkeurig maar inconsistent met gemiddelden
  4. Lage variantie-lage bias - Het is het ideale scenario, het model is gemiddeld consistent en nauwkeurig.

bias-variantie in machine learning-edureka

Hoewel het detecteren van bias en variantie in een model vrij evident is. Een model met een hoge variantie heeft een lage trainingsfout en een hoge validatiefout. En in het geval van een hoge bias, zal het model een hoge trainingsfout hebben en is validatiefout hetzelfde als trainingsfout.

Hoewel detecteren eenvoudig lijkt, is de echte taak om het tot een minimum te beperken. In dat geval kunnen we het volgende doen:

wat is het verschil tussen hashmap en hashtabel
  • Voeg meer invoerfuncties toe
  • Meer complexiteit door het introduceren van polynoomkenmerken
  • Verlaag de regularisatietermijn
  • Meer trainingsgegevens ophalen

Nu we weten wat bias en variantie is en hoe dit ons model beïnvloedt, laten we eens kijken naar een afweging tussen bias en variantie.

Bias-Variance-wisselwerking

Het vinden van de juiste balans tussen de bias en variantie van het model wordt de Bias-Variance-afweging genoemd. Het is in feite een manier om ervoor te zorgen dat het model in geen geval over- of ondermaats is.

Als het model te simpel is en zeer weinig parameters heeft, zal het te lijden hebben van hoge vertekening en lage variantie. Aan de andere kant, als het model een groot aantal parameters heeft, zal het een hoge variantie en een lage bias hebben. Deze afweging zou moeten resulteren in een perfect uitgebalanceerde relatie tussen de twee. Idealiter zijn lage bias en lage variantie het doelwit voor elk Machine Learning-model.

Totale fout

In elk Machine Learning-model dient een goede balans tussen de bias en variantie als een perfect scenario in termen van voorspellende nauwkeurigheid en het vermijden van overfitting, helemaal underfitting. Een optimale balans tussen bias en variantie, in termen van complexiteit van algoritmen, zorgt ervoor dat het model nooit overfit of underfitted is.

De gemiddelde kwadratische fout in een statistisch model wordt beschouwd als de som van de kwadratische bias en variantie en variantie van fouten. Dit alles kan in een totale fout worden gestopt, waarbij we bias, variantie en onherleidbare fouten in een model hebben.

Laten we begrijpen hoe we de totale fout kunnen verminderen met behulp van een praktische implementatie.

We hebben een lineaire regressieclassificatie in de Lineaire regressie bij machine learning artikel over Edureka met behulp van de diabetes dataset in de datasets module van scikit leren bibliotheek.

converteren van dubbel naar int

Toen we de gemiddelde kwadratische fout van de classificator evalueerden, kregen we een totale fout van ongeveer 2500.

Om de totale fout te verminderen, hebben we meer gegevens naar de classificator gevoerd en in ruil daarvoor is de gemiddelde kwadratische fout teruggebracht tot 2000.

Het is een eenvoudige implementatie om de totale fout te verminderen door meer trainingsgegevens aan het model te leveren. Op dezelfde manier kunnen we andere technieken toepassen om de fout te verminderen en een evenwicht te bewaren tussen bias en variantie voor een efficiënt Machine Learning-model.

Dit brengt ons bij het einde van dit artikel waar we Bias-Variance in Mach hebben geleerdine Learning met de implementatie en use case. Ik hoop dat je duidelijk bent met alles wat in deze tutorial met je is gedeeld.

Als je dit artikel over 'Bias-Variance In Machine Learning' relevant vond, bekijk dan het een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld.

We zijn hier om je te helpen bij elke stap op je reis en om een ​​curriculum te bedenken dat is ontworpen voor studenten en professionals die een . De cursus is ontworpen om u een voorsprong te geven in het programmeren van Python en u te trainen in zowel kern- als geavanceerde Python-concepten, samen met verschillende Leuk vinden , , enzovoort.

Mocht u vragen tegenkomen, stel dan gerust al uw vragen in het commentaargedeelte van 'Bias-Variance In Machine Learning' en ons team zal u graag antwoorden.