Voorspellend analyseproces in Business Analytics met R



De blog geeft een kort idee over het Predictive Analytics-proces in Business Analytics met R

Typisch modelleerproces:

In een typisch modelleerproces is het belangrijk om te beginnen met het opstellen van een hypothese. Een RFP (Request for Proposal) wordt ontvangen en vervolgens wordt een hypothese opgesteld.





  1. Bepaal de juiste gegevensbron - Hier kan de klant een gegevensbron opgeven, zo niet, dan moeten we op zoek naar een gegevensbron. In een scenario waarin we proberen te evalueren wie de verkiezingen zou winnen, wordt een openbare analyse van gegevens gedaan met bronnen die sociale media, nieuwskanalen of de publieke opinie omvatten. We moeten ook de hoeveelheid gegevens begrijpen die nodig is om het probleem te analyseren. In dit geval zoeken we meestal naar grote steekproeven, aangezien het een verkiezingszaak is. Aan de andere kant, als de analyse wordt gedaan op Gezondheidszorg, is het moeilijk om voor een grote populatie te gaan, omdat er een mogelijkheid is dat er niet genoeg mensen zijn om de hypothese te valideren. Ook de kwaliteit van data is erg belangrijk.
  2. Extraheer gegevens - Als we bijvoorbeeld een steekproef van de populatie nemen, kunnen we kijken naar kenmerken, zoals hoog inkomen, laag inkomen, leeftijd, beroepsbevolking (offsite / onsite), bewoners, NRI, dekking van ziekenhuizen, enz., Om het onderzoek te starten . Hier hebben we misschien niet zoveel attributen nodig voor de hypothese. We begrijpen dat kenmerken, zoals een hoog en een laag inkomen, mogelijk niet de factoren zijn die bijdragen aan het bepalen wie de verkiezingen wint. Maar leeftijd kan een verschil maken, omdat het een directe telling geeft van het aantal mensen dat gaat stemmen. Vaak sluiten we minder gebruikte attributen uit of nemen we attributen op die nuttig zijn. In beide gevallen kan het mis gaan. Dat is de reden waarom analytics een uitdaging is.
  3. Masseer de gegevens om de tool te passen - Dit komt doordat niet alle tools alle gegevens kunnen accepteren. Bepaalde tools accepteren alleen CSV-gegevens of Excel-gegevens. Gebrek aan tools is een uitdaging.
  4. Voer de analyse uit - Deze bewerking kan worden uitgevoerd met behulp van vele analysetechnieken.
  5. Conclusies trekken - De analyse geeft cijfers om precies te zijn. Maar het is aan een gebruiker om uit deze cijfers conclusies te trekken. Als er bijvoorbeeld 10% of 20% staat, moeten we begrijpen wat het betekent? Leidt het een verband af tussen attribuut A en attribuut B?
  6. Implementeer resultaten - Het is belangrijk om conclusies te implementeren om resultaten in het bedrijfsleven te zien. Men kan bijvoorbeeld concluderen dat ‘Mensen kopen paraplu in het regenseizoen’ wat kan resulteren in meer zaken. Hier moeten we de conclusie implementeren waar we paraplu maken, beschikbaar in winkels, maar dan kan het managementproblemen hebben. Op het moment dat statistieken resultaat opleveren, kan de implementatie fout gaan.
  7. Voortgang in de gaten houden - De laatste stap hierbij, monitoring speelt een belangrijke rol. Monitoring kan fout gaan omdat niet veel organisaties de voortgang willen monitoren en het wordt als een te verwaarlozen stap beschouwd. Maar monitoring is belangrijk omdat we kunnen begrijpen of ons onderzoek en onze conclusies in de goede richting gaan.

Lees ook dit artikel' Correlatie betekent niet causaliteit 'wat inzicht geeft in hoe analisten fout kunnen gaan. Een belangrijk punt om op te merken in deze grafiek is dat het uitvoeren van analyse de enige stap is waarbij de machine verantwoordelijk is en verder is het aan een mens die uiteindelijk zal bepalen hoe het onderzoek wordt gedaan.

Heeft u een vraag voor ons? Noem ze in het opmerkingengedeelte en we nemen contact met u op.



Gerelateerde berichten:



hoe u een reeks objecten maakt