Belang van data science met Cassandra



Cassandra is een open source-database om grote hoeveelheden gegevens op veel servers te verwerken, dus de vraag van datawetenschappers met Cassandra-kennis is hoog.

'

De snelle uitbreiding van digitale gegevens via computers, mobiel, video, sociale media, digitale sensoren, enz. Gecombineerd met grote doorbraken op het gebied van goedkopere verwerkingskracht, open source databasetoepassingen en een grotere bandbreedte heeft in de hele zakenwereld enorme belangstelling gewekt voor de opkomend gebied van Big Data-wetenschap en analyse.





Big data in grote ongestructureerde volumes zijn te groot om op traditionele wijze te beheren en te analyseren. Door de enorme hoeveelheid en snelheid van de huidige gegevens is het vastleggen, filteren, opslaan en analyseren een echte uitdaging. Om hiermee om te gaan worden regelmatig nieuwe producten ontwikkeld die nieuwe vaardigheden en expertise vereisen. Er is een groeiende behoefte aan personen die nieuwe infrastructuur, platforms en processen in de organisatie kunnen integreren, en aan personen die nieuwe analyses en algoritmen kunnen bouwen die in staat zijn om enorme intelligentie met een grote bedrijfswaarde te creëren. Lees voor meer informatie onze blogpost op

Relevantie van data science in verschillende industrieën:

Data Science & Analytics heeft toepassingen in alle sectoren:



  • e-commerce - Personalisatie- en aanbevelingsengines die de verkoop verhogen.
  • Adverteren - Zeer gerichte, realtime weergave van advertenties aan consumenten.
  • Media en entertainment - Aangepaste inhoudsontwikkeling die de gebruikersbetrokkenheid maximaliseert.
  • Sociale media - Verhoogde 'plakkerigheid' van de site, gebruikersgroei, mogelijkheid om snelbrekende trends te volgen op basis van consumentensentimenten.
  • Financiële diensten - Geoptimaliseerde kredietpraktijken die risico's en fraude minimaliseren.
  • Farma / Bio-informatica - Verbeterde ontdekking van geneesmiddelen, effectievere behandelingen van bedreigende ziekten, verbeteringen op het gebied van genetische manipulatie.
  • Gezondheidszorg - Beter scoren van medische patiënten op gezondheidsrisico's en anticipatie op en vroege preventie van ziekten.
  • Krachtstroom - Intelligentie voor slimme netwerken, efficiëntie in het gebruik, energiebesparing en vermindering van uitvaltijd.
  • Informatiebeveiliging - Sterk verbeterde diefstaldetectie en bewaking van waardevolle bedrijfsinformatie en activa.

Belangrijkste vaardigheden van data science-professionals:

Data Science Domain vereist professionals die:

  • Begrijpt data-analyse en beslissingswetenschap
  • Zijn goed thuis in IT
  • Heb een sterk zakelijk inzicht
  • Beschikken over het vermogen om effectief te communiceren met besluitvormers

Lees verder: Kernvaardigheden die vereist zijn om een ​​Data Scientist te zijn.

Gemeenschappelijke technologieën die verband houden met de praktijk van gegevenswetenschap:

Technologieën die verband houden met datawetenschap



  • Databases

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Talen

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Hive, Pig, Lucene, Mahout, Solr

  • Statistieken en prognoses

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Data visualisatie

QlikView, Spotfire, Tableau, yWorks, R

  • BI & rapportage

BusinessObjects, Cognos, MicroStrategy

Wat is Cassandra?

  • Apache Cassandra is een open source gedistribueerd databasebeheersysteem dat is ontworpen om grote hoeveelheden gegevens op veel commodity-servers te verwerken.
  • Cassandra biedt hoge beschikbaarheid zonder single point of failure.
  • Cassandra biedt robuuste ondersteuning voor clusters die meerdere datacenters overspannen, met asynchrone master-loze replicatie die bewerkingen met lage latentie voor alle clients mogelijk maakt.

Lees voor meer informatie onze blogpost op de .

Hoe maakt Data Science gebruik van Cassandra?

Cassandra is & verlegen & verlegen een gedistribueerde database voor services met lage latentie en hoge doorvoersnelheid die realtime workloads verwerken, bestaande uit honderden updates per seconde en tienduizenden leesbewerkingen per seconde.

Cassandra Use Case - PROS:

PROS is een Big Data-softwarebedrijf met prescriptieve analyses in hun software die hun klanten in staat stellen hun gegevens te analyseren en de inzichten en begeleiding te krijgen om hun prijs-, verkoop- en inkomstenbeheer te optimaliseren.

Ze hebben een realtime service die de beschikbaarheid van luchtvaartmaatschappijen berekent, waarbij dynamisch rekening wordt gehouden met gegevens over inkomstenbeheer en voorraadniveaus die vele honderden keren per seconde kunnen veranderen.

Deze service wordt enkele duizenden keren per seconde opgevraagd, wat zich vertaalt in tienduizenden gegevenszoekopdrachten. Hun backend-opslaglaag voor deze service is Cassandra.

Voor hun realtime oplossing realiseerde PROS zich dat er behoefte was aan:

  • Een gedistribueerde cache die maximaal beschikbaar is.
  • Gemakkelijk schaalbaar.
  • Met een meesterloze architectuur.
  • Met bijna realtime gegevensreplicatie, zelfs tussen datacenters.
  • Dat kan in realtime lezen en schrijven verwerken.

PROS beoordeelde Cassandra tegen Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort en Redis. Apache Cassandra stond vrij gemakkelijk bovenaan de lijst.

hoe u de array-lengte in javascript kunt krijgen

PROS en Cassandra

  • PROS gebruikt Cassandra als een gedistribueerde database voor services met lage latentie en hoge doorvoersnelheid die realtime werkbelastingen verwerken, bestaande uit honderden updates per seconde en tienduizenden leesbewerkingen per seconde.
  • Ze hebben bijvoorbeeld een realtime service die de beschikbaarheid van luchtvaartmaatschappijen dynamisch berekent, waarbij rekening wordt gehouden met inkomstencontrolegegevens en voorraadniveaus die vele honderden keren per seconde kunnen veranderen. Deze service wordt duizenden keren per seconde opgevraagd, wat zich vertaalt in tienduizenden gegevensopzoekingen. Hun backend-opslaglaag voor deze service is Cassandra. Sommige van hun SaaS-aanbiedingen gebruiken Cassandra als de back-end store om een ​​combinatie van real-time en op Hadoop gebaseerde batch-workloads af te handelen.
  • Over Hadoop en Cassandra gesproken, ze halen de gegevens uit Cassandra en plaatsen het in Hadoop en voeren daar batch- en analyses op uit, en dat gaat terug naar Cassandra. Dit wordt bereikt door Cassandra's Hadoop-integratie.
  • De Hadoop-taken halen gegevens uit Cassandra, passen taakspecifieke transformaties of analyses toe en pushen gegevens terug naar Cassandra. Ze gebruiken de Datastax (officiële Cassandra Maintainer) Enterprise-editie niet voor deze integratie, alleen de open source Hadoop-installatie met Cassandra.

Gegevensmodellering met Cassandra:

Onderzoek naar Dynamo, de CAP-stelling en het uiteindelijke consistentiemodel toont aan dat Cassandra redelijk goed in dit model past als ze een sleutel-waardewinkel willen vervangen door iets dat beter in staat is op het gebied van real-time replicatie en datadistributie. Naarmate men meer leert over de mogelijkheden van gegevensmodellering, gaan we geleidelijk over naar het ontbinden van gegevens.

Als iemand afkomstig is uit een relationele database-achtergrond met een sterke ACID-semantiek, dan moet je de tijd nemen om het uiteindelijke consistentiemodel te begrijpen.

Begrijp de architectuur van Cassandra heel goed en begrijp wat het onder de motorkap doet. Met Cassandra 2.0 krijg je lichtgewicht transacties en triggers, maar ze zijn niet hetzelfde als de traditionele databasetransacties die je misschien kent. Er zijn bijvoorbeeld geen beperkingen voor externe sleutels beschikbaar - deze moet worden afgehandeld door de eigen applicatie. Het is een must om iemands gebruiksscenario's en gegevenstoegangspatronen duidelijk te begrijpen voordat gegevens met Cassandra worden gemodelleerd en om alle beschikbare documentatie te lezen.

Conclusie:

Apache Cassandra evolueert snel en we leren en begrijpen de mogelijkheden ervan - vooral op het gebied van datamodellering. We zien het als een gedistribueerde NoSQL-database naar keuze voor onze Big Data-services en -oplossingen.

Edureka biedt een uitgebreide voor degenen die datawetenschapper willen worden. De cursus behandelt een reeks Hadoop-, R- en Machine Learning-technieken die de volledige Data Science-studie omvatten. Edureka biedt ook waarmee u NoSQL-databases onder de knie kunt krijgen. Deze cursus is bedoeld om kennis en vaardigheden te bieden om een ​​succesvolle Cassandra-expert te worden.