Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Post on 22-Apr-2015

1.041 views 3 download

description

 

Transcript of Cassandra + Hadoop: Analisi Batch con Apache Cassandra

Cassandra + Hadoop

Analisi batch con Apache Cassandra

Apache Cassandra

•Collezione di servers, un singolo database

•Architettura semplice

•Completamente distribuito

•Replica efficacemente fra i datacenters

•Fault tolerant

•E’ un database realtime

Alcuni Utenti

Scala Linearmente

Modellare I Dati

•Siamo abituati ad SQL

•Con Cassandra, si modellano i dati a seconda delle modalita’ di interrogazione

•Un column family per ciascun tipo di interrogazione

Altre Caratteristiche

•Fault tolerance

•Si possono perdere nodi o datacenters interi

•Ottimizzato per la scrittura dati

•Eventual consistency

•Si possono replicare i dati attraverso molti datacenters

Analisi Batch• Abbiamo molti dati

• Vogliamo eseguire interrogazioni ed aggregazioni complesse sui dati

• Che fare?

• Hadoop!

• Supporto per Hadoop da 2010

• Il JobTracker da i job verso nodi che hanno la suddivisione i dati

Workload Isolation

•Nessuna interferenza con le interrogazioni realtime

•Usiamo un datacenter per ogni workload

•Ogni workload ha la sua copia dei dati

Usi Specifici Con Cassandra

•Creare un nuovo modo di interrogare i dati

•Validare i dati

•Correggere i dati

Domande?

•Jeremy Hanna

•jeremy@datastax.com

•@jeromatron (twitter e irc)