InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Post on 05-Jul-2015

101 views 1 download

description

SLIDES Primo intervento giornata 24 Maggio 2013 : "Una Statistica più consapevole per decisioni migliori. Giornata di Metodologia e Statistica per le Scienze Umane." TITOLO "InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda, Francesco Cabiddu, Gianmarco Altoè)" Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia. - See more at: http://www.insular.it

Transcript of InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

D. Massidda, F. Cabiddu, G. Altoe

Universita di Cagliari

www.insular.it

Cagliari, 24 Maggio 2013

Indice

1 L’era dei dati

2 Il progetto R

3 Utilizzare R

4 InsulaR

L’era dei dati

L’era dei dati

La corsa ai dati

• Il XXI secolo guarda sempre piu ai dati come a una risorsa: essi pos-sono essere utilizzati per rappresentare la realta, capirla, interpretarlae quindi governarla.

• Ormai l’hanno capito tutti: centri di ricerca, aziende, pubbliche ammi-nistrazioni.

• E un’opportunita da non lasciarsi sfuggire... ma dobbiamo attrezzarciadeguatamente!

• Infatti, i dati sono importanti in quanto contengono informazioni. Maqueste informazioni richiedono opportune tecniche e adeguati stru-menti per essere estratte.

L’era dei dati

Dai dati all’informazione

• Le discipline statistiche offrono una soluzione.

• La statistica si occupa dell’analisi quantitativa e qualitativa di fenomeni,adeguatamente misurati e quindi trasformati in un codice numerico.

• Attraverso specifiche elaborazioni statistiche, e possibile risalire dalvalore numerico all’informazione sul comportamento di un fenomeno.

L’era dei dati

L’era dei dati

Cosa e un data scientist?

• Un atleta in grado di nuotare in mezzo ai dati, capace di esplora-re i numeri attraverso opportune analisi statistiche e visualizzazionigrafiche.

• Una tecnico in grado di utilizzare gli strumenti informatici per il trat-tamento dei dati.

• Un esperto conoscitore del fenomeno sotto analisi, capace di guidarelo studio del dato e individuare le strade piu fertili su cui orientare illavoro.

• Un artista creativo, in grado di intrecciare dati preesistenti per trovaresoluzioni originali a un problema.

L’era dei dati

Come trovare un data scientist?

Davenport e Patil (2012):

“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”

Due importanti aspetti da segnalare:

• L’importanza di conoscere strumenti open source come R o Python.

• L’importanza di essere sul web e di lasciarvi una traccia evidente.

L’era dei dati

Come trovare un data scientist?

Davenport e Patil (2012):

“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”

Due importanti aspetti da segnalare:

• L’importanza di conoscere strumenti open source come R o Python.

• L’importanza di essere sul web e di lasciarvi una traccia evidente.

Il progetto R

Il progetto R

Il progetto R

• R e un pacchetto statistico che permette di elaborare dati, eseguirecalcoli ed effettuare rappresentazioni grafiche (...e molto altro!)

• E nato attorno al 1995 presso il Dipartimento di Statistica dell’Univer-sita di Auckland. I primi sviluppatori furono Robert Gentleman e RossIhaka.

• Fin dall’inizio, il progetto R aveva l’obiettivo di fornire un ambientestatistico di alta qualita e a costo zero.

• Oggi, R e diventato il riferimento per le analisi statistiche nel mondoaccademico, e negli ultimi anni sta entrando prepotentemente anche inquello aziendale.

Il progetto R

Un progetto di successo

• Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenzesoftware che difficilmente un privato potrebbe permettersi.

• Potente: permette di gestire modelli statistici dai piu semplici ai piucomplessi e di realizzare rappresentazioni grafiche di alto livello.

• Personalizzabile: e concepito come un linguaggio di programmazio-ne, per cui consente all’utente di creare istruzioni personalizzate perrisolvere problemi nuovi, originariamente non previsti dal programma,oppure per migliorare istruzioni gia esistenti.

• All’avanguardia: difficilmente l’ultima frontiera dell’analisi statisti-ca non ha un’implementazione in R. E se non ce l’ha oggi, moltoprobabilmente ce l’avra domani (se non tra qualche ora).

Il progetto R

Un software open source

• R e un software libero, distribuito con licenza GNU GPL: l’utente haliberta di utilizzo, copia, modifica e ridistribuzione del prodotto.

• R e anche un software open source: i suoi codici sorgenti sono noti,per cui chiunque puo modificarli e utilizzarli come base per prodottiderivati.

• Gli utenti possono collaborare attivamente allo sviluppo di R, principal-mente creando e diffondendo nuovi pacchetti di istruzioni (ce ne sonotantissimi... dall’analisi di dati fMRI al sudoku!)

Utilizzare R

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Utilizzare R

Interfacce: R Commander

http://www.rcommander.com

Utilizzare R

Interfacce: R Studio

http://www.rstudio.com

Utilizzare R

Interfacce: RKWard

http://rkward.sourceforge.net

Utilizzare R

Principali usi di R

Manipolazione dei dati

Analisi statistica dei dati

Creazione di grafici

Reportistica

Web scraping

...e tanto altro ancora!

Il tutto puo essere eseguito in maniera automatizzata preparando degliscript di istruzioni.

Utilizzare R

Avvertenze

Maneggiare con cura

• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.

• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.

Utilizzare R

Avvertenze

Maneggiare con cura

• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.

• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.

Utilizzare R

Avvertenze

Agitare bene (l’utente) prima dell’uso

• L’utente necessita di un adeguato addestramento all’uso del linguag-gio: il principale pregio di R si rivela essere anche un ostacolo per chivorrebbe usarlo senza avere nozioni di programmazione.

• L’utente necessita anche di un adeguato addestramento all’uso dellemetodologie statistiche.

InsulaR

InsulaR

Le motivazioni

• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.

• Nonostante questo, R in Sardegna e ancora poco diffuso.

• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.

• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.

InsulaR

Le motivazioni

• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.

• Nonostante questo, R in Sardegna e ancora poco diffuso.

• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.

• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

InsulaR

Corso “Introduzione all’ambiente R”

Il corso si propone di introdurre lo studente all’uso dell’ambiente R, permetterlo in grado di esplorare e analizzare dati in completa autonomia.

Al termine del corso, lo studente sara in grado di organizzare un dataset,importarlo in R ed eseguire le principali operazioni di pulizia, visualizzazionee analisi dei dati.

Il corso e organizzato in quattro moduli:

1 Il linguaggio R: primi passi

2 Manipolazione dei dati

3 Visualizzazione dei dati

4 Analisi statistica dei dati

InsulaR

Dove trovarci

www.insular.it

Grazie per l’attenzione

Contatti:

Davide Massidda davide.massidda@gmail.com

Francesco Cabiddu cabiddu@hotmail.it

Gianmarco Altoe giamma.alto@gmail.com