InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

34
D. Massidda, F. Cabiddu, G. Alto` e Universit` a di Cagliari www.insular.it Cagliari, 24 Maggio 2013

description

SLIDES Primo intervento giornata 24 Maggio 2013 : "Una Statistica più consapevole per decisioni migliori. Giornata di Metodologia e Statistica per le Scienze Umane." TITOLO "InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda, Francesco Cabiddu, Gianmarco Altoè)" Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia. - See more at: http://www.insular.it

Transcript of InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Page 1: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

D. Massidda, F. Cabiddu, G. Altoe

Universita di Cagliari

www.insular.it

Cagliari, 24 Maggio 2013

Page 2: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Indice

1 L’era dei dati

2 Il progetto R

3 Utilizzare R

4 InsulaR

Page 3: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

Page 4: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

La corsa ai dati

• Il XXI secolo guarda sempre piu ai dati come a una risorsa: essi pos-sono essere utilizzati per rappresentare la realta, capirla, interpretarlae quindi governarla.

• Ormai l’hanno capito tutti: centri di ricerca, aziende, pubbliche ammi-nistrazioni.

• E un’opportunita da non lasciarsi sfuggire... ma dobbiamo attrezzarciadeguatamente!

• Infatti, i dati sono importanti in quanto contengono informazioni. Maqueste informazioni richiedono opportune tecniche e adeguati stru-menti per essere estratte.

Page 5: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

Dai dati all’informazione

• Le discipline statistiche offrono una soluzione.

• La statistica si occupa dell’analisi quantitativa e qualitativa di fenomeni,adeguatamente misurati e quindi trasformati in un codice numerico.

• Attraverso specifiche elaborazioni statistiche, e possibile risalire dalvalore numerico all’informazione sul comportamento di un fenomeno.

Page 6: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

Page 7: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

Cosa e un data scientist?

• Un atleta in grado di nuotare in mezzo ai dati, capace di esplora-re i numeri attraverso opportune analisi statistiche e visualizzazionigrafiche.

• Una tecnico in grado di utilizzare gli strumenti informatici per il trat-tamento dei dati.

• Un esperto conoscitore del fenomeno sotto analisi, capace di guidarelo studio del dato e individuare le strade piu fertili su cui orientare illavoro.

• Un artista creativo, in grado di intrecciare dati preesistenti per trovaresoluzioni originali a un problema.

Page 8: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

Come trovare un data scientist?

Davenport e Patil (2012):

“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”

Due importanti aspetti da segnalare:

• L’importanza di conoscere strumenti open source come R o Python.

• L’importanza di essere sul web e di lasciarvi una traccia evidente.

Page 9: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

L’era dei dati

Come trovare un data scientist?

Davenport e Patil (2012):

“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”

Due importanti aspetti da segnalare:

• L’importanza di conoscere strumenti open source come R o Python.

• L’importanza di essere sul web e di lasciarvi una traccia evidente.

Page 10: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Il progetto R

Page 11: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Il progetto R

Il progetto R

• R e un pacchetto statistico che permette di elaborare dati, eseguirecalcoli ed effettuare rappresentazioni grafiche (...e molto altro!)

• E nato attorno al 1995 presso il Dipartimento di Statistica dell’Univer-sita di Auckland. I primi sviluppatori furono Robert Gentleman e RossIhaka.

• Fin dall’inizio, il progetto R aveva l’obiettivo di fornire un ambientestatistico di alta qualita e a costo zero.

• Oggi, R e diventato il riferimento per le analisi statistiche nel mondoaccademico, e negli ultimi anni sta entrando prepotentemente anche inquello aziendale.

Page 12: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Il progetto R

Un progetto di successo

• Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenzesoftware che difficilmente un privato potrebbe permettersi.

• Potente: permette di gestire modelli statistici dai piu semplici ai piucomplessi e di realizzare rappresentazioni grafiche di alto livello.

• Personalizzabile: e concepito come un linguaggio di programmazio-ne, per cui consente all’utente di creare istruzioni personalizzate perrisolvere problemi nuovi, originariamente non previsti dal programma,oppure per migliorare istruzioni gia esistenti.

• All’avanguardia: difficilmente l’ultima frontiera dell’analisi statisti-ca non ha un’implementazione in R. E se non ce l’ha oggi, moltoprobabilmente ce l’avra domani (se non tra qualche ora).

Page 13: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Il progetto R

Un software open source

• R e un software libero, distribuito con licenza GNU GPL: l’utente haliberta di utilizzo, copia, modifica e ridistribuzione del prodotto.

• R e anche un software open source: i suoi codici sorgenti sono noti,per cui chiunque puo modificarli e utilizzarli come base per prodottiderivati.

• Gli utenti possono collaborare attivamente allo sviluppo di R, principal-mente creando e diffondendo nuovi pacchetti di istruzioni (ce ne sonotantissimi... dall’analisi di dati fMRI al sudoku!)

Page 14: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Page 15: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 16: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 17: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 18: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 19: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Interfacce: R Commander

http://www.rcommander.com

Page 20: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Interfacce: R Studio

http://www.rstudio.com

Page 21: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Interfacce: RKWard

http://rkward.sourceforge.net

Page 22: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Principali usi di R

Manipolazione dei dati

Analisi statistica dei dati

Creazione di grafici

Reportistica

Web scraping

...e tanto altro ancora!

Il tutto puo essere eseguito in maniera automatizzata preparando degliscript di istruzioni.

Page 23: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Avvertenze

Maneggiare con cura

• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.

• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.

Page 24: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Avvertenze

Maneggiare con cura

• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.

• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.

Page 25: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Utilizzare R

Avvertenze

Agitare bene (l’utente) prima dell’uso

• L’utente necessita di un adeguato addestramento all’uso del linguag-gio: il principale pregio di R si rivela essere anche un ostacolo per chivorrebbe usarlo senza avere nozioni di programmazione.

• L’utente necessita anche di un adeguato addestramento all’uso dellemetodologie statistiche.

Page 26: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Page 27: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Le motivazioni

• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.

• Nonostante questo, R in Sardegna e ancora poco diffuso.

• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.

• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.

Page 28: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Le motivazioni

• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.

• Nonostante questo, R in Sardegna e ancora poco diffuso.

• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.

• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.

Page 29: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

Page 30: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

Page 31: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

Page 32: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Corso “Introduzione all’ambiente R”

Il corso si propone di introdurre lo studente all’uso dell’ambiente R, permetterlo in grado di esplorare e analizzare dati in completa autonomia.

Al termine del corso, lo studente sara in grado di organizzare un dataset,importarlo in R ed eseguire le principali operazioni di pulizia, visualizzazionee analisi dei dati.

Il corso e organizzato in quattro moduli:

1 Il linguaggio R: primi passi

2 Manipolazione dei dati

3 Visualizzazione dei dati

4 Analisi statistica dei dati

Page 33: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

InsulaR

Dove trovarci

www.insular.it

Page 34: InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)

Grazie per l’attenzione

Contatti:

Davide Massidda [email protected]

Francesco Cabiddu [email protected]

Gianmarco Altoe [email protected]