La realtà in numeri L'ambiente statistico R: una prima ... · Archiviazione dati LibreOffice...

4
L'ambiente statistico R: una prima visita guidata Davide Massidda davide.massidda@gmail.com Università di Cagliari, a.a. 2013/2014 La realtà in numeri I dati consentono di digitalizzare la realtà, descrivendo un fenomeno attraverso un codice numerico o testuale. I dati veicolano informazioni, che però necessitano di opportune tecniche e adeguati strumenti per essere estratte. La statistica è quella disciplina che fa da ponte tra i numeri e l'informazione. Statistica La statistica nel XXI secolo Sempre più spesso, a chi fa statistica oggi non è chiesto semplicemente di analizzare dati. Fare statistica nel XXI secolo significa fare qualcosa di più, ovvero creare con i dati. Oggi serve gente che sappia comunicare con i numeri, li sappia interrogare e sia in grado di trasformarli in conoscenza. La figura professionale della scimmia schiaccia-bottoni è destinata a essere messa da parte*. * Ma i bottoni – per fortuna – continueranno a esistere. Che cos'è R, in breve R è un ambiente di sviluppo pensato appositamente per la realizzazione di analisi statistiche. Si tratta di un linguaggio di programmazione figlio di un altro linguaggio analogo (chiamato S), di cui R è l'alternativa open source. Fondamentalmente, R è un pacchetto statistico che permette di elaborare dati, eseguire calcoli e realizzare rappresentazioni grafiche.

Transcript of La realtà in numeri L'ambiente statistico R: una prima ... · Archiviazione dati LibreOffice...

L'ambiente statistico R:una prima visita guidata

Davide [email protected]

Università di Cagliari, a.a. 2013/2014

La realtà in numeri

● I dati consentono di digitalizzare la realtà, descrivendo un fenomeno attraverso un codice numerico o testuale.

● I dati veicolano informazioni, che però necessitano di opportune tecniche e adeguati strumenti per essere estratte.

● La statistica è quella disciplina che fa da ponte tra i numeri e l'informazione.

Statistica

La statistica nel XXI secolo

● Sempre più spesso, a chi fa statistica oggi non è chiesto semplicemente di analizzare dati.

● Fare statistica nel XXI secolo significa fare qualcosa di più, ovvero creare con i dati.

● Oggi serve gente che sappia comunicare con i numeri, li sappia interrogare e sia in grado di trasformarli in conoscenza.

● La figura professionale della scimmia schiaccia-bottoni è destinata a essere messa da parte*.

* Ma i bottoni – per fortuna – continueranno a esistere.

Che cos'è R, in breve

● R è un ambiente di sviluppo pensato appositamente per la realizzazione di analisi statistiche.

● Si tratta di un linguaggio di programmazione figlio di un altro linguaggio analogo (chiamato S), di cui R è l'alternativa open source.

● Fondamentalmente, R è un pacchetto statistico che permette di elaborare dati, eseguire calcoli e realizzare rappresentazioni grafiche.

Che cos'è R, in breve

● Nasce intorno alla metà degli anni '90 presso l'Università di Auckland. I primi sviluppatori furono Robert Gentleman e Ross Ihaka.

● Fin dall'inizio, il progetto R aveva l'obiettivo di fornire un ambiente statistico di alta qualità e a costo zero.

● Oggi, R è diventato il riferimento per le analisi statistiche nel mondo accademico, e negli ultimi anni sta entrando prepotentemente anche in quello aziendale.

Un progetto di successo

● Completo: permette di gestire modelli statistici dai più semplici ai più complessi, realizzare rappresentazioni grafiche di alto livello, creare applicazioni web, fare del web scraping... e molto altro ancora!

● All’avanguardia: difficilmente l’ultima frontiera dell’analisi statistica non ha un’implementazione in R. E se non ce l’ha oggi, molto probabilmente ce l’avrà domani (se non tra qualche ora).

Un progetto di successo

● Personalizzabile: è concepito come un linguaggio di programmazione, per cui consente all’utente di creare istruzioni personalizzate per risolvere problemi nuovi, originariamente non previsti dal programma, oppure per migliorare istruzioni già esistenti.

● Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenze software che difficilmente un privato potrebbe permettersi.

● Open source: chiunque può lavorare sul software e svilupparlo, anche per derivarne altri prodotti.

Perché R e non...

Analizzare dati psicologici

● Psicologo “R non-user”

Archiviazione dati LibreOffice

Analisi statistica “ordinaria” SPSS

Modelli di equazioni strutturali Lisrel

Modelli di Rasch WINSTEPS

Analisi di dati testuali Spad-T

● Psicologo “R user”

Archiviazione dati LibreOffice

Analisi statistica “odinaria” R

Modelli di equazioni strutturali R

Modelli di Rasch R

Analisi di dati testuali R

Totale software necessari: 5

Totale software necessari: 2

Installare R in Windows

● URL del progetto: www.r-project.org● Sul menù di sinistra scegliere la voce CRAN.● Scegliere un CRAN geograficamente vicino (Milano, Padova

o Palermo).● Scegliere il download per Windows.● Scegliere la distribuzione base.● Effettuare il download e installare il software.

Un foglio bianco

● Da dove partire?!

R è una calcolatrice!

● L'utente invia un comando in input; dall'altra parte, un interprete legge l'istruzione, elabora la risposta e fornisce un output.

> 2+2[1] 4

> 3^5[1] 243

> log(0)[1] 1

> 7 + (3­4)[1] 6

> 2+2[1] 4

> 3^5[1] 243

> log(0)[1] 1

> 7 + (3­4)[1] 6

Migliore UX con R Studio

● R Studio è un ambiente integrato per R che fornisce funzionalità di alto livello per migliorare l'esperienza utente.

● Consente di eseguire alcune basilari operazioni tramite pulsanti e rende un po' più semplice organizzare il codice.

● Per funzionare, necessita che R sia installato sulla macchina.

www.rstudio.com/ide/download/

Migliore UX con R Studio

● Diverse funzionalità migliorano l'esperienza utente e sono presenti utilissimi pulsanti. Non si tratta comunque di una vera e propria interfaccia grafica a bottoni.

Vita più facile con Rcmdr

Cosa faremo noi con R

● Corso di sopravvivenza: basilare introduzione al linguaggio per comprenderne la logica di funzionamento.

● Organizzazione e importazione dati.

● Analisi della varianza.

● Un po' di visualizzazioni.

● Nota bene:

Dal lato R, questo corso vi fornirà gli strumenti strettamente necessari per analizzare i dati con l'ANOVA. Diventare esperti di R non sarà certo argomento di queste lezioni.