Rapporto sull’uso del cellulare in Italia

83
Corso di Metod Rapporto Docente: Prof. Amelia Giuseppina No A Università degli Studi di S Corso di Laurea Specialistica in In di e Tecniche per l’analis sull’uso del cellula Italia Stude obile Giov Matr Anno Accademico 2009-2010 Salerno nformatica si dei dati are in ente: vanni Cannizzaro ricola:0521/000857

Transcript of Rapporto sull’uso del cellulare in Italia

Page 1: Rapporto sull’uso del cellulare in Italia

Corso di Metodi

Rapporto sull’uso del cellulare in

Docente:

Prof. Amelia Giuseppina Nobile

Anno Accademico 2009

Università degli Studi di Salerno

Corso di Laurea Specialistica in Informatica

Metodi e Tecniche per l’analisi dei dati

Rapporto sull’uso del cellulare in

Italia

Studente:

Nobile Giovanni Cannizzaro

Matricola:0521/000857

Anno Accademico 2009-2010

Università degli Studi di Salerno

Corso di Laurea Specialistica in Informatica

’analisi dei dati

Rapporto sull’uso del cellulare in

Studente:

Giovanni Cannizzaro

Matricola:0521/000857

Page 2: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

2

Sommario

Introduzione ...................................................................................................... 3

Fonti .................................................................................................................. 3

L’uso del cellulare.............................................................................................. 4

I motivi per cui si usa il cellulare ..................................................................... 8

Le funzioni più utilizzate ..................................................................................11

Analisi visuale ................................................................................................. 14

Analisi Descrittiva .......................................................................................... 21

Analisi delle variabili singolarmente .......................................................... 22

Correlazione tra le variabili ........................................................................... 37

Analisi Cluster ................................................................................................. 56

Metodi gerarchici ......................................................................................... 57

Metodi gerarchici agglomerativi in dettaglio ............................................. 59

Il metodo del legame singolo .................................................................... 59

Il metodo del legame completo ................................................................. 59

Il metodo del legame medio ...................................................................... 59

Il metodo del centroide ............................................................................. 60

Il metodo della mediana .......................................................................... 60

Metodi non gerarchici .................................................................................... 72

Conclusioni ..................................................................................................... 83

Page 3: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

3

Introduzione

L’obiettivo di questa relazione è quello di fare un analisi statistica riguardante l’uso dei telefoni cellulari in Italia, nell’anno 2006, avendo a disposizione una mole importante di dati. Si cercherà di svolgere un’analisi in modo dettagliato e completo, cercando di cogliere gli aspetti più importanti e interpretare i dati ottenuti nel modo migliore possibile.

Fonti

I dati utilizzati per l'analisi, datati 206, sono stati pubblicati dall'ISTAT (Istituto Nazionale di Statistica).

Page 4: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

4

L’uso del cellulare

Nel 2006 il 77,4% delle persone di 6 anni e più utilizza il telefono cellulare. Importanti sono le differenze di genere: l’81,2% degli uomini fa uso del cellulare contro il 73,9% delle donne ma queste differenze dipendono fortemente dall’età; tra i giovani fino ai 34 anni, infatti, la quota di donne che usa il cellulare è superiore a quella degli utilizzatori maschi ma, a partire dai 35 anni la situazione si capovolge e nelle età successive il divario diventa molto ampio (Prospetto 1). L’uso del cellulare è comunque molto influenzato dall’età. Le persone che lo usano sono, infatti, il 28,7% dai 6 ai 10 anni, raggiungono l’80,0& già dagli 11 ai 14 anni, per poi superare il 93% dai 15 ai 44 anni. La quota di utilizzatori decresce dopo i 45 anni ma si riduce significativamente solo tra gli ultrasessantacinquenni (Prospetto 1). L’uso del cellulare è molto diffuso su tutto il territorio nazionale, anche se si riscontrano comunque delle leggere differenze. La quota di utilizzatori è, infatti, dell’80,0% al Centro mentre al Sud è del 74,2 %. Considerando la frequenza con cui si usa il cellulare si evidenzia come tale mezzo di comunicazione sia entrato a far parte profondamente del vissuto quotidiano. Il 73,6% degli utilizzatori ricorrono al cellulare tutti i giorni, e il 20,3% almeno una volta a settimana. Solo il 6,0% degli utenti fa un uso saltuario del cellulare (una o più volte al mese o più raramente). L’utilizzo quotidiano del cellulare è diffuso soprattutto tra i giovani (oltre il 90% degli utilizzatori dai 17 ai 34 anni) e tra i dirigenti, imprenditori e liberi professionisti (91,2%) mentre un uso più saltuario è diffuso soprattutto tra gli anziani (Prospetto 1).

Page 5: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

5

Prospetto 1 - Persone di 6 anni e più per uso del cellulare, frequenza con cui lo usano, sesso, classe di età e ripartizione geografica - Anno 2006 (per 100 persone di 6 anni e più con le stesse caratteristiche)

SESSO, CLASSI DI ETÀ E RIPARTIZIONI GEOGRAFICHE

Usa il cellulare Usa il cellulare Frequenza di utilizzo (a) No SI Tutti i

Giorni Una o più volte a

settimana

Qualche volta al mese

Qualche volta

all'anno

Sesso Maschi 16,0 81,2 76,2 18,4 3,8 1,6 Femmine 23,6 73,9 71,0 22,3 4,6 2,1 Totale 19,9 77,4 73,6 20,3 4,2 1,8 Classi di Età 6-10 66,3 28,7 26,2 43,1 21,0 9,6 11-14 17,0 80,0 70,1 23,0 5,0 1,9 15-17 2,8 93,1 89,3 9,7 0,9 0,1 18-19 2,8 94,4 94,4 5,0 0,4 0,2 20-24 1,9 95,1 94,5 5,0 0,4 - 25-34 2,4 95,1 89,6 9,6 0,6 0,3 35-44 3,9 93,4 81,7 16,2 1,6 0,5 45-54 7,7 89,8 73,7 21,7 3,3 1,3 55-59 16,2 81,6 64,1 27,8 6,3 1,8 60-64 22,8 74,8 53,9 33,4 9,3 3,4 65-74 39,6 58,5 39,7 42,2 11,9 6,2 75 e più 71,2 26,6 28,8 43,6 16,7 10,8 Totale 19,9 77,4 73,6 20,3 4,2 1,8 RIPARTIZIONI GEOGRAFICHE Italia Nord Occidentale 18,1 78,8 70,1 21,9 5,4 2,6 Italia Nord Orientale 21,3 76,8 69,6 22,7 5,1 2,5 Italia Centrale 17,6 80,0 73,1 21,0 4,5 1,4 Italia Meridionale 22,8 74,2 78,2 18,3 2,5 1,0 Italia Insulare 19,9 77,6 80,4 15,6 2,8 1,3 Italia 19,9 77,4 73,6 20,3 4,2 1,8

(a) per 100 persone di 6 anni e più che usano il cellulare

Page 6: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

6

Grafico 1 (Uso per fascia d’età)

Grafico 2 (Frequenza d’uso per fascia d’età)

Page 7: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

7

Grafico 3 (Uso del cellulare per Zona)

Grafico 4 (Frequenza d’uso per zona)

Page 8: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

8

I motivi per cui si usa il cellulare Le esigenze familiari vengono al primo posto tra le motivazioni che spingono all’utilizzo del telefono cellulare. Infatti, il 75,2% degli utilizzatori usa il cellulare per essere più facilmente in contatto con i genitori e i familiari mentre il 42,2% lo usa per essere più facilmente in contatto con gli amici. Il cellulare viene utilizzato anche per sentirsi più sicuri poiché il 34,6% degli utilizzatori lo usa per far meglio fronte a eventuali imprevisti, contrattempi e urgenze e il 19,9% dichiara che avere il cellulare a disposizione li fa sentire più sicuri in caso di pericolo. Inoltre, il 29,9% ritiene che il telefono cellulare sia comodo perché evita di dover cercare un telefono pubblico quando occorre. Usare il cellulare per ragioni di lavoro è solo la quinta motivazione (30,0%) a conferma del fatto che il cellulare copre una gamma di esigenze comunicative molto ampia che va ben al di là della sola sfera lavorativa. Importante è anche la quota di persone che usano il cellulare per motivi di assistenza: il 7,1% dichiara di usare il cellulare perché ha genitori o parenti anziani o malati e l’1,5% perché ha bisogno personalmente di essere assistito (Prospetto 2). Ovviamente le motivazioni differiscono molto a seconda dell’età e del sesso. Ad esempio, le donne che usano il cellulare per ragioni di lavoro sono solo il 17,0% rispetto al 42,6% dei maschi e tali differenze si mantengono forti anche a parità di condizione professionale; infatti, tra gli occupati usano il cellulare per ragioni di lavoro il 64,5% dei maschi rispetto al 37,8% delle femmine. Al contrario, sono soprattutto le donne che usano il cellulare per sentirsi più sicure in caso di pericolo (25,1% rispetto al 14,9%) e per far meglio fronte a imprevisti, contrattempi e urgenze (36,4% rispetto al 32,9%). Infine, gli uomini lo usano più delle donne per essere più facilmente in contatto con gli amici (43,4% rispetto al 41,0% delle donne) mentre le donne lo usano più degli uomini per essere più facilmente in contatto con i genitori e i familiari (79,0% rispetto al 71,6% degli uomini). Tra i giovani dai 15 fino ai 24 anni l’uso del cellulare per essere più facilmente in contatto con gli amici è più importante dell’uso per contattare genitori o familiari. Inoltre, è molto elevata anche la quota di giovani che usano il cellulare per il piacere di parlare con chi vogliono in qualsiasi momento e in qualunque luogo. Per ragioni di lavoro e per far meglio fronte a imprevisti e contrattempi il cellulare è usato soprattutto dalle persone tra i 25 e i 54 anni. Gli ultrasessantacinquenni, invece, hanno la quota più elevata di persone che usano il cellulare perché si sentono più sicuri in caso di pericolo. I motivi per cui si usa il telefono cellulare sono influenzati anche dalla condizione professionale.

Page 9: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

9

Prospetto 2 - Persone di 6 anni e più che usano il cellulare per motivo per cui lo usa, sesso, classe di età,ripartizione geografica - Anno 2006 (per 100 persone di 6 anni e più che usano il cellulare con le stesse caratteristiche) SESSO, CLASSI DI

ETÀ E RIPARTIZIONI GEOGRAFICHE

Ragioni di

lavoro

Per il piacere di par lare con chi voglio,

in qualsiasi momento

ed in

qualunque luogo

Per essere più

facilmente in

contatto con i

genitori, familiari

Per essere più

facilmente in

contatto con gli amici

Perché ho

genitori,parenti anziani, malati

Per poter essere più facilmente assistito (salute

Handicap)

Perché mi

sento più

sicuro/a in caso di

pericolo

Per far meglio fronte

a imprevisti, contrattempi,

urgenze

Perché è comodo non dover cercare un

telefono pubblico

Altro

Sesso Maschi 42,6 31,1 71,6 43,4 6,4 1,3 14,9 32,9 29,7 1,2 Femmine 17,0 33,5 79,0 41,0 8,0 1,7 25,1 36,4 30,1 1,3 Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3 Classi di Età 6-10 - 16,2 72,4 34,6 1,1 0,2 13,8 8,9 9,9 7,5 11-14 - 44,0 72,4 71,9 1,6 0,7 25,0 24,7 24,3 2,8 15-17 2,5 58,3 68,2 83,4 1,5 0,5 22,3 37,9 37,7 1,6 18-19 8,4 62,8 71,1 84,9 2,2 0,7 24,1 42,5 42,5 0,7 20-24 24,8 56,4 74,3 74,7 2,9 0,3 23,5 42,6 39,9 0,9 25-34 42,4 46,0 73,6 58,8 5,2 0,7 20,9 38,3 34,6 1,5 35-44 45,8 30,2 76,9 37,6 9,7 0,9 18,8 37,1 30,5 1,1 45-54 41,8 21,7 77,8 27,4 12,5 0,8 16,7 34,0 28,1 0,7 55-59 28,6 18,6 76,6 23,4 10,7 1,5 18,0 34,2 27,8 0,7 60-64 17,6 18,3 75,0 22,3 7,9 2,5 16,0 30,9 25,3 1,1 65-74 6,8 15,7 75,9 16,8 4,3 4,0 22,6 28,4 23,9 1,1 75 e più 1,6 11,0 74,4 13,0 2,3 11,1 26,1 25,3 16,2 0,8 Totale 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3 RIPARTIZIONI GEOGRAFICHE

Italia Nord Occidentale

30,4 32,6 74,3 39,2 7,2 1,5 19,0 36,3 32,9 1,4

Italia Nord Orientale

32,5 31,9 72,5 42,5 6,6 1,3 19,1 38,3 32,9 1,7

Italia Centrale 31,7 33,6 75,7 42,8 7,0 2,0 19,9 34,7 29,1 1,2 Italia Meridionale

27,5 31,2 76,6 44,3 7,6 1,5 21,1 30,5 25,7 0,9

Italia Insulare 27,3 32,0 78,4 43,5 7,2 1,2 21,4 32,9 27,7 1,1 Italia 30,0 32,3 75,2 42,2 7,1 1,5 19,9 34,6 29,9 1,3

Page 10: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

10

Grafico 5 (Motivi d’uso per età)

Grafico 6 (Motivi d’uso per zona)

Page 11: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

11

Le funzioni più utilizzate Tra le numerose funzioni aggiuntive disponibili attualmente sul telefono cellulare quella maggiormente utilizzata resta l’invio e la ricezione di Sms che è utilizzata dal 36,7% delle persone che usano il cellulare. Al secondo posto troviamo l’utilizzo della rubrica telefonica (29,3%) seguita dall’utilizzo della fotocamera (18,0%). Il 17,3% dei fruitori del telefono cellulare utilizza l’agenda diario e la sveglia mentre l’invio di Mms è solo al quinto posto (13,6%). A seguire troviamo l’uso della calcolatrice (13,1%), il controllo dei consumi (12,8%) e l’uso di suonerie polifoniche e/o loghi (10,3%). Le funzioni più avanzate sono ancora utilizzate da un’esigua minoranza di utenti: l’accesso ad Internet tramite cellulare è usato dal 2,9 % degli utenti e ancora meno sono coloro i quali usano l’e-mail (2,2%), utilizzano software istallati dall’utente (1,3%) o usano il cellulare per acquisti o consultazioni di servizi finanziari (0,2%) (Prospetto 3). Le funzioni utilizzate sono influenzate principalmente dall’età. Il quadro cambia completamente se si considerano i giovani fruitori che sono utilizzatori onnivori di tutte le funzioni contenute nei cellulari. In particolare, per i bambini dai 6 ai 10 anni la funzione più utilizzata è giocare con i videogiochi (38,1%) seguita dall’invio e ricezione di Sms (29,6%) e dalla fotocamera (19,2%). Tra i ragazzi tra gli 11 e i 14 anni, invece, la funzione principale diventa l’invio e ricezione di Sms (70,1%), seguito dall’uso della rubrica telefonica (47,9%), dai videogiochi (47,8%) e dalla fotocamera (43,6%). Tra i 15-17enni oltre alle funzioni utilizzate dai più giovani assume rilevanza anche l’invio e ricezione di Mms (47,4%) e l’utilizzo di suonerie polifoniche e loghi (40,4%). Infine tra le persone dai 20 ai 24 anni diventano rilevanti anche funzioni pratiche come l’uso della rubrica telefonica (55,7%) e l’agenda diario e la sveglia (41,9%). L’utilizzo delle funzioni aggiuntive decresce rapidamente al crescere dell’età ed è tanto più raro quanto più la funzione è complessa. Ad esempio l’invio e ricezione di Sms che è utilizzata da oltre il 70% degli utenti fino ai 24 anni scende al 36,2% già tra le persone dai 35 ai 44 anni (Prospetto 3).

Page 12: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

12

Prospetto 3 - Persone di 6 anni e più che usano il cellulare per classe di età e funzioni utilizzate - Anno 2006 (per100 persone di 6 anni e più che usano il cellulare con le stesse caratteristiche) FUNZIONI UTILIZZATE 6-10 11-14 15-17 18-19 20-24 25-34 35-44 45-54 55-59 60-64 65-74 75 e

più Totale

La segreteria telefonica

3,6 10,5 13,7 14,6 15,7 14,6 10,8 8,4 5,6 3,7 1,7 0,9 9,6

Il controllo dei consumi

6,0 20,7 23,9 26,6 27,4 19,5 12,2 7,5 5,9 4,8 2,3 0,8 12,8

La rubrica telefonica 17,7 47,9 59,9 62,9 55,7 42,5 29,3 19,3 14,2 8,9 5,0 3,0 29,3 Invio e ricezione di

SMS 29,6 70,1 80,0 78,8 71,8 52,8 36,2 22,7 15,1 10,2 5,3 1,9 36,7

Invio e ricezione di MMS

8,7 33,3 47,4 44,8 36,5 21,0 9,0 3,7 2,0 1,1 0,3 0,2 13,6

L’agenda-diario, promemoria, sveglia

15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3

Suonerie polifoniche, loghi

15,0 37,6 40,4 35,1 25,6 14,2 5,7 1,8 1,4 0,7 0,2 0,2 10,3

Inviare e ricevere email

0,7 3,6 4,6 6,5 4,1 3,6 2,5 1,2 0,6 0,1 0,4 - 2,2

Accesso ad Internet, WAP

1,7 7,5 9,5 9,9 6,0 4,5 2,3 1,0 0,3 0,1 0,1 0,1 2,9

Acquisti, consultazioni servizi finanziari e

0,2 0,4 0,2 0,4 0,2 0,3 0,2 0,1 0,1 - 0,1 - 0,2

Ascoltare musica, lettore MP3, radio

6,0 22,1 22,7 18,6 11,3 5,0 2,5 0,7 0,3 0,0 0,1 - 5,1

Fotocamera 19,2 43,6 56,6 53,1 43,4 26,5 13,5 6,5 3,6 2,6 1,0 0,1 18,0 Giocare con i videogiochi

38,1 47,8 37,3 31,8 19,6 8,6 4,3 1,0 0,5 0,0 0,1 - 9,0

Videofonia 2,8 10,5 11,3 9,9 7,8 4,9 2,4 0,9 0,4 03, 0,3 0,1 3,3 Capacità video 4,2 16,6 26,2 24,8 16,5 7,7 3,0 1,3 0,8 0,2 0,2 0,1 5,9 Connettività aggiuntiva

2,0 12,20 22,2 21,6 14,5 8,0 3,9 1,9 0,6 0,2 0,3 - 5,7

Utilizzare software installati dall’utente

0,5 2,7 4,5 5,9 2,8 1,8 1,0 0,4 0,1 0,1 - 0,0 1,3

Calcolatrice 10,4 33,0 38,9 35,0 31,1 19,5 10,7 5,1 2,9 1,5 0,5 - 13,1 Altro 0,5 1,1 0,9 0,9 0,8 0,8 0,3 0,1 0,3 0,1 0,2 0,6 0,5

Page 13: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

13

Grafico 7 (Tipologie d’uso per età)

Page 14: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

14

Analisi visuale

Dopo avere svolto una prima analisi, vogliamo eseguire un secondo procedimento, l’analisi visuale, con la quale andremo ad esaminare in maniera più dettagliata i dati riguardanti la “Frequenza d’uso” ed i “Motivi di utilizzo” per quanto riguarda le aree geografiche del nostro paese; ossia la zona Nord-Occidentale, Nord-Orientale, Centrale, Meridionale ed Insulare. Questa operazione viene svolta mediante l’utilizzo del software R, grazie al comando plot si è proceduto alla creazione dei grafici a bastoncino, tanti quante sono le variabili rappresentanti un particolare aspetto. Sull’asse delle ascisse vengono riportate le zone, mentre sull’asse delle ordinate vengono riportate le percentuali. Questi grafici ci consentiranno di capire meglio, per ogni tipo di frequenza e motivo di utilizzo, qual è la zona del nostro paese, maggiormente interessata.

Page 15: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

15

Page 16: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

16

Page 17: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

17

Da un’analisi dei suddetti grafici sono state fatte le seguenti osservazioni:

� Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare ogni giorno.

� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare, una o più volte a settimana.

� Gli utenti della zona Nord-Occidentale, sono quelli che usano maggiormente il qualche volta al mese.

� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare, qualche volta all’anno.

� Gli utenti della zona Nord-Orientale sono, quelli che usano maggiormente il cellulare per lavoro.

� Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per sentirsi liberi.

� Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per sentire i familiari.

� Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare per sentire gli amici.

� Gli utenti della zona Meridionale, sono quelli che usano maggiormente il cellulare per essere rintracciabili.

� Gli utenti della zona Centrale, sono quelli che usano maggiormente il cellulare per motivi di Salute.

� Gli utenti della zona Insulare, sono quelli che usano maggiormente il cellulare per sentirsi più sicuri.

� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare per eventuali imprevisti.

� Gli utenti della zona Nord (Orientale e Occidentale), sono quelli che usano maggiormente il cellulare per comodità.

� Gli utenti della zona Nord-Orientale, sono quelli che usano maggiormente il cellulare per altri motivi.

Page 18: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

18

Grazie al comando pie() del programma R sono stati creati dei grafici a torta per evidenziare meglio quanto detto e rilevato dai precedenti grafici a bastoncino.

Page 19: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

19

Page 20: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

20

Page 21: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

21

Analisi Descrittiva

La statistica descrittiva viene utilizzata per analizzare il comportamento dei fenomeni oggetti di studio. Ogni fenomeno viene descritto tramite categorie di dati (es. qualitativo). I dati vengono quindi usati per ricavare misure di sintesi che consentono di comprendere il comportamento del fenomeno in esame. I nostri dati contengono le percentuali riguardanti l’uso del cellulare nel nostro paese durante il 2006. Quella che verrà effettuata in seguito è un’analisi dettagliata dei dati in nostro possesso, per confermare scientificamente quanto osservato dalla precedente Analisi Visuale, grazie all’aiuto di indici di sintesi, detti anche statistiche, che sono utili a descrivere i dati numerici.

Gli indici di sintesi utilizzati sono i seguenti:

� media, mediana che sono indici di posizione poiché descrivono attorno a quali valori è centrato l’insieme dei dati.

� quartili che sono indici di posizione che si ottengono dividendo l’insieme dei dati ordinati in quattro parti uguali: il primo quartile Q1 è un valore tale che il 25% dei dati ordinati è minore o uguale di Q1,il secondo quartile Q2 è un valore tale che il 50% dei dati ordinati minore o uguale di Q2, Q2 coincide con la mediana,il terzo quartile Q3 è un valore tale che il 75% dei dati ordinati è minore o uguale a Q3.

� varianza e deviazione standard che sono indici di dispersione dei dati

poiché misurano la dispersione dei dati attorno alla media.

Media campionaria: è la quantità

Mediana campionaria: dati un insieme di dati di ampiezza n, lo si ordini dal minore al maggiore. Se n è dispari, si definisce mediana il valore che è in posizione (n+1)/2,mentre se n è pari la mediana è invece definita come la media aritmetica dei valori che occupano le posizioni n/2 e n/2+1.

Varianza campionaria: dati un insieme di dati numerici x1,x2…xn si definisce v.c. la quantità:

Page 22: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

22

Deviazione standard campionaria: è la radice quadrata della varianza campionaria, ossia:

*Nota. Media e Media sono statistiche utili, come detto, per descrivere i valori centrali dei dati. La media utilizza tutti i dati ed è influenzata in modo sensibile da valori molto bassi o alti. La mediana dipende solo da uno dei due valori centrali della distribuzione e non risente dei dati estremi.

Analisi delle variabili singolarmente

Per ogni variabile, verrà quindi determinato, il Minimo dei valori del campione in esame, il primo Quartile, la Mediana, la Media, il terzo Quartile, e il Massimo dei valori del campione in esame. Prima sull’insieme dei dati non divisi, e successivamente considerando i dati delle zone suddivise in 5 gruppi (Nord-Occidentale, Nord-Orientale, Centrale, Meridionale ed Insulare). Verrà quindi calcolata la Varianza e la Deviazione Standard. Il ricavato verrà messo a confronto per trarre delle conclusioni rilevanti.

Si utilizzano le funzioni summary(v), var(v), sd(v) del linguaggio R, per ottenere quanto espresso sopra.

Analisi degli utenti che usano il cellulare ogni giorno

Min. 1st Qu. Median Mean 3rd Qu. Max.

69.60 70.10 73.10 74.28 78.20 80.40 Varianza: 23.397 Deviazione Standard: 4.837045

Page 23: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

23

Grazie all’aiuto di un boxplot, vengono illustrate alcune caratteristiche della distribuzione dei dati: la centralità, la forma, la dispersione e la presenza di eventuali valori anomali, detti “outlier”(un valore distante dalle altre osservazioni disponibili). La centralità è espressa dalla mediana. La forma simmetrica o asimmetrica può essere dedotta esaminando le distanze del primo e del terzo quartile dalla linea mediana. La dispersione è dedotta esaminando le distanze del baffo superiore da Q3 e del baffo inferiore da Q1 (Quartili).

Page 24: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

24

Analisi degli utenti che usano il cellulare una o più volte a settimana

Min. 1st Qu. Median Mean 3rd Qu. Max.

15.6 18.3 21.0 19.9 21.9 22.7 Varianza: 8.525 Deviazione Standard: 2.91976

Page 25: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

25

Analisi degli utenti che usano il cellulare qualche volta al mese

Min. 1st Qu. Median Mean 3rd Qu. Max.

2.50 2.80 4.50 4.06 5.10 5.40 Varianza: 1.773 Deviazione Standard: 1.331540

Page 26: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

26

Analisi degli utenti che usano il cellulare qualche volta all’anno

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 1.30 1.40 1.76 2.50 2.60 Varianza: 0.543 Deviazione Standard: 0.7368853

Page 27: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

27

Analisi degli utenti che usano il cellulare per Lavoro

Min. 1st Qu. Median Mean 3rd Qu. Max.

27.30 27.50 30.40 29.88 31.70 32.50 Varianza: 5.692 Deviazione Standard: 2.385791

Page 28: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

28

Analisi degli utenti che usano il cellulare per sentirsi liberi

Min. 1st Qu. Median Mean 3rd Qu. Max.

31.20 31.90 32.00 32.26 32.60 33.60

Varianza: 0.808 Deviazione Standard: 0.8988882

Page 29: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

29

Analisi degli utenti che usano il cellulare per sentire la famiglia

Min. 1st Qu. Median Mean 3rd Qu. Max.

72.5 74.3 75.7 75.5 76.6 78.4 Varianza: 5.025 Deviazione Standard: 2.241651

Page 30: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

30

Analisi degli utenti che usano il cellulare per sentire gli amici

Min. 1st Qu. Median Mean 3rd Qu. Max.

39.20 42.50 42.80 42.46 43.50 44.30 Varianza: 3.803 Deviazione Standard: 1.950128

Page 31: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

31

Analisi degli utenti che usano il cellulare per essere rintracciabili

Min. 1st Qu. Median Mean 3rd Qu. Max.

6.60 7.00 7.20 7.12 7.20 7.60 Varianza: 0.132 Deviazione Standard: 0.3633180

Page 32: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

32

Analisi degli utenti che usano il cellulare per motivi di salute

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.2 1.3 1.5 1.5 1.5 2.0 Varianza: 0.095 Deviazione Standard: 0.3082207

Page 33: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

33

Analisi degli utenti che usano il cellulare per sicurezza

Min. 1st Qu. Median Mean 3rd Qu. Max.

19.0 19.1 19.9 20.1 21.1 21.4 Varianza: 1.235 Deviazione Standard: 1.111306

Page 34: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

34

Analisi degli utenti che usano il cellulare per gli imprevisti

Min. 1st Qu. Median Mean 3rd Qu. Max.

30.50 32.90 34.70 34.54 36.30 38.30 Varianza: 9.068 Deviazione Standard: 3.011312

Page 35: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

35

Analisi degli utenti che usano il cellulare per comodità

Min. 1st Qu. Median Mean 3rd Qu. Max.

25.70 27.70 29.10 29.66 32.90 32.90 Varianza: 10.208 Deviazione Standard: 3.194996

Page 36: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

36

Analisi degli utenti che usano il cellulare per altri motivi

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.90 1.10 1.20 1.26 1.40 1.70 Varianza: 0.093 Deviazione Standard: 0.304959

Page 37: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

37

Correlazione tra le variabili

Nelle pagine seguenti viene illustrata l’analisi della correlazione fra le variabili in esame, tale analisi ci porterà a dire qual è il legame che esiste (se esiste) fra coppie di due variabili prese in considerazione.

Per verificare la dipendenza fra due variabili X e Y si procede nel disegnare il diagramma

di dispersione o scatterplot. Sull’asse delle ascisse si pongono i dati relativi a una delle due variabili, su quello delle ordinate quelli relativi all’altra variabile e le singole osservazioni si rappresentano con punti o cerchietti. Lo scatterplot evidenzia se i punti sono sparsi senza regolarità oppure se esiste una qualche regolarità (variabili connesse mediante relazione lineare).

Per avere una misura quantitativa della correlazione tra le variabili è stata considerata la covarianza campionaria tra le due variabili X eY ,data dalla seguente formula:

Quando la Cxy > 0 si dice che le variabili sono correlate positivamente, se Cxy < 0 si dice che le variabili sono correlate negativamente, se Cxy = 0 le variabili non sono correlate.

Per avere una misura quantitativa della correlazione tra le variabili è stato anche considerato il coefficiente di correlazione campionario che è uguale al rapporto fra la covarianza di X e Y e il prodotto degli scarti quadratici medi di X e di Y, ossia:

Analogamente, quando la rxy > 0 si dice che le variabili sono correlate positivamente, se rxy < 0 si dice che le variabili sono correlate negativamente, se rxy = 0 le variabili non sono correlate.

Il coefficiente di correlazione campionario è compreso tra -1 e 1, tali valori vengono raggiunti quando tra X e Y vi è una relazione lineare (perfetta negativa o perfetta positiva)

Page 38: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

38

e in tal caso i punti dello scatterplot giacciono tutti su di una retta. Nello scatterplot inoltre il segno di rxy indica la direzione della retta interpolante. È positivo se xi e yi tendono a essere grandi e piccoli insieme, nel qual caso la retta interpolante punta verso l’alto. È negativo invece se quando xi è grande e yi è piccolo e viceversa, nel qual caso la retta interpolante punta verso il basso.

(* xi e yi per i=1….n (valori di X e Y) (x e y negato,indicano medie campionarie) s=sqm).

In R le covarianze campionarie e le correlazioni campionarie fra una coppia di variabili numeriche prese in esame sono state ottenute immediatamente attraverso le seguenti funzioni:

covarianze: cov(X,Y)

correlazioni: cor(X,Y)

in R gli scatterplot sono stati ottenuti con le seguenti linee di codice di esempio:

plot (Var1,Var2, xlab=”NomeVar1”,ylab=”NomeVar2”)

abline(lm(Var2 ~ Var1)) //aggiunge allo scatterplot la linea interpolante stimata

Page 39: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

39

Ecco riportati i risultati ottenuti

• Correlazione tra le variabili

TTIG e QVSETT

Covarianza:

-13.8375

Correlazione:

-0.979784

• Correlazione tra le variabili

TTIG e QVMESE

Covarianza:

-6.2035

Correlazione:

-0.9631686

• Correlazione tra le variabili

TTIG e QVANNO

Covarianza:

-3.086

Correlazione:

-0.8657967

Page 40: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

40

• Correlazione tra le variabili

QVSETT e QVMESE

Covarianza:

3.4975

Correlazione:

0.8996139

• Correlazione tra le variabili

QVSETT e QVANNO

Covarianza:

1.6375

Correlazione:

0.7610868

• Correlazione tra le variabili

QVMESE e QVANNO

Covarianza:

0.8755

Correlazione:

0.8922815

Page 41: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

41

• Correlazione tra le variabili

LAVORO e LIBERTA’

Covarianza:

1.2165

Correlazione:

0.5672493

• Correlazione tra le variabili

LAVORO e FAMIGLIA

Covarianza:

-4.555

Correlazione:

-0.8517025

• Correlazione tra le variabili

LAVORO e AMICIZIA

Covarianza:

-2.0085

Correlazione:

-0.4316942

Page 42: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

42

• Correlazione tra le variabili

LAVORO e RINTRACCIABILITA’

Covarianza:

-0.722

Correlazione:

-0.8329478

• Correlazione tra le variabili

LAVORO e SALUTE

Covarianza:

0.29

Correlazione:

0.3943699

• Correlazione tra le variabili

LAVORO e SICUREZZA

Covarianza:

-2.3225

Correlazione:

-0.8759711

Page 43: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

43

• Correlazione tra le variabili

LAVORO e IMPREVISTI

Covarianza:

6.226

Correlazione:

0.8666045

• Correlazione tra le variabili

LAVORO e COMODITA’

Covarianza:

5.909

Correlazione:

0.7751954

• Correlazione tra le variabili

LAVORO e ALTRO

Covarianza:

0.5965

Correlazione:

0.819854

Page 44: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

44

• Correlazione tra le variabili

LIBERTA’ e FAMIGLIA

Covarianza:

-0.245

Correlazione:

-0.1215885

• Correlazione tra le variabili

LIBERTA’ e AMICIZIA

Covarianza:

-0.722

Correlazione:

-0.4118778

• Correlazione tra le variabili

LIBERTA’ e RINTRACCIABILITA’

Covarianza:

-0.119

Correlazione:

-0.3643798

Page 45: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

45

• Correlazione tra le variabili

LIBERTA’ e SALUTE

Covarianza:

0.205

Correlazione:

0.7399227

• Correlazione tra le variabili

LIBERTA’ e SICUREZZA

Covarianza:

-0.42

Correlazione:

-0.4204459

• Correlazione tra le variabili

LIBERTA’ e IMPREVISTI

Covarianza:

1.042

Correlazione:

0.3849517

Page 46: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

46

• Correlazione tra le variabili

LIBERTA’ e COMODITA’

Covarianza:

0.973

Correlazione:

0.3387949

• Correlazione tra le variabili

LIBERTA’ e ALTRO

Covarianza:

0.058

Correlazione:

0.2115830

• Correlazione tra le variabili

FAMIGLIA e AMICIZIA

Covarianza:

2.225

Correlazione:

0.5089778

Page 47: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

47

• Correlazione tra le variabili

FAMIGLIA e RINTRACCIABILITA’

Covarianza:

0.55

Correlazione:

0.675317

• Correlazione tra le variabili

FAMIGLIA e SALUTE

Covarianza:

-0.0425

Correlazione:

-0.06151189

• Correlazione tra le variabili

FAMIGLIA e SICUREZZA

Covarianza:

2.2875

Correlazione:

0.9182472

Page 48: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

48

• Correlazione tra le variabili

FAMIGLIA e IMPREVISTI

Covarianza:

-5.64

Correlazione:

-0.835517

• Correlazione tra le variabili

FAMIGLIA e COMODITA’

Covarianza:

-5.94

Correlazione:

-0.8293695

• Correlazione tra le variabili

FAMIGLIA e ALTRO

Covarianza:

-0.59

Correlazione:

-0.863063

Page 49: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

49

• Correlazione tra le variabili

AMICIZIA e RINTRACCIABILITA’

Covarianza:

0.161

Correlazione:

0.2272353

• Correlazione tra le variabili

AMICIZIA e SALUTE

Covarianza:

-0.0375

Correlazione:

-0.06238875

• Correlazione tra le variabili

AMICIZIA e SICUREZZA

Covarianza:

1.6675

Correlazione:

0.7694302

Page 50: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

50

• Correlazione tra le variabili

AMICIZIA e IMPREVISTI

Covarianza:

-3.668

Correlazione:

-0.6246121

• Correlazione tra le variabili

AMICIZIA e COMODITA’

Covarianza:

-4.987

Correlazione:

-0.8003978

• Correlazione tra le variabili

AMICIZIA e ALTRO

Covarianza:

-0.322

Correlazione:

-0.5414411

Page 51: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

51

• Correlazione tra le variabili

RINTRACCIABILITA’ e SALUTE

Covarianza:

0.005

Correlazione:

0.04464998

• Correlazione tra le variabili

RINTRACCIABILITA’ e SICUREZZA

Covarianza:

0.26

Correlazione:

0.6439511

• Correlazione tra le variabili

RINTRACCIABILITA’ e IMPREVISTI

Covarianza:

-0.976

Correlazione:

-0.8920868

Page 52: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

52

• Correlazione tra le variabili

RINTRACCIABILITA’ e COMODITA’

Covarianza:

-0.854

Correlazione:

-0.7356997

• Correlazione tra le variabili

RINTRACCIABILITA’ e ALTRO

Covarianza:

-0.099

Correlazione:

-0.8935251

• Correlazione tra le variabili

SALUTE e SICUREZZA

Covarianza:

-0.0725

Correlazione:

-0.2116619

Page 53: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

53

• Correlazione tra le variabili

SALUTE e IMPREVISTI

Covarianza:

-0.045

Correlazione:

-0.04848361

• Correlazione tra le variabili

SALUTE e COMODITA’

Covarianza:

-0.085

Correlazione:

-0.0863151

• Correlazione tra le variabili

SALUTE e ALTRO

Covarianza:

-0.0175

Correlazione:

-0.1861807

Page 54: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

54

• Correlazione tra le variabili

SICUREZZA e IMPREVISTI

Covarianza:

-2.975

Correlazione:

-0.8889918

• Correlazione tra le variabili

SICUREZZA e COMODITA’

Covarianza:

-3.3

Correlazione:

-0.929416

• Correlazione tra le variabili

SICUREZZA e ALTRO

Covarianza:

-0.2875

Correlazione:

-0.8483262

Page 55: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

55

• Correlazione tra le variabili

IMPREVISTI e COMODITA’

Covarianza:

9.252

Correlazione:

0.9616334

• Correlazione tra le variabili

IMPREVISTI e ALTRO

Covarianza:

0.902

Correlazione:

0.9822212

• Correlazione tra le variabili

COMODITA’ e ALTRO

Covarianza:

0.913

Correlazione:

0.9370418

Page 56: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

56

Analisi Cluster

Quella che verrà mostrata nelle pagine seguenti è l’analisi dei cluster. Si tratta di una metodologia che permette di raggruppare in sottoinsiemi, detti cluster, entità (unità) appartenenti a un insieme più ampio. I metodi attraverso cui ottenere tale analisi hanno lo scopo di ottenere raggruppamenti in base alla somiglianza, in modo che gli elementi di uno stesso gruppo siano tra loro il più possibile simili e gli elementi

appartenenti a gruppi distinti siano tra loro il più possibile diversi. Si vuole distribuire le osservazioni in gruppi, tale che il grado di associazione sia alto tra i membri dello stesso gruppo e basso tra i membri di gruppi diversi. Alta omogeneità all’interno dei gruppi e alta eterogeneità tra gruppi distinti.

Problema: individuare m cluster di unità I con I=(I1..I2..In) tali che Ii appartenga solo a un unico sottoinsieme.

Le unità assegnate allo stesso cluster sono dette simili, le unità che sono assegnate a differenti cluster sono dette dissimili.

La somiglianza viene definita tramite una misura di distanza tra due unità, con d>=0. Un criterio per risolvere il problema di clustering potrebbe essere quello di assegnare due unità (o individui) allo stesso cluster se la distanza tra due unità Xi e Yi è piccola, e a differenti cluster se la distanza è grande.

La misura di distanza più comune è la metrica euclidea, la quale però è molto influenzata dall’unità di misura in base alla quale è valutata ciascuna caratteristica osservabile posseduta da ogni unità in I (ci possono essere discordanze applicando un unità di misura anziché un’altra es. cm e metro). Per ovviare a ciò è opportuno standardizzare prima le misure, in maniera tale da poter effettuare un confronto tra le misure.

In R è possibile fare ciò attraverso la funzione scale (X, center=TRUE, scale=TRUE) dove X è una matrice numerica, center e scale a TRUE attuano la standardizzazione. Dopo lo scalamento si ottiene una matrice con dati standardizzati Z.

Es. Z<-scale(X)

D<-dist (Z, method=”euclidean”, diag=TRUE, upper=”TRUE”)

La funzione dist restituisce la matrice delle distanze D calcolata usando le misure di distanza (euclidea) tra le righe della matrice Z di dati.

Scelta la misura di distanza si procede alla scelta di un algoritmo di raggruppamento delle unità osservate. I metodi di raggruppamento praticabili si distinguono in metodi

gerarchici e i metodi non gerarchici.

Page 57: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

57

Metodi gerarchici

I metodi gerarchici agglomerativi, quelli presi in considerazione nell’analisi, partono da una situazione in cui si hanno n cluster distinti ognuno contenente un solo individuo, per giungere attraverso le successive unioni di cluster a una situazione in cui si ha un solo cluster contenente tutti gli n individui. L’obiettivo dei metodi gerarchici è quello di ottenere una sequenza di partizioni che possono essere rappresentate graficamente mediante una struttura ad albero chiamata dendrogramma, nella quale sull’insieme delle ordinate sono riportati i livelli di distanza,mentre sull’asse delle ascisse sono riportati i singoli individui (o unità). A ogni livello di distanza corrisponde una partizione,mentre ad ogni partizione corrispondono infiniti livelli di distanza compresi tra quelli che individuano due successive unioni o divisioni.

Molti metodi di analisi gerarchica sono caratterizzati da una struttura comune che si riflette in un algoritmo generale esplicitato come segue:

• Passo 1: A partire dalla matrice X originaria dei dati o dalla matrice scalata, si considera la matrice delle distanze D (o di similarità S) tra gli elementi considerati come singoli cluster contenenti un solo elemento.

• Passo 2: Si individuare la coppia di cluster meno distanti (o più somiglianti) e si raggruppano in un unico cluster; si calcola la distanza (o similarità) di questo cluster originato dall’agglomerazione di tutti gli altri gruppi già esistenti.

• Passo 3: Si costruire una nuova matrice di distanza (o di similarità) che risulterà essere ridotta di una riga e di una colonna rispetto a quella che precedente.

• Passo 4: Si lavora sulla matrice ottenuta, rieseguendo i passi 2 e 3 fino a esaurire tutte le possibilità di raggruppamento. Si ottiene una matrice 2x2. Ciò richiede n-1 iterazioni.

• Passo 5: Si rappresenta graficamente il processo di agglomerazione con un dendrogramma (asse ordinate i livelli di distanza, ascisse riportano le unità).

L’analisi gerarchica agglomerativa si esegue in R con la funzione

hclust (d,method=”complete”)

d : è un oggetto creato tramite la funzione dist();

method : seleziona il metodo gerarchico agglomerativo scelto.

Infatti ogni metodo gerarchico agglomerativo si differenzia dagli altri per il modo in cui si individuano i due cluster meno distanti (o più somiglianti) e per il modo in cui si determina la distanza (o similarità) che intercorre tra il cluster ottenuto e i rimanenti.

Page 58: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

58

In base alle considerazioni precedenti method può assumere le seguenti opzioni:

1. “single” che indica il metodo del legame singolo (o semplice). 2. “complete” che indica il metodo del legame completo (o composto). 3. “average” che indica il metodo del legame medio. 4. “centroid” che indica il metodo del centroide. 5. “median” che indica il metodo della mediana.

Per ottenere il dendrogramma si impiega la funzione

plot(z,labels=NULL,hang=0.1,main=”Dendrogramma”,sub=”NULL”,xlab=NULL)

z : è un oggetto (output) creato dalla funzione hclust();

labels: etichette;

hang: altezza alla quale le etichette vengono visualizzate sotto il dendrogramma;

main, sub, xlab :sono comandi grafici.

Page 59: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

59

Metodi gerarchici agglomerativi in dettaglio

Il metodo del legame singolo

Tale metodo assume come distanza tra i gruppi G1 e G2, la minima distanza tra coppie di elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.

d(G1, G2)= min d(xi ,xj) ∀ xi є G1 e ∀ xj є G2

La caratteristica principale del metodo descritto è la monotonia: la tipologia dei gruppi non cambia per qualsiasi trasformazione di d(ij).

Inoltre esso conduce alla formazione di clusters concatenati a causa dell’assenza di nuclei intorno ai quali tali clusters si sviluppano.

Il metodo del legame completo

Tale metodo assume come distanza tra i gruppi G1 e G2, la massima distanza tra coppie di elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2.

d(G1, G2)= max d(xi ,xj) ∀ xi є G1 e ∀ xj є G2

Esso tende a produrre cluster senza alcun effetto di concatenamento. Come il metodo del legame semplice, anche il metodo del legame composto è invariante rispetto a trasformazioni monotone della distanza.

Il metodo del legame medio

Tale metodo assume come distanza tra i gruppi G1 e G2, la distanza media tra coppie di elementi appartenenti ciascuna al gruppo G1 ed al gruppo G2. L’algoritmo quindi è simile a quello descritto precedentemente tranne che nella diversa definizione della distanza.

d(Gi, Gj) �

�� �� ∑ ∑ �� , ��� є ���� є ��

Page 60: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

60

Il metodo del centroide

Anche in questo caso si utilizza un algoritmo a stadi simile a quello visto precedentemente. Partendo da una matrice di distanze D, ad ogni stadio si fondono i gruppi più vicini; in questo caso si assume come distanza tra i gruppi qulla tra i loro centroidi (centri di gravità). Se per esempio ad un certo punto si hanno due cluster Gi e Gj contenenti rispettivamente ni e nj osservazioni, la distanza tra Gi e Gj è definita come:

d(Gi,Gj)= d(�� , �� )

avendo posto

�� = �

�� ∑ ��� є ��

e �� = �

�� ∑ ��� є ��

In questo caso è come se ogni volta che si forma un gruppo esso fosse sostituito dal suo centroide.

Il metodo della mediana

È simile a quello del centroide, con la differenza che la procedura è indipendente dalla numerosità dei cluster. Infatti, quando due gruppi si aggregano, il nuovo centroide è calcolato con la semisomma dei due centroidi precedenti. Il metodo della mediana così come il metodo del legame singolo può dare origine alla formazione di una catena tra gli elementi.

Come aiuto alla rappresentazione grafica del dendrogramma, sono state utilizzate oltre ovviamente a plot, ulteriori funzioni:

axis(side=4,at=round(c(0,hls$height),1)) : es. hls rappresenta output di hclust

che permette di costruire l’asse delle altezze alla destra del grafico arrotondando i numeri alla prima cifra decimale.

rect.hclust ()

che permette di disegnare rettangoli attorno ai cluster individuati.

cutree (tree ,k=NULL, h=NULL)

che permette di ottenere una suddivisione in cluster in corrispondenza di un determinato livello di distanza, o in corrispondenza di un prefissato numero di cluster; tree è l’output di hclust, k è il numero di cluster, h è l’altezza (livello di distanza:punto in cui i cluster si agglomerano) alla quale il dendrogramma viene tagliato. L’output di cutree è un vettore

Page 61: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

61

che contiene numeri associati ai cluster in cui sono state inserite le varie unità (o individui).

Esecuzione

La prova pratica di esecuzione consiste nel cercare di raggruppare in cluster le zone che hanno molte somiglianze tra loro, e si confronteranno i risultati ottenuti dall’applicazione dei differenti metodi gerarchici agglomerativi. Il confronto lo si effettua analizzando i risultati attraverso i vari dendrogrammi creati, ciascuno per ogni metodo gerarchico agglomerativo. Un aiuto nel confronto è dato dall’evidenziazione, nei grafici, attraverso rettangoli colorati, di un certo numero di gruppi.

Verrà mostrato per ogni metodo applicato, anche l’output della corrispondente funzione cutree, la quale conterrà i numeri interi positivi associati ai cluster in cui sono state inserite le varie unità (in pratica si vedrà in quali cluster sono state inserite le varie nazioni). Con tale output vengono mostrati i risultati numerici osservabili dai dendrogrammi.

Scelto k=3 come parametro per la funzione rect.hclust(), vengono evidenziati tre gruppi contenenti ciascuno un certo numero di zone.

Page 62: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

62

Risultati del metodo gerarchico agglomerativo del legame singolo

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 63: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

63

Risultati del metodo gerarchico agglomerativo del legame completo

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 64: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

64

Risultati del metodo gerarchico agglomerativo del legame medio

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 65: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

65

Risultati del metodo gerarchico agglomerativo del centroide

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 66: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

66

Risultati del metodo gerarchico agglomerativo della mediana

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 67: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

67

Risultati del metodo gerarchico agglomerativo del legame singolo

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 68: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

68

Risultati del metodo gerarchico agglomerativo del legame completo

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 69: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

69

Risultati del metodo gerarchico agglomerativo del legame medio

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 70: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

70

Risultati del metodo gerarchico agglomerativo del centroide

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 71: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

71

Risultati del metodo gerarchico agglomerativo della mediana

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 72: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

72

Metodi non gerarchici

L’obiettivo dei metodi non gerarchici è quello di ripartire le n unità, in k cluster, ottenendo un'unica partizione finale. Con tali tecniche è possibile riallocare gli individui già classificati ad un livello precedente dell’analisi. In alcuni metodi non gerarchici di clustering si assume che il numero di cluster in cui suddividere l’insieme delle n unità sia fissato a priori, in altri si determina nel corso dell’analisi.

Il metodo non gerarchico utilizzato nella nostra analisi è il metodo di k-means, che consiste nei passi descritti nel seguente algoritmo:

• Passo 1: Si fissa a priori il numero k di cluster, specificando k punti di riferimento iniziali (k vettori delle caratteristiche) [scegliendo gli elementi o prendendo la configurazione determinata con una tecnica gerarchica] che inducono una prima partizione.

• Passo 2: Si considerano gli n-k elementi restanti e si attribuisce a ciascuno di essi il cluster da cui ha distanza minore dal punto di riferimento.

• Passo 3: Si calcola il centroide di ognuno dei k gruppi ottenuti, essi saranno i punti di riferimento per i nuovi cluster.

• Passo 4: Si valuta la distanza di ogni vettore delle caratteristiche da ogni centroide, ottenuto al passo precedente. Se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, allora si sposta l’individuo presso il cluster che ha il centroide più vicino.

• Passo 5: Si ricalcolano i centroidi dei k gruppi ottenuti. • Passo 6: Si ripete il procedimento a partire dal passo 4 fino a che i centroidi non

subiscono altre modifiche rispetto all’iterazione precedente. Si procede così iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile, ossia gli elementi all’interno di ogni cluster non cambiano al ripetersi del procedimento.

Per garantire la convergenza della procedura iterativa, come misura di distanza tra i vettori delle caratteristiche e i centroidi viene utilizzata la distanza euclidea.

Esecuzione

Si è presa la configurazione ottenuta con una tecnica gerarchica, si sono dati all’algoritmo i campi per l’esecuzione, si elimina la prima colonna della matrice dei centroidi ottenuta con la funzione aggregate(), usando tali centroidi si applica il metodo k-means, il quale effettua una serie di iterazioni di controllo, vengono poi visualizzati i risultati ottenuti, e infine vengono rappresentati graficamente i cluster generati tramite k-means. Questo procedimento viene ripetuto per ogni configurazione ottenuta durante l’analisi attraverso i metodi gerarchici del precedente paragrafo, configurazioni che rappresentano le partizioni iniziali da dare in input, per l’applicazione poi di k-means.

Page 73: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

73

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 74: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

74

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 75: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

75

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 76: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

76

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 77: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

77

(Frequenza d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 78: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

78

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 79: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

79

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 80: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

80

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 81: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

81

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 82: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

82

(Motivi d’uso)

Risultati numerici

Nord-Occ Nord-Or Centro Sud Isole 1 1 2 3 3

Page 83: Rapporto sull’uso del cellulare in Italia

Rapporto sull’uso del cellulare in Italia MTAD

83

Conclusioni

Da quanto si è potuto evincere dall’analisi dei risultati dei metodi gerarchici è possibile notare come la struttura dei gruppi è quasi la stessa, infatti, la funzione rect.hclust(), mette in evidenza 3 gruppi contenente ciascuno sempre le stesse zone. Da questa analisi vediamo che la divisione geografica è netta anche per quanto riguarda questo “Rapporto sull’uso del cellulare in Italia” con una netta differenza tra Nord, Centro, e Sud (isole comprese), i cluster creati rappresentano appunto questa suddivisione, il primo che raggruppa la zona Meridionale e Insulare, il secondo, la zona Centrale, ed il terzo la zona Nord-Occidentale e Nord-Orientale. E’ da notare che il cluster della zona Centrale è molto vicino a quello della zona Nord, anziché a quello della zona sud.

Da quanto si è potuto evincere dall’analisi dei risultati del metodo non gerarchico k-means, applicato per ogni configurazione gerarchica iniziale data in input come partizione iniziale, si ottengono gli stessi gruppi ottenuti nell’analisi gerarchica.

I metodi gerarchici non consentono di modificare la configurazione raggiunta, ovvero una volta che un individuo è stato attribuito ad un cluster permane al suo interno per sempre. Il metodo non gerarchico del k-means, applicato usando una configurazione gerarchica iniziale, lo si deve preferire, poiché con esso è possibile riallocare gli individui già classificati ad un livello precedente dell’analisi, fino a che si vengono a formare gruppi stabili (ossia gli elementi non cambiano più gruppo). Risulta utile quindi combinare i metodi gerarchici e non gerarchici per verificare la stabilità dei gruppi.