Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di:...

25
Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004 Relatore: Prof. Giuseppe Serazzi Correlatore: Ing. Giuliano Casale

Transcript of Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di:...

Page 1: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Indici per la valutazionedella QoS

di applicazioni Web

POLITECNICO DI MILANOTesina di Laurea di:

Andrea Ferrari - Matr.: 638853

Milano, 20 aprile 2004

Relatore: Prof. Giuseppe SerazziCorrelatore: Ing. Giuliano Casale

Page 2: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Internet oggi…

Sviluppo di Internet cambia le tradizionali regole di comunicazione.

“Darwinismo progettuale”.

Necessità e desiderio di analizzare le applicazioni Web dal punto di vista dell’utente.

Page 3: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Obiettivi

Rappresentare e misurare il Web. Analizzare le caratteristiche cognitive ed il

comportamento degli utenti. Ricavare informazioni da un sito Web:

– Analisi topologica– Analisi dei file di log

del Sito del Politecnico di Milano

Page 4: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web*

Necessità di rappresentare globalmente un sito Web

Sviluppo di diagrammi per il Web (metafore)

Internet è basato su una struttura globale non consistente.

Veloce sviluppo del Web

alla portata di tutti. Disorientamento degli

utenti. Usabilità critica sia per

l’utente che per il web-designer. * B. Wong, G. Marsden, 2000, Visualizing the Web:

why we should abandon graphs and trees.

Page 5: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web (2)

Grafi ciclici:Rete di nodi connessi.

Disordine e difficoltà di lettura.

Alberi gerarchiciStruttura gerarchica (aggiunta

iterativa di nodi “figli”) Struttura del Web

implicitamente non gerarchica

Page 6: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web (3)

ConiAlberi gerarchici 3D

(o artifici per migliore rappresentazione 2D) Critica la

rappresentazione dei legami non gerarchici

Page 7: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web (4)

Alberi iperboliciAlberi in geometria non euclidea

(lente “a occhio di pesce”) Difficoltà a contestualizzare

la rappresentazione

Page 8: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web (5)

Metafore moderne – Struttura 3D su una colonna verticale (barra di navigazione)

Page 9: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web (6)

Metafore moderne – A diverse quote ventagli (sottoinsiemi di pagine)

Page 10: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Metodologie perrappresentare il Web (7)

Metafore moderne – Agevole rappresentazione di link non gerarchici

– Facile rappresentazione di sottositi.

Page 11: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Il concetto di metricanell’ambiente Web*

È importante misurare gli attributi degli oggetti che studiamo.

È necessario definire metriche per il Web.

Metriche banali (hop-count, frequenza di accessi, distribuzione dei click, ecc.)

Analisi metrica attraverso i grafi:

– Grafo di N nodi è rappresentabile con una matrice delle distanze C di dimensioni N x N.

– L’elemento cij rappresenta la distanza fra la pagina i e la pagina j del Sito.

– Nodi irraggiungibili sono posti a distanza K (costante arbitraria).

* D. Dhyani, Wee Keong Ng, S.S. Bhowmick, 2002, A survey of Web metrics.

Page 12: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Il concetto di metricanell’ambiente Web: la centralità

Rappresenta la connettività di un nodo

Il nodo centrale è quello col valore maggiore di ROC o di RIC.

Da esso è possibile costruire una gerarchia all’interno dell’ipertesto e migliorarne la navigabilità.

j

iji COD j

jii CID

jij

i jij

iC

C

ROC

jji

i jij

iC

C

RIC

Page 13: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Il concetto di metricanell’ambiente Web: metriche globali

Metriche di compattezza Metriche di classe– Valuta l’ordine lineare del

grafo– Siti altamente lineari sono

spesso difficili da navigareminmax

max

i j

ij

P

C

C

KNN 2max NN 2min

– Su una scala da 0 a 1 indica l’estensione dei rimandi all’interno dell’ipertesto.

– Valori distanti dagli estremi denotano buona usabilità e navigabilità.

LAP

CC

Si j j

jiij

altrimenti4

N

pari 4

3

3

N

NN

LAP

Page 14: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi topologica del sito Webdel Politecnico di Milano

Dati del problema:– Matrice d’incidenza

(ricavata dal web-server o con download con spider)

– Matrice delle distanze (ricavata con un algoritmo in backtracking che calcola il cammino minimo tra due nodi

Indici calcolati:– Centralità– Compattezza e classecon script C++

Limitazioni e problemi:– Sito Web = 12.000 pagine

Matrici di 144 milioni di elementi!

Tempo di calcolo per generare la matrice delle distanze: qualche anno!!!

– Limitazione: grafo delle 100 pagine più visitate

Dal file di log dei giorni 1, 2 e 3 aprile 2002

– Cammino massimo tra due nodi = 10 pagine

Page 15: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi topologica del sito Webdel Politecnico di Milano (2)

Centralità:– Home Page non è la

pagina più connessa– Pagine centrali

http://www.polimi.it/ eventiIniziative/settimana.php

http://www.polimi.it/facolta/ing/leonardo/didattica/ric_clit.html

Metriche globali:– Compattezza CP = 0,48

Ottimo compromesso che garantisce una buona usabilità

– Classe S = 0,045 Scarsa linearità

garantisce una semplice navigabilità per Siti molto ampi.

1 5 9

13 17 21 25 29 33 37 41 45

ROC

RIC

0

20

40

60

80

100

120

Cen

tral

ità

rela

tiva

Indice della pagina Web

Page 16: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Differenze cognitivenegli utenti del Web*

Il Web è un ampio sistema non-lineare. Occorre valutare sempre

– performance del sistema– abilità degli utenti

Le differenze individuali fra gli utenti del Web sono le variabili più importanti da considerare per stabilire criteri di usabilità (Nielsen).

Distinzioni di tipo cognitivo fra individui:

– Field-Independent (FI)– Field-Dependent (FD)

Distinzioni fra gli utenti dovute all’esperienza.

Altre distinzioni (non interessanti).

Stile cognitivo: modo abituale e

prevalente che una persona

ha di percepire, memorizzare,

imparare, prendere decisioni

e risolvere problemi.

* Kyung-Sun Kim, Individual differences and information retrieval: implications on Web design; H. Habieb Mammar, F. Tarpin Bernard, Incorporating cognitive styles into adaptive multimodal interface.

Page 17: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Differenze cognitivenegli utenti del Web (2)

Esperimento con 4 categorie di utenti.

Utenti senza esperienza:– FI impiegano meno tempo– FI visitano meno pagine– FD utilizzano spesso il

comando “Home” e i link ipertestuali

Utenti con esperienza:– Non vi sono differenze fra

FI e FD in termini di tempo– Non vi sono differenze fra

FI e FD nell’uso dei comandi di navigazione

– Marcato utilizzo di jump: FI navigano in modo ancora più non-lineare della natura stessa dell’ipertesto.

L’esperienza degli utenti è fondamentale per lo sviluppo di stili di navigazione e ricerca on-line.

Page 18: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

La QoS percepitadagli utenti del Web*

QoS orientata non solo al sistema ma alle aspettative degli utenti.

Valutiamo la tolleranza degli utenti al ritardo:

– è misurabile?– dipende dal compito da

eseguire?– ha conseguenze per il

business?– è influenzata dal design?

Valutazione del ritardo dà 3 soglie di tolleranza:

• < 0,1 sec.: risp. immediata• 1 sec.: dialogo• 10 sec.: ritardo inaccettab.

Controllo della latenza non significativo

– Forte dipendenza dalle abitudini degli utenti

Valutazione velocità

Latenza(non increment.)

Latenza(incrementale)

Alta 0 – 5 sec. 0 – 39 sec.

Media > 5 sec. > 39 sec.

Bassa > 10 sec. > 56 sec.

* N. Bhatti, A. Bouch, A. Kuchinsky, Integrating user-perceived quality into Web server desing.

Page 19: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

La QoS percepitadagli utenti del Web (2)

La tolleranza al ritardo diminuisce con l’aumentare della durata della sessione.

La tolleranza al ritardo dipende dall’attività che l’utente sta svolgendo e dall’idea che egli ha del modo in cui il web-server la deve eseguire.

La tolleranza al ritardo aumenta quando l’utente in attesa riceve feedback continui da parte del web-server.

0

5

10

15

20

25

30

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Num. di pagine nella sessione

Rita

rdo

(sec

.)

Ritardo massimo Tolleranza massima

Page 20: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

La QoS percepitadagli utenti del Web (3)

È possibile ottenere una funzione di utilità per la QoS:

La scarsa QoS percepita ha effetti negativi

– sulla stima verso l’azienda rappresentata dal Sito

– sui prodotti e servizi offerti anche fuori dal Web

– sulla stima dell’impegno profuso per il Web

non vengono imputati altri elementi penalizzanti: traffico, ISP, modem, ecc.

– sulla percezione di sicurezza (transazioni)

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Num. di pagine nella sessione

Ute

nti t

olle

rant

i (in

%)

Ritardo di 6 sec. Ritardo di 10 sec. Ritardo di 16 sec.

Page 21: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi dei file di log del sito Webdel Politecnico di Milano

Analizziamo lo spezzone di log (1, 2 e 3 aprile ’02)

Common Extended LogFile Format:

Utilizzo di Microsoft Access per gestire il database e ricavare le misure d’interesse.

remotehost rfc authuser date request status bytes referer user_agent

12.140.45.83 - - 2002/04/01:23:14:46 GET http://www.polimi.it/english/menu.html HTTP/1.0 200 8078 http://www.polimi.it/english/ Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)

12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/counter/ HTTP/1.0 200 43 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)

12.140.45.83 - - 2002/04/01:23:14:47 GET http://www.polimi.it/english/images/fpoli_blu.jpg HTTP/1.0 200 24829 http://www.polimi.it/english/home.html Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)

Page 22: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi dei file di log del sito Webdel Politecnico di Milano (2)

Per ogni pagina del Sito ricaviamo dal log le seguenti misure:

– Dimensione (nominale e cumulativa)

– Tempo permanenza (medio e cumulativo)

– Entropia– Numero di back uscenti– Numero di richieste usc.– Numero di primi accessi

Calcoliamo le correlazioni fra tutte le possibili coppie di misure

Rappresentiamo il diagramma di dispersione con gli assi in scala logaritmica

i iii

iii

yyxx

yyxxr

22

Page 23: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi dei file di log del sito Webdel Politecnico di Milano (3)

Home Page:– dati oltremodo elevati

sconsigliano il confronto con le altre pagine del Sito

valori non veritieri per misurare l’interesse degli utenti verso il suo contenuto:

– url mnemonico– accesso preferenziale– spesso pagina

predefinita di avvio amplificazione eccessiva

delle correlazioni0,0001

0,001

0,01

0,1

1

10

100

1000

1 10 100 1000 10000 100000

Num. di accessi alla pagina

Dim

en

sio

ne

de

lla

pa

gin

a (

MB

)

con HomePage5437,0r9588,0r

senza HomePage

Page 24: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi dei file di log del sito Web del Politecnico di Milano (4)

Tempo medio di permanenza

– completa incorrelazione da tutti gli altri parametri

– valutare l’interesse degli utenti col tempo di permanenza non sembra quindi metrica valida.

Tempo cumulativo di permanenza

– correlato al 94% con num. di richieste uscenti

1

10

100

1000

10000

0,1 1 10 100 1000 10000 100000

Tempo cumul. di permanenza (sec.)

Nu

m.

di

ric

hie

ste

us

ce

nti

0,01

0,1

1

10

100

1000

10000

1 10 100 1000

Numero di back

Te

mp

o c

um

ul.

di

pe

rma

ne

nza

(s

ec

.)

0,1

1

10

100

1000

10000

100000

1 10 100 1000 10000 100000

Numero di accessi

Te

mp

o c

um

ul.

di

pe

rma

ne

nza

(s

ec

.)

– correlato al 60% col num. di back uscenti

– correlato al 70% col num. di primi accessi

– Risultati in linea con le aspettative (profilo utente di tipo “professionale”)

Page 25: Indici per la valutazione della QoS di applicazioni Web POLITECNICO DI MILANO Tesina di Laurea di: Andrea Ferrari - Matr.: 638853 Milano, 20 aprile 2004.

Analisi dei file di log dei sito Web del Politecnico di Milano (5)

Entropia– elevata per pagine

“indice”– entropia nulla per pagine

re-indirizzate automaticamente

– entropia nulla per pagine “foglia” del grafo

– completa incorrelazione da ogni altro parametro

Accessi e uscite– correlaz. del 73% fra primi

accessi e richieste uscenti

– correlaz. del 65% fra primi accessi e back uscenti

1

10

100

1000

10000

1 10 100 1000 10000 100000

Num. di accessi alla pagina

Nu

m.

di

ric

hie

ste

us

ce

nti

1

10

100

1000

10000

1 10 100 1000 10000 100000

Num. di accessi alla pagina

Nu

me

ro d

i b

ac

k

Dimensione pagine– sostanziale

incorrelazione con gli altri parametri

– lascia spazi ad affinamenti futuri