VQR e ASN: un Primo Bilancio e Prospettive Future

Post on 21-Nov-2014

412 views 1 download

description

VQR e ASN: un Primo Bilancio e Prospettive Future. Presentazione tenuta in data 29-1-2014 presso il Dipartimento di Chimica, Sapienza Università di Roma, nell'ambito del Convegno VQR e ASN: un Primo Bilancio e Prospettive Future. Incontro-dibattito organizzato dal Coordinamento Nazionale Ricercatori Universitari (CNRU) con Stefano Fantoni (Presidente ANVUR), Giuseppe De Nicolao (Redattore del sito web ROARS), Sergio Bendetto (Componente Consiglio Direttivo ANVUR), Marco Merafina (Coordinatore Nazionale CNRU), Giancarlo Ruocco (Prorettore alla Ricerca, Sapienza Università di Roma).

Transcript of VQR e ASN: un Primo Bilancio e Prospettive Future

VQR e ASN: un Primo Bilancio e Prospettive Future

Giuseppe De NicolaoDip. Ingegneria Industriale e

dell’InformazioneUniversità di Pavia

Capitoli

1. La VQR come non l’avete mai vista2. VQR: la parete nord della valutazione3. VQR: che fare?4. ASN: più mediane per tutti5. ASN: che fare?

1. La VQR come non l’avete mai vista

ING-INF/05!

SERGIO BENEDETTO(CONSIGLIO DIRETTIVO ANVUR)

4–02-2012

A cosa serve la valutazione?

Spesa per università (% PIL): l’Italia è 30° su 33 (fonte: OCSE 2013)

% della popolazione nella fascia 25-34 anni con titolo universitario: l’Italia è 34° su 36

(Italia: 21%, media OCSE: 39%)

% di studenti che intraprendono il dottorato di ricerca:l’Italia è 21° su 32 nazioni (fonte: OCSE 2013)

RisorseING-INF/05!

SPESA IN RICERCA E SVILUPPO (% PIL)

ITALIA

SPESA R&D (COME % DEL PIL) NEL SETTORE DI IMPIEGO “ISTRUZIONE SUPERIORE”

FONTE: OECD

COMPOSIZIONE N. RICERCATORI (PER MILLE UNITÀ FORZA LAVORO)

RisultatiING-INF/05!

PUBBLICAZIONI (WoS)

PUBBLICAZIONI 2004-2010:NUMERO DI CITAZIONI

Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 4.1)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf

PUBBLICAZIONI 2004-2010:CRESCITA MEDIA ANNUA (%)

Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 3.2)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf

EfficienzaING-INF/05!

Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 6.1)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf

# p

ap

ers/

mill

ion

US

D (

PP

P)

Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.3)(dati ISI Web of Knowledge, Thomson-Reuters)http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf

# c

ite

s/m

illio

n U

SD

(P

PP

)

Capitolo 2La parete nord

della valutazione

Vetta: valutazione nazionale della ricerca

Vie classiche: peer review, statistiche bibliometriche

Parete nord: valutazione bibliometrica dei singoli articoli

Tre spedizioni:

UK - RAE/REF Australia - ERA Italia - VQR

Report on the pilot exercise to develop bibliometric indicators for the REF

Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF

http://www.hefce.ac.uk/pubs/year/2009/200939/

VQR: gli indicatori bibliometrici In particolare verranno considerati:• l’Impact Factor di Journal Citation Reports di Thomson Reuters (IF) della rivista nell’anno di pubblicazione;• il numero di citazioni ricevute dal prodotto fino al 31 dicembre 2011;http://www.anvur.org/sites/anvur-miur/files/gev_documenti/gev02_criteri_21_05.pdf

bibliometry

BIBLIOMETRY

Australia drops journal rankings

“There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes”

Minister K. Carr, May 2011

bibliometry

BIBLIOMETRY

I “QVADRATI

MAGICI”

BIBLIOMETRICI

For the matrix entries labeled IR we rely on the informed peer review

ANVUR proposal: Use bibliometry, # of citations (and informed peer review)

25

A

B

C

D

Cita

tions

A

B

C

D

A B C D

A

B

C

D

Cita

tions

A

B

C

D

A B C D

A A A?

D D

D

A

A

A?

D

IR

IR

IR

IRIR

IRIR

IR IR

IR

IR

IR IRIR

Bibliometry (IF,…) Bibliometry (IF,…)

Recentarticles

Old articles

DEI FURBETTI DEL QUADRATINO

Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata

su metriche disomogenee

A. Le aree sono scalibrate (peccato veniale)B. Le bibliometrie degli SSD sono scalibrate

(fatal error)C. Bibliometria e peer-review sono scalibrate

(fatal error)

A. Le aree sono scalibrate ING-INF/05!

I due volti del quadrato magico del GEV09

BEST

WORST

Lo schema base ...

... ha due varianti ...

Quale bersaglio preferite?

0 punti 0 punti

ING-INF/05 Resto del GEV 09

JOURNAL RANKINGJOURNAL RANKING

CITA

TIO

NS

BEST BEST

WORST WORST

0,5 pti

1 punto 1 punto

0,8 punti 0,8 punti

0,5 pti

and the loser is ... ING-INF/05!

and the loser is ... ING-INF/05!

Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?

Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR

Proviamo a visualizzare la Tabella A1.1 attraverso la

metafora del tiro con l’arco

Le basi di tiro

bibliometrico

E = 1 B = 0,8 A = 0,5 L = 0

IL BERSAGLIO VQR: COLORI E PUNTEGGIIL BERSAGLIO VQR: COLORI E PUNTEGGI

20%

20%

10%

50%

Ma come sono fatti i bersagli veri?

Ce lo dice l’ANVUR: infatti, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN

I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area

Ti piace vincere facile?

40%

25%

14%

21%

22%

21%

13%

44% Ingegneria Industriale e dell’InformazioneScienze

Mediche

Morale: Le forti variazioni inter-area rendono i voti

incomparabili tra aree diverse

L’ANVUR lo sa e scrive che i voti in aree diverse non sono comparabili ...

(peccato veniale)

... ma il problema è dentro le aree.

B. La bibliometria dei SSD è scalibrata

I bersagli dei SSD sono scalibrati?Sì, come confessa il GEV 09

I bersagli dei SSD sono scalibrati?Sì, come confessa il GEV 02

Area 02: lo schema base ....

.... e le ricalibrazioni

• Il GEV 02 ha ricalibrato

• Tutto bene, allora

• Non proprio, perché

1. Gli altri GEV non hanno ricalibrato

2. Ricalibrando, il GEV 02 ha cambiato la proporzione di peer-review (altra fonte di scalibrazione)

Tutto è bene quel che finisce bene?

I bersagli dei SSD sono scalibrati?Altra evidenza dal GEV 09

Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science

I bersagli dei SSD sono scalibrati?Altra evidenza dal GEV 09

% ECCELLENTI VQR

% E

CC

EL

LE

NT

I Wo

S (

To

p 5

%) Area 09: confronto Web of Science vs VQR

La misura esterna Top 5% WoS non è troppo coerente con la % Eccellenti della VQR ...

VOTO MEDIO VQR

% E

CC

EL

LE

NT

I Wo

S (

To

p 5

%)

... e nemmeno con il voto medio VQR

Morale della favola

• Le bibliometrie dei SSD sono scalibrate(confessione del GEV 02)

• L’area 09 mostra che la scalibrazione è tale da rendere inaffidabili i risultati (SSD “eccellenti” per VQR non lo sono per Web of Science)

FATAL ERROR?

C. Bibliometria e peer-review sono scalibrate

La versione ufficiale

“una più che adeguata concordanza tra valutazione peer e biblio”

Stesse identiche parole in tutti i rapporti di area 01-09

VO

TO

ME

DIO

VQ

R

% PEER REVIEW

il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)

SSD: Voto medio VQR vs % peer review

VOTO

MED

IO

In tutte le aree la valutazione peer è più severa di quella bibliometrica

Morale della favola• Valutazione bibliometrica e peer-review

concordano poco• SSD eccellenti secondo ANVUR non sono

quelli eccellenti secondo Web of Science, ma quelli che hanno una bassa % di peer-review

FATAL ERROR?

«Il caso non ha dunque nulla a che fare con i risultati della Vqr»

S. Benedetto e R. Torrinihttp://www.lavoce.info/una-valutazione-molto-chiara/

«La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle Strutture, per i giovani che vogliono intraprendere gli studi universitari …»

S. Fantoni, “Una radiografia del sistema universitario”, in: I voti all’università, supplemento del Corriere della Sera, Luglio 2013, pag. 12

Area 9: Ingegneria Industriale e dell’informazione

Area 8b: Architettura

“Intraprendere gli studi”: Messina meglio di Milano Politecnico?

Gli errori architetturali della VQR

• La confusione tra progettisti dei criteri e valutatori

• La confusione tra eccellenza scientifica e competenza nel gestire e condurre processi divalutazione

• La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici

4. VQR: che fare?

ING-INF/05!

Problemi della VQR• Non c’è uniformità del metro di giudizio

bibliometrico tra le aree• L’ANVUR (accreditamento dottorati) e CRUI (gruppo

di lavoro valutazione) hanno riconosciuto che il metro di giudizio è disuniforme anche nelle le aree

• Il mix bibliometria/peer review introduce ulteriori disuniformità

• Probabilmente le falle non sono sanabili. Conseguenza: classifiche inaffidabili e distribuzione FFO arbitraria

• Soluzione: usare la VQR il meno possibile

5. ASN: più mediane per tutti

ING-INF/05!

La mediana è mobile qual piuma al vento

• Mediane intere e frazionarie dovrebbero alternarsi in modo casuale. Perché la seconda colonna delle mediane dei commissari per le aree 12, 13 e 8 (settori non bibliometrici) presenta solo valori interi?

• Non è possibile il calcolo informatizzato della seconda e terza mediana senza poter interrogare in formato elettronico la lista delle riviste in fascia A e quella delle “riviste scientifiche”, che però sono stare pubblicate parecchi giorni dopo.

Domande medianiche

La gaia scienza ... delle riviste pazze

L’ANVUR acquisisce visibilità internazionale:“crazy lists that ignored many journals in favour of provincial

newspapers, religious circulars and yachting magazines”

La prevalenza del suino

“Oggetto di sarcasmo è in particolare la Rivista di suinicultura ... il cui titolo ha colpito la fantasia dei critici. ... Del resto, Il Caffè [1764-1766] dovrebbe forse essere escluso dal novero delle riviste che hanno fatto la cultura italiana perché ha un nome che lascia piuttosto pensare alla cucina?” (Ribolzi e Castagnaro)

Illuminismo lombardo (1764)

Illuminismo lombardo (1764)

Scientificità ANVUR (2012)

Cosa dicono gli esperti di statistica?

Golden-Spiegelhalter: a three-part framework for performance assessment

1. Data "No amount of fancy statistical footwork will overcome basic inadequacies in either the appropriateness or the integrity of the data collected."

Golden-Spiegelhalter: a three-part framework for performance assessment 1/3

Dovrebbe valere il principio di non cancellazione: "nessuno può migliorare la propria valutazione cancellando dei titoli dal proprio curriculum”

Paradosso: •Ricercatore 1 e Ricercatore 2 hanno la stessa età•Pubblicano in coppia 20 articoli negli anni 2001-2010•Il Ricercatore 1 è coautore in un articolo (che ha zero citazioni) pubblicato nel 1995 a cui aveva contribuito mentre era laureando ⇒ maggiore età accademica (secondo ANVUR)⇒ il suo h-index per anno è inferiore•Al Ricercatore 1 converrebbe “cancellare” il paper del 1995

Appropriateness/integrity: esempio #1

22 Agosto 2011

Bufala!Bufala!

Appropriateness/integrity: esempio #2

ma qui crollano anche tutte le altre nazioni!

L’ARMAGEDDONDELLA

RICERCAEUROPEA?

NO! È SOLO UNPROBLEMA DI ....

ESEMPIO: A CAUSA DEI BEN NOTI RITARDI DI REGISTRAZIONE NEI DATABASE BIBLIOMETRICI, NEL 2010 LA NATIONAL SCIENCE FOUNDATION RITENEVA INAFFIDABILI I DATI DEL 2008 E 2009

.... RITARDI

I dati bibliometrici degli ultimi 1-2 anni non sono assestati. Non usare a scopo scientifico!

Con il “contemporary h-index” le citazioni (non assestate) di un articolo pubblicato nel 2012 sono pesate quattro volte di più di quelle (assestate) di un articolo del 2008

la normalizzazione dell’indice h verrà effettuata utilizzando il contemporary h-index

BIBLIOMETRY

I contenziosi saranno inevitabili:nel 2011 ANVUR scriveva ...

2.4 Ricorso in appello avverso la pubblicazione dei dati ANVUR Sembra opportuno inserire un sistema, molto snello, di possibilità di ricorso contro la pubblicazione delle mediane da parte di soggetti esclusi. Occorre definire il modello e il soggetto. Preferibile un modello del tipo ricorso gerarchico, verso l’ANVUR, che dovrà nominare una commissione indipendente.

2. Statistical Analysis and Presentation “We shall pay particular attention to the specification of an appropriate statistical model, the crucial importance of uncertainty in the presentation of all results ...."

Golden-Spiegelhalter: a three-part framework for performance assessment 2/3

2. Statistical Model: esempio La multimodalità

L’identificazione dei casi nei quali il calcolo della mediana e la sua utilizzazione si effettuano all’interno del SSD avviene sulla base del seguente algoritmo, descritto per un singolo settore concorsuale e nel caso dei professori ordinari ma valido per tutti:a) si calcola la mediana del settore concorsuale;b) si calcola la mediana per tutti i SSD appartenenti al settore concorsuale cheabbiano al loro interno almeno 30 professori ordinari;c) se il SSD ha una mediana superiore o uguale a quella del settore concorsuale siapplica ai professori ordinari che vi afferiscono la mediana del settoreconcorsuale;d) se il SSD ha una mediana inferiore a quella del settore concorsuale si calcola ilnumero dei professori ordinari del SSD il cui indicatore supera la mediana del settore concorsuale. Se il numero è superiore al 25% dei professori ordinari del SSD si procede come in c). Se il numero è inferiore al 25% per il SSD e per tutti i docenti che vi afferiscono si utilizza la mediana del SSD.

ANVUR, Delibera n. 50 del 21/06/2012

L’identificazione dei casi nei quali il calcolo della mediana e la sua utilizzazione si effettuano all’interno del SSD avviene sulla base del seguente algoritmo, descritto per un singolo settore concorsuale e nel caso dei professori ordinari ma valido per tutti:a) si calcola la mediana del settore concorsuale;b) si calcola la mediana per tutti i SSD appartenenti al settore concorsuale cheabbiano al loro interno almeno 30 professori ordinari;c) se il SSD ha una mediana superiore o uguale a quella del settore concorsuale siapplica ai professori ordinari che vi afferiscono la mediana del settoreconcorsuale;d) se il SSD ha una mediana inferiore a quella del settore concorsuale si calcola ilnumero dei professori ordinari del SSD il cui indicatore supera la mediana del settore concorsuale. Se il numero è superiore al 25% dei professori ordinari del SSD si procede come in c). Se il numero è inferiore al 25% per il SSD e per tutti i docenti che vi afferiscono si utilizza la mediana del SSD.

ANVUR, Delibera n. 50 del 21/06/2012

SSD SSD SSD

MEDIANA MEDIANA MEDIANA

MEDIANASETTORE

CONCORSUALE

n = 28

n = 100

n = 72

n TOT = n + n + n = 100 + 28 + 72 = 200

SETTORE CONCORSUALE COMPOSTO DA 3 SSD

INDICATOREBIBLIOMETRICO

SSD SSD SSD

MEDIANA MEDIANA MEDIANA

MEDIANASETTORE

CONCORSUALE

n = 28

n = 100

n = 72

n TOT = n + n + n = 100 + 28 + 72 = 200

SOLUZIONE NATURALE

INDICATOREBIBLIOMETRICO

COMMISSARI 50%: SSD 14%: SSD 36%: SSD

INDICATOREBIBLIOMETRICO

SSD SSD SSD

MEDIANA MEDIANA MEDIANA

MEDIANASETTORE

CONCORSUALE

n = 28

n = 100

n = 72

n TOT = n + n + n = 100 + 28 + 72 = 200

SOLUZIONE ANVUR #1 COMMISSARI 74%: SSD 0%: SSD 26%: SSD

SSD SSD SSD

MEDIANA MEDIANA MEDIANA

MEDIANASETTORE

CONCORSUALE

n = 28

n = 100

n = 72

n TOT = n + n + n = 100 + 28 + 72 = 200

SOLUZIONE ANVUR #2 (SE DEROGA PER SSD )

INDICATOREBIBLIOMETRICO

COMMISSARI 67%: SSD 9%: SSD 24%: SSD

SSD SSD SSD

MEDIANA MEDIANA MEDIANA

MEDIANASETTORE

CONCORSUALE

n = 28

n = 100

n = 72

n TOT = n + n + n = 100 + 28 + 72 = 200

SOLUZIONE ANVUR #2 (SE DEROGA PER SSD )

INDICATOREBIBLIOMETRICO

COMMISSARI 67%: SSD 9%: SSD 24%: SSD

IL SETTORE ALFA È IL PIÙ ADATTO ALLA SOPRAVVIVENZA

LA SELEZIONE “NATURALE” DEGLI SSD, OVVERO LE MEDIANE COME STRUMENTO DI DARWINISMO ACCADEMICO?

Zombie attack!

“facciamo mobbing ... tagliamoli fuori dalle commissioni ... e facciamone degli zombies”G. Federico, Membro Gruppo di Lavoro ANVUR (nomina: 3 luglio 2012)

Art. 2 gli studiosi collaboratori esterni [...] fanno sì che le relazioni con i colleghi siano ispirate a principi di leale collaborazione, evitando atti e comportamenti caratterizzati da animosità e conflittualità. [...] Consapevoli della natura pubblica delle funzioni svolte, si comportano in modo tale da promuovere la reputazione dell’Agenzia e la fiducia nel suo operato.

3. Interpretation and Impact ”... analysts should also be aware of the potential effect of the results in terms of future behavioural changes by institutions and individuals seeking to improve their subsequent 'ranking'."

Golden-Spiegelhalter: a three-part framework for performance assessment 3/3

3. Interpretation and impact: incentivazione di comportamenti opportunistici

• moltiplicare articoli brevi su riviste minori• seguire le mode per massimizzare le citazioni• scambio di citazioni tra “amici”• authorships fittizie

La mediana consente ad una popolazione sottoposta a valutazione di modificare il metro di giudizio:

gli ultimi due comportamenti favoriscono scuole/gruppi di ricerca numerosi ⇒pericolo

di“pulizia etnica”

5. ASN: che fare?

ING-INF/05!

ASN (1/3)• Accettare gli standard internazionali: no uso

automatico della bibliometria individuale• Informed peer-review dei candidati: i dati

bibliometrici sono indizi da esaminare, interpretare e pesare

• Abolire il “valore legale” dell’età accademica• Assunzione di responsabilità: non c’è formula che ci

salverà• Ruolo della trasparenza: critiche pubbliche alle

commissioni, dibattito. Occorre tempo per maturare

ASN (2/3)• Eventuali soglie devono essere accertabili con

sicurezza e autocertificabili (no citazioni)• No soglie dinamiche per non innescare

comportamenti opportunistici• Soglie: tagliare la coda bassa (produzione

insufficiente per accedere al ruolo). Affidarle al CUN (organo rappresentativo istituzionale)

• Commissioni: stesse soglie dei candidati. Sorteggio+elezione?

ASN (3/3)

• Rinnovo annuale delle commissioni. • Numero massimo di candidati per

commissione. Se necessario, nominare più commissioni.

• Possibilità di ripresentarsi anche in anni consecutivi (3 getttoni in 5 anni per es.)

• Importante: separare reclutamento da progressione di carriera. Tagliare alla radice il problema del candidato locale

“L’Anvur ha ucciso la valutazione. Viva la valutazione!”

... l’Anvur ha ucciso la valutazione con la sua disattenzione dei limiti della valutazione e del contesto nel quale essa andava ad inserirla. Non sono stato completo nel dir ciò. Bisogna anche aggiungere che l’Anvur ha ucciso se stessa...S. Cassese – Primo Convegno ROARS

Roma, 15 novembre 2012

E l’ANVUR?• Cosa ci vorrebbe?• Meno “bava alla bocca” e maggiore competenza

tecnica ovvero ...• ... i “guardiani del merito” dovrebbero vedere meno

B-movies di zombies e documentarsi meglio sulla letteratura scientometrica e le esperienze internazionali

• Se la situazione non fosse tragica, ci sarebbe da ridere

• È ora che qualcuno (MIUR) dica “basta!” e si cominci a lavorare con competenza

Grazie per l’attenzione!