Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente

Valutazione della ricerca 2012-‐2014: tre anni vissu7 pericolosamente

Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione

Università di Pavia

1.  A cosa serve la valutazione? 2.  Una, nessuna, centomila VQR 3.  Classifiche à la carte 4.  La valutazione medianica dell’ASN 5.  SUA-‐RD: il test “scova-‐fannulloni” 6.  Che può fare il CUN?

Capitoli

1.  A cosa serve la valutazione? 2.  Una, nessuna, centomila VQR

3.  La valutazione medianica dell’ASN

4.  Il test “scova-‐fannulloni” della SUA-‐RD 5.  Che può fare il CUN?

Capitolo 1. A cosa serve la valutazione?

SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR)

4–02-2012!

A cosa serve la valutazione?

Perché è urgente valutare la ricerca per chiudere sedi?

Perché è la cura prescriUa da medici autorevoli

Perché è urgente valutare la ricerca per chiudere sedi?

Perotti: «l’università italiana non ha un ruolo significativo nel panorama della ricerca mondiale»

Giavazzi: «che nell’università ci siano troppi professori

è un fa7o»

Giavazzi: «che nell’università ci siano troppi professori

è un fa7o» Ricercatori accademici in % sugli occupa7

Giuseppe De Rita: «studiare per troppi anni non serve a nulla ... non abbiamo bisogno

di geni»

Mariastella Gelmini: «È risibile collegare la bassa qualità dell’Università italiana

alla quan@tà delle risorse erogate: siamo in linea con la media europea»

«... la riforma dell'università. Non è una legge ideale, ma va dato

aUo al ministro Gelmini di aver faUo un importante passo avan7.

La legge riconosce che i corsi devono essere rido\, le università

snellite, alcune chiuse»

F. Giavazzi Corriere della Sera

24.10.2010

«Il Consiglio Universitario Nazionale quale Organo eleFvo di rappresentanza del Sistema Universitario, presso il Ministero dell’Istruzione, dell’Università e della Ricerca, intende portare all’a7enzione di tu7e le sedi Is@tuzionali e Poli@che le principali emergenze che stanno ponendo il Sistema dell’Istruzione e della Ricerca universitaria in una condizione di crisi conclamata. Il Consiglio Universitario Nazionale ri@ene che tali emergenze, se non affrontate immediatamente con a7enzioni e con soluzioni adeguate, informate e consapevoli, condurranno a una crisi irreversibile»

Ma c’è qualcuno che dice come stanno veramente le cose?

Capitolo 2. Una, nessuna, centomila VQR

La parete nord della valutazione

VeUa: valutazione nazionale della ricerca

Vie classiche: peer review, staPsPche bibliometriche

Parete nord: valutazione bibliometrica dei singoli arPcoli

Tre spedizioni:

UK - RAE/REF Australia - ERA Italia - VQR

Report on the pilot exercise to develop bibliometric indicators for the REF

Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF

hRp://www.hefce.ac.uk/pubs/year/2009/200939/

VQR: gli indicatori bibliometrici

In par@colare verranno considera@:

• il numero di citazioni ricevute dal prodoCo fino al 31 dicembre 2011;

hRp://www.anvur.org/sites/anvur-‐miur/files/gev_documenP/gev02_criteri_21_05.pdf

bibliometry

BIBLIOMETRY

Australia drops journal rankings

“There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes”

Minister K. Carr, May 2011

bibliometry

BIBLIOMETRY

VQR: gli indicatori bibliometrici

In par@colare verranno considera@: • l’Impact Factor di Journal Cita@on

Reports di Thomson Reuters (IF) della rivista nell’anno di pubblicazione;

hRp://www.anvur.org/sites/anvur-‐miur/files/gev_documenP/gev02_criteri_21_05.pdf

I “QVADRATI

MAGICI”

BIBLIOMETRICI

For the matrix entries labeled IR we rely on the informed peer review

ANVUR proposal: Use bibliometry, # of cita7ons (and informed peer review)

24

A

B

C

D

CitaPo

ns

A

B

C

D

A B C D

A

B

C

D

CitaPo

ns

A

B

C

D

A B C D

A A A?

D D

D

A

A

A?

D

IR

IR

IR

IR IR

IR IR

IR IR

IR

IR

IR IR IR

Bibliometry (IF,…) Bibliometry (IF,…)

Recent articles

Old articles

Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata

su metriche disomogenee

A.  Le aree sono scalibrate (peccato veniale) B.  Le bibliometrie degli SSD sono scalibrate

(fatal error)

C.  Bibliometria e peer-‐review sono scalibrate (fatal error)

A. Le aree sono scalibrate ING-‐INF/05!

I due vol7 del quadrato magico del GEV09

BEST

WORST

Lo schema base ...

... ha due varian7 ...

Quale bersaglio preferite?

0 punti 0 punti

ING-‐INF/05 Resto del GEV 09

JOURNAL RANKING JOURNAL RANKING

CITATIONS

BEST BEST

WORST WORST

0,5 pti

1 punto 1 punto

0,8 punti 0,8 punti

0,5 pti

and the loser is ... ING-‐INF/05!

Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR

Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?

Proviamo a visualizzare la Tabella A1.1 a7raverso la metafora del @ro con l’arco

Le basi di tiro

bibliometrico

E = 1 B = 0,8 A = 0,5 L = 0

20%

20%

10%

50%

Ma come sono fa\ i bersagli veri?

Ce lo dice l’ANVUR: infac, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN

I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area

Ti piace vincere facile?

40%

25%

14%

21%

22%

21%

13%

44% Ingegneria Industriale e

dell’Informazione

Scienze

Mediche

Morale: Le for@ variazioni inter-‐area rendono i vo@

incomparabili tra aree diverse

L’ANVUR lo sa e predica bene ...

Idee molto chiare ...

Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.

Rapporto Finale ANVUR – Parte I, p. 7

ma poi ...

1° 2°

3°

Il “bersaglio facile” porta l’area 09 sul podio: terzi dopo chimici e fisici

... e il Sole 24 Ore abbocca subito

ma questo è folklore (anche se fino ad un certo punto)

La vera ques7one è un’altra ...

B. La bibliometria dei SSD è scalibrata

I bersagli dei SSD sono scalibra7? Sì, come confessa il GEV 09

I bersagli dei SSD sono scalibra7? Sì, come confessa il GEV 02

I bersagli dei SSD sono scalibra7? Altra evidenza dal GEV 09

Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science

I bersagli dei SSD sono scalibra7? Altra evidenza dal GEV 09

% ECCELLENTI VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

) Area 09: confronto Web of Science vs VQR

La misura esterna Top 5% WoS non è troppo coerente con la % Eccellenti della VQR ...

VOTO MEDIO VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

)

... e nemmeno con il voto medio VQR

Morale della favola

•  Le bibliometrie dei SSD sono scalibrate (confessione del GEV 02)

•  L’area 09 mostra che la scalibrazione è tale da rendere inaffidabili i risultaP (SSD “eccellenP” per VQR non lo sono per Web of Science)

FATAL ERROR?

C. Bibliometria e peer-‐review sono scalibrate

La versione ufficiale

“una più che adeguata concordanza tra valutazione peer e biblio”

Stesse identiche parole in tutti i rapporti di area 01-09

VOTO

MED

IO

In tuUe le aree la valutazione peer è più severa di quella bibliometrica

AREA 13

AREA 09 (VOTO “DOPATO”)

VOTO

MED

IO V

QR

% PEER REVIEW

il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)

SSD: Voto medio VQR vs % peer review

SSD: eccellenza WoS vs % peer review

Morale della favola •  Anche le metriche della valutazione bibliometrica e della peer-‐review concordano poco

•  Non solo le comparazioni tra aree sono impossibili, ma anche quelle tra seRori dentro le aree

FATAL ERROR?

Capitolo 3. Classifiche à la carte

Una, nessuna, centomila VQR

•  CRUI e ANVUR si rendono conto delle scalibrazioni e cercano correcvi

•  Almeno 4 diversi vo7 VQR in circolazione 1.  ANVUR 2013 (R standardizzato su media Aree) 2.  ANVUR doRoraP (R standardizzato su media SSD)

3.  CRUI “first revision” (R standardizzato su media e SD dei SSD)

4.  CRUI “last revision” (trasformazione in percenPli)

La classifica dipar7men7 Area 09 by ANVUR (ANVUR 2013)

La classifica dipar7men7 Area 09 by CRUI (CRUI “last revision”)

ANVUR CRUI

Is there a ranked list of ins7tu7ons’ results?

RAE2008 results are in the form of a quality profile for each submission made by an HEI. We have not produced any ranked lists of single scores for ins@tu@ons or UoAs, and nor do we intend to. hRp://www.rae.ac.uk/faq/default.asp?selcat=15&q=225

S. Fantoni: «il Paese possiede una fotografia de7aglia@ssima e,sopra7u7o, cer@ficata

della qualità della ricerca italiana» (ANSA, 17.7.2013)

«La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle StruCure, per i giovani che vogliono intraprendere gli studi universitari … »

Area 9: Ingegneria Industriale e dell’informazione

Area 8b: ArchiteRura

“Intraprendere gli studi”: Messina meglio di Milano Politecnico?

È possibile confrontare struUure di dimensioni eterogenee?

La “legge dell’imbuto”

Come 7 cambio le classifiche giocando sulle demarcazioni dei segmen7 dimensionali

GRA

NDI

MED

IE

PICC

OLE I SEG

MEN

TI DIM

ENSIONALI DEL RAPP

ORT

O FINALE

COME RIPO

RTAT

I NELLE Tab

elle 7.3a-‐7.3d

DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “GRANDI” PER LA STAMPA

DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “PICCOLE” PER LA STAMPA

GRA

NDI

MED

IE

PICC

OLE I SEG

MEN

TI DIM

ENSIONALI DEL RAPP

ORT

O FINALE

COME RIPO

RTAT

I NELLE Tab

elle 7.3a-‐7.3d

VERSIONE ORIGINALE

Gli errori architeUurali della VQR

•  La confusione tra proge\s7 dei criteri e valutatori

•  La confusione tra eccellenza scien7fica e competenza nel gesPre e condurre processi divalutazione

•  La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici

Problemi della VQR •  Non c’è uniformità del metro di giudizio bibliometrico tra le aree

•  Il metro di giudizio bibliometrico è disuniforme anche nelle le aree

•  Il mix bibliometria/peer review introduce ulteriori disuniformità

•  Conseguenza: classifiche inaffidabili e distribuzione premiale arbitraria

•  Soluzione: copiare dal REF inglese (proposta Roars)

Capitolo 4. La valutazione medianica

dell’ASN

San Francisco DeclaraPon on Research Assessment

•  SoRoscriRa da 407 organizzazioni (comprese riviste come Science, Plos e PNAS) e piu di 9.000 individui.

•  «Avoid using journal metrics to judge individual papers or individuals for hiring, promoPon and funding decisions»

•  «Judge the content of individual papers and take into account other research outputs, such as data sets, sosware and patents, as well as a researcher’s influence on policy and pracPce»

IEEE Board of Directors

Appropriate Use of Bibliometric Indicators for the Assessment of Journals, Research Proposals, and Individuals -‐ 9 September 2013

•  Any journal-‐based metric is not designed to capture qualiPes of individual papers and must therefore not be used as a proxy for single-‐arPcle quality or to evaluate individual scienPsts

•  ... the primary manner for assessment of either the scienPfic quality of a research project or of an individual scienPst should be peer review

SSD α SSD γ SSD β

MEDIANA α MEDIANA β MEDIANA γ

MEDIANA SETTORE

CONCORSUALE

nβ = 28

nα = 100

nγ = 72

n TOT = nα + nβ + nγ = 100 + 28 + 72 = 200

SETTORE CONCORSUALE COMPOSTO DA 3 SSD

INDICATORE BIBLIOMETRICO



MEDIANA SETTORE

CONCORSUALE

nβ = 28

nα = 100

nγ = 72

n TOT = nα + nβ + nγ = 100 + 28 + 72 = 200

SOLUZIONE NATURALE


COMMISSARI 50%: SSD α 14%: SSD β 36%: SSD γ




MEDIANA SETTORE

CONCORSUALE

nβ = 28

nα = 100

nγ = 72

n TOT = nα + nβ + nγ = 100 + 28 + 72 = 200

SOLUZIONE ANVUR #1 COMMISSARI 74%: SSD α 0%: SSD β 26%: SSD γ

La due facce delle mediane d’agosto 2012

Capitolo 5. Il test “scova-‐fannulloni”

della SUA-‐RD

Il test “scova-‐fannulloni” della SUA-‐RD Prima della valutazione, verranno calcolate, per ognuno degli SSD presenP nel DiparPmento, la media e la deviazione standard del numero di pubblicazioni, disPnte per categoria, per persona, inserite dai DiparPmenP di tuc gli Atenei. Se il numero di pubblicazioni per persona inserite dal DiparPmento per un dato SSD rientra in un intervallo di ampiezza pari al doppio della deviazione standard intorno al valor medio, esso sarà considerato nella norma e si procederà alla valutazione. Se risulta inferiore al valor medio diminuito di 2 volte la deviazione standard, l’indicatore finale verrà mol7plicato per un peso inferiore a 1 che dipende dalla distanza dal valor medio nazionale. Linee guida per la compilazione della SUA-‐RD (parte prima e seconda) pag. 8

NUMEROSITÀ DEL SSD NELL’ATENEO

PROBA

BILITÀ

DI P

ENALIZZAZIONE (%

) I GRUPPI PIÙ PICCOLI HANNO

MAGGIOR PROBABILITÀ DI ESSERE PENALIZZATI

ING-‐INF/04 (10.000 SIMULAZIONI)

Capitolo 6. Che può fare il

CUN?

Che fare? •  Trascinare la valutazione fuori dalle secche dell’ideologia della “meritocrazia all’amatriciana”

•  Esigere competenza tecnica: fare riferimento allo stato dell’arte internazionale –  limiP dell’analisi bibliometrica, in parPcolare a livello individuale

–  usare tecniche sperimentate e validate

•  Smascherare le soluzioni velleitarie e dannose •  Il CUN deve conPnuare a fare argine proponendo soluzioni all’altezza

Grazie per l’aRenzione!

Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente

Education

Transcript of Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente