Autodiagnosi in Rete: fatti, vissuti, opinioni, prospettive future
Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente
-
Upload
giuseppe-de-nicolao -
Category
Education
-
view
168 -
download
0
Transcript of Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente
Valutazione della ricerca 2012-‐2014: tre anni vissu7 pericolosamente
Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione
Università di Pavia
1. A cosa serve la valutazione? 2. Una, nessuna, centomila VQR 3. Classifiche à la carte 4. La valutazione medianica dell’ASN 5. SUA-‐RD: il test “scova-‐fannulloni” 6. Che può fare il CUN?
Capitoli
1. A cosa serve la valutazione? 2. Una, nessuna, centomila VQR
3. La valutazione medianica dell’ASN
4. Il test “scova-‐fannulloni” della SUA-‐RD 5. Che può fare il CUN?
Perché è la cura prescriUa da medici autorevoli
Perché è urgente valutare la ricerca per chiudere sedi?
Giavazzi: «che nell’università ci siano troppi professori
è un fa7o» Ricercatori accademici in % sugli occupa7
Mariastella Gelmini: «È risibile collegare la bassa qualità dell’Università italiana
alla quan@tà delle risorse erogate: siamo in linea con la media europea»
Mariastella Gelmini: «È risibile collegare la bassa qualità dell’Università italiana
alla quan@tà delle risorse erogate: siamo in linea con la media europea»
«... la riforma dell'università. Non è una legge ideale, ma va dato
aUo al ministro Gelmini di aver faUo un importante passo avan7.
La legge riconosce che i corsi devono essere rido\, le università
snellite, alcune chiuse»
F. Giavazzi Corriere della Sera
24.10.2010
«Il Consiglio Universitario Nazionale quale Organo eleFvo di rappresentanza del Sistema Universitario, presso il Ministero dell’Istruzione, dell’Università e della Ricerca, intende portare all’a7enzione di tu7e le sedi Is@tuzionali e Poli@che le principali emergenze che stanno ponendo il Sistema dell’Istruzione e della Ricerca universitaria in una condizione di crisi conclamata. Il Consiglio Universitario Nazionale ri@ene che tali emergenze, se non affrontate immediatamente con a7enzioni e con soluzioni adeguate, informate e consapevoli, condurranno a una crisi irreversibile»
Ma c’è qualcuno che dice come stanno veramente le cose?
VeUa: valutazione nazionale della ricerca
Vie classiche: peer review, staPsPche bibliometriche
Parete nord: valutazione bibliometrica dei singoli arPcoli
Tre spedizioni:
UK - RAE/REF Australia - ERA Italia - VQR
Report on the pilot exercise to develop bibliometric indicators for the REF
Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF
hRp://www.hefce.ac.uk/pubs/year/2009/200939/
VQR: gli indicatori bibliometrici
In par@colare verranno considera@:
• il numero di citazioni ricevute dal prodoCo fino al 31 dicembre 2011;
hRp://www.anvur.org/sites/anvur-‐miur/files/gev_documenP/gev02_criteri_21_05.pdf
bibliometry
BIBLIOMETRY
Australia drops journal rankings
“There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes”
Minister K. Carr, May 2011
bibliometry
BIBLIOMETRY
VQR: gli indicatori bibliometrici
In par@colare verranno considera@: • l’Impact Factor di Journal Cita@on
Reports di Thomson Reuters (IF) della rivista nell’anno di pubblicazione;
hRp://www.anvur.org/sites/anvur-‐miur/files/gev_documenP/gev02_criteri_21_05.pdf
For the matrix entries labeled IR we rely on the informed peer review
ANVUR proposal: Use bibliometry, # of cita7ons (and informed peer review)
24
A
B
C
D
CitaPo
ns
A
B
C
D
A B C D
A
B
C
D
CitaPo
ns
A
B
C
D
A B C D
A A A?
D D
D
A
A
A?
D
IR
IR
IR
IR IR
IR IR
IR IR
IR
IR
IR IR IR
Bibliometry (IF,…) Bibliometry (IF,…)
Recent articles
Old articles
Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata
su metriche disomogenee
A. Le aree sono scalibrate (peccato veniale) B. Le bibliometrie degli SSD sono scalibrate
(fatal error)
C. Bibliometria e peer-‐review sono scalibrate (fatal error)
Quale bersaglio preferite?
0 punti 0 punti
ING-‐INF/05 Resto del GEV 09
JOURNAL RANKING JOURNAL RANKING
CITATIONS
BEST BEST
WORST WORST
0,5 pti
1 punto 1 punto
0,8 punti 0,8 punti
0,5 pti
Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR
Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?
Ma come sono fa\ i bersagli veri?
Ce lo dice l’ANVUR: infac, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN
Ti piace vincere facile?
40%
25%
14%
21%
22%
21%
13%
44% Ingegneria Industriale e
dell’Informazione
Scienze
Mediche
Morale: Le for@ variazioni inter-‐area rendono i vo@
incomparabili tra aree diverse
L’ANVUR lo sa e predica bene ...
Idee molto chiare ...
Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.
Rapporto Finale ANVUR – Parte I, p. 7
Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science
I bersagli dei SSD sono scalibra7? Altra evidenza dal GEV 09
% ECCELLENTI VQR
% E
CC
ELLE
NTI
WoS
(Top
5%
) Area 09: confronto Web of Science vs VQR
La misura esterna Top 5% WoS non è troppo coerente con la % Eccellenti della VQR ...
Morale della favola
• Le bibliometrie dei SSD sono scalibrate (confessione del GEV 02)
• L’area 09 mostra che la scalibrazione è tale da rendere inaffidabili i risultaP (SSD “eccellenP” per VQR non lo sono per Web of Science)
FATAL ERROR?
La versione ufficiale
“una più che adeguata concordanza tra valutazione peer e biblio”
Stesse identiche parole in tutti i rapporti di area 01-09
VOTO
MED
IO V
QR
% PEER REVIEW
il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)
SSD: Voto medio VQR vs % peer review
Morale della favola • Anche le metriche della valutazione bibliometrica e della peer-‐review concordano poco
• Non solo le comparazioni tra aree sono impossibili, ma anche quelle tra seRori dentro le aree
FATAL ERROR?
Una, nessuna, centomila VQR
• CRUI e ANVUR si rendono conto delle scalibrazioni e cercano correcvi
• Almeno 4 diversi vo7 VQR in circolazione 1. ANVUR 2013 (R standardizzato su media Aree) 2. ANVUR doRoraP (R standardizzato su media SSD)
3. CRUI “first revision” (R standardizzato su media e SD dei SSD)
4. CRUI “last revision” (trasformazione in percenPli)
Is there a ranked list of ins7tu7ons’ results?
RAE2008 results are in the form of a quality profile for each submission made by an HEI. We have not produced any ranked lists of single scores for ins@tu@ons or UoAs, and nor do we intend to. hRp://www.rae.ac.uk/faq/default.asp?selcat=15&q=225
S. Fantoni: «il Paese possiede una fotografia de7aglia@ssima e,sopra7u7o, cer@ficata
della qualità della ricerca italiana» (ANSA, 17.7.2013)
«La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle StruCure, per i giovani che vogliono intraprendere gli studi universitari … »
Area 9: Ingegneria Industriale e dell’informazione
Area 8b: ArchiteRura
“Intraprendere gli studi”: Messina meglio di Milano Politecnico?
GRA
NDI
MED
IE
PICC
OLE I SEG
MEN
TI DIM
ENSIONALI DEL RAPP
ORT
O FINALE
COME RIPO
RTAT
I NELLE Tab
elle 7.3a-‐7.3d
DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “GRANDI” PER LA STAMPA
DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “PICCOLE” PER LA STAMPA
GRA
NDI
MED
IE
PICC
OLE I SEG
MEN
TI DIM
ENSIONALI DEL RAPP
ORT
O FINALE
COME RIPO
RTAT
I NELLE Tab
elle 7.3a-‐7.3d
Gli errori architeUurali della VQR
• La confusione tra proge\s7 dei criteri e valutatori
• La confusione tra eccellenza scien7fica e competenza nel gesPre e condurre processi divalutazione
• La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici
Problemi della VQR • Non c’è uniformità del metro di giudizio bibliometrico tra le aree
• Il metro di giudizio bibliometrico è disuniforme anche nelle le aree
• Il mix bibliometria/peer review introduce ulteriori disuniformità
• Conseguenza: classifiche inaffidabili e distribuzione premiale arbitraria
• Soluzione: copiare dal REF inglese (proposta Roars)
San Francisco DeclaraPon on Research Assessment
• SoRoscriRa da 407 organizzazioni (comprese riviste come Science, Plos e PNAS) e piu di 9.000 individui.
• «Avoid using journal metrics to judge individual papers or individuals for hiring, promoPon and funding decisions»
• «Judge the content of individual papers and take into account other research outputs, such as data sets, sosware and patents, as well as a researcher’s influence on policy and pracPce»
IEEE Board of Directors
Appropriate Use of Bibliometric Indicators for the Assessment of Journals, Research Proposals, and Individuals -‐ 9 September 2013
• Any journal-‐based metric is not designed to capture qualiPes of individual papers and must therefore not be used as a proxy for single-‐arPcle quality or to evaluate individual scienPsts
• ... the primary manner for assessment of either the scienPfic quality of a research project or of an individual scienPst should be peer review
SSD α SSD γ SSD β
MEDIANA α MEDIANA β MEDIANA γ
MEDIANA SETTORE
CONCORSUALE
nβ = 28
nα = 100
nγ = 72
n TOT = nα + nβ + nγ = 100 + 28 + 72 = 200
SETTORE CONCORSUALE COMPOSTO DA 3 SSD
INDICATORE BIBLIOMETRICO
SSD α SSD γ SSD β
MEDIANA α MEDIANA β MEDIANA γ
MEDIANA SETTORE
CONCORSUALE
nβ = 28
nα = 100
nγ = 72
n TOT = nα + nβ + nγ = 100 + 28 + 72 = 200
SOLUZIONE NATURALE
INDICATORE BIBLIOMETRICO
COMMISSARI 50%: SSD α 14%: SSD β 36%: SSD γ
INDICATORE BIBLIOMETRICO
SSD α SSD γ SSD β
MEDIANA α MEDIANA β MEDIANA γ
MEDIANA SETTORE
CONCORSUALE
nβ = 28
nα = 100
nγ = 72
n TOT = nα + nβ + nγ = 100 + 28 + 72 = 200
SOLUZIONE ANVUR #1 COMMISSARI 74%: SSD α 0%: SSD β 26%: SSD γ
Il test “scova-‐fannulloni” della SUA-‐RD Prima della valutazione, verranno calcolate, per ognuno degli SSD presenP nel DiparPmento, la media e la deviazione standard del numero di pubblicazioni, disPnte per categoria, per persona, inserite dai DiparPmenP di tuc gli Atenei. Se il numero di pubblicazioni per persona inserite dal DiparPmento per un dato SSD rientra in un intervallo di ampiezza pari al doppio della deviazione standard intorno al valor medio, esso sarà considerato nella norma e si procederà alla valutazione. Se risulta inferiore al valor medio diminuito di 2 volte la deviazione standard, l’indicatore finale verrà mol7plicato per un peso inferiore a 1 che dipende dalla distanza dal valor medio nazionale. Linee guida per la compilazione della SUA-‐RD (parte prima e seconda) pag. 8
NUMEROSITÀ DEL SSD NELL’ATENEO
PROBA
BILITÀ
DI P
ENALIZZAZIONE (%
) I GRUPPI PIÙ PICCOLI HANNO
MAGGIOR PROBABILITÀ DI ESSERE PENALIZZATI
ING-‐INF/04 (10.000 SIMULAZIONI)
Che fare? • Trascinare la valutazione fuori dalle secche dell’ideologia della “meritocrazia all’amatriciana”
• Esigere competenza tecnica: fare riferimento allo stato dell’arte internazionale – limiP dell’analisi bibliometrica, in parPcolare a livello individuale
– usare tecniche sperimentate e validate
• Smascherare le soluzioni velleitarie e dannose • Il CUN deve conPnuare a fare argine proponendo soluzioni all’altezza