Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente

99
Valutazione della ricerca 20122014: tre anni vissu7 pericolosamente Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione Università di Pavia

Transcript of Valutazione della ricerca 2012-2014: tre anni vissuti pericolosamente

Valutazione  della  ricerca  2012-­‐2014:  tre  anni  vissu7  pericolosamente  

Giuseppe  De  Nicolao  Dip.  Ingegneria  Industriale  e  dell’Informazione  

Università  di  Pavia  

1.  A  cosa  serve  la  valutazione?  2.  Una,  nessuna,  centomila  VQR  3.  Classifiche  à  la  carte  4.  La  valutazione  medianica  dell’ASN  5.  SUA-­‐RD:  il  test  “scova-­‐fannulloni”  6.  Che  può  fare  il  CUN?  

Capitoli  

1.  A  cosa  serve  la  valutazione?  2.  Una,  nessuna,  centomila  VQR  

3.  La  valutazione  medianica  dell’ASN  

4.  Il  test  “scova-­‐fannulloni”  della  SUA-­‐RD  5.  Che  può  fare  il  CUN?  

Capitolo  1.    A  cosa  serve  la  valutazione?  

SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR)

4–02-2012!

A  cosa  serve  la  valutazione?  

Perché  è  urgente  valutare  la  ricerca  per  chiudere  sedi?      

Perché  è  la  cura  prescriUa  da  medici  autorevoli  

Perché  è  urgente  valutare  la  ricerca  per  chiudere  sedi?      

Perotti: «l’università italiana non ha un ruolo significativo nel panorama della ricerca mondiale»

Giavazzi:  «che  nell’università    ci  siano  troppi  professori      

è  un  fa7o»  

Giavazzi:  «che  nell’università    ci  siano  troppi  professori      

è  un  fa7o»  Ricercatori  accademici  in  %  sugli  occupa7  

Giuseppe  De  Rita:  «studiare  per  troppi  anni  non  serve  a  nulla  ...  non  abbiamo  bisogno  

di  geni»  

Giuseppe  De  Rita:  «studiare  per  troppi  anni  non  serve  a  nulla  ...  non  abbiamo  bisogno  

di  geni»  

Mariastella  Gelmini:  «È  risibile  collegare  la  bassa  qualità  dell’Università  italiana  

alla  quan@tà  delle  risorse  erogate:  siamo  in  linea  con  la  media  europea»  

Mariastella  Gelmini:  «È  risibile  collegare  la  bassa  qualità  dell’Università  italiana  

alla  quan@tà  delle  risorse  erogate:  siamo  in  linea  con  la  media  europea»  

«...  la  riforma  dell'università.    Non  è  una  legge  ideale,  ma  va  dato  

aUo  al  ministro  Gelmini  di  aver  faUo  un  importante  passo  avan7.  

La  legge  riconosce  che    i  corsi  devono  essere  rido\,  le  università  

snellite,  alcune  chiuse»  

F. Giavazzi Corriere della Sera

24.10.2010

«Il  Consiglio  Universitario  Nazionale  quale  Organo  eleFvo  di  rappresentanza  del  Sistema  Universitario,  presso  il  Ministero  dell’Istruzione,  dell’Università  e  della  Ricerca,  intende  portare  all’a7enzione  di  tu7e  le  sedi  Is@tuzionali  e  Poli@che  le  principali  emergenze  che  stanno  ponendo  il  Sistema  dell’Istruzione  e  della  Ricerca  universitaria  in  una  condizione  di  crisi  conclamata.  Il  Consiglio  Universitario  Nazionale  ri@ene  che  tali  emergenze,  se  non  affrontate  immediatamente  con  a7enzioni  e  con  soluzioni  adeguate,  informate  e  consapevoli,  condurranno  a  una  crisi  irreversibile»  

Ma  c’è  qualcuno  che  dice    come  stanno  veramente  le  cose?  

Capitolo  2.    Una,  nessuna,  centomila  VQR  

La  parete  nord  della  valutazione  

VeUa:  valutazione  nazionale  della  ricerca  

Vie  classiche:  peer  review,  staPsPche  bibliometriche  

Parete  nord:  valutazione  bibliometrica  dei  singoli  arPcoli  

Tre  spedizioni:  

UK - RAE/REF Australia - ERA Italia - VQR

Report  on  the  pilot  exercise  to  develop  bibliometric  indicators  for  the  REF  

Bibliometrics  are  not  sufficiently  robust  at  this  stage  to  be  used  formulaically  or  to  replace  expert  review  in  the  REF  

hRp://www.hefce.ac.uk/pubs/year/2009/200939/  

VQR:  gli  indicatori  bibliometrici  

In  par@colare  verranno  considera@:  

•  il  numero  di  citazioni  ricevute  dal  prodoCo  fino  al  31  dicembre  2011;  

hRp://www.anvur.org/sites/anvur-­‐miur/files/gev_documenP/gev02_criteri_21_05.pdf  

bibliometry

BIBLIOMETRY

Australia  drops  journal  rankings  

“There  is  clear  and  consistent  evidence  that  the  rankings  were  being  deployed  inappropriately  …  in  ways  that  could  produce  harmful  outcomes”  

Minister  K.  Carr,  May  2011  

bibliometry

BIBLIOMETRY

VQR:  gli  indicatori  bibliometrici  

In  par@colare  verranno  considera@:  •  l’Impact  Factor  di  Journal  Cita@on  

Reports  di  Thomson  Reuters  (IF)  della  rivista  nell’anno  di  pubblicazione;  

hRp://www.anvur.org/sites/anvur-­‐miur/files/gev_documenP/gev02_criteri_21_05.pdf  

I “QVADRATI

MAGICI”

BIBLIOMETRICI

For  the  matrix  entries  labeled  IR    we  rely  on  the  informed  peer  review    

ANVUR  proposal:  Use  bibliometry,  #  of  cita7ons    (and  informed  peer  review)  

24  

A  

B  

C  

D  

CitaPo

ns  

A  

B  

C  

D  

A   B   C   D  

A  

B  

C  

D  

CitaPo

ns  

A  

B  

C  

D  

A   B   C   D  

A   A   A?  

D   D  

D  

A  

A  

A?  

D  

IR  

IR  

IR  

IR  IR  

IR  IR  

IR   IR  

IR  

IR  

IR   IR  IR  

Bibliometry  (IF,…)   Bibliometry  (IF,…)  

Recent articles

Old articles

Tesi:  nelle  aree  bibliometriche    la  VQR  è  inaffidabile  perché  basata    

su  metriche  disomogenee  

A.  Le  aree  sono  scalibrate  (peccato  veniale)  B.  Le  bibliometrie  degli  SSD  sono  scalibrate    

(fatal  error)  

C.  Bibliometria  e  peer-­‐review  sono  scalibrate  (fatal  error)  

A.  Le  aree  sono  scalibrate  ING-­‐INF/05!  

I  due  vol7  del  quadrato    magico  del  GEV09  

BEST  

WORST  

Lo  schema  base  ...  

...  ha  due  varian7  ...  

Quale  bersaglio  preferite?  

0 punti 0 punti

ING-­‐INF/05   Resto  del  GEV  09  

JOURNAL RANKING JOURNAL RANKING

CITATIONS  

BEST   BEST  

WORST   WORST  

0,5 pti

1 punto 1 punto

0,8 punti 0,8 punti

0,5 pti

and  the  loser  is  ...  ING-­‐INF/05!  

and  the  loser  is  ...  ING-­‐INF/05!  

Per  rispondere,  andiamo  a  leggere  l’Appendice  A  del  Rapporto  Finale  VQR  

Per  fortuna  la  scalibrazione    tocca  solo  il  GEV  09  ...  o  no?  

Proviamo  a  visualizzare  la  Tabella  A1.1  a7raverso  la  metafora  del  @ro  con  l’arco  

Le basi di tiro

bibliometrico

E = 1 B = 0,8 A = 0,5 L = 0

20%

20%

10%

50%

Ma  come  sono  fa\  i  bersagli  veri?  

Ce  lo  dice  l’ANVUR:  infac,  la  Tabella  A1.1  ci  fornisce  proprio  le  dimensioni  degli  anelli  del  bersaglio  per  ciascuna  area  CUN  

I  veri  “bersagli  VQR”  sono  diversi  da  quello  teorico  e  cambiano  da  area  ad  area  

Ti  piace  vincere  facile?  

40%

25%

14%

21%

22%

21%

13%

44% Ingegneria  Industriale  e  

dell’Informazione  

Scienze  

Mediche  

Morale:  Le  for@  variazioni    inter-­‐area  rendono  i  vo@  

incomparabili  tra  aree  diverse  

L’ANVUR  lo  sa  e  predica  bene  ...  

Idee  molto  chiare  ...  

Pertanto, le tabelle che per comodità di visualizzazione riuniscono nel rapporto i risultati delle valutazioni nelle varie Aree non devono essere utilizzate per costruire graduatorie di merito tra le aree stesse, un esercizio senza alcun fondamento metodologico e scientifico.

Rapporto Finale ANVUR – Parte I, p. 7

ma  poi  ...  

1°  2°  

3°  

Il  “bersaglio  facile”  porta  l’area  09  sul  podio:  terzi  dopo  chimici  e  fisici  

...  e  il  Sole  24  Ore  abbocca  subito  

ma  questo  è  folklore    (anche  se  fino  ad  un  certo  punto)  

La  vera  ques7one  è  un’altra  ...  

B.  La  bibliometria  dei  SSD  è  scalibrata  

I  bersagli  dei  SSD  sono  scalibra7?  Sì,  come  confessa  il  GEV  09  

I  bersagli  dei  SSD  sono  scalibra7?  Sì,  come  confessa  il  GEV  02  

I  bersagli  dei  SSD  sono  scalibra7?  Altra  evidenza  dal  GEV  09  

Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science

I  bersagli  dei  SSD  sono  scalibra7?  Altra  evidenza  dal  GEV  09  

% ECCELLENTI VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

) Area 09: confronto Web of Science vs VQR

La misura esterna Top 5% WoS non è troppo coerente con la % Eccellenti della VQR ...

VOTO MEDIO VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

)

... e nemmeno con il voto medio VQR

Morale  della  favola  

•  Le  bibliometrie  dei  SSD  sono  scalibrate  (confessione  del  GEV  02)  

•  L’area  09  mostra  che  la  scalibrazione  è  tale  da  rendere  inaffidabili  i  risultaP  (SSD  “eccellenP”  per  VQR  non  lo  sono  per  Web  of  Science)  

           FATAL  ERROR?  

C.  Bibliometria  e  peer-­‐review    sono  scalibrate  

La  versione  ufficiale  

“una più che adeguata concordanza tra valutazione peer e biblio”

Stesse identiche parole in tutti i rapporti di area 01-09

VOTO

 MED

IO  

In  tuUe  le  aree  la  valutazione  peer  è    più  severa  di  quella  bibliometrica  

AREA  13  

AREA  09  (VOTO  “DOPATO”)  

VOTO

MED

IO V

QR

% PEER REVIEW

il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)

SSD:  Voto  medio  VQR  vs  %  peer  review  

SSD:  eccellenza  WoS  vs  %  peer  review    

Morale  della  favola  •  Anche  le  metriche  della  valutazione  bibliometrica  e  della  peer-­‐review  concordano  poco  

•  Non  solo  le  comparazioni  tra  aree  sono  impossibili,  ma  anche  quelle  tra  seRori  dentro  le  aree  

           FATAL  ERROR?  

Capitolo  3.  Classifiche  à  la  carte  

Una,  nessuna,  centomila  VQR  

•  CRUI  e  ANVUR  si  rendono  conto  delle  scalibrazioni  e  cercano  correcvi  

•  Almeno  4  diversi  vo7  VQR  in  circolazione  1.  ANVUR  2013  (R  standardizzato  su  media  Aree)  2.  ANVUR  doRoraP  (R  standardizzato  su  media  SSD)  

3.  CRUI  “first  revision”    (R  standardizzato  su  media  e  SD  dei  SSD)  

4.  CRUI  “last  revision”  (trasformazione  in  percenPli)  

La  classifica  dipar7men7  Area  09  by  ANVUR  (ANVUR  2013)  

La  classifica  dipar7men7  Area  09  by  CRUI  (CRUI  “last  revision”)  

ANVUR  

ANVUR  CRUI  

Is  there  a  ranked  list  of  ins7tu7ons’  results?  

RAE2008  results  are  in  the  form  of  a  quality  profile  for  each  submission  made  by  an  HEI.  We  have  not  produced  any  ranked  lists  of  single  scores  for  ins@tu@ons  or  UoAs,  and  nor  do  we  intend  to.  hRp://www.rae.ac.uk/faq/default.asp?selcat=15&q=225  

S.  Fantoni:  «il  Paese  possiede  una  fotografia  de7aglia@ssima  e,sopra7u7o,  cer@ficata  

della  qualità  della  ricerca  italiana»    (ANSA,  17.7.2013)  

«La  VQR   in   realtà  ha   come  compito  primario  quello  di  creare  conoscenza  per   il   policy  maker,  per  gli  organi  di  governo   delle   StruCure,   per   i  giovani   che   vogliono   intraprendere  gli  studi  universitari  …  »  

Area  9:    Ingegneria  Industriale  e  dell’informazione  

Area  8b:  ArchiteRura  

“Intraprendere  gli  studi”:    Messina  meglio  di  Milano  Politecnico?  

È  possibile  confrontare  struUure  di  dimensioni  eterogenee?  

La  “legge  dell’imbuto”  

Come  7  cambio  le  classifiche  giocando  sulle  demarcazioni  dei  segmen7  dimensionali  

GRA

NDI  

MED

IE  

PICC

OLE  I  SEG

MEN

TI  DIM

ENSIONALI  DEL  RAPP

ORT

O  FINALE    

COME  RIPO

RTAT

I  NELLE  Tab

elle  7.3a-­‐7.3d

 

DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “GRANDI” PER LA STAMPA

DA “MEDIE” NEL RAPPORTO FINALE, DIVENTANO “PICCOLE” PER LA STAMPA

GRA

NDI  

MED

IE  

PICC

OLE  I  SEG

MEN

TI  DIM

ENSIONALI  DEL  RAPP

ORT

O  FINALE    

COME  RIPO

RTAT

I  NELLE  Tab

elle  7.3a-­‐7.3d

 

VERSIONE  ORIGINALE  

Gli  errori  architeUurali  della  VQR  

•  La  confusione  tra  proge\s7  dei  criteri  e  valutatori  

•  La  confusione  tra  eccellenza  scien7fica  e  competenza  nel  gesPre  e  condurre  processi  divalutazione  

•  La  mancanza  di  tempo  e  trasparenza  nella  definizione  dei  criteri  bibliometrici  

Problemi  della  VQR  •  Non  c’è  uniformità  del  metro  di  giudizio  bibliometrico  tra  le  aree  

•  Il  metro  di  giudizio  bibliometrico  è  disuniforme  anche  nelle  le  aree  

•  Il  mix  bibliometria/peer  review  introduce  ulteriori  disuniformità  

•  Conseguenza:  classifiche  inaffidabili  e  distribuzione  premiale  arbitraria  

•  Soluzione:  copiare  dal  REF  inglese  (proposta  Roars)  

Capitolo  4.    La  valutazione  medianica  

dell’ASN  

San  Francisco  DeclaraPon  on  Research  Assessment    

•  SoRoscriRa  da  407  organizzazioni  (comprese  riviste  come  Science,  Plos  e  PNAS)  e  piu  di  9.000  individui.  

•  «Avoid  using  journal  metrics  to  judge  individual  papers  or  individuals  for  hiring,  promoPon  and  funding  decisions»  

•  «Judge  the  content  of  individual  papers  and  take  into  account  other  research  outputs,  such  as  data  sets,  sosware  and  patents,  as  well  as  a  researcher’s  influence  on  policy  and  pracPce»  

IEEE  Board  of  Directors    

Appropriate  Use  of  Bibliometric  Indicators  for  the  Assessment  of  Journals,  Research  Proposals,  and  Individuals  -­‐  9  September  2013  

•  Any  journal-­‐based  metric  is  not  designed  to  capture  qualiPes  of  individual  papers  and  must  therefore  not  be  used  as  a  proxy  for  single-­‐arPcle  quality  or  to  evaluate  individual  scienPsts  

•  ...  the  primary  manner  for  assessment  of  either  the  scienPfic  quality  of  a  research  project  or  of  an  individual  scienPst  should  be  peer  review  

SSD  α  SSD  γ   SSD  β  

MEDIANA  α  MEDIANA  β  MEDIANA  γ  

MEDIANA  SETTORE    

CONCORSUALE  

nβ  =  28  

nα  =  100  

nγ  =  72  

n  TOT  =  nα  +  nβ  +  nγ    =  100  +  28  +  72  =  200  

SETTORE  CONCORSUALE  COMPOSTO  DA  3  SSD  

INDICATORE  BIBLIOMETRICO  

SSD  α  SSD  γ   SSD  β  

MEDIANA  α  MEDIANA  β  MEDIANA  γ  

MEDIANA  SETTORE    

CONCORSUALE  

nβ  =  28  

nα  =  100  

nγ  =  72  

n  TOT  =  nα  +  nβ  +  nγ    =  100  +  28  +  72  =  200  

SOLUZIONE  NATURALE  

INDICATORE  BIBLIOMETRICO  

COMMISSARI    50%:  SSD  α  14%:  SSD  β 36%:  SSD  γ      

INDICATORE  BIBLIOMETRICO  

SSD  α  SSD  γ   SSD  β  

MEDIANA  α  MEDIANA  β  MEDIANA  γ  

MEDIANA  SETTORE    

CONCORSUALE  

nβ  =  28  

nα  =  100  

nγ  =  72  

n  TOT  =  nα  +  nβ  +  nγ    =  100  +  28  +  72  =  200  

SOLUZIONE  ANVUR  #1   COMMISSARI    74%:  SSD  α      0%:  SSD  β 26%:  SSD  γ      

La  due  facce  delle  mediane  d’agosto  2012  

Capitolo  5.    Il  test  “scova-­‐fannulloni”  

della  SUA-­‐RD  

Il  test  “scova-­‐fannulloni”  della  SUA-­‐RD  Prima   della   valutazione,   verranno   calcolate,   per   ognuno   degli  SSD  presenP  nel  DiparPmento,  la  media  e  la  deviazione  standard  del  numero  di  pubblicazioni,  disPnte  per  categoria,  per  persona,  inserite   dai   DiparPmenP   di   tuc   gli   Atenei.   Se   il   numero   di  pubblicazioni  per  persona  inserite  dal  DiparPmento  per  un  dato  SSD   rientra   in   un   intervallo   di   ampiezza   pari   al   doppio   della  deviazione   standard   intorno   al   valor   medio,   esso   sarà  considerato   nella   norma   e   si   procederà   alla   valutazione.   Se  risulta   inferiore   al   valor   medio   diminuito   di   2   volte   la  deviazione   standard,   l’indicatore   finale   verrà   mol7plicato   per  un  peso  inferiore  a  1  che  dipende  dalla  distanza  dal  valor  medio  nazionale.  Linee  guida  per  la  compilazione  della  SUA-­‐RD  (parte  prima  e  seconda)  pag.  8  

NUMEROSITÀ  DEL  SSD  NELL’ATENEO  

PROBA

BILITÀ

 DI  P

ENALIZZAZIONE  (%

)    I  GRUPPI  PIÙ  PICCOLI  HANNO  

MAGGIOR  PROBABILITÀ  DI  ESSERE  PENALIZZATI  

ING-­‐INF/04  (10.000  SIMULAZIONI)  

Capitolo  6.  Che  può  fare  il  

CUN?  

Che  fare?  •  Trascinare  la  valutazione  fuori  dalle  secche  dell’ideologia  della  “meritocrazia  all’amatriciana”  

•  Esigere  competenza  tecnica:  fare  riferimento  allo  stato  dell’arte  internazionale  –  limiP  dell’analisi  bibliometrica,  in  parPcolare  a  livello  individuale  

–  usare  tecniche  sperimentate  e  validate  

•  Smascherare  le  soluzioni  velleitarie  e  dannose  •  Il  CUN  deve  conPnuare  a  fare  argine  proponendo  soluzioni  all’altezza  

Grazie  per  l’aRenzione!