QUALITA’ DEI DATI : MODULO IB - cineca.it20Ib... · L’ufficio qualità dei dati si occupa di...

30
QUALITA’ DEI DATI : MODULO IB Paola Galimberti [email protected] Docente Corso “Gestione e qualità dei dati ai fini del monitoraggio e della valutazione della ricerca” organizzato da Cineca Soluzioni per la Ricerca Istituzionale - tenuto il 20-11 novembre 2014 presso la sede Cineca di Roma

Transcript of QUALITA’ DEI DATI : MODULO IB - cineca.it20Ib... · L’ufficio qualità dei dati si occupa di...

QUALITA’ DEI DATI : MODULO IB

Paola Galimberti

[email protected]

Docente

Corso “Gestione e qualità dei dati ai fini del monitoraggio e della valutazione della ricerca” organizzato da Cineca – Soluzioni per la Ricerca Istituzionale - tenuto il 20-11 novembre 2014 presso la sede Cineca di Roma

Un sistema complesso

• L’avvio di una anagrafe della ricerca (o catalogo prodotti) rende necessario prevedere una serie di competenze e di responsabilità che probabilmente fino ad ora non erano state pensate

• Un repository istituzionale è un sistema estremamente complesso, che accoglie e fornisce dati da e verso fonti interne ed esterne. Va dunque progettato con estrema cura.

• La prima azione da farsi da parte della Amministrazione di un ateneo è quella di prendersi la responsabilità della qualità dei dati inseriti e poi esposti

• Questo passo fondamentale richiede una riorganizzazione dei flussi di lavoro

I dati sono la base

• Da cui partire:

• Per fare analisi affidabili sulla ricerca svolta in una istituzione

• Per poter giustificare di fronte ai taxpayers gli investimenti fatti

• Per poter prendere decisioni informate

• Quanto più le decisioni da prendere sono importanti, tanto più è necessario che i dati forniti e le loro aggregazioni siano affidabili, ma soprattutto che ne sia data anche una interpretazione corretta

Caratteristiche dei dati

• Affidabilità

• Robustezza

• Completezza

• Esaustività

• Unicità

• Certificazione

Cosa significa certificare i dati sulla ricerca

• Ogni ufficio competente nell’ateneo deve fare la sua parte nella validazione e certificazione dei dati utilizzati per il monitoraggio e la valutazione

• Ufficio personale per le anagrafiche

• Ufficio ricerca per i progetti

• Ufficio dottorati per le pratiche relative alla consegna e al deposito della tesi

• Ufficio che si occupa del catalogo della ricerca per le pubblicazioni

• L’ufficio qualità dei dati si occupa di coordinare e verificare i dati e la loro coerenza

Catalogo della ricerca – Non ci sono più scuse • L’enorme cambiamento per gli atenei Ugov è rappresentato dal fatto che

l’anagrafe è pubblica

• Chiunque può vedere i dati inseriti dai ricercatori afferenti all’ateneo

• Chiunque può vedere i dati validati dall’Ateneo, a cui l’Ateneo ha apposto il proprio sigillo di qualità

• Ovviamente l’Ateneo può decidere di non rendere visibili i dati di una anagrafe che per sua natura è aperta, ma ciò desterebbe qualche sospetto

Modifiche nel workflow

• La pubblicità dei dati relativi alle pubblicazioni scientifiche rende necessaria la modifica delle pratiche abituali

• La responsabilità dei dati inseriti nell’archivio (la loro veridicità) resta in capo all’autore (nessuno meglio dell’autore può sapere cosa ha fatto, dove, con chi)

• La responsabilità del controllo sulla correttezza anche formale dei dati (ad esempio i dati sulla rivista o sul volume, la correttezza dell’ISBN e del DOI, l’indicazione di tutti gli autori interni e la loro elencazione formale, la presenza del numero delle pagine, il collegamento con eventuali progetti internazionali, i controlli sul full-text eventualmente associato) è invece in capo a personale che come minimo deve avere una formazione specifica

Necessario prevedere l’intervento e la formazione di nuove figure • Il personale di biblioteca, opportunamente formato rispetto ai processi che

ruotano intorno alla valutazione della ricerca, ha le competenze necessarie per poter contribuire alla certificazione della qualità dei metadati bibliografici, e per essere di supporto a docenti e ricercatori in fase di inserimento dei dati

• Anche per il personale di biblioteca si tratta però di cambiare le logiche: è necessario pensare in chiave di valutazione e descrizione della ricerca, e non più in chiave di descrizione dell’oggetto libro o articolo. Deve essere dunque predisposta una formazione ad hoc, segnalando anche i punti sensibili per la valutazione e rendendo partecipi tutti i vari attori dell’’importanza dei dati per le pratiche di valutazione

La licenza

• Per quanto riguarda la assunzione di responsabilità rispetto ai dati inseriti, Dspace prevede la sottoscrizione di una licenza.

• La licenza si trova, nella versione standard, alla fine del processo di inserimento

• La licenza garantisce all’ateneo che i dati inseriti sono veri (vale a dire che l’autore è veramente autore della pubblicazione inserita), che la pubblicazione è stata pubblicata su quella rivista con quei coautori.

• Garantisce anche una licenza non esclusiva per la messa a disposizione di terzi dei dati e dell’eventuale fulltext allegato in accordo con le politiche editoriali (ed eventualmente degli enti di finanziamento della ricerca. Riservando all’università il diritto di rimuovere metadati e fulltext in caso di plagio, retraction ecc.

• La licenza va sottoscritta necessariamente. La non sottoscrizione impedisce il completamento dell’inserimento. Per questo unimi l’ha posta all’inizio del WF

I FLUSSI DEI DATI Dati in entrata e in uscita

Il repository istituzionale accoglie dati da banche dati interne ed esterne

Repository istituzionale

Anagrafica Database progetti

Segreterie dottorati

Database bibliografici

(Wos, Scopus, Crossref, Pubmed)

Il repository istituzionale fornisce dati a banche dati interne ed esterne

Repository istituzionale

Modulo statistiche e valutazione

Business intelligence

Dati bibliometrici

Dart Europe BNCF TEL

Open AIRE Motori di ricerca (Google, Google

Scholar ecc.)

Loginmiur e Altri database

ministeriali

Supporto alle decisioni e alla

governance

Azioni da fare prima di avviare l’IR(1)

• Definizione della policy dell’archivio

Chi è autorizzato a depositare (personale docente, altri??)

Gestione delle autorizzazioni (chi inserisce per conto di altri, tecnici che inseriscono per proprio conto perché collaborano col personale docente)

Cosa è possibile depositare (solo lavori di ricerca o anche didattica? Solo pubblicato o anche pre-print? In corso di pubblicazione? Ahead of print?) Conseguenze determinate dalle scelte sui contenuti

Quando si deve depositare (entro un certo periodo dalla pubblicazione)

Si dovrebbe rendere chiaro che i dati vengono continuamente utilizzati per analisi e monitoraggio, quindi devono essere costantemente aggiornati (importanza della tempestività dell’aggiornamento)

Azioni da fare prima di avviare l’IR(2)

• Definizione delle tipologie di lavori accolti nell’IR e dei metadati descrittivi fondamentali

• Esempi possono essere documento di Bologna o di Torino (tendenzialmente la definizione delle tipologie è compito dell’osservatorio della ricerca)

• Il documento di partenza deve essere però l’indagine fatta dal CUN sul carattere di scientificità delle pubblicazioni

• Si devono tenere presenti le tipologie di pubblicazioni e metadati previsti dal sito docente considerando che determinate tipologie più raffinate possono essere mappate

• Il sistema di metadati (e di tipologie) che si costruisce deve essere facilmente modificabile, ogni qualvolta sia necessario un adeguamento.

• I metadati devono essere più ricchi possibile, per evitare di dover rilavorare più volte sulle stesse registrazioni

L’importanza degli identificativi

• Sono importanti quelli per le pubblicazioni (che servono in realtà anche per l’import)

• Ma sono importanti anche quelli per le persone. In particolare ORCID

• www.orcid.org

Azioni da fare prima di avviare l’IR(3)

• Deve essere definito anche uno standard per il servizio di validazione:

Tempi di validazione previsti

Dati sui cui viene fatto un controllo

Possibilità di modificare i dati formali introdotti dall’autore (cambio tipologia o sottotipologia)

Obbligo di validazione di qualsiasi modifica venga introdotta in una registrazione

Possibilità di integrare i dati

Input forms

• E’ lo strumento attraverso il quale vengono gestite le modifiche nel set di tipologie e nelle descrizioni

• E’ opportuno che l’input forms sia progettato e concordato fra chi deve utilizzare i dati per la valutazione e per il monitoraggio e chi invece ha conoscenza dei metadati descrittivi (informatico o bibliotecario)

• Attraverso l’input forms definiamo i campi obbligatori e quelli opzionali, la loro ripetibilità, la presenza di selezioni alternative ecc.

Consapevolezza

• Si dovrà rendere chiaro a chi inserisce che la completezza dei dati è fondamentale.

• I dati non obbligatori non sono inutili, quindi se disponibili è meglio inserirli.

• Se l’autore non inserisce dati che sono però utili per le analisi dell’ateneo sarà il validatore a completare il dato (ad esempio il DOI per poter poi estrarre le citazioni da Scopus o altre informazioni via API, l’ISBN, l’abstract, il numero di pagine ecc.)

Flessibilità

• Gli oggetti descritti in un repository (le pubblicazioni) cambiano velocemente. La vera sfida consiste nel riuscire a tener dietro ai cambiamenti che avvengono nelle modalità di produzione e disseminazione della scienza e a quelli che avvengono nei sistemi di valutazione

Definizione di una policy per l’archiviazione dei full-text

• Quale versione archiviare, condizioni per l’archiviazione,

• Obbligatorietà dell’archiviazione del PDF? Può essere utile per campagne di valutazione che coinvolgono gli atenei in prima persona.

• L’ateneo dovrà anche decidere se supportare i ricercatori con un gruppo di lavoro ad hoc per l’analisi delle clausole degli editori

Definizione dei flussi in entrata e in uscita

• Import da banche dati

A seconda degli accordi con gli editori potrà essere possibile importare via API:

I dati bibliografici

I dati sulle affiliation dei coautori

I dati bibliometrici

Gli identificativi di alcune basi di dati (ad es. pubmed e Scopus o wos)

L’import dalle banche dati

• Facilita l’inserimento nell’IR di dati corretti sia dal punto di vista della forma che della sostanza.

• Abbassa la possibilità di introdurre errori

• Fra gli sviluppi futuri potrebbe esserci l’utilizzo di ORCID

• Se adottato da tutto l’ateneo il flusso potrebbe invertirsi per cui l’autore potrebbe essere avvisato dal sistema ogni volta che una nuova registrazione entra in Scopus o in WOS (collegamento con WOS, Scopus o con Orcid stesso)

Il monitoraggio dei dati(1)

• L’IR deve essere costantemente monitorato.

• Problema delle registrazioni duplicate

• Problema degli ahead of prints (o dei preprints tipo arxiv o repec) per cui una registrazione non deve essere duplicata una volta che appaiono i dati del fascicolo, ma corretta (problema del conteggio di questi item se a cavallo di anni diversi)

• Problema della corretta attribuzione di un lavoro a tutti gli autori interni (in parte superato dalle richieste di riconoscimento – ridondanza…)

• Problema della verifica del passaggio dei dati al sito docente

• Problema del collegamento (se l’ir lo prevede) con il progetto (per l’invio ad es. ad openaire. La comunicazione deve avvenire a cura del docente, ma spesso ciò non viene fatto)

Il monitoraggio dei dati (2)

• Problema del grado di proprietà rispetto ad un articolo (si pensi alle grandi collaborazioni tipo Atlas, o ad esempio la Normale e THE)

• http://rankingwatch.blogspot.it/2014/10/how-to-win-citations-and-rise-in.html

• Problema del ruolo di un autore all’interno della collaborazione

• Necessità, per i settori in cui la posizione di un autore è significativa, l’indicazione delle posizioni (primo secondo ultimo penultimo)

Passaggio dati a loginmiur

• Una serie di tipologie di lavori non trovano la loro collocazione (non perché non sono pubblicazioni scientifiche)

• Ad es. pubblicazioni digitali che non sono sovrapponibili alle tipologie cartacee (ad esempio voci di enciclopedia sul dizionario biografico degli italiani online)

• Rigidità di loginmiur che non è pronto per accogliere pubblicazioni che vengono fatte su portali o contenitori di contributi scientifici peer reviewed che non rientrano nelle tipologie ancora legate al mondo analogico, ma anche rigidità dei criteri fissati per alcune tipologie (ad esempio il contributo in volume deve essere pubblicato in volume con ISBN. La logica del «contenitore» si sta sgretolando ed è quindi necessario pensare ad altri elementi per la validazione dei «pezzi» di ricerca)

Pubblicità dei dati

• Un bel passaggio per gli atenei Ugov.

• I docenti italiani hanno un sito docente che è privato e una anagrafe locale che è chiusa.

• Il nuovo strumento che gli atenei adotteranno prevede in effetti che i dati siano pubblici.

• L’esposizione della propria attività scientifica a qualsiasi utente è dunque totale

• Accanto ai dati bibliografici gli utenti esterni (e l’autore) possono vedere anche una serie di dati statistici rispetto alla diffusione o popolarità di un lavoro

• Questo può essere di stimolo sia alla apertura che alla accuratezza nell’inserimento dei dati

Effetto imitativo

Quando mi rendo conto che il mio collega che ha inserito tutte le sue pubblicazioni (il cui numero per altro risulta evidente nell’archivio) ha molte visite e citazioni nei social network, lo stimolo ad inserire le mie pubblicazioni sarà maggiore, e sarò dunque incentivato ad inserire tutti i miei lavori nell’archivio in modo da poter poi verificare il ritorno in termini di immagine

L’utilizzo dei dati E’ importante definire un arco temporale a partire da quando i dati devono essere completi. Su quell’arco ci si deve concentrare per fare in modo che si raggiunga l’esaustività (in alcuni casi ciò è stato fatto chiudendo l’inserimento diretto nel sito docente

Quando si è certi che tutti i dati sono stati inseriti, che i dati sono corretti e unici (non doppi) è possibile procedere con analisi sulla produzione scientifica

Per tipo di pubblicazione

Per area

Per SSD

Per fascia di docenza

Per IF della rivista

Per posizione dell’autore

Per grado di proprietà

Monitoraggio

• Ad esempio è possibile individuare i docenti che non hanno pubblicazioni su un arco temporale definito

• Definizione di soglie di produttività ritagliate sulle diverse aree

• Analisi delle sedi di pubblicazioni preferite dai ricercatori

• E’ possibile verificare il grado di collaborazione all’interno del dipartimento o con l’ateneo, con l’Italia o con altre istituzioni estere

La valutazione: una pratica i cui effetti sul sistema devono poter essere previsti • Sono validi tutti i caveat espressi nel modulo Ia.

• Quando si fissano delle misure target, il rischio che più che un mezzo diventino IL fine è molto alto, così come quello che si inneschino comportamenti adattivi o opportunistici che nulla hanno a che fare con la qualità della ricerca.

Se ad esempio considero validi per il mio esercizio solo le pubblicazioni con IF, costringerò i miei ricercatori a rivolgersi a riviste mainstream, trascurando magari altre riviste che pubblicano lavori di nicchia e che non arrivano a raccogliere un numero di citazioni sufficiente per poter avere il bollino di TR

Se ad esempio nell’area di storia ritengo validi solo gli articoli, magati su riviste straniere, i ricercatori cominceranno a disertare le sedi di pubblicazione nazionale per rivolgersi a linee di ricerca meno locali (e forse anche meno interessanti)

• I più grandi studiosi ed esperti di bibliometria e scientometria mettono in guardia dall’uso di indicatori quantitativi, soprattutto se applicati a dimensioni piccole

• In occasione della VQR ci sono stati atenei che hanno interrotto il flusso di dati dal catalogo interno a loginmiur per permettere ai singoli di modificare le proprie registrazioni. Ciò ha creato un danno enorme a livello di sistema, portando confusione in un database che era già problematico di suo