Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.T.A.L.TL.T.A.C..A.C.22
Obiettivo del corso: sviluppare competenze di gestione di Taltac2 attraverso M.A.D.I.T.
•Trattamento automatico
•Lessicale
•Testuale
•Contenuto
•Corpus
Unità di testo = PAROLE
Unità di contesto = frammenti/documenti
Ricerca di parole chiave,misure di specificità
Struttura del testo, DNA del testo
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.T.A.LL.T.A.C..T.A.C.22
Analisi lessicale:
1. Misure lessico-metriche
2. Analisi dei segmenti ripetuti
3. Tagging (grammaticale e semantico)
4. Confronti lessicali
5. Analisi delle specificità
6. Linguaggio peculiare (parole rilevanti, TFIDF)
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
Analisi testuale:
1. Analisi delle concordanze
2. Estrazione informazioni con query
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
Quale tipologia di testo analizza lo strumento?
Risposte a DOMANDE APERTE/TESTI INTERI:
• Testi da blog
• Testi di focus group
• Articoli di giornale
• Opere di un autore
VARIABILI CATEGORIALI
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
Da cosa è composto IL CORPUS?
= INSIEME DI FRAMMENTI
Insieme di risposte a domanda aperta 1 frammento = 1 risposta
Intero libro/manuale
o
1 frammento = 1 capitolo
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
1 Corpus = più frammentisezione
sezione
sezione
Es. corpus = raccolta di articoli = abstract, testo articolo, titolo, rif. bibliografico
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
Come costruire il corpus affinché Taltac2 lo legga?
LE REGOLE DELLA SINTASSI
ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione)
****ARTICOLO1*TESTATA=repubblica*MESE=gennaio++++ occhielloSjdfsjfoijwfpw sjodjsaodjapid aidhosjdoiljdap osjdosdjopsa sojdojdo++++ titoloksjhlihdL AJHsaj AsjlkJSò ++++ testo
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
LE REGOLE DELLA SINTASSI
ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione)
****ARTICOLO1*TESTATA=repubblica*MESE=gennaio
*NOMEVAR=NOME MODALITA’ RIGHE DI IDENTIFICAZIONE FRAMMENTO
Indica che inizia una variabile
No segni di interpunzione né spazi
Qualsiasi carattere ma non *
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
1. Se un frammento non presenta 1 modalità?
*NOMEVAR=nullo
****ARTICOLO1*TESTATA=repubblica*MESE=nullo
2. Quante variabili sono ammesse? Al massimo 99
3. Lo strumento ammette che:
1 o più frammenti non contenga 1 o più sezioni
Tutti i frammenti non abbiano VAR associate
Tutti i frammenti non presentino sezioni
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
In quale formato redarre il corpus?
Scrivere il testo in Word, salvarne una versione = .doc
In quale formato salvare il corpus?
Salvare il testo in testo delimitato da tabulazione = .txt
Dove salvare i documenti?
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
In quali ambienti vengono salvati i file prodotti dallo strumento?
CARTELLA DI LAVORO = CARTELLA DI SESSIONE
file di testo .txtFile di risultato
Primo step: Inserimento corpus in Taltac e costruzione del vocabolario
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.L.T.A.L.TT.A.C..A.C.22
Prima esercitazione: costruzione del corpus oggetto dell’analisi
Obiettivo: costruire il file di testo rispetto alle seguenti indicazioni
Il file di testo è composto da: 3 FRAMMENTI DI 2 VARIABILI SUDDIVISI IN 2 SEZIONI
LA DOMANDA: Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui NON è stato pienamente soddisfatto?
Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui è stato pienamente soddisfatto?
I RISPONDENTI: PSICOLOGI NEO LAUREATIVARIABILI: data = mese di dicembre (I,II,III,IV settimana)
luogo = it. Centro, sud, nord, e estero SEZIONE: dom 1 e dom 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi carU N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A.T.A.L.TL.T.A..A.CC..22
LESSICO: il significato del termine è stabilito dai parlanti, è negoziato nell’interazione (il significato è quello del dizionario).
CONCETTO: si stabilisce che il significato del termine ha una modalità d’uso entro un particolare campo di applicazione in cui il termine vale per tutti allo stesso modo.COSTRUTTO: il significato del termine è stabilito all’interno di una determinata teoria in uno specifico testo.
Come usare lo strumento secondo riferimenti scientifici?
Lessico, testuale, del contenuto e del corpus
L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle occorrenze delle forme semplici che lo compongono” (Bolasco, 1999).
La formula per il calcolo dell’indice di Morrone è la seguente:
L fsegmIS = [ ∑ ---------- ] * P
i=1 ffgi
“per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente),
moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene presenti nel segmento. Tale indice è sempre positivo, si annulla quando il segmento è
composto solo da parole vuote, ed ha il suo massimo valore uguale a L2.” (Bolasco, 1999).
L’INDICE IS RELATIVO, ottenuto rapportando l’indice al suo massimo valore ottenuto, collocandosi su un continuum di valori che va da 0 a 1.
Laddove per “parole piene” si intende “parole chiave per l’analisi in corso”, mentre per “parole vuote” si intende “parole che non esprimono aspetti rilevanti rispetto all’analisi o parole strumentali alla
costruzione sintatticamente corretta delle proposizioni” (Tuzzi, 2003).[
Pretrattamento:
• normalizzazione
• eliminazione forme/taglio di soglia
• correzione errori ortografici e grammaticali
• disambiguazione: es famiglia, es. analisi dei segmenti, es. utilizzo delle maiuscole (attenzione conflitto con normalizzazione), analisi dei segmenti
• categorizzazione
Top Related