Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili...

17
AIP Seminario residenziale – Psicologia del discorso e analisi dei discorsi L’ANALISI AUTOMATIZZATA dei DATI TESTUALI: IL SOFTWARE ALCESTE Silvia Gattino e Stefano Tartaglia Dipartimento di Psicologia – Università degli Studi di Torino Vico Equense, 25-28 agosto 2012

Transcript of Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili...

Page 1: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

AIPSeminario residenziale – Psicologia del discorso e

analisi dei discorsi

L’ANALISI AUTOMATIZZATA dei DATI TESTUALI:

IL SOFTWARE ALCESTE

Silvia Gattino e Stefano TartagliaDipartimento di Psicologia – Università degli Studi di Torino

Vico Equense, 25-28 agosto 2012

Page 2: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

LE ANALISI LESSICALI AUTOMATIZZATE

Si basano sulla numerizzazione del testo

�trasformazione delle forme lessicali in numeri

Si attuano per mezzo di analisi quantitative basate

sul conto delle frequenze di parole � nelle analisi

testuali le frequenze vengono chiamate occorrenze

Significato delle parole non considerato in fase di

analisi

Page 3: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

LE ANALISI LESSICALI AUTOMATIZZATE

Risultati ottenuti richiedono interpretazione

Permettono una lettura molto superficiale di testi

molto lunghi

�hanno senso su testi molto grossi altrimenti meglio

analisi qualitative

Bolasco (1999): piccolo un testo di 15.000 parole

Page 4: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

4

DUE CATEGORIE di PROGRAMMI di ANALISI TESTUALI

1. Analisi dei dati qualitativi assistita dal computer: approccio semiautomatico (Atlas-T; N-

Vivo; Etnograph; NUD-IST)

2. Analisi statistica dei dati testuali: approccio di

tipo lessicometrico � confronto dei profili

lessicali. Basato sulla distribuzione delle occorrenze delle parole senza passare attraverso

la lettura diretta del testo. Analisi fondata sulle

parole, ossia sulla frammentazione del testonelle sue unità minime costitutive (Alceste,

Lexico, Taltac, Spad -T, T-Lab…)

Page 5: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

L’UNITÀ di ANALISI

Prima scelta problematica che si incontra nell’analisi

informatizzata dei testi

L’unità di analisi è la parola, ma cosa si intende per

parola?

�Una possibilità è considerare una parola ogni forma grafica differente

Page 6: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

L’UNITÀ di ANALISI

Però …

�Vi sono forme grafiche differenti che hanno lo

stesso significato (singolari e plurali, maschili e

femminili)

�Vi sono forme grafiche uguali che hanno

significati differenti.

Es.: Stato

Page 7: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

LA LEMMATIZZAZIONE

Per lemmatizzazione si intende: riconduzione di una

forma flessa alla sua forma canonica (vocabolario)

Molti programmi fanno una lemmatizzazione

automatica con risultati non sempre soddisfacenti

Alceste fa differenti gradi di lemmatizzazione dalla

semplice riduzione alla radice al tagging

grammaticale

Page 8: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

In qualsiasi lemmatizzazione automatica bisogna mettere in conto un certo numero di errori

���� Meglio effettuarne una parte a mano (Disambiguazione)

LA LEMMATIZZAZIONE

Page 9: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

CASI PARTICOLARI

Polirematiche: poliformi che acquistano un senso

diverso rispetto ai significati elementari delle parole

semplici che le compongono. Es.: capo dello stato, carta

di credito, fare l’indiano

Alcuni programmi (es.:Taltac) le riconoscono

automaticamente altri (es.:Alceste) creano elenchi di

segmenti ripetuti che possono servire ad individuare

alcune polirematiche presenti nei testi

Una volta individuate le polirematiche si possono legare

nel testo per considerarle un’unica unità di analisi

Page 10: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

CASI PARTICOLARI

Parole utensili: vi sono parole molto frequenti nei

testi ma che non ci aiutano a descrivere il significato

veicolato dal testo.

� Sono funzionali alla costruzione del discorso. Es.:

congiunzioni, verbi ausiliari …

Molti programmi (anche Alceste) ne riconoscono un

buon numero automaticamente

Page 11: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

UNITÀ di TESTO

La logica su cui si basano la maggior parte delle

analisi lessicali automatizzate è la ricerca di co-

occorrenza di parole (unità di analisi) all’interno

di testi.

�Se due parole compaiono spesso insieme vuol

dire che veicolano un significato comune

Cosa si intende per testo?

Page 12: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

UNITÀ di TESTO

Il testo è l’equivalente del caso in una normale

matrice dati. Le analisi vengono fatte su una matrice

Testi per Forme

Ad esempio un testo può essere:

� un periodo o una frase

� la risposta ad una domanda di un intervista

� le associazioni libere prodotte da un soggetto ad

una parola stimolo

Page 13: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

Testi brevi (associazioni libere, risposte a singole

domande concise): ogni testo è un caso

Testi lunghi: i programmi li tagliano in modo

automatizzato in frammenti più brevi

� Utilizzando dei separatori ( , . ; : …)

� In modo automatico ogni tot parole

La logica è che i frammenti non devono essere

troppo lunghi perché interessa rilevare quali parole

sono spesso vicine nel testo presupponendo che se

sono vicine sia per dei motivi ben precisi

Page 14: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

Quando i testi vengono frammentati le righe della

matrice di lavoro non corrispondono per forza a casi

differenti (soggetti, articoli, documenti …)

Nella terminologia di Alceste si distingue tra:

� Unità di Contesto Iniziali (UCI): testi interi

� Unità di Contesto Elementari (UCE): frammenti

Page 15: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

ANALISI dei DATI

Due principali strategie svolte sulla matrice

Frammenti di testo per Forme

1. Classificazione gerarchica

�Si riuniscono in classi i frammenti con il

testo più simile (ovvero con molte co-

occorrenze di parole)

2. Analisi delle Corrispondenze Lessicali

�Si estraggono Componenti latenti per

spiegare graficamente le relazioni tra parole

Page 16: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

ANALISI dei DATI

Alceste opera una classificazione gerarchica discendente dei frammenti (UCE)

Vi è anche la possibilità di una Analisi delle corrispondenze successiva prodotta sulla base della

matrice parole per classi utilizzando le classi create

in precedenza

Page 17: Gattino Tartaglia 25agosto2012 a - aipass.org · stesso significato (singolari e plurali, maschili e femminili) Vi sono forme grafiche uguali che hanno significati ... CASI PARTICOLARI

Non sempre analisi fatte seguendo strategie differenti

portano a risultati interpretabili in modo simile

Tartaglia, S., Gonella, R., & Rollero, C. (2006)

Analisi di un corpus di titoli di giornale: un confronto tra strategie

JADT 2006: 8es Journées Internationales d’Analyse

statistique des Données Textuelles. Besançon Cedex: Presses

Universitaires de Franche-Comté. pp. 889-901

http://lexicometrica.univ-paris3.fr/jadt/jadt2006/PDF/II-079.pdf