Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro...
-
Upload
alfonsina-giuseppe -
Category
Documents
-
view
220 -
download
5
Transcript of Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro...
![Page 1: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/1.jpg)
Corpus Stammerjohann
L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann
Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia”
![Page 2: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/2.jpg)
Corpus Stammerjohann
• N° Registrazioni: 30
• Durata Totale: circa 47 Ore
![Page 3: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/3.jpg)
L a to A L a to B
B ob ina 1
L a to A L a to B
B ob ina 2
C o rpu s S ta m m e rjoh a nn
TRACCIA 1•Scuola elementare Vitali / Perugi
•Artigiano Contini / Nencioni
•Conversazione in casa Vitali
•Conversazione Romoli
•Conversazione Braccini
TRACCIA 2•San Frediano (Bendinelli)
•Bidello Magistero (Braschi)
•Artigiano San Frediano (Braschi)
•Barbiere via Faenza
TRACCIA 1•Pinocchio (Pensione)
•Barbiere via Faenza
•Il grillo canterino
•Franco e Serena
TRACCIA 2•Lilian’ s
•Barbiere via Faenza
•Conversazione Garavini
TRACCIA 1•Conversazione in casa Vitali
•Barbiere via Faenza
TRACCIA 2•Scherzo via San Gallo
•Copie Rai (Il grillo canterino)
•Facoltà di Lettere (Braccini)
•Barbiere via Faenza
TRACCIA 1•Giardino d’ infanzia (Bendinelli)
•Amiche della Bendinelli
•Famiglia
•Studio Porcinai
•Il grillo canterino Rai
•Franco e Serena
•Giardino d’ infanzia San Frediano
TRACCIA 2•Barbiere via Faenza
![Page 4: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/4.jpg)
Durata Registrazioni (Totale: 2806 minuti)
1380
300
200
105 105 98 90 85 80 75 57 50 35 30 27 20 18 15 15 15 6
0
200
400
600
800
1000
1200
1400
Barbi
ere v
ia F
aenza
(6)
Casa
Vitali
(2)
Conv.
Gar
avin
i (1)
Franco
e Se
rena
(2)
Scuo
la V
itali/
Perugi
(1)
Il G
rillo
Can
terin
o (3
)
Sudi
o Por
cina
i (1)
Conv.
Bracc
ini (
1)
Gia
rdin
o S.
Fredi
ano
(1)
Famig
lia (1
)
Conv.
Romol
i (1)
Lilian
's (1
)Arti
gian
o (1
)
Gia
rdin
o d'
infa
nzia
(1)
Faleg
nam
e (1
)
S.Fre
dian
o Ben
dine
lli (1
)
Bidel
lo M
agist
ero
(1)
Pinoc
chio
(1)
Amic
he B
endi
nelli
(1)
Scer
zo S
.Gal
lo (1
)
Durata (min)
![Page 5: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/5.jpg)
Recupero del Corpus Stammerjohann
• Audio1. Digitalizzazione
2. Campionamento
• Testo1. Trascrizione in formato CHAT
2. Meta-dati
• Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica
![Page 6: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/6.jpg)
Campionamento del corpus Campionamento del corpus rispetto ai corpora di rispetto ai corpora di
riferimento riferimento LABLITA e C-ORAL-ROMLABLITA e C-ORAL-ROM
per la comparabilità dei dati linguistici
![Page 7: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/7.jpg)
CORPUSCORPUS ITALIANO ITALIANOC-ORAL-ROMC-ORAL-ROM
FORMAL156.544
INFORMAL155.048
(311.582 parole; 460 locutori)
10 testi di 4.500 parole70 testi di 1.500 parole
testi di 3.000 parole
![Page 8: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/8.jpg)
C-ORAL-ROM ITALIANO INFORMALE
DOMINIO SOCIOLOGICO D’USODOMINIO SOCIOLOGICO D’USO
STRUTTURA DELL’EVENTOCOMUNICATIVOSTRUTTURA DELL’EVENTOCOMUNICATIVO
Familiare e privatoFamiliare e privato 128.696
PubblicoPubblico26.352
MonologueMonologuess45.21245.212
dial&conversconvers83.46483.464
MonologuesMonologues6.0506.050
dial&conversdial&convers20.24120.241
![Page 9: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/9.jpg)
C-ORAL-ROM FORMAL
•Droit•Débat politique•Religion•Enseignement•Conférence•Explications professionnelles•Affaires(testi di 3.000 parole)
30.598 –dialogical structure
•News•Météo•Interviews•Reportages•Science•Talk show(testi di 3.000 parole)
•Dialogues•Man-machine interactions
NaturalNatural context68.324
MediaMedia61.638
TéléphoneTéléphone26.582
( campionamento per genere e dominio semantico)
Trasmissione non naturaleTrasmissione non naturale 88.220
![Page 10: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/10.jpg)
M onolo gues 0D ialogu es 9384 Conve rsation s 1478 5
FAM ILY
24.169
M onolo gues 0D ialogu es 188 0 Conv ersatio n 1125 4
PRIVATEFR E E
13.134
M onolo gues 0D ialogue s 0 Con versatio ns 2841 5
PUBLICFR E E
28.415
INFO RM AL
75.718
M ono logue s 456 5D ialogues 13.198 & Conve rsations 0
PRIVATE & PUBLICR E G U LA T ED
17.763
BRO ADCASTIN GR AD IO
9.329
FO RM AL
27.092TELEPHO NE
3.738
C orpus S tam m erjohann
CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le 1500 e le 4500 parole
•Il campionamento dialogico informale è fortemente comparabile•Il campionamento dialogico regolato/formale è comparabile, con cautela •Il parlato monologico non è comparabile •I media sono scarsamente comparabili
![Page 11: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/11.jpg)
Campionamento rispetto ai Campionamento rispetto ai corpora di riferimento corpora di riferimento
LABLITA e C-ORAL-ROMLABLITA e C-ORAL-ROM
Corpus Stammerjohann 1965 : 47 h registrazioni trascritte 8h 31’ 96548 parole in 34 testi
Corpus C-ORAL-ROM ’90 – 2003 : 36 h trascritte per 311.582 parole
![Page 12: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/12.jpg)
TESTOTESTO
Meta-datiMeta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )*
Linea del testoLinea del testo: trascrizione ortografica
Linea dipendenteLinea dipendente: informazione contestuale e paralinguistica
FormatFormat: CHAT (Codes Human Analysis of Transcripts) di B. McWhinney (1994) adattamento in
(Cresti – Moneglia, 1997)
* Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max Planck Institute.
Il metalinguaggio è sempre l’inglese
![Page 13: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/13.jpg)
Mata-datiMata-dati@Title: Palmira@File: @Participants:
@Date:@Place:@Situation:
@Topic:@Source:@Class:@Length:@Words:@Acoustic_quality:@Transcriber:@Revisor:@Comments:
ifamcv19PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence)
10/10/2001
shared-memories dialogue between relatives at home, not hidden, researcher participant
events in family lifeC-ORAL-ROM
informal, family/private, conversation9’ 25’’
1518A
Sabrina SignoriniPaola Gramigni; Antonietta Scarano
text collected by Carlota Nicolas
Florence
![Page 14: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/14.jpg)
Un esempio di testo trascritto
![Page 15: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/15.jpg)
Unità di riferimento annotate nella trascrizione
• Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce)
• Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000)
(identificabile con un break prosodico terminale)
• Unità d’informazione: qualsiasi espressione che svolge una funzione
informativa (Cresti, 2000). (identificabile con un break prosodico non terminale).
•Parte del discorso e lemma di ogni token (non realizzata)
![Page 16: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/16.jpg)
AnnotazioneAnnotazione
*PAL: guarda / ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna +
*CAR: mh //
*PAL: / l' <erano> //
*GIU: [<] <eh> / quelle erano belle //
*PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///] le novelle della nonna / dice // e &di [/] e dicano le son tanto belle //
%com: she' s laughing
Unità d’intonazione non terminaleUnità d’intonazione non terminale
Unità d’intonazioneUnità d’intonazione terminaleterminale
RetractingRetracting
InterrupzioneInterrupzione
SovrapposizioneSovrapposizione
FrammentoFrammento
LocutoreLocutore
Linea dipendenteLinea dipendente
![Page 17: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/17.jpg)
Allineamento testo suonoAllineamento testo suono
Unità di allineamento: L’enunciato
Il corpus come una Base di dati di enunciati
TOOL: WinPitch Corpus, di Ph. Martin
Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale
![Page 18: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/18.jpg)
Un esempio di audio e testo allineati
WinPitchCorpus (P. Martin)
![Page 19: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/19.jpg)
Un esempio di audio e testo allineati
WinPitch Corpus (P. Martin)
![Page 20: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/20.jpg)
MisureMisure
1 MLTw: Lunghezza media del Turno dialogico in parole
2 MLU: Lunghezza media dell’enunciato in parole
3 MLTone: Lunghezza media dell’unità tonale in parole
4 MLTu: Lunghezza media del turno dialogico in enunciati
5 MLUtone: Lunghezza media dell’enunciato in unità tonali
6 MLTtone: Lunghezza media del Turno dialogico in unità tonali
7 Speed w: Numero di parole al secondo
8 Speed u: numero di parole al minuto
9 FFE: Frequenza della frammentazione (sul totale degli enunciati)
10 FIE: Frequenza delle interruzioni (sul totale degli enunciati)
![Page 21: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/21.jpg)
•Lemmatizzazione e tagging morfosintattico
•Lessico di frequenza
•Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa)
•Studi diacronici: Modificazione del lessico di base toscano
Ricerche future sul Corpus Stammerjohann
![Page 22: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/22.jpg)
a) Pubblicazione on demand in DVD + Volume (Firenze University Press)
b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica)
Possibilità attuali per la pubblicazione dei risultati della ricerca Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in : FIRB in :
![Page 23: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/23.jpg)
Tabella corpus (Informale)
![Page 24: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/24.jpg)
Tabella corpus (Formale)
![Page 25: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.](https://reader036.fdocumenti.com/reader036/viewer/2022081516/5542eb6a497959361e8d6c78/html5/thumbnails/25.jpg)
Stammerjohann - C-ORAL-ROM: misure a confronto