Introduzione alla Statistica Algebrica (versione preliminare)chiantini/did/00libro.pdf ·...
Transcript of Introduzione alla Statistica Algebrica (versione preliminare)chiantini/did/00libro.pdf ·...
Introduzione alla Statistica Algebrica
(versione preliminare)
Cristiano Bocci, Luca Chiantini
Indice
1 Sistemi aleatori e distribuzioni 1
1.1 Sistemi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Misurazione di una distribuzione . . . . . . . . . . . . . . . . . . . . . 11
2 Algebra tensoriale 15
2.1 Tensori e rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Tensori decomponibili . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Tensori simmetrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4 Elementi di un tensore . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Statistica Algebrica elementare 39
3.1 Probabilita elementare . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Connessioni di indipendenza e marginalizzazione . . . . . . . . . . . . 42
3.3 Booleanizzazione e connettori logici . . . . . . . . . . . . . . . . . . . 49
3.4 Dipoli aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4 Modelli statistici 71
4.1 Modelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Modelli di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Connessioni e modelli parametrici . . . . . . . . . . . . . . . . . . . . 76
4.4 Modelli torici e matrici esponenziali . . . . . . . . . . . . . . . . . . . 82
5 Statistica Algebrica Proiettiva Complessa 87
5.1 Motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Spazi proiettivi, coni e varieta proiettive . . . . . . . . . . . . . . . . 89
i
5.3 Prodotti di spazi proiettivi . . . . . . . . . . . . . . . . . . . . . . . . 97
5.4 Modelli algebrici proiettivi . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5 Mappe proiettive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.6 Il Lemma di Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.7 Teoria della dimensione . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6 Indipendenza condizionata 123
6.1 Modelli di indipendenza condizionata . . . . . . . . . . . . . . . . . . 127
6.2 Catene e alberi di Markov . . . . . . . . . . . . . . . . . . . . . . . . 133
6.3 Variabili nascoste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.4 Modelli simmetrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7 Basi di Groebner e Teoria dell’Eliminazione 149
7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.2 Ordinamenti monomiali . . . . . . . . . . . . . . . . . . . . . . . . . 152
7.3 Un algoritmo di divisione in k[x1, . . . , xn] . . . . . . . . . . . . . . . . 157
7.4 Ideali Monomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7.5 Basi di Groebner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
7.6 Algoritmo di Buchberger . . . . . . . . . . . . . . . . . . . . . . . . . 170
7.7 Teoria dell’eliminazione . . . . . . . . . . . . . . . . . . . . . . . . . . 173
7.8 La geometria dell’eliminazione . . . . . . . . . . . . . . . . . . . . . . 175
7.9 Implicizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.10 Applicazioni delle basi di Groebner e della teoria dell’eliminazione . . 179
7.10.1 Problema di appartenenza all’ideale . . . . . . . . . . . . . . . 179
7.10.2 Risolvere equazioni polinomiali . . . . . . . . . . . . . . . . . 180
7.10.3 Problema di implicizzazione . . . . . . . . . . . . . . . . . . . 181
7.11 Polinomi omogenei e funzione di Hilbert . . . . . . . . . . . . . . . . 183
A Nozioni di combinatorica 185
Bibliografia 189
ii
Capitolo 1
Sistemi aleatori e distribuzioni
1.1 Sistemi aleatori
Questa sezione contiene le definizioni fondamentali con le quali costruiremo la nostra
teoria statistica.
E’ bene avvertire subito che nel settore della Statistica Algebrica, sviluppatosi
assai di recente, le definizioni di base non sono ancora standardizzate.
Pertanto le definizioni che seguono, utilizzate nel presente testo, possono differire
di molto (piu nella forma, in realta, che nella sostanza) da quelle di altri testi.
Definizione 1.1.1. Chiameremo variabile aleatoria un oggetto x dotato di un in-
sieme finito, non vuoto di simboli A(x), detto alfabeto di x o anche insieme degli
stati di x. Ogni elemento di A(x) e pertanto uno stato della variabile x.
Chiameremo sistema aleatorio X ogni insieme finito di variabili aleatorie.
La condizione di finitezza, richiesta sia nell’alfabeto di una variabile aleatoria che
nel numero di variabili di un sistema, e tipica della Statistica Algebrica. In altre
situazioni statistiche, questa ipotesi viene a mancare.
Definizione 1.1.2. Chiameremo sottosistema di un sistema aleatorio X ogni siste-
ma definito da un sottoinsieme X ′ ⊂ X.
Esempio 1.1.3. Gli esempi piu semplici di sistema aleatorio sono quelli in cui S
contiene una sola variabile aleatoria.
Una situazione concreta si ottiene prendendo come unico elemento di S, cioe
come unica variabile aleatoria, un dado x, il cui alfabeto e costituito da A(x) =
{1, 2, 3, 4, 5, 6}.
1
2 Cristiano Bocci, Luca Chiantini
Un’altra situazione concreta ben nota e quella in cui l’unico elemento di S e una
moneta m, che ha come alfabeto la coppia A(x) = {T,C} (testa o croce).
Esempio 1.1.4. Una schedina puo essere rappresentata dal sistema aleatorio X che
contiene 14 variabili aleatorie, le quattordici partite, ciascuna avente come alfabeto
l’insieme {1, 2, X}.
Esempio 1.1.5. Possiamo naturalmente costruire un esempio di sistema aleatorio
X che contiene come variabili due dadi {x1, x2}, entrambi aventi come alfabeto
A(xi) = {1, 2, 3, 4, 5, 6}.Una situazione di sistema aleatorio connesso, ma diverso, si ottiene prendendo
come sistema Y l’insieme formato come unico elemento dalla coppia di dadi x =
(x1, x2) e, come alfabeto A(x), dai valori combinati ottenuti gettando i due dadi:
{(1, 1), (1, 2), . . . , (6, 6)}.Un esempio ancora diverso si ottiene prendendo come sistema Z quello definito
da un’unica variabile z che ha per alfabeto la somma dei valori ottenuti dal lancio
dei due dadi {2, 3, 4, . . . , 12}.I sistemi aleatori Y, Z possono sembrare a prima vista equivalenti. Va invece
subito messo ben in chiaro che si tratta di sistemi ben distinti. A parte il fatto che
per prendere la coppia e necessario scegliere un ordinamento dei due dadi, il secondo
sistema non prefigura nessun tipo di relazione fra il lancio dei due dadi, mentre il
primo puo prevedere relazioni di qualunque tipo.
Esempio 1.1.6. Vi sono esempi di sistemi aleatori che contengono molte variabili.
Anzi, spesso gli esempi piu significativi per le applicazioni in economia o in biologia
hanno numeri di variabili veramente astronomici!
Ad esempio, in economia e nella valutazione di un mercato, si esaminano sistemi
in cui si costruisce una variabile aleatoria per ogni operatore economico. E’ facile
capire che le variabili in gioco possono facilmente arrivare ad essere migliaia, se non
addirittura milioni.
In biologia, e molto importante lo studio dei sistemi in cui le variabili aleatorie
rappresentano posizioni nella catena del DNA (centinaia o anche migliaia di posizio-
ni) e quindi l’alfabeto di ciascuna variabile aleatoria consiste nelle quattro basi del
DNA (Adenina, Guanina, Citosina e Timina, che abbrevieremo con {A,C,G, T}).Nel seguito, ci riferiremo a questo ultimo tipo di sistemi, chiamandoli sistemi DNA.
CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 3
Esempio 1.1.7. Per motivi di cultura locale, faremo talvolta riferimento a sistemi
che descrivono situazioni probabilistiche riferite alle operazioni connesse con il Palio
di Siena.
In tali sistemi, le variabili hanno spesso come alfabeto l’insieme delle contrade (o
un suo sottoinsieme), che riportiamo qui per referenza:
Aquila (useremo talvolta il simbolo: A)
Bruco (simbolo: B)
Chiocciola (simbolo: H)
Civetta (simbolo: C)
Drago (simbolo: D)
Giraffa (simbolo: G)
Istrice (simbolo: I)
Leocorno (simbolo: E)
Lupa (simbolo: L)
Nicchio (simbolo: N)
Oca (simbolo: O)
Onda (simbolo: Q)
Pantera (simbolo: P)
Selva (simbolo: S)
Tartuca (simbolo: R)
Torre (simbolo: T)
Valdimontone (simbolo: M).
Definizione 1.1.8. Una variabile aleatoria x di un sistema aleatorio X si dice
booleana se il suo alfabeto ha cardinalita 2. Diremo che un sistema e booleano se
ogni sua variabile aleatoria lo e.
Gli stati delle variabili aleatorie booleane possono essere sempre pensati come la
coppia di condizioni (vero, falso). In effetti l’alfabeto tipico di una variabile aleatoria
booleana e Z2, con 1 = vero e 0 = falso (per convenzione; attenzione che in qualche
testo tale convenzione e rovesciata!).
Altri alfabeti come testa-croce, oppure pari-dispari, saranno usati spesso per le
variabili aleatorie booleane, piu che altro per motivi mnemonici.
4 Cristiano Bocci, Luca Chiantini
Definizione 1.1.9. Chiameremo mappa o morfismo fra i sistemi aleatori X e Y
una coppia f = (F,G) dove F e una funzione F : X → Y e per ogni x ∈ X, G
definisce una funzione tra alfabeti G(x) : A(x)→ A(F (x)).
Tutta la terminologia usata per le funzioni si trasferisce alle mappe di sistemi
aleatori. Quindi si parlera di mappe iniettive, suriettive, isomorfismi ecc. Rispetto
a questa definizione, i sistemi aleatori formano una categoria.
Esempio 1.1.10.
1) Se X ′ e un sottosistema di X, la funzione di inclusione X ′ → X definisce in modo
ovvio una mappa iniettiva di sistemi aleatori. In questo caso, le mappe tra relativi
alfabeti sono sempre rappresentate dalle identita.
2) Consideriamo il sistema aleatorioX, definito da un dado x di alfabeto {1, 2, 3, 4, 5, 6}),come nell’esempio 1.1.3. Sia Y il sistema definito da Y = {y}, con A(y) = {P,D}(P=pari, D=dispari). E’ chiaro che le funzioni F : X → Y , F (x) = y e G : A(x)→A(y) tale che G(1) = G(3) = G(5) = D, G(2) = G(4) = G(6) = P , definiscono una
mappa di sistemi aleatori.
La definizione seguente sara di importanza notevole per lo studio delle relazioni
fra variabili aleatorie.
Definizione 1.1.11. Chiameremo correlazione (totale) di un sistema aleatorio S =
{x1, . . . , xn} il sistema aleatorio ΠS = {x} dove x rappresenta il prodotto cartesiano
degli elementi x1, . . . , xn di S, e il cui alfabeto e dato dal prodotto cartesiano degli
alfabeti A(x1)× · · · × A(xn).
Lasciamo al lettore le facili modifiche da apportare alla precedente definizione,
per ottenere le correlazioni parziali di un sistema aleatorio.
Da notare, ed e un fatto importante, che la definizione di prodotto cartesiano
richiede di fissare preventivamente un ordinamento delle variabili di S. Pertanto,
a rigore, la correlazione totale di un sistema non e univocamente determinata, ma
cambia al variare dell’ordinamento scelto.
Esempio 1.1.12. Consideriamo un sistema S in cui le variabili aleatorie sono tre
monete m1,m2,m3, tutte con alfabeto {T,C} (vedi esempio1.1.3).
CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 5
Una correlazione totale e data dal sistema ΠS che ha per unica variabile il prodottom = m1 ×m2 ×m3 e come suo alfabeto:
{(T, T, T ), (T, T, C), (T,C, T ), (T,C,C), (C, T, T ), (C, T,C), (C,C, T ), (C,C,C)}.
Un esempio di correlazione parziale e data dal sistema Y che ha per variabili aleatorie
m1×m2 em3 e alfabetiA(m3) = {T,C}, A(m1×m2) = {(T, T ), (T,C), (C, T ), (C,C)}.
Osservazione 1.1.13. Si noti bene che se S e un sistema con due monete m1,m2,
nella sua correlazione totale l’unico elemento, che rappresenta insieme le due monete
non ha per alfabeto un insieme con tre elementi {TT, TC,CC}, bensı un insieme
con quattro elementi {(T, T ), (T,C), (C, T ), (C,C)}.Infatti la scelta e l’importanza dell’ordinamento ci porta a dover distinguere il
caso (T,C) (prima moneta = testa, seconda moneta = croce) dal caso (C, T ) (prima
moneta = croce, seconda moneta = testa).
E’ chiaro che se S e un sistema che contiene una sola variabile aleatoria, allora S
coincide con la sua correlazione totale.
Definizione 1.1.14. Sia f : S → T una mappa di sistemi aleatori, definita da
F : X → Y e da G(x) : A(x) → A(F (x)) per ogni variabile x di S. Supponiamo
F biiettiva. Allora f definisce in modo naturale una mappa Πf : ΠS → ΠT fra le
correlazioni totali.
Basta porre, per ogni stato s = (s1, . . . , sn) dell’unica variabile di ΠS, Πf(s) =
(G(x1)(s1), . . . , G(xn)(sn)).
1.2 Distribuzioni
La definizione di distribuzione e il punto fondamentale nello studio statistico dei
sistemi aleatori. Si tratta in effetti del concetto che permette di riprodurre l’idea di
esperimento sulle variabili aleatorie, per la descrizione dei fenomeni reali
Definizione 1.2.1. Chiameremo K-distribuzione su un sistema aleatorio S formato
dalle variabili x1, . . . , xn, un insieme di funzioni D = (D1, . . . , Dn), dove ciascun Di
e una funzione dall’alfabeto A(xi) in K.
6 Cristiano Bocci, Luca Chiantini
Negli esempi concreti, K sara sempre un insieme numerico, generalmente uno fra
N,Z,Q,R o anche C, il campo dei numeri complessi.
Il significato delle distribuzioni e quello di associare ad ogni stato di una variabile
xi del sistema S, il numero di volte (o la percentuale di volte) che tale stato e stato
verificato in una serie di esperimenti.
Esempio 1.2.2. Sia S il sistema aleatorio che ha per unica variabile una moneta
m, di alfabeto A(m) = {T,C} (che puo essere truccata!).
Se tiriamo in aria un certo numero di volte la moneta, ottenendo dT volte T esta e
dC volte Croce, abbiamo la N-distribuzione D che, per l’unica variabile del sistema,
e definita dalla funzione Dm : {T,C} → N, Dm(T ) = dT , Dm(C) = dC .
E’ chiaro che tale distribuzione puo essere identificata con l’elemento (dT , dC) di N2.
Posto d = dT+dC(> 0), dall’esperimento precedente si ottiene anche laQ-distribuzione
D′ che associa a T il numero dT/d e a C il numero dC/d (la probabilita di uscita di
T o C, desunta dall’esperimento).
Esempio 1.2.3. Consideriamo ora il il sistema aleatorio S formato da due monete
m1,m2, ciascuna sempre di A(mi) = {T,C}.Se tiriamo in aria un certo numero di volte le monete, ottenendo per la prima d1 volte
T e e1 volte C, e per la seconda d2 volte T e e2 volte C, otteniamo la N-distribuzione
D = (D1, D2) definita dalle funzioni
D1 : {T,C} → N, D1(T ) = d1, D1(C) = e1,
D2 : {T,C} → N, D2(T ) = d2, D1(C) = e2
E’ chiaro che tale distribuzione puo essere identificata con l’elemento ((d1, e1), (d2, e2))
di N2 × N2.
Si noti che la correlazione ΠS del sistema ha un’unica variabile m = m1 ×m2 con
alfabeto A(m) = {TT, TC,CT,CC}.Una N-distribuzione su ΠS e data da un’unica funzione che associa ad ognuno dei
quattro stati, il numero di volte che viene registrato.
Perche l’esperimento fornisca una distribuzione su ΠS, occorre che le monete ven-
gano lanciate in coppia e occorre registrare, per ogni coppia di lanci, il risultato
congiunto delle due monete (nell’ordine).
CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 7
Esempio 1.2.4. In modo analogo, consideriamo il sistema S di tipo DNA ottenu-
to considerando come variabili aleatorie 100 posizioni p1, . . . , p100 nel DNA di un
organismo (ciascuna con alfabeto {A,C,G, T}). Stavolta lo spazio delle distribu-
zioni e D(S) = R4 × · · · × R4 = R400. Esaminando 1000 soggetti, otteniamo una
Z-distribuzione D su S che per ogni variabile pi, associa ai simboli A,C,G, T il
numero di occorrenze della corrispondente base nella posizione i-esima, registrata
negli esperimenti.
Definizione 1.2.5. L’insieme delle K-distribuzioni di un sistema aleatorio S forma
lo spazio delle distribuzioni DK(S).
Osservazione 1.2.6. Sia S un sistema aleatorio in cui vi sono n variabili x1, . . . , xn.
Indichiamo con ai il numero di elementi dell’alfabeto A(xi), cioe il numero di stati
che la variabile xi puo assumere.
Le K-distribuzioni su S possono essere identificate con punti dello spazio
Ka1 × · · · ×Kan .
Quindi identificheremo spesso DK(S) con tale spazio. E’ chiaro che DK(S) coincide
anche con Ka1+···+an , ma per motivi facilmente intuibili, conviene distinguere i valori
della distribuzione relativi a variabili diverse.
Osservazione 1.2.7. A modifica di quanto appena detto nella osservazione prece-
dente, se S e un sistema aleatorio in cui vi sono 2 variabili x1, x2, con alfabeti aventi
rispettivamente a1 e a2 elementi, allora l’unica variabile aleatoria della correlazione
totale ΠS ha a1a2 stati. Quindi lo spazio delle K-distribuzioni su ΠS dovrebbe
essere identificato con Ka1a2 .
Sara invece conveniente, per ricordare che l’unica variabile di ΠS nasce come pro-
dotto cartesiano delle due variabili di S, pensare a DK(ΠS) come lo spazio Ka1,a2
delle matrici a1 × a2 a coefficienti in K.
Cosı, per una distribuzione D su ΠS, indicheremo con Dij il valore associato allo
stato (i, j) dell’unica variabile, corrispondente agli stati i di x1 e j di x2.
Per sistemi con un numero maggiore di variabili, faremo ricorso alle matrici
multidimensionali, che verranno chiamate tensori.
Per ogni intero positivo i, indichiamo qui con Ji, l’insieme {1, . . . , i}.
8 Cristiano Bocci, Luca Chiantini
Definizione 1.2.8. Chiameremo tensore su K, di dimensione n e tipo d1×· · ·× dnogni funzione T : Jd1 × · · · × Jdn → K, dove, per ogni intero positivo i, indichiamo
con Ji, l’insieme {1, . . . , i}.
In pratica, un tensore di dimensione n e tipo (d1×· · ·×dn) consiste in un insieme
di elementi di K, indicizzati da n-uple i1 . . . in con 1 ≤ ij ≤ dj.
Osservazione 1.2.9. I vettori di Kn possono essere pensati come tensori di dimen-
sione 1 e tipo n, o anche come tensori di dimensione 2 e tipo 1× n, eccetera.
Le matrici n × m sono tensori di dimensione 2 e tipo n × m (o anche tensori di
dimensione 3 e tipo 1× n×m, ecc.).
Quando K e un campo numerico, l’insieme di tutti i tensori di dimensione n e tipo
(d1, . . . , dn), rispetto alle operazioni definite multiindice per multiindice, forma uno
spazio vettoriale di dimensione d1 · · · dn, isomorfo cioe a Kd1···dn . Indicheremo tale
spazio con Kd1,...,dn .
I numeri di K verranno pensati come tensori di dimensione 0.
Esempio 1.2.10. Un esempio di tensore su R di dimensione 3 e tipo 2× 2× 2 puo
essere rappresentato nella figura seguente:
2 − − 1� | � |
−1 − + 0 || 3 + − 4| � | �4 − − 7
Non e facile ovviamente dare una rappresentazione grafica simile per tensori di
dimensione superiore.
Osservazione 1.2.11. Se X e un sistema aleatorio con variabili x1, . . . , xn, con
alfabeti aventi rispettivamente a1, . . . , an elementi, allora l’unica variabile aleatoria
della correlazione totale ΠX ha a1a2 · · · an stati.
Sara conveniente d’ora in poi pensare a DK(ΠS) come lo spazio Ka1,a...,an dei tensori
di tipo a1 × · · · × an a coefficienti in K.
Cosı, per una distribuzione D su ΠS, indicheremo con Di1...in il valore associato allo
stato dell’unica variabile, corrispondente agli stati i1 di x1, . . . , in di xn.
CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 9
Lo studio dei tensori e quindi strettamente collegato allo studio di sistemi aleatori
nei quali vogliamo mettere in relazione le variabili fra loro.
Va subito precisato che i tensori, benche siano una generalizzazione delle matrici,
hanno proprieta in generale estremamente diverse e spesso ancora inesplorate.
In effetti, l’Algebra (e la Geometria) degli spazi di tensori rappresenta il punto
di contatto principale fra lo studio della statistica su insiemi discreti e altre disci-
pline, quali la Geometria Algebrica, la cui esplorazione costituisce l’elemento piu
significativo di questo testo.
Definizione 1.2.12. Prendiamo due sistemi aleatori S e T e una mappa f = (F,G) :
S → T .
Supponiamo che f induca una suriezione S → T . Allora, data una distribuzione D
su S, si ottiene una distribuzione indotta fD∗ su T (detta distribuzione immagine)
ponendo, per ogni stato t di una variabile y di T :
fD∗ (t) =∑
x∈F−1(y),s∈G(x)−1(t)
Dx(t)
.
In generale, data una distribuzione D su T , si ottiene una distribuzione indotta f ∗Dsu S (detta distribuzione controimmagine) ponendo, per ogni stato s di una variabile
x di S:
f ∗D(s) = DF (x)(G(x)(s)).
Ribadiamo che le distribuzioni su sistemi aleatori devono, da un punto di vista
matematico, essere considerate come un dato del problema, da cui e possibile ricavare
altre distribuzioni derivate o inferire leggi fisiche, biologiche, economiche, calcistiche
o quant’altro. Cio e illustrato, sperimentalmente, dall’esempio seguente.
Esempio 1.2.13. Dal 1945, fine della seconda guerra mondiale, ad oggi (2009) si
corrono regolarmente a Siena due Palii all’anno. In piu sono stati corsi altri 12 Palii
straordinari. Per un totale di 142 Palii.
Costruiamo un sistema aleatorio in cui vi sono 17 variabili aleatorie booleane, una
per ciascuna contrada. Per ciascuna prendiamo l’alfabeto {0, 1}. Lo spazio delle
distribuzioni di tale sistema e R2 × · · · × R2 = R34.
10 Cristiano Bocci, Luca Chiantini
Definiamo una distribuzione (a campionatura costante uguale a 142) ponendo per
ogni contrada x, Dx(1) = numero di Palii corsi e Dx(0) = numero di Palii non corsi.
I dati sono riassunti nella seguente tabella:
x nome Dx(1) Dx(0)
A Aquila 82 60B Bruco 84 58H Chiocciola 78 64C Civetta 85 57D Drago 88 54G Giraffa 82 60I Istrice 79 63E Leocorno 93 49L Lupa 84 58N Nicchio 78 64O Oca 83 59Q Onda 77 65P Pantera 90 52S Selva 82 60R Tartuca 85 57T Torre 86 56M V aldimontone 84 58
Ne segue che la contrada che ha corso piu Palii e il Leocorno, mentre quella che ne
ha corsi di meno e l’Onda.
Sullo stesso sistema si puo porre una nuova distribuzione E, ponendo Ex(1) =
CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 11
numero di Palii vinti, Ex(0) = numero di Palii non vinti. la nuova tabella e:
x nome Ex(0) Ex(1)
A Aquila 8 134B Bruco 5 137H Chiocciola 9 133C Civetta 7 135D Drago 10 132G Giraffa 11 131I Istrice 8 134E Leocorno 9 133L Lupa 5 137N Nicchio 9 133O Oca 12 130Q Onda 7 135P Pantera 8 134S Selva 14 128R Tartuca 9 133T Torre 3 139M V aldimontone 8 134
Si direbbe ad occhio, pertanto, che non necessariamente chi corre piu Palii raccoglie
piu vittorie.
1.3 Misurazione di una distribuzione
Introduciamo due concetti (la campionatura e la scalatura) sulle distribuzioni di un
sistema aleatorio.
Definizione 1.3.1. Quando K e un insieme numerico, data una K-distribuzione
D = (D1, . . . , Dn) su S = {x1, . . . , xn}, chiameremo campionatura della variabile xi
in D il numero
cD(xi) =∑
s∈A(xi)
Di(s).
Diremo che D ha campionatura costante se tutte le variabili di S hanno la stessa
campionatura in D.
Una K-distribuzione D su S e detta probabilistica se ogni xi ∈ S ha campionatura
uguale a 1.
12 Cristiano Bocci, Luca Chiantini
Osservazione 1.3.2. Sia S = {x1, . . . , xn} un sistema aleatorio sul quale e definita
la K-distribuzione D = (D1, . . . , Dn), con K campo numerico.
Se ogni variabile xi ha campionatura cD(xi) 6= 0, possiamo ottenere da D una
distribuzione probabilistica associata D = (D1, . . . Dn) ponendo, per ogni i e per
ogni stato s ∈ A(xi):
Di(s) =Di(s)
cD(xi).
Nel sistema formato da una sola moneta dell’esempio 1.2.2, la distribuzione D′ e
proprio la distribuzione probabilistica associata a D (vista come Q-distribuzione).
Nel seguito, per semplificare il linguaggio, quando l’insieme K di codominio delle
distribuzioni e sottinteso, o quando e totalmente ininfluente, faremo a meno di citarlo
e parleremo direttamente di distribuzione su un sistema aleatorio S.
Se non diversamente specificato, d’ora in poi faremo sempre conto di usare, come
insieme K, un campo numerico.
Richiamiamo ancora al lettore il fatto che la notazione di base della Statistica
Algebrica e ben lungi dall’essere standard.
Anche il modo di indicare le distribuzioni e purtroppo non univoco. Se sij e il j-
esimo stato dell’i-esima variabile xi del sistema S, data una distribuzione D, noi
indicheremo con Di(sij) il valore di D su tale stato.
In qualche testo, Di(sij) viene anche indicato con Dxi=sij , inteso come il numero di
volte che la variabile xi e stata trovata nello stato sij.
Esempio 1.3.3. Consideriamo un torneo di tennis ad eliminazione diretta, giocato
da 8 tennisti. Ad esso possiamo associare un sistema aleatorio con 8 variabili boo-
leane, rappresentanti i giocatori. Indichiamo con D la distribuzione che, per ogni
giocatore xi, e definita da:
Di(0) = numero di partite vinte;
Di(1) = numero di partite perse.
E’ chiaro che la campionatura c(xi) di ogni giocatore xi indica il numero di partite
giocate. Ad esempio c(xi) = 3 se xi e stato finalista, mentre c(xi) = 1 per i quattro
giocatori subito eliminati. Quindi non si tratta di una distribuzione a campionatura
costante.
CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 13
Questa distribuzione non ha variabili con campionatura nulla. Esiste pertanto
la distribuzione probabilistica associata D, che rappresenta la statistica di vitto-
rie/sconfitte. Ad esempio, per il vincitore xk, si ottiene
Dk(0) = 1, Dk(1) = 0.
Invece, per un giocatore xj eliminato in semifinale,
Dj(0) = Dj(1) =1
2.
Il concetto di distribuzione probabilistica associata ad una distribuzione D e molto
importante in testi analitici sulla Teoria della Probabilita, al punto che qualche testo
direttamente lavora solo su distribuzioni probabilistiche.
Non e questa la strada che abbiamo scelto, nella nostra presentazione della
Statistica Algebrica.
Piu che al concetto di distribuzione probabilistica associata, noi faremo uso del
concetto di scalatura, piu utile per collegare gli spazi di distribuzioni con spazi
standard della Geometria Algebrica.
Definizione 1.3.4. Sia D = (D1, . . . , Dn) una K-distribuzione su un sistema alea-
torio S = {x1, . . . , xn}, con K campo numerico. Diremo che una distribuzione
D′ = (D′1, . . . , D′n) e una scalatura di D se per ogni xi ∈ X esiste una costante
λi ∈ K − {0} tale che, per ogni stato s ∈ A(xi), D′i(s) = λiDi(s).
E’ chiaro che la distribuzione probabilistica associata a una distribuzione D
rappresenta un esempio di scalatura di D.
Si noti inoltre che se D′ e una scalatura di D e D,D′ hanno la stessa campionatura,
allora devono coincidere.
Nel seguito, vedremo che l’operazione di scalatura non cambia in modo sostanziale
una distribuzione sul nostro sistema aleatorio. Tenderemo quindi, con un procedi-
mento di proiettivizzazione, a considerare sostanzialmente uguali due distribuzioni
che differiscono per una scalatura.
Proposizione 1.3.5. Sia f : S → T una mappa di sistemi aleatori, indotta da una
biiezione sugli insiemi delle variabili. Sia D una distribuzione su S e sia D′ una
sua scalatura. Allora fD′∗ e una scalatura di fD∗ .
14 Cristiano Bocci, Luca Chiantini
Dimostrazione. Per ogni stato t di una variabile y ∈ T , detta x la corrispondente
variabile di S, si ha:
fD′
∗ (t) =∑
s∈A(x),s 7→t
D′(s) =∑
s∈A(x),s 7→t
c(x)D(s) = c(x)fD∗ (t).
Capitolo 2
Algebra tensoriale
Inseriamo qui un capitolo in cui raccogliamo il materiale sugli spazi di tensori, che
sara fondamentale per il nostro studio di Statistica Algebrica.
Tale capitolo va considerato alla stregua di un deposito di risultati algebrici, cui
faremo riferimento in tutti i capitoli successivi del testo.
Avvertiamo il lettore che noi considereremo i tensori come insiemi strutturati
di numeri, mentre in molti libri (di argomenti diversi) i tensori sono definiti come
mappe multilineari.
La nostra scelta, coerente con quanto di solito viene fatto nei testi di Statistica
Algebrica, e chiaramente equivalente all’altra una volta che siano state fissate basi
per gli spazi vettoriali coinvolti.
La scelta di basi (canoniche) e sostanzialmente sempre dettata, negli spazi di
distribuzioni, dalla definizione stessa dei sistemi aleatori ai quali essi si riferiscono.
2.1 Tensori e rango
Richiamiamo brevemente la definizione di tensore, introdotta nel capitolo prece-
dente. Si vedano a tale proposito la Definizione 1.2.8 e seguenti.
Per ogni intero positivo i, indichiamo con Ji, l’insieme {1, . . . , i}.
15
16 Cristiano Bocci, Luca Chiantini
Definizione 2.1.1. Chiameremo tensore su K, di dimensione n e tipo d1×· · ·× dnogni funzione T : Jd1 × · · · × Jdn → K, dove, per ogni intero positivo i, indichiamo
con Ji, l’insieme {1, . . . , i}.
In pratica, un tensore di dimensione n e tipo (d1×· · ·×dn) consiste in un insieme
di elementi di K, indicizzati da n-uple i1 . . . in con 1 ≤ ij ≤ dj.
Osservazione 2.1.2. I vettori di Kn possono essere pensati come tensori di dimen-
sione 1 e tipo n, o anche come tensori di dimensione 2 e tipo 1× n, eccetera.
Le matrici n × m sono tensori di dimensione 2 e tipo n × m (o anche tensori di
dimensione 3 e tipo 1× n×m, ecc.).
Quando K e un campo numerico, l’insieme di tutti i tensori di dimensione n e tipo
(d1, . . . , dn), rispetto alle operazioni definite multiindice per multiindice, forma uno
spazio vettoriale di dimensione d1 · · · dn, isomorfo cioe a Kd1···dn . Indicheremo tale
spazio con Kd1,...,dn .
I numeri di K verranno pensati come tensori di dimensione 0.
Esempio 2.1.3. Un esempio di tensore su R di dimensione 3 e tipo 2× 2× 2 puo
essere rappresentato nella figura seguente:
2 − − 1� | � |
−1 − + 0 || 3 + − 4| � | �4 − − 7
Non e facile ovviamente dare una rappresentazione grafica simile per tensori di
dimensione superiore.
Definizione 2.1.4. Dato un tensore T di tipo a1, . . . , an, si chiama sottotensore
il tensore che si ottiene fissando il valore di alcuni indici di T e facendo variare
liberamente gli altri in un range prefissato.
Quando si fissano tutti gli indici di T tranne due, il sottotensore che si ottiene e una
sottomatrice di T .
Osservazione 2.1.5. Dato un tensore T di tipo a1, . . . , an, esso e associato ad una
funzione multilineare
T : Ka1 × · · · ×Kan → K
CAPITOLO 2. ALGEBRA TENSORIALE 17
definita da
T (v1, . . . , vn) =∑
Ti1...inv1i1 · · · vnin .
Viceversa, data una mappa multilineare T come sopra, si puo ad essa associare
un tensore T definito ponendo
Ti1...in = T (e1i1 , . . . , enin),
dove ei1, . . . , eiai sono gli elementi della base canonica di Kai .
Questa associazione definisce una corrispondenza biunivoca fra tensori di tipo
a1, . . . , an e mappe multilineari Ka1 × · · · ×Kan → K. Una simile corrispondenza
biunivoca si ottiene sostituendo le basi canoniche degli spazi Kai con alter basi
qualsiasi.
Si noti che in alcuni testi (di Geometria Differenziale o di Fisica Matematica) si
sceglie di definire i tensori come mappe multilineari, riservando ai nostri tensori il
termine di matrici multivariate.
Possiamo generalizzare ai tensori di dimensione qualsiasi alcuni dei concetti prin-
cipali introdotti nell’Algebra Lineare delle matrici.Iniziamo con la generalizzazione
In particolare, estendiamo a tutti i tensori il concetto di rango. Il procedimento parte
dalla caratterizzazione del rango di una matrice, in termini del prodotto tensoriale.
Vale la pena di osservare subito che il concetto di rango di un tensore ha in ge-
nerale un comportamento assolutamente diverso, molto piu complesso, dell’analogo
concetto dell’algebra matriciale.
Proposizione 2.1.6. Sia M = (mij) una matrice s×n a coefficienti in un campo K,
non nulla. Allora M ha rango 1 se e solo se esistono vettori v = (v1, . . . , vm) ∈ Km,
w = (w1, . . . , ws) ∈ Kn tali che, per ogni i, j;
mij = viwj.
Dimostrazione. Se v, w esistono, sia i un indice per cui la riga i-esima di M e non
nulla. Allora vi 6= 0 e per ipotesi, ogni altra riga k-esima e uguale a vk/vi volte la
riga i-esima, per cui M ha rango 1.
Viceversa, sia M di rango 1 e sia mij 6= 0. Allora ogni riga k-esima deve essere
uguale a mkj/mij volte la riga i-esima, da cui, posto
v = (m1j
mij
, . . . ,msj
mij
) w = (mi1, . . . ,min)
18 Cristiano Bocci, Luca Chiantini
la formula segue facilmente.
La Proposizione precedente suggerisce la definizione del prodotto tensoriale.
Definizione 2.1.7. Dati due vettori v = (a1, . . . , am) ∈ Km e w = (b1, . . . , bn) ∈Kn, si chiama prodotto tensoriale v ⊗ w la matrice Z = (zij) ∈ Km,n definita da
zij = viwj.
Ricordando che i vettori vengono solitamente identificati con colonne, cioe con ma-
trici di tipo n × 1, si puo definire il prodotto tensoriale facendo uso del prodotto
righe per colonne:
v ⊗ w = v · wt
Il prodotto tensoriale definisce quindi una mappa:
⊗ : Km ×Kn → Km,n
e vedremo che tale mappa non e iniettiva, ne suriettiva.
Il prodotto tensoriale e un’applicazione bilineare da Km ×Kn = Kn+m a Km,n,
cioe soddisfa:
(v + v′)⊗ w = v ⊗ w + v′ ⊗ w
v ⊗ (w + w′) = v ⊗ w + v ⊗ w′
(av)⊗ w = a(v ⊗ w) = v ⊗ (aw)
per ogni v, v′ ∈ Km, w,w′ ∈ Kn e a ∈ K.
Osservazione 2.1.8. Dalla Proposizione 2.1.6 discende che v ⊗ w e sempre una
matrice nulla o di rango 1, viceversa ogni matrice Z ∈ Km,n di rango 1 puo essere
espressa come prodotto tensoriale di vettori v ∈ Km, w ∈ Kn.
Esempio 2.1.9. Il prodotto righe per colonne corrisponde ad un prodotto tensoriale
seguito da una applicazione lineare.
Infatti, se T ∈ Rn,m e U ∈ Rm,s sono due matrici, il loro prodotto tensoriale e il
tensore Q e tipo (n,m,m, s) di dimensione 4 dato da Q(i, j, k, l) = T (i, j)U(k, l). Il
prodotto righe per colonne si ottiene mandando Q nella matrice Z ∈ Rn,s tale che:
Z(i, l) =∑j
Q(i, j, j, l).
CAPITOLO 2. ALGEBRA TENSORIALE 19
Proposizione 2.1.10.
1) (Annullamento del prodotto) v ⊗ w = 0 se e solo se v = 0 oppure w = 0.
2) Se v⊗w = v′⊗w′ 6= 0, allora esiste uno scalare a 6= 0 tale che v′ = av, w′ = 1aw.
Dimostrazione. Se v = 0 o w = 0, allora tutti i coefficienti della matrice v ⊗ w
sono nulli. Viceversa se v = (a1, . . . , am) 6= 0, allora esiste un indice per cui ai 6= 0;
analogamente se w = (b1, . . . , bn) 6= 0, esiste un indice per cui bj 6= 0. Ma allora
nella matrice prodotto, si ha zij = aibj 6= 0. Questo prova 1).
Supponiamo v⊗w = v′⊗w′ = Z = (zij) 6= 0, con v = (a1, . . . , an), v′ = (a′1, . . . , a′n).
Si osservi che, per 1), w 6= 0. Fissiamo un indice i per cui la riga i-esima non
e nulla. Tale riga e uguale sia a aiw che a a′iw′, per cui ai, a
′i 6= 0. Posto a =
a′i/ai, sia ha w′ = 1aw. Per ogni altro indice j, la riga j-esima di Z e uguale sia
a ajw che a a′jw′. Allora ajw = (a′j/a)w da cui, essendo w 6= 0, aj = (a′j)/a. Ne
segue v′ = (a′1, . . . , a′n) = (aa1, . . . , aan) = av. Viceversa e immediato verificare che
av ⊗ (1/a)w = v ⊗ w per ogni a 6= 0.
Proposizione 2.1.11. Se v = (v1, . . . , vm) e w = (w1, . . . , wn) allora la matrice
v ⊗ w = (aij) soddisfa:∑i,j
aij = (v1 + · · ·+ vm)(w1 + · · ·+ wn).
Dimostrazione. Si ha:∑i,j
aij =∑i,j
viwj =∑i
vi(w1 + · · ·+ wn) = (∑i
vi)(w1 + · · ·+ wn).
Osservazione 2.1.12. Si osservi che se Z = (zij) e una matrice di rango 1 di numeri
reali, tale che ogni suo coefficiente e strettamente positivo, allora si puo assumere
Z = (a1, . . . , am)⊗ (b1, . . . , bn) con ai, bj > 0 per ogni i, j.
Infatti 0 < z11 = a1b1 implica che a1 e b1 sono entrambi non nulli, dello stesso
segno. Per la Proposizione 2.1.10, si puo assumere che a1, b1 siano entrambi positivi,
cambiando eventualmente v, w con −v,−w, visto che (−v)⊗ (−w) = v⊗w. Allora
se ai ≤ 0, avremmo zi1 = aib1 ≤ 0, contro l’ipotesi. Analogamente si prova che
bj > 0 per ogni j.
20 Cristiano Bocci, Luca Chiantini
Possiamo ora generalizzare il prodotto tensoriale a spazi di tensori qualsiasi.
Definizione 2.1.13. Siano T ∈ Kd1,...,dn , U ∈ Ke1,...,em tensori. Chiameremo
prodotto tensoriale T ⊗ U il tensore W ∈ Kd1,...,dn,e1,...,em tale che:
W (a1, . . . , an, b1, . . . , bm) = T (a1, . . . , an) · U(e1, . . . , em)
Osservazione 2.1.14. E’ evidente che il prodotto tensoriale e una applicazione
bilineare sugli spazi di tensori.
E’ inoltre facile (!) verificare che il prodotto tensoriale e associativo.
Si noti bene che, quando T, U sono matrici, il prodotto tensoriale non coincide con il
loro prodotto righe per colonne: moltiplicando tensorialmente due matrici si ottiene
infatti un tensore di dimensione 4.
In effetti, il prodotto tensoriale, a parte casi banali, non e un’operazione interna
a nessuno spazio di tensori. Esso pero definisce un’operazione interna all’algebra
tensoriale multi-graduata ⊗K, i cui pezzi omogenei sono gli spazi di tensori Rd1,...,dn .
Si noti bene infine che il prodotto tensoriale non e commutativo: scambiando l’ordine
dei fattori, si possono ottenere tensori diversi, anche dimensionalmente.
In modo analogo a quanto fatto nella Proposizione 2.1.10, si puo provare la legge
di annullamento del prodotto.
Proposizione 2.1.15. T ⊗ U = 0 se e solo se T = 0 oppure U = 0.
Osservazione 2.1.16. La Proposizione 2.1.6 puo essere riscritta dicendo che una
matrice M di tipo s × n a coefficienti in un campo K, non nulla, ha rango 1 se e
solo se esistono vettori v ∈ Km, w ∈ Kn tali che M = v ⊗ w.
Possiamo ora ampliare a tutti i tensori il concetto di rango.
Definizione 2.1.17. Diremo che ogni tensore nullo ha rango 0.
Diremo che un tensore non nullo T ∈ Kd1,...,dn e di rango 1 oppure semplice, o
anche decomponibile quando esistono vettori vi ∈ Kdi tali che T = v1 ⊗ · · · ⊗ vn
(l’associativita del prodotto tensoriale rende inutile specificare l’ordine con il quale
eseguiamo i prodotti).
Chiameremo rango di un tensore T il minimo k per cui esistono tensori semplici
T1, . . . , Tk, tali che T = T1 + · · · + Tk. In questo caso diremo che T1, . . . , Tk danno
una decomposizione del tensore T .
CAPITOLO 2. ALGEBRA TENSORIALE 21
E’ chiaro che i tensori nulli sono gli unici di rango 0.
Verifichiamo che, nel caso di matrici, la definizione di rango data sopra coincide con
la solita definizione dell’Algebra Lineare, dove il rango e la dimensione dello spazio
delle righe.
La Proposizione 2.1.6 ci assicura che le matrici semplici sono esattamente quelle che
hanno spazio delle righe di dimensione 1.
Proposizione 2.1.18. Una matrice M ha spazio delle righe R di dimensione minore
o uguale a k se e solo se esistono k matrici di rango 1, M1, . . . ,Mk tali che M =
M1 + · · ·+Mk.
Dimostrazione. Se M = M1 + · · ·+Mk, con ciascun Mi di rango 1, siano v1, . . . , vk
vettori tali che per ogni i vi genera lo spazio delle righe di Mi. Allora lo spazio delle
righe di M e contenuto nello spazio generato da v1, . . . , vk.
Viceversa, se rango M ≤ k, siano v1, . . . , vk vettori che generano lo spazio delle righe
di M . Allora, per ogni riga Ri di M , si ha Ri =∑aijvj. Sia per ogni j Mj = la
matrice che ha per righe aijvj. Le matrici M1, . . . ,Mk o sono nulle o hanno tutte
rango 1 e la loro somma e M .
Il concetto di rango permette in effetti una stratificazione dello spazio dei tensori
in base alla loro complessita. I tensori di rango 1 sono davvero semplici anche
nelle loro applicazioni statistiche, e la complessita intuitiva di un tensore cresce in
generale con l’aumentare del rango.
Proposizione 2.1.19. Il rango di un sottotensore di T non puo superare il rango
di T .
Dimostrazione. La cosa e ovvia se T e il tensore nullo. Suppponiamo allora T 6= 0.
Se T ha rango 1, allora esistono vettori vi ∈ Kdi tali che T = v1⊗· · ·⊗vn. Eliminare
da T gli elementi aventi un primo indice uguale a q equivale, per definizione di
prodotto tensoriale, ad eliminare nel corrispondente vettore v1 l’elemento q-esimo.
Il tensore ottenuto T ′ e ancora di rango 1, visto che si decompone nel prodotto
v′1⊗ v2⊗ · · · ⊗ vn, dove v′1 e uguale al vettore v1, tolto l’elemento q-esimo. Poiche lo
stesso discorso vale eliminando gli elementi con qualsiasi altro indice fissato, segue
che ogni sottotensore di T e di rango 1, a meno che non sia nullo. Questo prova
l’affermazione per i tensori di rango 1.
22 Cristiano Bocci, Luca Chiantini
Per i tensori di rango maggiore, la proposizione segue dall’osservazione che se T =
T1 + · · · + Tk, con Ti di rango 1, allora ogni sottotensore T ′ di T e ancora uguale
a T ′1 + · · · + T ′k, dove T ′i si ottiene da Ti eliminando tutti gli elementi con indici
eliminati nel passaggio da T a T ′. Ogni T ′i e quindi nullo, o di rango 1.
Osservazione 2.1.20. Se T e un tensore di rango r, allora per ogni scalare a ∈ R,
a 6= 0, anche aT ha rango r.
L’insieme di tensori di rango fissato (unito allo 0) rappresenta pertanto un cono,
all’interno dello spazio vettoriale Rd1,...,dn .
Si noti pero che, come gia avviene per le matrici, la somma di tensori non rispetta
il rango, quindi l’insieme dei tensori di rango fissato non e un sottospazio.
Terminiamo questo paragrafo introducendo una notazione.
Definizione 2.1.21. Le funzioni (multilineari)
Ka1 × · · · ×Kan → Ka1...an
definite mandando (v1, . . . , vn) in v1⊗ · · · ⊗ vn prendono il nome di mappe di Segre.
Le mappe di Segre prendono il nome del matematico italiano Corrado Segre
(1863–1924). Il loro corrispettivo geometrico rappresenta una fondamentale relazio-
ne fra spazi proiettivi.
2.2 Tensori decomponibili
Vediamo di caratterizzare, in questa sezione, i tensori di rango 1, cioe quelli semplici
o decomponibili.
Proposizione 2.2.1. Se un tensore ha rango 1, allora tutte le sue sottomatrici 2×2
hanno determinante nullo.
Dimostrazione. E’ in pratica solo una questione di notazione. Se T = v1 ⊗ · · · ⊗ vn,
con vi = (vi1, vi2, . . . ), allora per ogni scelta di una coppia di indici α, β si ha:
ti1,...,α=a,...,β=b,...,inti1,...,α=c,...,β=d,...,in =
= (v1i1 · · · vαa · · · vβb · · · vnin)(v1i1 · · · vαc · · · vβd · · · vnin)
CAPITOLO 2. ALGEBRA TENSORIALE 23
mentre:
ti1,...,α=a,...,β=d,...,inti1,...,α=c,...,iβ=b,...,in =
= (v1i1 · · · vαa · · · vβd · · · vnin)(v1i1 · · · vαc · · · vβb · · · vnin)
quindi:
ti1,...,α=a,...,β=b,...,inti1,...,α=c,...,β=d,...,in =
= ti1,...,α=a,...,β=d,...,inti1,...,α=c,...,β=b,...,in .
Esempio 2.2.2. La proposizione precedente non puo purtroppo essere invertita, nel
senso che esistono tensori di rango maggiore di uno, in cui tutte le sottomatrici 2×2
hanno determinante nullo.
Si consideri infatti il tensore 2× 2× 2 T , definito da
T1,1,1 = 1 T1,1,2 = 0 T1,2,1 = 0 T1,2,2 = 0T2,1,1 = 0 T2,1,2 = 0 T2,2,1 = 0 T2,2,2 = 1.
T =
0 − − 1� | � |
0 − + 0 || 0 + − 0| � | �1 − − 0
E’ ovvio che tutte le sottomatrici 2×2 hanno determinante nullo. Tuttavia T non puo
avere rango 1. Se infatti T = (a1, a2) ⊗ (b1, b2) ⊗ (c1, c2), allora T1,1,1 = a1b1c1 6= 0
implica che a1, b1, c1 6= 0. Ma allora T1,1,2 = T1,2,1 = T2,1,1 = 0 implicano che
a2 = b2 = c2 = 0. Poiche T2,2,2 = a2b2c2 6= 0, si ha una contraddizione.
Per poter determinare un insieme di equazioni in grado di descrivere il sottoinsie-
me dei tensori semplici, bisogna estendere il numero di coppie di elementi del tensore
di cui va provata la proporzionalita. A tal fine e necessario estendere la notazione.
Ricordiamo che abbiamo indicato con Jn, l’insieme {1, . . . , n}. Sia J ⊂ Ji. Fissati
due elementi ta = ta1,...,an e tb = tb1,...,bn , indichiamo con t(ta, tb, J) l’elemento ti1,...,in
dove ij = aj se j ∈ J , ij = bj altrimenti.
24 Cristiano Bocci, Luca Chiantini
Osservazione 2.2.3. Se un tensore T e semplice, allora per ogni coppia di elementi
ta = ta1,...,an e tb = tb1,...,bn di T e per ogni J ⊂ Jn, si ha
tatb = t(ta, tb, J)t(ta, tb, J′) (2.2.1)
dove J ′ = Jn \ J .
Infatti se T = v1 ⊗ · · · ⊗ vn, con vi = (vi1, vi2, . . . ), allora entrambi i prodotti in
(2.2.1) sono uguali a
v1a1v1b1 · · · vnanvnbn .
Quando ta, tb differiscono solo per due indici, cioe appartengono ad una sottoma-
trice 2 × 2 di T , allora l’uguaglianza 2.2.1 esprime semplicemente il fatto che tale
sottomatrice ha determinante nullo.
Nell’esempio precedente, si noti che prendendo ta = t111 e tb = t222 e J = {1}, si
ottiene t(ta, tb, J) = t122 e t(ta, tb, J′) = t211 e la formula (2.2.1) non vale in quanto
tatb = 1 6= 0 = t(ta, tb, J)t(ta, tb, J′).
Teorema 2.2.4. Un tensore T non nullo e semplice se e solo se soddisfa tutte le
uguaglianze (2.2.1), per ogni scelta di ta, tb, J .
Dimostrazione. Per l’osservazione precedente, dobbiamo solo provare che se tutte
le uguaglianze (2.2.1) sono verificate, allora il tensore e semplice. Lavoriamo per
induzione sulla dimensione del tensore.
Quando il tensore ha dimensione 2, cioe e una matrice, allora l’enunciato e ben noto:
il rango e 1 se tutti i sottodeterminanti 2× 2 si annullano.
In generale, prendiamo un elemento ta = ta1,...,an 6= 0 in T . Sappiamo per induzione
che, fissato il primo indice uguale a a1, esistono vettori v2, . . . vn tali che per ogni
scelta di i2, . . . , in
ta1,i2,...,in = v2i2 · · · vnin .
Definiamo per ogni m ∈ Jn il fattore di proporzionalita
pm =tm,a2,...,anta1,a2,...,an
e definiamo il vettore v1 = (p1, . . . , pm).
CAPITOLO 2. ALGEBRA TENSORIALE 25
Allora si ha T = v1 ⊗ v2 ⊗ · · · ⊗ vn. Infatti per ogni tb = tb1,...,bn , posto J = {1}, si
ottiene dalle uguaglianze (2.2.1)
tatb = ta1,b2,...,bntb1,a2,...,an = ta1,b2,...,bn · pb1ta1,a2,...,an
da cui
v2a2 · · · vnantb = v2b2 · · · vnbn · v1b1v2a2 · · · vnan
e pertanto, essendo ta 6= 0 quindi v2a2 , . . . , vnan 6= 0,
tb = v2b2 · · · vnbn · v1b1 .
Le equazioni corrispondenti alle uguaglianze (2.2.1) descrivono un insieme di
equazioni per il sottoinsieme dei tensori decomponibili. Tale insieme di eqeuazioni,
in generale, non e tuttavia minimale.
La proposizione precedente ci fornisce un metodo algoritmico per verificare se
un tensore ha rango 1. Si noti tuttavia che, per tensori di dimensione elevata, le
verifiche da fare possono essere in numero notevole!
Le analogie fra rango di tensori e rango di matrici finiscono qui. Non e noto un
metodo simile a quello di Gauss-Jordan, per calcolare il rango di un tensore. Non e
noto (in generale) un analogo del determinante che ci possa permettere di studiare
il rango di un tensore.
Inoltre, il rango massimo che un tensore di tipo (d1, . . . , dn) puo avere non e neces-
sariamente il rango del generico tensore di quel tipo.
Le principali questioni sul rango dei tensori sono ancora un importante argomento
di ricerca per l’algebra multilineare.
Esempio 2.2.5. Il seguente tensore di dimensione 3 e tipo 2× 2× 2 ha rango 2:
7 − − 4� | � |
5 − + 4 || 5 + − −1| � | �1 − − 0
26 Cristiano Bocci, Luca Chiantini
Infatti esso non ha rango 1, perche alcune sue sottomatrici 2×2 hanno determinante
non nullo. Il rango e 2, infatti esso e somma dei due tensori
1 − − 1� | � |
3 − + 3 || 2 + − 2| � | �1 − − 1
+
6 − − 3� | � |
2 − + 1 || 3 + − −3| � | �1 − − −1
che hanno entrambi rango 1.
Si osservi che NON e nota una caratterizzazione simile per gli insiemi di tensori
di rango superiore.
Solo in casi particolari di spazi di tensori di dimensione e rango piccoli, conosciamo
un insieme completo di equazioni che li descrivono.
Per maggiori informazioni rimandiamo al testo di Landsberg [Landsberg].
2.3 Tensori simmetrici
Cosı come avviene per le matrici, anche per i tensori si possono definire il concetto
di oggetto simmetrico o alternante.
Definizione 2.3.1. Diremo che un tensore di tipo (d1, . . . , dn) e cubico se d1 = d2 =
· · · = dn.
Diremo che un tensore cubico T e simmetrico se per ogni scelta degli indici i1, . . . , in
e per ogni loro permutazione σ, si ha:
T (σ(i1), . . . , σ(in)) = T (i1, . . . , in).
Diremo che T e alternante se:
T (σ(i1), . . . , σ(in)) = (−1)σT (i1, . . . , in)
dove (−1)σ indica il segno della permutazione.
Osservazione 2.3.2. E’ immediato verificare che i tensori di tipo fissati simmetrici
o alternanti formano un sottospazio dello spazio dei tensori.
D’altra parte, il prodotto tensoriale di tensori simmetrici o alternanti non e affatto
detto che sia ancora simmetrico o alternante.
CAPITOLO 2. ALGEBRA TENSORIALE 27
Esempio 2.3.3. Ogni n-upla di indici i1, . . . , in puo essere permutata in modi unico
ad una n-upla non decrescente, cioe tale che ij ≤ ij+1 per ogni j.
Questa osservazione ci permette di costruire una base per il sottospazio dei tensori
simmetrici. Infatti per ogni scelta di una n-upla ordinata di indici i1, . . . , in che
soddisfa ij ≤ ij+1 per ogni j, si definisce il tensore simmetrico e(ii, . . . , in) come
segue:
e(i1, . . . , in)j1,...,jn =
{1 se (j1, . . . , jn) e permutazione di (i1, . . . , in);
0 altrimenti.
E’ facile verificare che i tensori e(ii, . . . , in) formano una base (che chiameremo base
canonica) del sottospazio dei tensori simmetrici.
Di seguito riportiamo i 4 elementi della base canonica dei tensori simmetrici 2×2×2.
e(1, 1, 1) =
0 − − 0� | � |
0 − + 0 || 0 + − 0| � | �1 − − 0
e(1, 1, 2) =
0 − − 0� | � |
1 − + 0 || 1 + − 0| � | �0 − − 1
e(1, 2, 2) =
1 − − 0� | � |
0 − + 1 || 0 + − 1| � | �0 − − 0
e(2, 2, 2) =
0 − − 1� | � |
0 − + 0 || 0 + − 0| � | �0 − − 0
Esempio 2.3.4. Se T e un tensore alternante e (i1, . . . , in) e una n-upla di indici in
cui un indice e ripetuto, scambiando fra loro i due indici uguali, si ottiene
Ti1,...,in = −Ti1,...,in
quindi Ti1,...,in = 0.
ertanto nei tensori alternanti tutti i coefficienti in cui un indice e ripetuto sono nulli.
Cio prova che non esistono tensori alternanti 2× 2× 2, tranne il tensore nullo. Piu
in generale l’unico tensore alternante d × · · · × d, n volte, con d < n, e il tensore
nullo.Questo fatto ci mostra che, a differenza di quanto avviene per le matrici, uno
spazio di tensori cubici, in generale, non e somma diretta del sottospazio dei tensori
simmetrici e del sottospazio dei tensori alternanti.
28 Cristiano Bocci, Luca Chiantini
Esempio 2.3.5. Per costruire una base dello spazio dei tensori alternanti d×· · ·×d,
n volte, con d ≥ n, si considerino le n-uple di indici i1, . . . , inordinate in modo
crescente, cioe tali che ij < ij+1 per ogni j. Per ciascuna di tali n-uple, costruiamo
il tensore ε(i1, . . . , in) tale che
ε(i1, . . . , in)j1,...,jn =
{(−1)σ se j1, . . . , jn = σ(i1, . . . , in), σ = permutazione;
0 altrimenti.
E’ facile verificare che gli elementi ε(i1, . . . , in) formano una base (canonica) dello
spazio dei tensori alternanti.
Osservazione 2.3.6. Se T e un tensore simmetrico, non e detto che i sottotensori
di T siano simmetrici.
Esiste una stretta relazione fra lo spazio dei tensori simmetrici e gli spazi di
polinomi omogenei di grado fissato.
Definizione 2.3.7. Definiamo una mappa P che va dallo spazio di tensori Kd,...,d
di dimensione n allo spazio dei polinomi omogenei di grado n, a coefficienti in K,
nelle incognite x1, . . . , xd.
La mappa e definita ponendo per ogni tensore T
P (T ) =∑i1,...,in
Ti1,...,inxi1 · · ·xin .
Ad esempio, in tale mappa il tensore e(1, 1, 2) definito sopra ha per immagine il
polinomio di grado 3 in due incognite 3x21x2.
La funzione P non e certamente iniettiva, in quanto ad esempio le due matrici(1 20 2
) (1 11 2
)hanno la stessa immagine in P .
Vale comunque la seguente
Proposizione 2.3.8. La mappa P , ristretta al sottospazio dei tensori simmetrici,
e biiettiva e determina un isomorfismo fra lo spazio dei tensori simmetrici di tipo
d× · · · × d, n volte, e lo spazio dei polinomi omogenei di grado n in d incognite.
CAPITOLO 2. ALGEBRA TENSORIALE 29
Dimostrazione. Basta costruire la relazione inversa. Per questo, se (i1, . . . , in) e
una n-upla di indici ordinata in modo non decrescente, con 1 ≤ ij ≤ d per ogni j,
indichiamo con ν(i1, . . . , in) il numero di permutazioni di (i1, . . . , in) che sono diverse
fra loro. Indichiamo anche con si1,...,in(j), j = 1, . . . , d, il numero di volte in cui j
compare nella n-upla. Per ogni polinomio omogeneo di grado n
p(x1, . . . , xd) =∑
j1+···+jd=n
aj1...jdxj11 · · ·x
jdd
poniamo P−1(p) = tensore T tale che
Ti1,...,in =1
ν(i1, . . . , in)asi1,...,in (1),...,si1,...,in (d).
E’ un conto diretto la verifica che P−1 e l’inversa di P . Basta infatti osservare che i
numeri si1,...,in(j) non cambiano in una permutazione di (i1, . . . , in).
Il fatto che P ( e quindi anche P−1) sono applicazioni lineari discende subito dalla
definizione di somma di tensori e somma di polinomi.
Esempio 2.3.9. La mappa P permette quindi di identificare polinomi omogenei
con tensori simmetrici.
Ad esempio, il polinomio di terzo grado in due variebili x31 + 3x2
1x2− 2x32 e associato
al tensore0 − − −2
� | � |1 − + 0 || 1 + − 0| � | �1 − − 1
La definizione di rango, che descrive la complessita di un tensore, puo dunque
essere adattata allo studio dei polinomi.
Da questo punto di vista (che tuttavia non e l’unico possibile!) i polinomi semplici
sono quelli che hanno rango 1 come tensori. Per studiare quali polinomi godono di
questa proprieta, facciamo la seguente osservazione.
Proposizione 2.3.10. Dati dei vettori v1, . . . , vn ∈ Kd, tutti non nulli, il loro
prodotto tensoriale e simmetrico se e solo se tutti i vi sono multipli di uno stesso
vettore v.
30 Cristiano Bocci, Luca Chiantini
Dimostrazione. Sia T = v1⊗· · ·⊗vn con vi = (vi1, . . . , vid) per ogni i. Poiche v1 6= 0,
esiste una componente v1j 6= 0. Possiamo supporre v11 6= 0 (un ragionamento simile
funziona anche negli altri casi). Si ha allora che v21 6= 0. Infatti altrimenti, preso
un indice j per cui v2j 6= 0, per ogni scelta di i3, . . . , in sarebbe
v11v2jv3i3 · · · vnin = T1ji3...in = Tj1i3...in = v1jv21v3i3 · · · vnin = 0.
Siccome esistono indici i3, . . . , in per cui v3i3 , . . . , vnin sono tutti non nulli, otterrem-
mo l’assurdo v11v2j = 0.
Facciamo ora induzione su n ≥ 2.
Sia n = 2. Posto a = v21/v11, vogliamo provare che v1 = av2. Poiche la matrice
T = v1 ⊗ v2 e simmetrica, deve essere Tij = v1iv2j = vijv2i = Tji per ogni scelta di
i, j, quindi v2j = v1jv21/v11 e l’asserto e dimostrato.
Sia n > 2. Il tensore T ′ = v2 ⊗ · · · ⊗ vn deve essere simmetrico. Infatti T1i2...in =
v11T′i2...in
quindi, essendo v11 6= 0, se esistesse una permutazione (j2, . . . , jn) di
(i2, . . . , in) con T ′j2...jn 6= T ′i2...in avremmo anche T1j2...jn 6= T1i2...in , contro la sim-
metria di T . Allora per induzione sappiamo che esiste un vettore v = (b1, . . . , bn)
tale che v2 = a2v, . . . , vn = anv (ovviamente quindi a2, . . . , an 6= 0). Poniamo
u = b1/v11. Scelti come sopra indici i3, . . . , in per cui v3i3 , . . . , vnin sono tutti non
nulli, si ha per ogni j
v11(a2bj)v3i3 · · · vnin = T1ji3...in = Tj1i3...in = v1j(a2b1)v3i3 · · · vnin
da cui v11bj = v1jb1, quindi bj = uv1j. Cio prova che v = uv1, da cui segue
l’asserto.
Su un campo algebricamente chiuso vale il seguente corollario.
Corollario 2.3.11. Su un campo K algebricamente chiuso, un tensore simmetrico
T ha rango 1 se e solo se e della forma T = v ⊗ · · · ⊗ v, per qualche vettore v 6= 0.
Dimostrazione. Per la proposizione precedente, sappiamo che se T simmetrico ha
rango 1, allora e del tipo T = v1⊗· · ·⊗ vn ed esiste un vettore non nullo w e numeri
a1, . . . , an ∈ K tali che vi = aiv per ogni i. Posto allora ε = radice n-esima del
prodotto a1 · · · an e posto v = εw, si ha T = v ⊗ · · · ⊗ v. Il viceversa e banale.
Vediamo le conseguenze sui polinomi.
CAPITOLO 2. ALGEBRA TENSORIALE 31
Osservazione 2.3.12. Sia v = (a1, . . . , ad) un vettore di Kd e sia T il tensore
T = v ⊗ · · · ⊗ v (n volte). Allora P (T ) ∈ K[x1, . . . , xd] e uguale al polinomio
(a1x1 + · · ·+ adxd)n.
Dimostrazione. Evidente dal fatto che il coefficiente di xj11 · · · xjdd in (a1x1 + · · · +
adxd)n e proprio zaj11 · · · a
jdd , dove z e il numero di permutazioni distinte della n-upla
(1, . . . , 1, 2 . . . , 2, . . . , d, . . . , d) dove ciascun i e ripetuto ji volte (si veda la formula
A.0.2 dell’Appendice).
Proposizione 2.3.13. I polinomi che hanno rango 1 come tensori sono le potenze
di forme lineari.
Per descrivere i tensori di rango 1 abbiamo fatto ricorso alla mappa di Segre (si
veda la Definizione 2.1.21).
In modo analogo, per descrivere i tensori simmetrici facciamo ricorso alle mappe di
Veronese, che prendono il nome dal matematico italiano Giuseppe Veronese (1854-
1917).
Definizione 2.3.14. Per ogni n, d indichiamo con M1, . . . ,MN i monomi monici
distinti di grado n in d incognite.
Per ogni scelta di coefficienti z1, . . . , zN ∈ K \ {0}, chiameremo mappa di Veronese
la funzione ν : Kd → KN che manda (a1, . . . , ad) nella N -upla
(z1M1(a1, . . . , an), . . . , zNMN(a1, . . . , an)).
Per la formula A.0.3 dell’Appendice, si ha
N = N(n, d) =
(n+ d
d
)=
(n+ d
n
).
Le mappe di Veronese piu utilizzate sono quella in cui tutti i coefficienti sono
uguali a 1 e quella in cui ogni coefficiente zi e uguale al numero di permutazioni
distinte della n-upla (1, . . . , 1, 2 . . . , 2, . . . , d, . . . , d) associata al monomio Mi.
Se identifichiamo KN con lo spazio dei polinomi omogenei di grado n in d variabili,
prendendo come base quella formata dai monomi monici, allora l’immagine di que-
st’ultima mappa di Veronese coincide con il sottoinsieme dei polinomi di rango 1
(piu il polinomio nullo).
32 Cristiano Bocci, Luca Chiantini
Osservazione 2.3.15. Se identifichiamo Kn come spazio dei tensori simmetrici di
tipo d × · · · × d (n volte), allora questi e un sottospazio di Kd,...,d. Sia D ⊂ Kd,...,d
l’insieme dei tensori di rango ≤ 1, che e l’immagine della mappa di Segre, allora
D ∩KN e proprio l’immagine della seconda mappa di Veronese sopra definita.
Proposizione 2.3.16. Se due d-uple A = (a1, . . . , ad) e B = (b1, . . . , bd) non nulle
hanno la stessa immagine nella mappa di Veronese ν, allora sono proporzionali.
Dimostrazione. Dimostriamo l’enunciato nel caso in cui zi = 1 per ogni i.
Sia Mi il monomio monico corrispondente a xni . Allora Mi(A) = Mi(B) implica che
ai = εibi, con εi = radice n-esima dell’unita. Inoltre ai = 0 implica bi = 0.
Preso ai 6= 0, sia M ′j il monomio monico xn−1
i xj. Allora M ′j(A) = M ′
j(B) implica
che se aj 6= 0, si ha 1 = εn−1i εj da cui εj = 1/εn−1
i = εi.
Cio prova che B = εiA.
Spesso scambieremo fra loro due mappe di Veronese aventi gli stessi n, d. In
effetti e ovvio che le immagini di due mappe di Veronese distine, con n, d fissati,
differiscono per un isomorfismo di KN .
Definizione 2.3.17. Sia F 6= 0 un polinomio omogeneo di grado n in d variabili.
Chiameremo rango simmetrico di F il minimo r per cui esistono potenze di forme
lineari F n1 , . . . , F
nr tali che F = F n
1 + · · ·+ F nr .
Il calcolo del rango simmetrico e l’equivalente, per polinomi, delle decomposizioni
di Waring per numeri interi.
Il matematico inglese E. Waring (1736-1798) si occupo infatti del problema di de-
comporre un intero positivo come somma di potenze di interi positivi. Da un certo
punto di vista, si tratta di una generalizzazione dell’Ultimo Teorema di Fermat.
Waring provo che ogni intero si puo scrivere come somma di a ≤ 4 quattro quadrati
e b ≤ 9 cubi. In generale, i Problemi di Waring consistono nel determinare il minimo
r per cui ogni intero positivo e somma di al piu r potenze n-esime (positive).
Problemi simili a quelli di Waring, sostituendo gli interi con i polinomi omoge-
nei, sono di grande importanza nello studio dei tensori e della Statistica Algebrica.
Molti di tali problemi sono ancora aperti. Rimandiamo, per un approfondimento
sull’argomento, al paragrafo 5.4 del testo di Landsberg [Landsberg].
CAPITOLO 2. ALGEBRA TENSORIALE 33
Attenzione che se identifichiamo F come tensore (simmetrico), allora non e chiaro
se il suo rango simmetrico e uguale al suo rango, essendo quest’ultimo definito dal
minimo r′ per cui esistono tensori T1, . . . , Tr′ (non necessariamente simmetrici!) tali
che F = T1 + · · ·+ Tr′ .
E’ chiaro che r ≥ r′, ma non sappiamo se vale l’uguaglianza.
Nel 2008 P. Comon ha congetturato che valga sempre l’uguaglianza r = r′. Ad
oggi, sono noti solo risultati parziali al riguardo. Rimandiamo per la discussione al
paragrafo 5.7 del testo di Landsberg [Landsberg].
2.4 Elementi di un tensore
Vediamo in questo paragrafo alcuni nozioni di grande importanza per l’applicazione
dei prodotti tensoriali alla statistica algebrica.
Ricordiamo che Jn indica l’insieme dei numeri Jn = {1, . . . , n}.
Definizione 2.4.1. Consideriamo lo spazio Kd1,...,dn dei tensori di dimensione n e
tipo (d1, . . . , dn). Per ogni sottoinsieme R ⊂ J , diremo che una funzione Q : R→ Ze coerente con (d1, . . . , dn) se per ogni r ∈ R si ha 1 ≤ Q(r) ≤ dr.
Per ogni scelta di R e Q : R → Z coerente con (d1, . . . , dn), chiameremo elemento
R,Q di T ∈ Kd1,...,dn il sottotensore ERQ(T ) formato dai coefficienti Ti1...in tali che
ir = Q(r) per ogni r ∈ R.
Osservazione 2.4.2. Per ogni T ∈ Kd1,...,dn , l’elemento ERQ(T ) corrisponde a un ten-
sore in Ke1,...,em , dove m = n− cardinalita di R, (e1, . . . , em) ottenuta da (d1, . . . , dn)
cancellando gli elementi dr con r ∈ R.
Fissati R,Q, la funzione che manda ogni tensore di Kd1,...,dn nel suo elemento R,Q
e un’applicazione lineare di spazi di tensori.
Esempio 2.4.3. Preso il tensore
T =
3 − − −2� | � |
1 − + 1 || 1 + − 0| � | �2 − − 1
34 Cristiano Bocci, Luca Chiantini
per R = {1} ⊂ J3 = {1, 2, 3} e per Q : R→ Z, Q(1) = 2, si ha:
ERQ(T ) =
(1 13 −2
)cioe ER
Q corrisponde alla ’faccia superiore” del cubo, che e data dagli elementi del
tensore il cui terzo indice e 2.
Se invece Q manda 1 in 1, si ha la faccia inferiore
ERQ(T ) =
(2 11 0
).
Preso R = {1, 3} con Q(1) = 2, Q(3) = 1 si ottiene lo spigolo ERQ(T ) = (1, 0) formato
dagli elementi T211, T221.
Esempio 2.4.4. Se T e una matrice a× b, che e un tensore di dimensione 2, fissato
R = {2} ⊂ J2 = {1, 2}, gli elementi ERQ(T ) corrispondono alle colonne di T .
In modo analogo, se R = {1}, gli elementi ERQ(T ) corrispondono alle righe di T .
Naturalmente un tensore non nullo puo avere elementi nulli: basta prendere una
matrice non nulla che ha una riga nulla.
Proposizione 2.4.5. Ogni elemento di un tensore di rango 1 ha rango ≤ 1.
Dimostrazione. Operando ricorsivamente su R, e sufficiente far vedere questo fatto
quando R e un singoletto.
Supponiamo per semplicita R0{1}. Se Q(r) = q e T = v1 ⊗ v2 ⊗ · · · ⊗ vn, allora e
immediato dalla definizione che ERQ(T ) = v1q(v2 ⊗ · · · ⊗ vn).
La precedente proposizione si estende a valori superiori del rango.
Proposizione 2.4.6. Ogni elemento di un tensore di rango k ha rango ≤ k.
Dimostrazione. Viene immediatamente dalla proposizione precedente e dal fatto che
se T = T1 + · · ·+ Tk, allora per linearita
ERQ(T ) = ER
Q(T1) + · · ·+ ERQ(Tk).
CAPITOLO 2. ALGEBRA TENSORIALE 35
Si osservi che in generale e impossibile attendersi l’uguaglianza, nelle proposizioni
precedenti: abbiamo visto nell’esempio 2.2.5 che ci sono tensori di tipo 2× 2× 2 di
rango 3. E’ chiaro che ogni loro elemento non puo avere rango maggiore di 2.
In realta, il rapporto fra rango di un tensore e quello di tutti i suoi elementi non e
ancora ben compreso, in tutti i suoi particolari.
Definizione 2.4.7. Per ogni tensore T ∈ Kd1,...,dn , e per ogni R ⊂ Jn, chiame-
remo scansione di T lungo R l’insieme formato dagli elementi ERQ, dove Q varia
nell’insieme delle funzioni Q : R ∈ Z, coerenti con (d1, . . . , dn).
Chiameremo R-spazio di T il sottospazio di tenori generato dalla scansione di T
lungo R.
Chiameremo marginalizzazione di T lungo R la somma di tutti gli elementi appar-
tenenti alla scansione di T lungo R.
Anche la marginalizzazione definisce un’applicazione lineari di spazi di tensori.
Esempio 2.4.8. Se T e una matrice, i due r-spazi di T coincidono con lo spazio
delle righe e lo spazio delle colonne.
Esempio 2.4.9. Per analogia con quanto avviene per le matrici, qualcuno potebbe
pensare che tutti gli R-spazi di un tensore debbano avere la stessa dimensione. Cio
e pero falso.
Prendiamo ad esempio il tensore
T =
2 − − 0� | � |
4 − + 2 || 1 + − 0| � | �2 − − 1
Post R1 = {3}, allora i generatori dell’ R1- spazio di T sono le matrici(2 11 0
) (4 22 0
)e pertanto tale spazio ha dimensione 1.
Se pero prendiamo R2 = {1}, i generatori dell’ R2-spazio sono le matrici(2 14 2
) (1 02 0
)che non sono proporzionali, quindi tale spazio ha dimensione 2.
36 Cristiano Bocci, Luca Chiantini
Un’altra grande differenza fra matrici e tensori di dimensione superiore e che non
si puo dare una definizione di rango di un tensore mediante le dimensioni dei suoi
R-spazi.
Infatti, ad esempio, esistono tensori 2 × 2 × 2 che hanno rango 3, mentre i loro
R-spazi sono ovviamente tutti generati da due matrici, quindi non possono avere
dimensione 3.
Un esempio di tensore 2× 2× 2 di rango 3 e illustrato qui sotto.
Esempio 2.4.10. Il tensore
D =
2 − − 3� | � |
1 − + 3 || 0 + − 4| � | �0 − − 2
ha rango 3, perche non e possibile scriverlo come somma di due tensori di rango
1. Quest’ultima affermazione puo essere provata svolgendo i calcoli. Vediamo una
dimostrazione.
Siano per assurdo T = (Tijk) e T ′ = (T ′ijk) due tensori di rango 1, la cui somma e D.
Si deve allora avere che (D111, D121) = (0, 0) e somma di (T111, T121) + (T ′111, T′121),
pertanto questi due vettori sono fra loro proporzionali e generano un sottospazio
W ⊂ K2 di dimensione ≤ 1.
Se sono (entrambi, ovviamente,) non nulli, siccome T, T ′ hanno rango 1 e quindi
i loro sottodeterminanti 2 × 2 si annullano, tutti i vettori (T112, T122), (T211, T221),
(T212, T222), (T ′112, T′122), (T ′211, T
′221), (T ′212, T
′222) devono stare in W . Ma allora anche
(1, 2) e (3, 3), che sono somma di tali vettori, stanno in W . Poiche W ha dimensione
≤ 1 mentre (1, 2), (3, 3) sono linearmente indipendenti, si arriva ad un assurdo.
Supponiamo invece (T111, T121) = (T ′111, T′121) = (0, 0). Poiche i due vettori (T112, T122),
(T ′112, T′122) hanno somma (1, 2), non possono entrambi essere nulli, quindi possiamo
supporre (T112, T122) 6= (0, 0). Siccome T ha rango 1, deve esistere a ∈ K tale che
(T211, T221) = a(T112, T122), inoltre
0 = T111T212 − T211T112 = aT 2112 0 = T121T222 − T221T122 = aT 2
122
quindi a = 0 e (T211, T221) = (0, 0). Ma allora (T ′211, T′221) = (2, 4). Poiche T ′ ha
rango 1, (T ′112, T′122) deve essere multiplo di (T ′211, T
′221) = (2, 4). Quindi (T211, T212),
CAPITOLO 2. ALGEBRA TENSORIALE 37
che e uguale a (1, 2) − (T ′112, T′122), deve essere anche lui multiplo di (2, 4). Poiche
T, T ′ hanno rango 1, ne segue che i vettori (T212, T222), (T ′212, T′222) devono anch’essi
essere multipli di (2, 4). Ma la loro somma (T212, T222) + (T ′212, T′222) = (3, 3) non e
multipla di (2, 4). Abbiamo percio un assurdo.
Definizione 2.4.11. Un caso particolare di marginalizzazione e il seguente.
Se T e un tensore di tipo d1 × · · · × dn, si chiama marginalizzazione totale di T il
vettore (T1, . . . , tn) ∈ Kd1 × · · · ×Kdn dove ti e la marginalizzazione di T rispetto a
R = Jn \ {i}.
Esempio 2.4.12. Ad esempio dato un sistema S con due variabili booleane, le
distribuzioni si ΠS sono definite da tensori T ∈ K2,2,2. Se ad esempio
T =
3 − − 1� | � |
−1 − + 0 || 1 + − 1| � | �4 − − 1
allora la marginalizzazione totale e il vettore ((7, 3), (3, 6), (7, 3)).
Esempio 2.4.13. Il termine marginalizzazione proviene storicamente dallo studio
statistico dei sistemi aleatori S con due variabili e della loro correlazione totale.
Se infatti consideriamo un sistema con due variabili, A,B, dove A ha te stati mentre
B e booleana, allora una distribuzione sulla correlazione totale e una matrice T di
tipo 3× 2. Data la matrice rappresentata qui sotto(1 −2 43 1 1
)allora la marginalizzazione totale di T si ottiene facendo la somma delle righe e delle
colonne, che puo essere rappresentata in figura scrivendo i valori ottenuti sui margini
della matrice. (1 −2 43 1 1
)35
4 −1 5
Capitolo 3
Statistica Algebrica elementare
In questo capitolo, trattiamo alcuni esempi elementari di calcolo statistico alla luce
delle definizioni principali date nei capitoli precedenti.
3.1 Probabilita elementare
Ripercorriamo brevemente, in questo paragrafo, alcuni dei concetti base del calcolo
delle probabilita, nella nuova terminologia.
Dato un sistema aleatorio S, vediamo di introdurre il concetto di probabilita di
ciascuno degli stati s1, . . . , sn di una variabile aleatoria x.
Eliminiamo subito l’idea che se gli stati sono n, ciascuno di loro abbia necessaria-
mente probabilita 1/n. Nessuno infatti ci garantisce, in partenza, che gli stati siano
equiprobabili. Se ad esempio S rappresenta una schedina (esempio 1.1.4) e quindi
x e una partita, gli stati di x sono tre: 1, 2, X e le loro probabilita non saranno in
generale equamente suddivise in 13, 1
3, 1
3, ma dipenderanno da fattori quali la forza
delle singola squadre, chi gioca in casa, ecc.
Esempio 3.1.1. Nel campionato di calcio serie A 2005/06 sono state giocate 380
partite. Di esse 176 si sono concluse con la vittoria della squadra di casa, 108 in
pareggio e le rimanenti 96 con vittorie in trasferta.
Se pertanto costruiamo il sistema che ha per unica variabile aleatoria una partita
p di alfabeto {1, 2, X}, il campionato induce una distribuzione D tale che Dp(1) =
176, Dp(X) = 108, Dp(2) = 96.
39
40 Cristiano Bocci, Luca Chiantini
La normalizzazione D ci da i valori di probabilita che si ottengono dal campionatoscorso:
Dp(1) =176
380' 46, 2% Dp(X) =
108
380' 28, 4% Dp(2) =
96
380' 24, 4%.
La distribuzione che rappresenta l’equiprobabilita e la seguente:
Esempio 3.1.2. Chiameremo distribuzione equa su un sistema aleatorio S la di-
stribuzione E che associa ad ogni stato s di ogni variabile aleatoria il numero
1.
La distribuzione probabilistica associata ad E e data da pExi(s) = 1ni
, dove ni e il
numero di stati della variabile xi.
La stessa probabilita si ottiene ovviamente partendo dalla distribuzione cE, c ∈ R,
che ad ogni stato associa il valore c.
Si noti che la distribuzione equa ha campionatura costante solo se le variabili
hanno tutte lo stesso numero di stati.
Vediamo come recuperare la famosa formula per il calcolo della probabilita:
casi favorevoli
casi possibili
Consideriamo un caso concreto.
Esempio 3.1.3. In ogni Palio corrono solo dieci delle diciassette contrade. Le dieci
contrade che correranno nel prossimo Palio di Luglio sono scelte come segue: corrono
sicuramente le sette che non hanno corso nel Palio del Luglio precedente, unite a tre
contrade che sono estratte con un sorteggio fra le dieci che nel Luglio scorso avevano
corso il Palio.
Qual e la probabilita che una contrada x, pur avendo corso nel Palio del Luglio
scorso, possa correre nel prossimo Palio di Luglio?
Costruiamo al proposito due sistemi aleatori.
Il primo T ha una sola variabile aleatoria, l’estrazione e. Quanti sono gli elementi
dell’alfabeto A(e) di e, cioe i possibili stati di e? Bisogna scegliere 3 contrade in
un insieme di 10. Abbiamo 10 scelte per la prima estratta, dopodiche ne restano
9 per la seconda estratta e in seguito 8 per la terza. In totale 10 · 9 · 8 = 720
stati. Diamo ovviamente per scontato che l’estrazione avvenga senza particolari
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 41
favoritismi, in modo che ciascuna terna abbia la stessa probabilita di uscire. Questo
si ottiene considerando la distribuzione equa E su T . La probabilita indotta su ogni
terna(ordinata) e pertanto 1/720.
Il secondo sistema S ha anch’esso una variabile aleatoria, corrispondente ad una fra
le dieci contrade fra le quali avviene l’estrazione. Tale variabile, che chiameremo c,
e booleana, con alfabeto Z2 (1 = corre, 0 = non corre).
Consideriamo la mappa di sistemi aleatori fc : T → S, che manda e in c e ogni
terna t ∈ A(e) in 0 o 1, a seconda che c sia nella terna t o no.
La probabilita che c corra nel prossimo Luglio e definita dalla distribuzione Dc = fcE∗
su S.
Dc(1) e uguale al numero di terne che contengono c. Quante sono? le terne in cui
c e primo elemento si ottengono scegliendo il secondo elemento fra 9 e il terzo fra i
rimanenti 8, quindi sono 72. Altrettante sono le terne in cui c compare al secondo
o al terzo posto. Per un totale di 72 · 3 = 216 terne. Quindi Dc(1) = 216 e di
conseguenza, ovviamente, Dc(0) = 720−216 = 504. Ne segue che la probabilita che
ha una contrada c di correre nel Luglio prossimo, pur avendo gia corso nel Luglio
scorso, e:
p =Dc(1)
Dc(0) +Dc(0)=
216
720=
3
10' 33, 3%
Nell’esempio precedente, solo due le possibilita per c: o corre (1) o non corre (0).
I casi possibili sono 720, cioe gli stati di e, che vengono considerati equiprobabili.
Quelli considerati favorevoli sono quelli che stanno nella controimmagine di 0, cioe
Dc(0) che vale 216. Da qui la formula.
E’ bene rimarcare con forza che in molti casi concreti e assolutamente impossibile
conoscere a priori il sistema S e la mappa f che, a partire dalla distribuzione equa
su S ci danno la probabilita su T .
Prendiamo l’esempio di una moneta, di cui non sappiamo nulla, e dei suoi due
stati T = testa e C = croce. Qual e la probabilita che lanciando la moneta si ottenga
una delle due possibilita?
A priori nessuno puo affermare con certezza che la probabilita e 1/2: la moneta
potrebbe benissimo essere truccata!
E il mondo fisico, economico, biologico e pieno di monete o dadi truccati. Per
esempio, esaminando la prima base delle catene di DNA di tutti gli organismi, si
42 Cristiano Bocci, Luca Chiantini
osserverebbe che la distribuzione non e equa, essendo la base T molto meno frequente
della A. Similmente, nessuno, compilando una schedina, di fronte alla partita Inter
- Siena, si sognerebbe di pensare che la probabilita dei tre risultati, 1, 2, X, sia
equamente distribuita.
3.2 Connessioni di indipendenza e marginalizza-
zione
Riportiamo qui la definizione di connessione di indipendenza, data nel capitolo
precedente (Definizione 4.3.3).
Esempio 3.2.1. Sia S un sistema aleatorio e sia T = ΠS la sua correlazione totale.
Definiamo una connessione Γ : DK(S)→ DK(T ), detta connessione di indipendenza
o anche connessione di Segre, in questo modo. Se S ha variabili aleatorie x1, . . . , xn,
e ciascuna variabile xi ha ni stati, allora DK(S) e identificato con Kn1 × · · · ×Kan .
Γ manda la distribuzione
D = ((d11, . . . , d1a1), . . . , (dn1, . . . , dnan))
nel tensore (pensato come distribuzione su ΠS) D′ = Γ(D) tale che
D′i1,...,in = d1i1 · · · dnin .
E’ chiaro, per costruzione, che l’immagine della connessione e formata da tutte e
sole le distribuzioni di indipendenza su ΠS.
Proposizione 3.2.2. Se D e una distribuzione probabilistica, anche ΠD lo e.
Dimostrazione. Sia S = (X,α) un sistema aleatorio, con X = {x1, . . . , xn} e sia
ΠS = (Y, β) una sua correlazione totale. Sia D una correlazione probabilistica su
S. Indichiamo con y l’unica variabile aleatoria di ΠS. Dobbiamo provare che:
1 =∑
a1∈α(x1),...,an=α(xn)
ΠDy(a1, . . . , an) =
=∑
a1∈α(x1),...,an=α(xn)
Dx1(a1) ·Dx2(a2) · · · · ·Dxn(an) =
= (∑
a∈α(x1)
Dx1(a))
( ∑a2∈α(x2),...,an=α(xn)
Dx2(a2) · · · · ·Dxn(an)
).
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 43
Poiche∑
a∈α(x1) Dx1(a)) = 1, la conclusione segue per induzione sul numero di
variabili aleatorie di S.
Proposizione 3.2.3. Sia f = (F,G) : S → T una mappa di sistemi aleatori e sia
D una distribuzione su S. Sia D′ = fD∗ la distribuzione indotta su T . Allora la
distribuzione ΠD indotta sulla correlazione totale di S ha per immagine in Πf la
distribuzione ΠD′.
Dimostrazione. Siano x1, . . . , xn le variabili di S e y1, . . . , yn le variabili di T , con
yi = F (xi). Per ogni stato t = (t1, . . . tn) dell’unica variabile (y1 × · · · × yn) di ΠT ,
si ha ΠD′(t) = Πi=1,...,nD′(ti) e
D′(ti) =∑
si∈A(xi),Gxi(si)=ti
D(si).
D’altra parte ΠD(s1, . . . , sn) = D(s1) · · · · ·D(sn) quindi:
(Πf)ΠD∗ (t1, . . . , tn) =
∑(s1,...,sn)→(t1,...,tn)
ΠD(s1, . . . , sn)
coincide con πD′(t1, . . . , tn).
Esempio 3.2.4. Sia X un sistema aleatorio booleano con due variabili aleatorie
x, y, entrambe di alfabeto {0, 1}. Sia D la distribuzione definita da:
Dx(0) =1
6, Dx(1) =
5
6, Dy(0) =
1
6, Dy(1) =
5
6.
Si tratta chiaramente di una distribuzione probabilistica.
La sua distribuzione prodotto su (Y = {z}, β), z = x× y e definita da
ΠDz(0, 0) =1
6· 1
6=
1
36
ΠDz(0, 1) =1
6· 5
6=
5
36
ΠDz(1, 0) =5
6· 1
6=
5
36
ΠDz(1, 1) =5
6· 5
6=
25
36
che e una distribuzione probabilistica, in quanto 136
+ 536
+ 536
+ 2536
= 1.
44 Cristiano Bocci, Luca Chiantini
La connessione di indipendenza puo essere, in un certo senso, invertita. Al tal
proposito, richiamiamo la definizione di marginalizzazione totale, ripresa dal capitolo
precedente (Definizione 2.4.11).
Definizione 3.2.5. Un caso particolare di marginalizzazione e il seguente.
Se T e un tensore di tipo d1 × · · · × dn, si chiama marginalizzazione totale di T il
vettore (T1, . . . , tn) ∈ Kd1 × · · · ×Kdn dove ti e la marginalizzazione di T rispetto a
R = Jn \ {i}.
Definizione 3.2.6. Sia S un sistema aleatorio e sia T = ΠS la sua correlazio-
ne totale. Definiamo una connessione Γ : DK(T ) → DK(S), detta connessione di
marginalizzazione (totale) M in questo modo. Dato un tensore (pensato come di-
stribuzione su ΠS) D′, M(D′) e la distribuzione data dalla marginalizzazione totale
di D′. In pratica M(D′) associa allo stato j-esimo della variabile xi di S il numero∑D′ai,...,an , dove la somma e presa su tutti gli elementi del tensore il cui i-esimo
indice e uguale a j.
Si noti inoltre che la marginalizzazione di D′ e sempre una distribuzione a campio-
natura costante, uguale alla campionatura di D′
Esempio 3.2.7. Vediamo in concreto come operano le connessioni di indipenden-
za e marginalizzazione. Riprendiamo a tal proposito l’esempio sull’efficacia di un
farmaco, cioe l’esempio 3.4.2.
Con la notazione introdotta, consideriamo il sistema aleatorio booleano X, le cui due
variabili F,G rappresentano la prima la somministrazione del farmaco, la seconda
la guarigione e riprendiamo la distribuzione D (a campionatura costante uguale a
100)
DF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) = 70.
Se Γ e la connessione di indipendenza, allora Γ(D) e il tensore 2× 2 (matrice):(600 14002400 5600
)Ovviamente si tratta di una matrice di rango 1, che esprime il fatto che il farmaco
non ha nessun effetto (e indipendente) sulla guarigione dei soggetti.
La marginalizzazione di Γ(T ) fornisce la distribuzione D′′ su X:
D′′F (0) = 600 + 1400 = 2000, D′′F (1) = 2400 + 5600 = 8000,
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 45
D′′G(0) = 600 + 2400 = 3000, D′′G(1) = 1400 + 5600 = 7000
da cui si vede che D′′ e una scalatura di D, con fattore di scalatura uguale alla
campionatura 100.
Esempio 3.2.8. Consideriamo un sistema aleatorio booleano formato da due mo-
nete m1,m2, ciascuna delle quali avente gli stati T,C. Effettuiamo separatamente
100 lanci della prima e della seconda moneta e riportiamo i risultati ottenuti. Sup-
poniamo di avere per la prima moneta 30 volte T e 70 volte C, mentre per la seconda
moneta otteniamo 60 volte T e 40 volte C. Questo porta ad una distribuzione D
data da ((30, 70), (60, 40)).
Tramite la connessione indipendente Π, si ottiene sull’unica variabile della correla-
zione totale T di S, una distribuzione che associa ai quattro possibili stati:
ΠD(T, T ) = 1800ΠD(T,C) = 1200ΠD(C, T ) = 4200ΠD(C,C) = 2800
Prendendo la normalizzata, si vede che secondo tale distribuzione la probabilita di
ottenere (T,C) e 1200/10000 = 12%.
Marginalizzando la distribuzione si ottiene la distribuzione M(ΠD) che agli stati
delle variabili di S associa (3000, 7000), ((6000, 4000).
Si osservi che M(ΠD) e una scalatura di D.
Gli esempi precedenti possono essere generalizzati:
Proposizione 3.2.9. Sia S un sistema aleatorio e sia T la sua correlazione totale.
Indichiamo con Π la connessione indipendente da S a T e con M la marginalizza-
zione da T a S.
Se D e una distribuzione su S, allora M(ΠD) e una scalatura di D.
Dimostrazione. Se s11 e il primo stato della prima variabile di S, allora
M(ΠD(s11)) =∑
ΠD(s11, s2,k2 , . . . , snkn) =∑
D(s11)D(s2,k2) . . . D(snkn) =
D(s11)(∑
D(s11)D(s2,k2) . . . D(snkn)) (3.2.1)
46 Cristiano Bocci, Luca Chiantini
e lo stesso si ripete per tutti gli altri stati. Allora, posto c1 =∑D(s11)D(s2,k2) . . . D(snkn),
si ottiene per ogni stato s1i della prima variabile di S,
M(ΠD(s1i)) = D(s1i)c1.
Simili formule valgono per tutte le altre variabili di S, per cuiM(ΠD) e una scalatura
di D.
Esempio 3.2.10. Il viceversa della proposizione precedente non e valido in generale.
Nel sistema aleatorio dell’esempio 3.2.8, consideriamo infatti una connessione D′ su
T definita da:D′(T, T ) = 6D′(T,C) = 1D′(C, T ) = 3D′(C,C) = 1
ottenuta registrando 11 coppie di lanci.
La marginalizzazione M da la distribuzione ((7, 4), (9, 2)) su S. Applicando la
connessione di indipendenza Π, si ottiene su T
ΠM(D′)(T, T ) = 63ΠM(D′)(T,C) = 14ΠM(D′)(C, T ) = 36ΠM(D′)(C,C) = 8
che non e certo una scalatura di D′.
Cio che non va nell’esempio precedente e rappresentato dal fatto che la distri-
buzione di partenza D′ non e di indipendenza, quindi Π(M(D′)), che e ovviamente
una distribuzione di indipendenza, non puo essere uguale a D′.
Se partiamo da D′ di indipendenza, l’inversione fra marginalizzazione e connessione
di indipendenza funziona.
Proposizione 3.2.11. Sia S un sistema aleatorio e sia T la sua correlazione to-
tale. Indichiamo con Π la connessione di indipendenza da S a T e con M la
marginalizzazione da T a S.
Se D′ e una distribuzione di indipendenza su T , allora Π(M(D′)) e la distribuzione
nulla oppure e una scalatura di D′.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 47
Dimostrazione. Poiche D′ e di indipendenza, esistono vettori vi = (vi1, . . . , viai) ∈Kai tali che , come tensore, D′ = v1⊗ · · · ⊗ vn (ovviamente si suppone che S sia un
sistema con variabili, x1, . . . , xn, tale che per ogni i la variabile xi ha ai stati).
Allora M(D′) associa agli stati della variabile xj il vettore
M(D′)j = (∑ij=1
v1i1 · · · vnin), . . . ,∑ij=aj
v1i1 · · · vnin).
Segue che, posto ci = campionatura di v1 ⊗ · · · ⊗ vi ⊗ · · · ⊗ vn, M(D′) associa allo
stato j-esimo di xi il valore vijci. Pertanto
Π(M(D′)) = (c1 · · · cn)D′.
Se uno dei ci e 0, si ottiene la distribuzione nulla, altrimenti si ottiene una scalatura
di D′.
Corollario 3.2.12. Per ogni distribuzione D, a campionatura costante non nulla,
su S esiste una e una sola distribuzione di indipendenza D′ su ΠS = T tale che D
e la marginalizzazione di D′.
Dimostrazione. Siano D′, D′′ sono due distribuzioni di indipendenza aventi la stessa
marginalizzazione D = (v1, . . . , vn). Allora D′, D′′ hanno la stessa campionatura c,
uguale alla campionatura delle varibili in D. Per la precedente proposizione, D′, D′′
sono entrambe uguali a una scalatura di Π(D). Poiche hanno la stessa campionatura,
devono coincidere.
Per quanto riguarda l’esistenza, per costruzione basta prendere (1/c)ΠD.
Quando studiamo sistemi con piu variabili, e tali variabili sono indipendenti,
abbiamo pertanto uno schema chiaro di passaggio da una distribuzione sulle variabili
ad una distribuzione sulla loro correlazione.
Le cose si complicano molto quando la correlazione tra le variabili non e banale.
Ad esempio, consideriamo un sistema aleatorio con variabili rappresentanti squa-
dre di calcio, tutte con alfabeto {1, x, 2}. Se costruiamo una distribuzione D proba-
bilistica indicando per ogni squadra la probabilita (desunta ad esempio da risultati
precedenti) di ottenere un certo risultato in una data partita, allora, secondo il senso
48 Cristiano Bocci, Luca Chiantini
comune, la probabilita di avere una certa distribuzione di risultati in una partico-
lare domenica dipendera non solo dalla distribuzione D, ma anche dagli scontri che
vengono svolti: se la squadra A gioca contro la squadra B, le probabilita che esca
fuori un certo risultato per B non sono certo indipendenti dalle probabilita che esca
fuori un certo risultato per A!
Se e noto il modo in cui le probabilita si compongono, gestito da una connessione
Γ, si possono ripetere molte delle considerazioni svolte nei paragrafi precedenti.
Esempio 3.2.13. Consideriamo un sistema aleatorio formato da due variabili A, B,
associate a due squadre del campionato, entrambe con stati 1, X, 2 (vittoria, pari e
sconfitta) e prendiamo come distribuzione D la normalizzazione della distribuzione
ottenuta associando ad ogni stato il numero di vittorie, pareggi e sconfitte della
squadra in questione, nel campionato.
Consideriamo la correlazione totale su S, avente come unica variabile y = A × B.
Ci sono 9 stati di y, corrispondenti alle coppie di risultati per le due squadre.
Se vogliamo usare questo schema per calcolare la probabilita che esca un determi-
nato risultato nella scontro diretto fra A e B, non possiamo fare certo ricorso alla
connessione indipendente. Innanzitutto esistono coppie di risultati impossibili: se
c’e lo scontro diretto e una delle due squadre pareggia, anche l’altra deve pareggia-
re! Quindi la connessione da utilizzare deve associare obbligatoriamente il valore 0
a tutti i risultati impossibili (1, 1), (1, X), (X, 1), (X, 2), (2, X), (2, 2).
Resta da vedere cosa associare ai risultati possibili (1, 2), (X,X), (2, 1). Una scel-
ta apparentemente ragionevole e quella di scegliere per una coppia la media delle
probabilita dei risultati per ogni singola squadra. In questo caso, la connessione Γ
associa:
Γs(z1, z2) =z1 + z2
2se s = (1, 2), (X,X), (2, 1)
Γs(z1, z2) = 0 altrimenti,
dove z1, z2 sono le coordinate corrispondenti alle due componenti di s = (s1, s2).
Per inciso, il precedente metodo di assegnazione della probabilita ha dato, empiri-
camente, un pessima prova. La connessione giusta per predire i risultati delle partite
in schedina (ammesso che esista!) deve essere molto piu complicata. Naturalmente
chi riuscisse a trovarla avrebbe la possibilita di arricchirsi rapidamente.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 49
3.3 Booleanizzazione e connettori logici
Iniziamo questa sezione con un esempio, anche questo tratto dal Palio di Siena.
Esempio 3.3.1. Il meccanismo che porta alle dieci partecipanti del Palio di Luglio,
illustrato nell’Esempio 3.1.3, viene ripetuto passo per passo per il Palio di Ago-
sto: anche d’Agosto corrono le sette contrade che non hanno partecipato al Palio
dell’Agosto precedente, insieme a tre contrade sorteggiate fra le rimanenti dieci.
I meccanismi di sorteggio dei due Palii, Luglio e Agosto, sono assolutamente indi-
pendenti.
E’ pertanto ben possibile che in un anno una contrada possa correre entrambi i Palii,
come e possibile che non ne corra nemmeno uno.
La Lupa non ha corso nessuno dei due Palii del 2006. Pertanto correra di sicuro
entrambi i Palii del 2007. Quante sono le probabilita che corra entrambi i Palii del
2008? Quante sono le probabilita che corra almeno un Palio del 2008?
Per rispondere a queste domande, costruiamo un sistema aleatorio S con due va-
riabili aleatorie L =Luglio e A =Agosto. Per ciascuna delle due, l’alfabeto e l’in-
sieme delle terne di contrade che possono risultare dalla corrispondente estrazione.
Ciascuna variabile ha pertanto 720 stati (si veda l’Esempio 3.1.3).
Sia ora S ′ = ΠS la correlazione totale su S. Essa ci da tutti i possibili esiti delle
due estrazioni per i Palii del 2008. S ′ ha una sola variabile, con (720)2 = 518.400
stati.
Prendiamo poi il sistema booleano T con la sola variabile Lupa, di alfabetoA(Lupa) =
Z2.
Per conoscere la probabilita che la Lupa corra entrambi i Palii, costruiamo la mappa
ε : S ′ → T cosı definita: ε manda ovviamente l’unica variabile y ∈ S ′ in Lupa; ogni
stato s di y, che corrisponde ad una coppia di terne, viene mandato in 1 o 0, a
seconda che la Lupa compaia in entrambe le terne, oppure no.
Quanti sono gli stati s che finiscono in 0? Vi sono 216 terne fra le 720 possibili in
cui la Lupa compare, sia nel primo che nel secondo elemento di s. Quindi le coppie
di terne che hanno la Lupa in entrambi gli elementi sono 216 · 216 = 46.656.
Allora, presa la distribuzione equa su S ′, essa induce su T la distribuzione D = εE∗
tale che DLupa(1) = 46.656 e DLupa(0) = 518.400− 46.656 = 471.744. Ne segue che
50 Cristiano Bocci, Luca Chiantini
la probabilita che la Lupa corra entrambi i Palii del 2008 e
D(1) =D(1)
D(0) +D(1)=
46.656
518.400=
9
100= 9%.
Per conoscere la probabilita che la Lupa corra almeno un Palio, costruiamo la mappa
u : S ′ → T cosı definita: u manda ovviamente l’unica variabile y ∈ S ′ in Lupa; ogni
stato s di y, che corrisponde ad una coppia di terne, viene mandato in 0 o 1, a
seconda che la Lupa compaia in almeno una terna, oppure no.
Quanti sono ora gli stati s che finiscono in 0? Vi sono 216 terne fra le 720 possibili in
cui la Lupa compare nel primo elemento di s. Fra i 720−216 = 504 casi rimanenti, ce
ne sono 504 ·216 in cui la Lupa compare nel secondo elemento della terna. Quindi le
coppie di terne che hanno la Lupa in almeno un elemento sono 216 ·720+504 ·216 =
264.384.
Allora, presa la distribuzione equa su S ′, essa induce su T la distribuzione R = uE∗
tale che RLupa(1) = 264.384 e RLupa(0) = 518.400 − 264.384 = 254.016. Ne segue
che la probabilita che la Lupa corra almeno un Palio del 2008 e
R(1) =R(1)
R(0) +R(1)=
264.384
518.400=
51
100= 51%.
Per meglio comprendere gli esempi precedenti, e opportuno introdurre la defini-
zione di booleanizzazione di un sistema aleatorio.
Infatti, nella situazione descritta, si tratta di passare da un sistema aleatorio ad uno
booleano collegato. In pratica, si tratta di dividere i possibili stati di ogni variabile
aleatoria in stati buoni e stati cattivi, mandando i primi in 1 e gli altri in 0.
Negli esempi precedenti, uno stato e considerato buono se e solo se contiene la
Lupa.
Definizione 3.3.2. Si chiama booleanizzazione o dicotomia di un sistema aleatorio
S il dato di un sistema aleatorio booleano T e di una mappa f : S → T che e
formata da una biiezione F : X → Y sulle variabili aleatorie.
La situazione puo allora essere riassunta come segue:
Proposizione 3.3.3. Sia S un sistema aleatorio con una sola variabile x e sia
E la distribuzione equa su S. Sia f : S → T una sua boolanizzazione. Sia D la
distribuzione immagine di E tramite f . La probabilita indotta da D su T corrisponde
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 51
al quoziente avente per denominatore il numero di tutti gli stati di tutte le variabili
aleatorie di S (i casi possibili) e come numeratore la somma di tutti gli stati di tutte
le variabili di S che vanno in 1 tramite le funzioni di f (i casi favorevoli).
Osservazione 3.3.4. E’ praticamente ovvio che data una distribuzione D razionale
su un sistema T con una sola variabile, si puo sempre trovare un sistema S con una
mappa f : S → T in modo che D sia l’immagine in f della distribuzione equa su S.
Esempio 3.3.5. Applichiamo il procedimento all’esempio 3.2.13.
Fissiamo il sistema S formato da due variabili, rappresentanti due squadre di se-
rie A 2005/06, diciamo Juventus e Siena, entrambe con gli stati 1, X, 2. Come
connessione prendiamo la Γ descritta nell’esempio.
La distribuzione D dei risultati delle due squadre, desunta dal campionato 2005/06,
e la seguente:
DJuventus(1) = 27, DJuventus(X) = 10, DJuventus(2) = 1DSiena(1) = 9, DSiena(X) = 12, DSiena(2) = 17.
Pertanto si ha una distribuzione ΓD data da:
ΓD(1, 2) =27 + 17
2= 22, ΓD(X,X) =
10 + 12
2= 11 ΓD(2, 1) =
1 + 9
2= 5,
mentre per tutti gli altri sei stati, ΓD e 0.
Consideriamo come buono uno stato se prevede la vittoria di una squadra, cioe
prendiamo la booleanizzazione f che manda, per entrambe le variabili aleatorie,
(1, 2) e (2, 1) in 1 e (X,X) in 0.
Il problema equivale a chiedere: date le probabilita di risultati determinate da ΓD,
qual e la probabilita che nello scontro diretto esca un risultato in cui c’e una vit-
toria, o della Juventus o del Siena? In altri termini, qual e la probabilita, nella
distribuzione determinata da D e Γ, che non esca il pareggio?
Componendo Γ con la connessione indotta da f , la distribuzione sopra descritta
determina una distribuzione D′′ sul sistema booleano ad una variabile, tale che
D′′(1) = ΓD(1, 2) + ΓD(2, 1) = 27, D′′(0) = ΓD(X,X) = 11. Allora la probabilita
che non esca un pareggio si ottiene normalizzando e corrisponde a 2738' 71%.
Se il risultato del precedente esempio non sembra realistico, e tutto da imputare
alla scelta della connessione Γ, il vero punto complesso di tutta l’apparecchiatura di
dati.
52 Cristiano Bocci, Luca Chiantini
Esempio 3.3.6. Vediamo cosa sarebbe successo nell’esempio precedente, prendendo
come connessione Ψ quella che associa alle coppie possibili il prodotto e non la media
delle due distribuzioni. Posto D′ = (Πf)ΨD∗ , si ha
D′(1) = ΨD(1, 2) + ΨD(2, 1) = 468, D′(0) = ΨD(X,X) = 120.
da cui la probabilita diventa 468588' 79, 6%, gia piu realistico.
A questo punto, vediamo di formalizzare compiutamente l’esempio 3.3.1, in modo
da semplificare anche i calcoli.
Utilizzeremo a tal proposito la formalizzazione del sistema dell’esempio 3.1.3: in
fondo l’esempio 3.3.1 si compone di due sistemi tipo 3.1.3 accoppiati.
Se pero prendiamo la booleanizazione del sistema aleatorio dell’esempio 3.1.3, e ne
facciamo la correlazione totale per applicarla all’esempio 3.3.1, ci troviamo di fronte
alla difficolta che la correlazione totale di un sistema con due variabili booleane non
e booleana!
Per ovviare a tale inconveniente, e necessario introdurre il concetto di connettivo
logico.
Definizione 3.3.7. Chiameremo connettivo logico n-ario una funzione θ : Zn2 → Z2.
Esempio 3.3.8. L’esempio piu famoso di connettivo logico sono i due quantificatori
∀,∃, generalizzazione dei connettivi binari OR e AND.
L’operatore ∃ e definito su (s1, . . . , sn) ∈ Zn2 dal prodotto degli si, mentre ∀ e definito
da 1− Π(1− si).Naturalmente, molti altri connettivi logici possono essere definiti e le loro proprieta
sono molteplici: ci sono operatori commutativi, associativi, ...
I due quantificatori ∀,∃ sono esempi di operatori commutativi e associativi.
Esempio 3.3.9. I connettivi logici 1-ari sono quattro.
C’e l’identita I, che lascia tutto immutato.
C’e l’importante connettivo NOT, definito da NOT(0) = 1, NOT(1) = 0, che inverte.
C’e il connettivo MAI, definito da MAI(0)=MAI(1) = 1.
C’e il connettivo OK, definito da OK(0)=OK(1) = 0.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 53
Definizione 3.3.10. Se S = (X,α) e un sistema aleatorio booleano con n variabili,
ogni connettivo logico n-ario θ definisce in modo ovvio una mappa (che continueremo
ad indicare con lo stesso simbolo) da ΠS al sistema booleano T avente una sola
variabile. Basta mandare ogni stato (s1, . . . , sn) di ΠS in θ(s1, . . . , sn).
Tale mappa corrisponde ovviamente ad una booleanizzazione di ΠS.
Esempio 3.3.11. Interpretiamo l’esempio 3.3.1 alla luce delle nuove definizioni.
Il sistema S da cui partiamo ha due variabili, l’estrazione di luglio L e l’estrazione
di Agosto A. Ciascuna variabile aleatoria ha 720 stati.
Prendiamo una booleanizzazione T di S, definendo buono uno stato se contiene la
Lupa, sia per L che per A. La distribuzione equa su S definisce una distribuzione
D su T , che definisce a sua volta la distribuzione prodotto ΠD su ΠT .
Se prendiamo un connettivo logico θ, otteniamo una distribuzione prodotto D′ su
una booleanizzazione di ΠS, che ci da la probabilita che una certa combinazione di
eventi si verifichi.
Per esempio, consideriamo il connettivo Θ = ∀. La normalizzazione di ΘD′∗ calcola
la probabilita che la Lupa corra entrambi i Palii del 2008.
Se invece consideriamo il connettivo θ = ∃, la normalizzazione di θD′∗ calcola la
probabilita che la Lupa corra almeno un Palio del 2008.
Il connettivo ONE, definito su Z22 da ONE(0, 0) = 1, ONE(1, 0) = 0, ONE(0, 1) = 0,
ONE(1, 1) = 1, ci descrive invece la probabilita che la Lupa corra esattamente un
Palio del 2008 (il 42%).
Osservazione 3.3.12. Un modo per semplificare i calcoli dell’esempio 3.3.1 pro-
vengono dalla teoria precedente.
Se consideriamo la distribuzione D indotta sulla booleanizzazione T di S, possiamo
calcolare la sua normalizzazione ∆. Segue dal punto (b) della Proposizione 2.1.10
che D e ∆ inducono distribuzioni su ΠT aventi la stessa normalizzazione, perche
sono l’una scalatura dell’altra.
Per la proposizione 1.3.5, le immagini di ΠD e Π∆ su una booleanizzazione di ΠT
indotta da un connettivo logico θ sono una scalatura dell’altra, quindi inducono la
stessa distribuzione di probabilita.
Ne segue che possiamo usare ∆ al posto di D per calcolare la distribuzione di
probabilita indotta da quest’ultimo,su una booleanizzazione di ΠT .
54 Cristiano Bocci, Luca Chiantini
Esempio 3.3.13. Torniamo all’esempio 3.3.1 e utilizziamo l’osservazione precedente
per semplificare i calcoli.
Abbiamo una distribuzione D su T = ({Lupa}, β}, con β(Lupa) = Z2. L’esempio
3.1.3 ci dice che la normalizzazione ∆ di D manda 0 in 3/10 e 1 in 7/10. Questo
definisce su ΠT la distribuzione Π∆ definita da:
Π∆(0, 0) =3
10· 3
10=
9
100, Π∆(0, 1) =
3
10· 7
10=
21
100,
Π∆(1, 0) =7
10· 3
10=
21
100, Π∆(1, 1) =
7
10· 7
10=
49
100. (3.3.1)
Se prendiamo il connettivo logico ∀, questi manda (0, 0) in 0 e le altre coppie in 1.
La distribuzione indotta da Π∆ pertanto manda 0 in 9/100 e 1 in (21+21+49)/10 =
91/100.
Se prendiamo il connettivo logico ∃, questi manda la coppia (1, 1) in 1 e le altre in
0. La distribuzione indotta da Π∆ pertanto manda 0 in (9 + 21 + 21)/100 = 51/100
e 1 in 49/100.
Il connettivo logico ONE manda (0, 0) e (1, 1) in 1 e le altre in 0. La distribuzione
indotta da Π∆ pertanto manda 0 in (21 + 21)9/100 = 42/100 e 1 in (9 + 49)/100 =
58/100.
E cosı via.
Si noti che i dati sono consistenti con quelli trovati nell’esempio 3.3.1, ma i conti
si sono molto semplificati.
Sia dato un sistema aleatorio S. Comunque presa una distribuzione D su S, una
booleanizzazione f : S → T di S e un connettivo logico θ, si tratta di:
determinare la probabilita di ciascuno dei due stati del sistema booleano T ′, ad una
variabile, associato a ΠT da θ.
Il procedimento per determinare la probabilita cercata e il seguente:
- costruiamo la mappa indotta sulle correlazioni totali Πf : ΠS → ΠT ;
- costruiamo la distribuzione ΓD su ΠS;
- costruiamo la distribuzione D′ = (Πf)ΓD∗ su ΠT ;
- costruiamo la mappa indotta dal connettivo logico θ : ΠT → T ′;
- costruiamo la distribuzione D′′ = θD′∗ .
La normalizzata di D′′ ci da la distribuzione probabilistica cercata.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 55
Esempio 3.3.14. Il precedente esempio 3.3.1 mostra una applicazione del procedi-
mento sopra descritto.
Qui S e il sistema formato dalle due estrazioni di Luglio e Agosto, e la connessio-
ne scelta e quella indipendente, cioe si stabilisce che non vi sono interferenze fra
l’estrazione di Luglio e quella di Agosto.
Se prendiamo come distribuzione D quella equa, come connettivo logico ∀ e come
booleanizzazione quella che definisce 0 (cioe buono) uno stato quando contiene la
Lupa, il problema della probabilita diretta, con questi dati, consiste nel domandarsi:
Qual e la probabilita che, sia di Luglio che di Agosto (∀), si verifichi un evento
buono (cioe un’estrazione contenente la Lupa), ammesso che le estrazioni non siano
truccate (distribuzione equa)?
Abbiamo visto che la risposta assegna a 0 la probabilita 216/720. Cioe, nella nostra
notazione,
p(S,Γ, D, T, θ)(0) =216
720p(S,Γ, D, T, θ)(1) =
504
720.
Esempio 3.3.15. L’impostazione data nel presente paragrafo non risente della
difficolta legata all’equita della moneta, del dado, o degli altri processi aleatori.
Infatti, se S e un sistema che rappresenta un dado non truccato, la probabilita che
tale dado, gettato, restituisca un valore pari si ottiene prendendo: (1) la distribuzione
equa E su S, (2) una booleanizzazione f di S che manda 2, 4, 6 in 0 e 1, 3, 5 in 1.
La normalizzata della distribuzione fE∗ ci dice allora che tale probabilita e uguale
a fE∗ (0)/6 = 50%. In questo caso il risultato si poteva ottenere calcolando (casi
favorevoli)/(casi possibili).
Se pero il dado e truccato, la formula (casi favorevoli)/(casi possibili) non e piu
valida. Mentre il procedimento sopra descritto continua a dare il risultato corrett-
to, una volta sostituita la distribuzione equa con un’altra distribuzione (dato del
problema!) che tenga conto della struttura del dado.
Se ad esempio il dado truccato e associato alla distribuzione D:
D(1) = D(2) = D(3) = D(4) = D(5) = 1, D(6) = 4
(cioe, in termini intuitivi, l’uscita del 6 e quattro volte piu probabile delle altre),
allora la probabilita di avere un risultato pari e data da fD∗ (0)/10 = 610
, cioe sale al
60%.
56 Cristiano Bocci, Luca Chiantini
3.4 Dipoli aleatori
Studiamo in questo paragrafo, in particolare, i sistemi aleatori formati da due
variabili, cioe i dipoli.
La caratteristica piu interessante dei dipoli (di cui abbiamo visto molti esempi nei
paragrafi precedenti) consiste nel fatto che le distribuzioni sulla loro connessione
totale sono rappresentati da matrici.
Questo aspetto ci permettera di anticipare sui dipoli una serie di riflessioni che
saranno molto meno agevoli su sistemi con piu di due variabili.
Definizione 3.4.1. Chiameremo dipolo aleatorio un sistema aleatorio formato da
due variabili. Diremo che il dipolo e di tipo m,n quando la prima variabile ha un
alfabeto di m elementi e la seconda variabile ha un alfabeto di n elementi.
E’ chiaro che estenderemo ai dipoli tutta la terminologia del capitolo precedente.
Parleremo ad esempio di dipolo booleano per indicare un dipolo aleatorio in cui
entrambe le variabili sono booleane, cioe un dipolo di tipo 2, 2.
Se un dipolo ha tipo m,n, allora la sua correlazione totale ha un’unica variabile
aleatoria, con un alfabeto di nm elementi.
I dipoli aleatori, nonostante la loro semplicita, si prestano anche ad essere utilizza-
ti per analisi di una certa rilevanza. Un esempio classico e illustrato nella situazione
di studio della efficacia di un farmaco.
Esempio 3.4.2. Prendiamo un’industria farmaceutica che voglia verificare se un
dato farmaco e efficace contro una determinata patologia.
L’industria cerchera di verificare l’efficacia arruolando un certo numero di volontari
(la popolazione) affetti dalla patologia e somministrando ad alcuni di essi il farmaco,
agli altri un placebo. Dalla registrazione del numero di guarigioni, si devono trarre
le conclusioni.
La situazione e illustrata da un sistema aleatorio booleanoX, le cui due variabili F,G
rappresentano la prima la somministrazione del farmaco, la seconda la guarigione
(al solito 1 = sı, 0 = no).
Su questo sistema introduciamo la distribuzione D (a campionatura costante) cosı
definita:
DF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) = 70.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 57
Cio corrisponde ad un esperimento, in cui abbiamo 100 soggetti, affetti dalla patolo-
gia. A 80 di essi viene somministrato il farmaco, mente agli altri 20 e somministrato
un placebo. Al termine della osservazione, 30 soggetti sono ancora malati, mente i
rimanenti 70 sono guariti.
E’ possibile ricostruire, tramite D, informazioni sull’efficacia del farmaco? Certa-
mente no: non sappiamo se i 70 guariti provengono in percentuale maggiore dal
gruppo che ha ricevuto il farmaco.
Per avere significativita, l’esperimento deve riportare, per ciascuno dei due gruppi
(quello che ha ricevuto il farmaco e quello che ha ricevuto il placebo) il numero di
soggetti guariti.
Si deve cioe eseguire l’esperimento riportando la distribuzione D′ ∈ D(ΠX) che
assegna un numero a ciascuno degli stati della variabile FG di ΠX:
- D′(0, 0) = soggetti che non hanno ricevuto il farmaco e non sono guariti;
- D′(0, 1) = soggetti che non hanno ricevuto il farmaco e sono guariti;
- D′(1, 0) = soggetti che hanno ricevuto il farmaco ma non sono guariti;
- D′(1, 1) = soggetti che hanno ricevuto il farmaco e sono guariti.
Supponiamo di aver osservato la seguente distribuzione:
D′(0, 0) = 6, D′(0, 1) = 14, D′(1, 0) = 24, D′(1, 1) = 56.
Tradotto significa che delle 100 persone sotto osservazione, le 20 trattate con il
placebo si sono cosı distribuite: 14 sono guarite e 6 no. Invece, delle 80 trattate, 56
sono guarite e 24 no. In accordo con il dato che ci devono essere state 70 = 14 + 56
non guarigioni e 30 = 6 + 24 non guarigioni.
Come suggerito nell’Osservazione 1.2.6, rappresentiamo D′ con una matrice
D′ =
6 14
24 56
Cosa ricavare dall’esperimento? Come si vede, in entrambi i gruppi, il numero di
soggetti guariti corrisponde ai 710
del totale. Cio suggerisce una totale inefficacia del
farmaco: la guarigione G sembra indipendente dall’assunzione del farmaco F .
58 Cristiano Bocci, Luca Chiantini
Un esito dell’indagine molto piu favorevole al farmaco si otterrebbe con una distri-
buzione D′′ su ΠX rappresentata dalla matrice:
D′′ =
10 10
20 60
che porterebbe a 10 soggetti guariti e 10 non guariti fra i trattati con placebo,
mentre i trattati con farmaco registrerebbero 60 guariti contro 20 non guariti (si
noti che ancora le guarigioni totali sono esattamente 70 = 10 + 60). In questo caso
i soggetti trattati con farmaco hanno una frazione molto piu rilevante di guariti,
rispetto all’altro gruppo. Per cui, l’esperimento suggerisce che un effetto benefico
del farmaco c’e stato (cioe F ha influito su G).
Dal punto di vista matematico, la differenza sostanziale fra le due matrici, che
cambia il risultato l’influenza reciproca fra le due variabili, sta nel fatto che le righe
di D′ sono proporzionali, cioe D′ ha rango 1, mente D′′ ha rango 2.
Dato un dipolo aleatorio S di tipo m,n, indichiamo con t1, . . . , tm gli stati della
prima variabile aleatoria e con s1, . . . , sn gli stati della seconda variabile.
Ricordiamo che se D′ e una distribuzione su ΠS, la matrice associata a D′ e la
matrice m× n A = (aij) tale che aij = D′(ti, sj).
Definizione 3.4.3. Diremo che una distribuzione D′ sulla correlazione totale ΠS
di un dipolo aleatorio S, e una distribuzione di indipendenza se la matrice associata
ha rango ≤ 1.
Si noti che la definizione di matrice associata comporta di fatto un ordinamento
degli alfabeti delle variabili di S. Tuttavia, combinando l’ordinamento la matrice
cambia solo per una permutazione di righe e colonne, quindi il suo rango non varia.
Ricordiamo che, come evidenziato nella Proposizione 2.1.6, data una matrice
A = (aij) di tipo m × n, A ha rango ≤ 1 se e solo se esistono due vettori v =
(v1, . . . , vm) ∈ Rm e w = (w1, . . . , wn) ∈ Rn, tali che per ogni i, j, aij = wivj.
L’osservazione ci permette di mostrare che la definizione di distribuzione di in-
dipendenza e coerente con quanto abbiamo detto nei paragrafi precedenti riguardo
all’indipendenza di variabili aleatorie.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 59
Teorema 3.4.4. Sia S un dipolo aleatorio e sia Γ la connessione di indipendenza
su S. Sia D′ una distribuzione su ΠS.
D′ e una distribuzione di indipendenza se e solo se esiste una distribuzione D su S
tale che D′ = ΓD.
Se D′ e una distribuzione di indipendenza probabilistica, allora esiste un’unica di-
stribuzione probabilistica D su S tale che D′ = ΓD.
Dimostrazione. Indichiamo con T, U le variabili aleatorie di S. Supponiamo che
T abbia m stati t1, . . . , tm e U abbia n stati u1, . . . , un. Sia D una distribuzione
su S e sia D′ = ΓD. Allora, per definizione di connessione indipendente, posto
DT = (DT (t1), . . . , DT (tm)) e DS = (DU(u1, . . . , DU(un)), la matrice (aij) di D′ e
data da aij = DT (i)DU(j). Per la proposizione precedente, tale matrice ha rango
≤ 1, quindi D′ e una distribuzione di indipendenza.
Viceversa supponiamo che D′ sia una distribuzione di indipendenza su ΠS. Allora
per la proposizione precedente, esistono vettori v = (v1, . . . , vm) e w = (w1, . . . , wn)
tali che la matrice A = (aij di D′ e definita da aij = wivj. Posto D(ti) = vi e
D(uj) = wj per ogni i, j, si ottiene la distribuzione cercata su S.
Supponiamo ora cheD′ sia probabilistica. La matrice diD′, quindi soddisfa∑
i,j aij =
1. Determiniamo come sopra due vettori v, w i cui prodotti determinano A. Le righe
di A sono date da v1w, . . . , vnw, quindi∑i,j
aij =∑i
(ai1 + · · ·+ ain) =
=∑i
(viw1 + · · ·+ viwn) =∑i
vi(∑j
wj) = (∑i
vi)(∑j
wj). (3.4.1)
Ne segue che (∑
i vi)(∑
j wj) = 1. Allora posto (∑
j wj) = q, si ottiene che q 6=0 e (
∑i vi) = 1/q. Quindi la distribuzione D definita da qv e (1/q)w su S e
probabilistica, perche:∑i
D(ti) =∑i
qvi = q(∑i
vi) = 1∑j
D(sj) = (∑j
wj)/q = 1.
Per la Proposizione 3.2.9 la connesione di indipendenza sulla distribuzione pro-
babilistica D′ determina D.
60 Cristiano Bocci, Luca Chiantini
Quindi, data una distribuzione di indipendenza D′ sulla correlazione totale di un
dipolo S, si puo identificare in modo unico una distribuzione probabilistica D su S
indotta da D′.
Esempio 3.4.5. Torniamo al sistema aleatorio dell’esempio 3.4.2. Abbiamo visto,
e commentato da un punto di vista matematico, che la distribuzione probabilisti-
ca D definisce, mediante prodotto tensoriale, una distribuzione probabilistica di
indipendenza sulla correlazione ΠS.
Se tuttavia operiamo la stessa procedura sulla distribuzione originaria D, otte-
niamo su ΠS una distribuzione ∆ che e ancora di indipendenza, ma difficilmen-
te interpretabile direttamente. Infatti il prodotto tensoriale di (DF (0), DF (1)) per
(DG(0), DG(1)) ci da la matrice:
∆ =
600 1400
2400 5600
.
Dividendo tale matrice per 100 = DF (0) + DF (1) = DG(0) + DG(1), si ottiene la
molto piu leggibile matrice: 6 14
24 56
,
che altri non e che la matrice di D′, moltiplicata per il solito 100. La leggibilita
di quest’ultima dipende dal fatto che ci da un immediato controllo della situazione:
siccome stiamo parlando del trattamento di 100 individui, 100D′ ci spiega che, nel
caso in esame, si riscontrano:
- 6 guarigioni e 14 non guarigioni fra i soggetti trattati col farmaco;
- 24 guarigioni e 56 non guarigioni fra i soggetti non trattati.
Si noti che la distribuzione originaria D su S si ottiene dalla matrice 100D′ eseguendo
la somma per righe e la somma per colonne.
In modo analogo, si osservi che la distribuzione su ΠS data da
100D′′ =
10 10
20 60
ci suggerisce una situazione in cui fra le persone trattate col farmaco si registrano 10
guarigioni e 10 non guarigioni, mentre fra i non trattati le guarigioni sono 20 e le non
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 61
guarigioni 60. Qui siamo di fronte ad una distribuzione che non e di indipendenza.
Ancora una volta tuttavia, la somma per righe e la somma per colonne della matrice
100D′′ ci riportano alla distribuzione iniziale D su S.
Vediamo di ripetere, in modo piu approfondito per i dipoli, la teoria della margi-
nalizzazione delle distribuzioni.
Definizione 3.4.6. Sia S un sistema aleatorio, avente variabili T1, . . . , Tq, con alfa-
beti α(T1), . . . , α(Tq). Sia D una distribuzione su S e D′ una distribuzione su ΠS.
Diremo che D′ e coerente con D se, detta M la connessione di marginalizzazione, si
ha M(D′) = D.
In altre parole, per ogni i = 1, . . . , q e per ogni stato ti ∈ α(Ti), si ha:∑j 6=i,tj∈α(Tj)
D′(t1, . . . , ti, . . . , tn) = D(ti)
Esempio 3.4.7. Continuiamo l’esempio 3.4.2. Calcoliamo la campionatura di D
sulle due variabili aleatorie F,G di S. Sia ha:
c(F ) = DF (0) +DF (1) = 100 c(G) = DG(0) +DG(1) = 100.
La campionatura di una variabile aleatoria determina infatti, in esempi di questo
tipo, il numero di soggetti coinvolti nella variabile aleatoria.
Si noti che D ha campionatura costante. Analogamente e facile vedere che D,
essendo probabilistica, ha anch’essa campionatura costante (uguale a 1).
Le distribuzioni D′ e D′′ sono entrambe coerenti con D. Infatti si ha:
fissato la stato 0 di F , D′(0, 0) +D′(0, 1) = 1050
= 15
= DF (0),
fissato la stato 1 di F , D′(1, 0) +D′(1, 1) = 4050
= 45
= DF (1),
fissato la stato 0 di G, D′(0, 0) +D′(0, 1) = 1550
= 310
= DG(0),
fissato la stato 1 di G, D′(0, 1) +D′(1, 1) = 3550
= 710
= DG(1)
e conto analogo vale per D′′.
Similmente, 100D′ e 100D′′ sono coerenti con D. Infatti:
fissato la stato 0 di F , 100D′(0, 0) + 100D′(0, 1) = 6 + 14 = 20 = DF (0),
fissato la stato 1 di F , 100D′(1, 0) + 100D′(1, 1) = 24 + 56 = 80 = DF (1),
fissato la stato 0 di G, 100D′(0, 0) + 100D′(0, 1) = 6 + 24 = 30 = DG(0),
fissato la stato 1 di G, 100D′(0, 1) + 100D′(1, 1) = 14 + 56 = 70 = DG(1)
62 Cristiano Bocci, Luca Chiantini
e conto analogo vale per 100D′′.
Si noti che la campionatura di 100D′ e 100D′′ sull’unica variabile aleatoria di ΠS e
100, esattamente come il valore costante della campionatura di D.
Il legame fra distribuzioni a campionatura costante e distribuzioni coerenti e dato
dalla seguente
Proposizione 3.4.8. Se D′ e una distribuzione su ΠS coerente con la distribuzione
D su S, allora D ha campionatura costante.
Dimostrazione. E’ sufficiente far vedere che la campionatura di D su una qualunque
variabile Ti e uguale alla campionatura di D′ sull’unica variabile di ΠS. Si ha:
c(Ti) =∑
ti∈α(Ti)
DTi(ti) =
=∑
ti∈α(Ti)
(∑
j 6=i,tj∈α(Tj)
D′(t1, . . . , ti, . . . , tn)) =
=∑
tj∈α(Tj)
D′(t1, . . . , tn) =∑
D′(t1, . . . , tn) (3.4.2)
dove quest’ultima somma varia fra tutti gli stati dell’unica variabile di ΠS.
Osservazione 3.4.9. Dalla dimostrazione precedente segue che se una distribuzione
D su S e probabilistica, allora ogni distribuzioneD′ su ΠS coerente conD e anch’essa
probabilistica.
Data una distribuzione D su S, introduciamo la seguente notazione:
Co(D) = { distribuzioni D′ su ΠS, coerenti con D} = M−1(D).
Quando S e un dipolo di tipo m,n, abbiamo visto che possiamo identificare le
distribuzioni su ΠS con le matrici m × n, che formano uno spazio affine Km,n di
dimensione mn. Per ogni distribuzione D su S, Co(D) e quindi un sottoinsieme di
uno spazio affine.
Teorema 3.4.10. Per ogni distribuzione D a campionatura costante su un dipolo S
di tipo m,n, Co(D) e un sottospazio affine di dimensione mn−m− n+ 1 in Km,n.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 63
Dimostrazione. Siano T, U le variabili di S, rispettivamente di stati (t1, . . . , tm),
(u1, . . . , un). Sia D′ una distribuzione su ΠS, identificata con la matrice D′ =
(aij) ∈ Rm,n. La coerenza di D′ con D e descritta, come spiegato nella propo-
sizione 2.1.9, dal fatto che la somma delle righe della matrice di D′ deve assu-
mere i valori DT (t1), . . . , DT (tm) e la somma delle colonne deve assumere i valori
DU(u1), . . . , DU(un). Quindi D′ sta in co(D) se e solo se e soluzione del sistema
lineare a n+m equazioni e nm incognite:
a11 + · · ·+ a1n = DT (t1)
. . . = . . .
am1 + · · ·+ amn = DT (t1)
a11 + · · ·+ am1 = DU(t1)
. . . = . . .
a1n + · · ·+ amn = DU(t1)
Ne segue che Co(D) e un sottospazio affine di Rm,n. La matrice H del sistema
lineare precedente e divisa in blocchi:(M1 M2 . . . Mm DT
I I . . . I DU
)dove I e la matrice identica n × n, Mi e la matrice m × n che ha la riga i-
esima composta di 1 e tutto il resto 0, mentre DT rappresenta il vettore colonna
(DT (t1), . . . , DT (tm)) e DU rappresenta il vettore colonna (DU(u1), . . . , DU(un)).
Si osservi che le m+n righe di H non sono indipendenti, perche e facile verificare che
la somma delle prime m righe e il vettore unitario (1, 1, . . . , 1), esattamente come la
somma delle ultime n righe. Quindi il rango di H e al piu n+m− 1.
In particolare, il sistema puo avere soluzione solo se i termini noti soddisfano
DT (t1) + · · ·+DT (tm) = DU(u1) + · · ·+DU(un),
cosa che equivale all’ipotesi che D abbia campionatura costante.
Per terminare la dimostrazione del teorema, basta verificare che H ha rango almeno
n+m−1, cioe contiene una sottomatrice (n+m−1)×(n+m−1) di rango massimo.
Si osservi che il blocco n× n nell’angolo in basso a sinistra e una matrice identica,
di rango n. Cancellando le ultime n righe e le prime n colonne di H, si ottiene la
matrice m × (mn − n) H ′ = (M2 M3 . . . Mn) la quale ha la prima riga nulla, ma
64 Cristiano Bocci, Luca Chiantini
rango m − 1, in quanto le sue colonne di posto 1, n + 1, 2n + 1, . . . , (m − 2)n + 1
contengono una matrice identica (m− 1)× (m− 1).
Esempio 3.4.11. Conviene convincersi del teorema precedente, verificando che H
ha rango m+ n− 1, in alcuni casi concreti.
Ad esempio, se m = 2, n = 3, la matrice H e:1 1 1 0 0 00 0 0 1 1 11 0 0 1 0 00 1 0 0 1 00 0 1 0 0 1
Invece se m = 3, n = 2, la matrice H e:
1 1 0 0 0 00 0 1 1 0 00 0 0 0 1 11 0 1 0 1 00 1 0 1 0 1
Definizione 3.4.12. In Km,n abbiamo un importante sottospazio affine U , detto
simplesso unitario fondamentale, di dimensione nm− 1, formato da tutte le matrici
la cui somma dei coefficienti e 1: la sua equazione lineare e∑
i,j aij = 1.
Tale simplesso unitario fondamentale rappresenta tutte le distribuzioni probabilisti-
che su ΠS.
Abbiamo visto che se D′ e coerente con la distribuzione D di campionatura co-
stante k, allora anche la campionatura di D′ sull’unica variabile di ΠS e k. In altri
termini la matrice (aij) che rappresenta D′ soddisfa∑
i,j aij = k. Ne segue:
Proposizione 3.4.13. Per ogni distribuzione D a campionatura costante su S, lo
spazio affine Co(D) e parallelo al simplesso unitario fondamentale U . Co(D) e
contenuto in U se e solo se D e una distribuzione probabilistica.
Vediamo infine il rapporto fra Co(D) e il cono delle distribuzioni di indipendenza.
Osservazione 3.4.14. Ricordiamo che, per la proposizione 3.2.11, per ogni distri-
buzione D a campionatura costante non nulla su S, esiste un’unica distribuzione D′
su ΠS coerente con D, che e anche una distribuzione di indipendenza.
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 65
Verifichiamo direttamente questo fatto sui dipoli.
Indichiamo al solito con T, U le variabili di S, rispettivamente di stati (t1, . . . , tm),
(u1, . . . , un). Sia k 6= 0 il valore costante della campionatura di D, cioe k =
t1 + · · · + tm = u1 + · · · + un. Indichiamo con DT , DU rispettivamente i vettori
(DT (t1), . . . , DT (tm)), (DU(u1), dots,DU(un)). Allora la matrice (1/k)DTDU (pro-
dotto righe per colonne) rappresenta una distribuzione di indipendenza D′ su ΠS
che e coerente con D. Infatti per ogni i = 1, . . . ,m si ha
∑j
D′(ti, uj) =∑j
1
kDT (ti)DU(uj) =
=1
kDT (ti)(DU(u1) + · · ·+DU(un)) = DT (ti)
e analogamente per ogni j = 1, . . . , n:
∑i
D′(ti, uj) =∑i
1
kDT (ti)DU(uj) =
=1
k(DT (t1) + · · ·+DT (tm))DU(uj) = DU(uj).
Supponiamo che esista un’altra distribuzione di indipendenza D′′ su ΠS, coerente
con D. Siano v = (v1, . . . , vm) e w = (w1, . . . , wn) vettori tali che D′′ = vw. Poniamo
p = v1 + · · ·+ vm, q = w1 + · · ·+ wn. Abbiamo pq = k in quanto, come dimostrato
nella proposizione 3.4.8, k e la somma di tutti i coefficienti della matrice di D′′.
Come abbiamo visto nella proposizione 2.1.9, per ogni i la somma della riga i-esima
della matrice di D′′ deve essere uguale a DT (ti). Poiche tale somma per ogni i e
uguale a (w1 + · · · + wn)vi = qvi, allora qv = DT . Analogamente si ha pw = DU .
Allora, posto z = q/k, si ha zv = (1/k)DT inoltre p = k/q = 1/z, quindi
D′ = (1
kDT )DU = zv
1
zw = vw = D′′.
Si osservi che se D e una distribuzione su S a campionatura costante uguale a
zero, anche in questo caso esiste un’unica distribuzione di R coerente con D: si
tratta della distribuzione nulla.
Esempio 3.4.15. Abbiamo visto che data una distribuzione su ΠS, la richiesta di
coerenza permette di determinare un’unica distribuzione su S.
66 Cristiano Bocci, Luca Chiantini
Viceversa, data una distribuzione D su S, esistono infinite distribuzioni D′ su ΠS,
coerenti con D.
Il teorema precedente ci assicura che una solo di esse e una distribuzione di indipen-
denza.
Secondo i dati dell’esempio 3.4.7, la distribuzione 6 14
24 56
e l’unica coerente con la distribuzioneDF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) =
70.
Esempio 3.4.16. Supponiamo che ad essere sottoposti a trattamento farmaceutico
sia una popolazione non tracciabile individualmente, come una coltura batterica:
sappiamo che abbiamo dato una dose di farmaco a 20 (milioni) di batteri su una
popolazione di 100 (milioni) e dopo qualche minuto registriamo cambiamenti su 30.
Ma non sappiamo di questi 30 quanti provengono da soggetti trattati e quanti no.
Possiamo concludere qualcosa sulla indipendenza del cambiamento dal trattamento?
Certamente no! Le considerazioni sopra esposte indicano che esistono molte distri-
buzioni sulla correlazione totale che sono coerenti con la distribuzione DF (0) = 20,
DF (1) = 80, DG(0) = 30, DG(1) = 70. Una di loro permette di concludere l’indi-
pendenza, le altre no. Senza ulteriori informazioni sull’esperimento, non si puo pero
decidere quale delle due eventualita si e verificata.
Esempio 3.4.17. Talvolta basta in realta poco per poter concludere sull’indipen-
denza delle variabili in un dipolo.
Consideriamo un dipolo S le cui due variabili X, Y rappresentano una posizione
di DNA in due momenti diversi, ciascuna delle due ha alfabeto {A,C,G, T}. Il
trattamento subito dalle cellule puo cambiare la sequenza del DNA, che peraltro
puo cambiare anche spontaneamente. Il problema e determinare se effettivamente il
trattamento produce effetti su questo cambiamento. La correlazione totale di S ha
una variabile con 16 stati, rappresentati su una matrice 4×4. Se pero non e possibile
tracciare esattamente l’evoluzione di ogni singola base del DNA, ma possiamo solo
rilevare la distribuzione iniziale e finale delle varie basi nella popolazione di cellule
esaminata, arrivare a conclusioni sulla dipendenza e impossibile. Mettiamo pero di
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 67
poter marcare, con una sostanza, ad esempio le molecole della base A. In questo caso
il conto di molecole A marcate ci dice quanto vale la distribuzione finale sullo stato
(A,A) della variabile di ΠS. Poiche esiste una sola distribuzione di indipendenza D′
su ΠS che e coerente con D, se il valore rilevato su (A,A) non coincide con quello
previsto da tale distribuzione, possiamo concludere la non indipendenza delle due
variabili di S.
Nell’esempio in questione, d’altra parte, qualora il valore rilevato per (A,A) fosse
quello previsto dalla distribuzione di indipendenza D′, questo ci fornirebbe solo un
indizio per concludere l’indipendenza delle variabili, in quanto sono ancora molte le
distribuzioni su ΠS coerenti con D, che assumono su (A,A) un valore fissato.
Esempio 3.4.18. Consideriamo la seguente situazione. In un circolo per il gioco del
bridge, due giocatori assidui A,B seguono questa regola: giocano alternativamente
un giorno una partita in coppia insieme, un giorno una partita in coppie contrap-
poste. Dopo 100 giorni, la situazione e la seguente: A ha vinto 30 partite e ne ha
perse 70, mentre B ne ha vinte 40 e perse 60. Si puo determinare analiticamente
l’andamento delle vittorie e sconfitte? Si puo verificare se la vittoria o la sconfitta
di ciascuno dei due e indipendente o meno dal giocare in coppia con l’altro?
Ad entrambe le domande si puo rispondere affermativamente. Abbiamo un sistema
S che e un dipolo booleano, con due variabili A,B e gli stati 0 = vittoria, 1 =
sconfitta. Abbiamo la distribuzione D su S definita da
DA(0) = 30, DA(1) = 70, DB(0) = 40, DB(1) = 60.
ChiaramenteD ha campionatura costantemente uguale a 100. Vogliamo determinare
da questi dati una distribuzione D′ su ΠS, coerente con D, che mi renda chiara tutta
la situazione. E’ chiaro pero che di distribuzioni su ΠS, coerenti con D, ne esistono
infinite. Per il teorema 3.4.10, queste distribuzioni D′ riempiono un sottospazio
affine di R2,2 avente dimensione 2 · 2− 2− 2 + 1 = 1.
Il dato in piu rispetto all’esempio 3.4.5 e dato dal sapere che i giocatori hanno
giocato alternativamente in coppia e contrapposti. Quindi delle 100 partite giocate,
50 volte erano insieme, per cui l’esito finale combinato poteva solo essere (0, 0) o
(1, 1), mentre 50 volte erano contrapposti, e il risultato poteva essere solo (0, 1) o
(1, 0). In definitiva, la matrice (aij) della distribuzione D′ che stiamo cercando deve
68 Cristiano Bocci, Luca Chiantini
soddisfare l’ulteriore condizione:
a11 + a22 = a12 + a21 (= 50).
La distribuzione di indipendenza D′′ coerente con D ha matrice data dal prodotto
tensoriale (30, 70)(40, 60), diviso per la campionatura di D, cioe 100. Si ottiene:
D′′ =
(12 1828 42
).
Tutte le altre distribuzioni coerenti con D′′ si ottengono aggiungendo a D′′ le solu-
zioni del sistema omogeneo:a11 + a12 = 0
a11 + a12 = 0
a11 + a12 = 0
a11 + a12 = 0
le quali sono tutte multiple di
(−1 11 −1
).
Pertanto una generica distribuzione coerente con D ha matrice:
D′ =
(12− z 18 + z28 + z 42− z
).
Imponendo a11 + a22 = a12 + a21, si ottiene z = 2, quindi si ha un’unica matrice
possibile:
D′ =
(10 2030 40
).
Allora giocando in coppia A e B hanno vinto 10 volte e perso 40, mentre giocando
contro A ha vinto 20 volte, B ha vinto 30 volte.
Infine, la percentuale di vittorie dipende dal giocatore A e B, perche il determinante
di D′ e −200 6= 0 (entrambi hanno vantaggio a non giocare in coppia con l’altro).
Esempio 3.4.19. Non sempre la conoscenza di un’equazione in piu permette di
conoscere tutta la distribuzione su ΠS, nemmeno nel caso booleano.
Consideriamo la seguente situazione. In una scuola ci sono due sezioni, A,B. La
scuola puo assegnare tutti gli anni delle borse di studio, in base alle proprie capacita
di bilancio. Le borse non possono mai essere piu di due. Negli anni di magra, non si
assegnano borse, mentre in altri anni puo capitare che ne venga assegnata una sola.
Si adotta un rigido criterio di ripartizione per non privilegiare una sezione rispetto
CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 69
all’altra. Se ci sono due borse da assegnare, esse vengono date una per sezione.
Negli anni in cui c’e una sola borsa, essa viene assegnata una volta a una sezione,
una volta all’altra.
Dopo 25 anni, la situazione e la seguente: la sezione A ha ottenuto una borsa 15
volte e 15 sono le volte che l’ha avuta la sezione B. Possiamo da questi dati stabilire
quanti sono stati gli anni di magra? Possiamo stabilire se il fatto che la sezione B
riceva una borsa comporta vantaggi o svantaggi per la sezione A?
Purtroppo la risposta ad entrambe le domande stavolta e negativa.
Per capire il motivo, costruiamo un sistema S che e un dipolo booleano, con due
variabili A,B e gli stati 0 = borsa, 1 = non borsa. Abbiamo la distribuzione D su
S definita da
DA(0) = 15, DA(1) = 10, DB(0) = 15, DB(1) = 10.
Vogliamo anche stavolta determinare da questi dati una distribuzione D′ su ΠS.
Il fatto in piu che conosciamo e il seguente: visto che non vi sono squilibri fra le
due sezioni (entrambe hanno ricevuto 12 borse) e chiaro che gli anni in cui e stata
assegnata una sola borsa sono in numero pari. Pertanto il numero di anni in cui la
sezione A ha ricevuto una borsa e B no e uguale al numero di anni in cui e accaduto
il viceversa. In altri termini, la matrice D′ = (aij) che stiamo cercando soddisfa
l’ulteriore equazione a12 = a21, cioe e una matrice simmetrica.
Ma questo non ci aiuta: tutte le distribuzioni coerenti con D sono simmetriche!
Infatti siccome DA(0) = DB(0) e DA(1) = DB(1), si deve avere D′ = (aij) con
a11 + a12 = a11 + a21, a21 + a22 = a12 + a22
da cui necessariamente a12 = a21.
Calcolando come nell’esempio precedente, si vede che l’unica distribuzione di indi-
pendenza coerente con D e a11 = 9, a12 = 6, a21 = 6, a22 = 4, quindi e simmetrica.
Analogamente le soluzioni del sistema lineare omogeneo dell’esempio precedente so-
no matrici simmetriche. Le distribuzioni coerenti con D sono tutte e sole quelle date
da:
D′ =
(9− z 6 + z6 + z 4− z
)e come si vede, sono tutte simmetriche.
70 Cristiano Bocci, Luca Chiantini
In termini di spazi affini, i sottospazi Co(D) sono tutti paralleli al sottospazio delle
matrici simmetriche.
Nell’esempio, la situazione totale puo, indifferentemente, essere rappresentata da
una delle tre seguenti matrici:(8 77 3
) (10 55 5
) (9 66 4
).
Si noti che nel primo caso, per la sezione B e uno svantaggio che la sezione A abbia
una borsa, perche quando A ha una borsa B ha una borsa solo in 8 casi su 15, mentre
quando A non ce l’ha, B ha la borsa in 7 casi su 10 (ovviamente 7/10 > 8/15). Per
la seconda matrice, la situazione si ribalta: per B e piu facile avere la borsa quando
anche A ce l’ha (2 su 3 contro il 50%). Infine nel terzo caso, la situazione di A e per
B assolutamente indifferente.
Ci si potrebbe a questo punto interrogare sul significato statistico di avere distri-
buzioni su un dipolo corrispondenti a matrici di rango 2,3,...
Su tali argomenti, non banali, che prefigurano il caso di variabili nascoste, ritorne-
remo nei paragrafi successivi.
Capitolo 4
Modelli statistici
4.1 Modelli
In questo capitolo introduciamo il concetto di modello, punto essenziale della in-
ferenza statistica. Il concetto viene qui rivisto mediante la nostra interpretazione
algebrica.
La definizione generale e molto semplice:
Definizione 4.1.1. Si chiama modello su un sistema aleatorio X ogni sottoinsieme
M dello spazio delle distribuzioni D(X).
Naturalmente, nella sua totale generalita, la definizione precedente e poco signi-
ficativa.
La Statistica Algebrica consiste in pratica nel focalizzare l’attenzione solo su certi
particolari tipi di modelli.
Definizione 4.1.2. Un modello M su un sistema aleatorio X e detto algebrico se,
nelle coordinate di D(X), M corrisponde all’insieme delle soluzioni di un sistema
finito di equazioni polinomiali.
Se inoltre i polinomi sono omogenei, il modello M prende il nome di omogeneo.
E’ chiaro che i modelli algebrici sono quelli suscettibili di studio con i metodi
propri dell’Algebra e della Geometria Algebrica.
Nella realta statistica, si verifica che molti modelli importanti per lo studio dei
sistemi aleatori (discreti) sono di fatto modelli algebrici.
71
72 Cristiano Bocci, Luca Chiantini
Esempio 4.1.3. Su un qualunque sistema X, le distribuzioni a campionatura co-
stante formano un esempio di modello M su un qualunque sistema aleatorio. Tale
modello e algebrico omogeneo.
Infatti, se x1, . . . , xn sono le variabili di X e identifichiamo DR(X) con Ra1×· · ·×Ran ,
con coordinate y11, . . . , y1a1 , y21, . . . , y2a2 , . . . , yn1, . . . , ynan , allora M e definito dalle
equazioni omogenee nelle yij:
y11 + · · ·+ y1a1 = y21 + · · ·+ y2a2 = · · · = yn1 + · · ·+ ynan .
Le distribuzioni probabilistiche formano un sottomodello del modello precedente, che
e ancora algebrico, ma non omogeneo!
4.2 Modelli di indipendenza
La classe piu famosa di modelli algebrici su sistemi aleatori e quella data dai
modelli di indipendenza.
Dato un sistema aleatorio X, il modello di indipendenza su X e in realta un
sottoinsieme dello spazio delle distribuzioni della correlazione totale S = ΠX, che
contiene le distribuzioni in cui le variabili di X risultano essere indipendenti fra loro.
L’esempio iniziale (ammettiamolo, abbastanza cruento) consiste nell’esempio 3.4.2,
che qui riportiamo per completezza.
Esempio 4.2.1. Prendiamo un’industria farmaceutica che voglia verificare se un
dato farmaco e efficace contro una determinata patologia.
L’industria cerchera di verificare l’efficacia arruolando un certo numero di volontari
(la popolazione) affetti dalla patologia e somministrando ad alcuni di essi il farmaco,
agli altri un placebo. Dalla registrazione del numero di guarigioni, si devono trarre
le conclusioni.
La situazione e illustrata da un sistema aleatorio booleanoX, le cui due variabili F,G
rappresentano la prima la somministrazione del farmaco, la seconda la guarigione
(al solito 1 = sı, 0 = no).
CAPITOLO 4. MODELLI STATISTICI 73
Su questo sistema introduciamo la distribuzione D (a campionatura costante) cosı
definita:
DF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) = 70.
Cio corrisponde ad un esperimento, in cui abbiamo 100 soggetti, affetti dalla patolo-
gia. A 80 di essi viene somministrato il farmaco, mente agli altri 20 e somministrato
un placebo. Al termine della osservazione, 30 soggetti sono ancora malati, mente i
rimanenti 70 sono guariti.
E’ possibile ricostruire, tramite D, informazioni sull’efficacia del farmaco? Certa-
mente no: non sappiamo se i 70 guariti provengono in percentuale maggiore dal
gruppo che ha ricevuto il farmaco.
Per avere significativita, l’esperimento deve riportare, per ciascuno dei due gruppi
(quello che ha ricevuto il farmaco e quello che ha ricevuto il placebo) il numero di
soggetti guariti.
Si deve cioe eseguire l’esperimento riportando la distribuzione D′ ∈ D(ΠX) che
assegna un numero a ciascuno degli stati della variabile FG di ΠX:
- D′(0, 0) = soggetti che non hanno ricevuto il farmaco e non sono guariti;
- D′(0, 1) = soggetti che non hanno ricevuto il farmaco e sono guariti;
- D′(1, 0) = soggetti che hanno ricevuto il farmaco ma non sono guariti;
- D′(1, 1) = soggetti che hanno ricevuto il farmaco e sono guariti.
Supponiamo di aver osservato la seguente distribuzione:
D′(0, 0) = 6, D′(0, 1) = 14, D′(1, 0) = 24, D′(1, 1) = 56.
Tradotto significa che delle 100 persone sotto osservazione, le 20 trattate con il
placebo si sono cosı distribuite: 14 sono guarite e 6 no. Invece, delle 80 trattate, 56
sono guarite e 24 no. In accordo con il dato che ci devono essere state 70 = 14 + 56
non guarigioni e 30 = 6 + 24 non guarigioni.
Come suggerito nell’Osservazione 1.2.6, rappresentiamo D′ con una matrice
D′ =
6 14
24 56
Cosa ricavare dall’esperimento? Come si vede, in entrambi i gruppi, il numero di
soggetti guariti corrisponde ai 710
del totale. Cio suggerisce una totale inefficacia del
farmaco: la guarigione G sembra indipendente dall’assunzione del farmaco F .
74 Cristiano Bocci, Luca Chiantini
Un esito dell’indagine molto piu favorevole al farmaco si otterrebbe con una distri-
buzione D′′ su ΠX rappresentata dalla matrice:
D′′ =
10 10
20 60
che porterebbe a 10 soggetti guariti e 10 non guariti fra i trattati con placebo,
mentre i trattati con farmaco registrerebbero 60 guariti contro 20 non guariti (si
noti che ancora le guarigioni totali sono esattamente 70 = 10 + 60). In questo caso
i soggetti trattati con farmaco hanno una frazione molto piu rilevante di guariti,
rispetto all’altro gruppo. Per cui, l’esperimento suggerisce che un effetto benefico
del farmaco c’e stato (cioe F ha influito su G).
Dal punto di vista matematico, la differenza sostanziale fra le due matrici, che
cambia il risultato l’influenza reciproca fra le due variabili, sta nel fatto che le righe
di D′ sono proporzionali, cioe D′ ha rango 1, mente D′′ ha rango 2.
L’esempio precedente giustifica la definizione di modello di indipendenza, per
i sistemi aleatori con due variabili (dipoli), gia di fatto introdotto nei capitoli
precedenti.
Definizione 4.2.2. Sia X un sistema aleatorio, avente due variabili aleatorie x1, x2
e sia Y = ΠX. Lo spazio delle K-distribuzioni su Y e identificato con lo spazio di
matrici Ka1,a2 , dove ai e il numero degli stati della variabile xi.
Ricordiamo che una distribuzione D ∈ DK(Y ) e una distribuzione di indipendenza
se D, come matrice, ha rango ≤ 1.
Il modello di indipendenza su X e il sottoinsieme di DK(Y ) formato dalle distribu-
zioni di rango ≤ 1.
Per estendere la definizione di indipendenza ai sistemi di piu variabili, conside-
riamo l’esempio seguente.
Esempio 4.2.3. Sia X un sistema aleatorio, avente due variabili aleatorie x1, x2
che rappresentano rispettivamente una moneta e un dado (stavolta non truccati!).
Sia Y = ΠX e sia D la R-distribuzione su Y definita dalla matrice
D =
112
112
112
112
112
112
112
112
112
112
112
112
.
CAPITOLO 4. MODELLI STATISTICI 75
E’ chiaro che D e una distribuzione di indipendenza e probabilistica. La si puo
leggere come il fatto che la probabilita che esca un numero d dal dado e contempo-
raneamente una faccia (ad esempio T ) dalla moneta, e il prodotto della probabilita
che esca d dal dado 16
per la probabilita che esca T dalla moneta 12.
Possiamo quindi utilizzare la Definizione 2.1.17 per definire il modello di indipen-
denza.
Definizione 4.2.4. Sia X un sistema aleatorio, avente variabili x1, . . . , xn e sia
Y = ΠX. Lo spazio delle K-distribuzioni su Y e identificato con lo spazio di tensori
Ka1,...,an , dove ai e il numero degli stati della variabile xi.
Una distribuzione D ∈ DK(Y ) e una distribuzione di indipendenza se D, come
tensore, ha rango 1.
Il modello di indipendenza su X e il sottoinsieme di DK(Y ) formato dalle distribu-
zioni di indipendenza (cioe dai tensori di rango 1).
Il modello di indipendenza corrisponde quindi al sottoinsieme dei tensori semplici
(o decomponibili) in uno spazio di tensori.
Abbiamo visto, nel Teorema 2.2.4 del capitolo relativo all’Algebra Tensoriale,
come puo essere descritto tale sottoinsieme. Dato che tutte le relazioni (2.2.1) cor-
rispondono all’annullarsi di una espressione polinomiale (quadratica) nei coefficienti
del tensore, si ha:
Corollario 4.2.5. Il modello di indipendenza e un modello algebrico.
Si noti che per i tensori 2 × 2 × 2, il modello di indipendenza e definito da 12
equazioni quadratiche (6 facce + 6 diagonali).
Le equazioni corrispondenti alle uguaglianze (2.2.1) descrivono un insieme di
equazioni per il modello di indipendenza. Tale insieme , in generale, non e tuttavia
minimale.
Le distribuzioni di indipendenza rappresentano situazioni in cui non vi e nes-
sun legame fra il comportamento delle varie variabili aleatorie di S, che risultano
pertanto indipendenti.
Ci sono naturalmente casi intermedi fra un legame totale e un legame nullo, come
si vede nel seguente:
76 Cristiano Bocci, Luca Chiantini
Esempio 4.2.6. Sia S un sistema aleatorio con 3 variabili. Lo spazio delle distri-
buzioni D(ΠS) e formato da tensori di dimensione 3 e tipo (d1, d2, d3). Diremo che
una distribuzione D ∈ D(ΠS) e senza correlazione tripla se esistono tre matrici
A ∈ Rd1,d2 , B ∈ Rd1,d3 , C ∈ Rd2,d3 tali che per ogni i, j, k:
D(i, j, k) = A(i, j)B(i, k)C(j, k).
Un esempio pratico, quando S e booleano, e dato dal tensore
−3 − − 4� | � |
−1 − + 6 || 0 + − 2| � | �0 − − −4
che si ottiene dalle matrici
A =
(2 11 3
)B =
(0 1−1 2
)C =
(1 −23 2
)
4.3 Connessioni e modelli parametrici
Un altro importante esempio di modelli della Statistica Algebrica e fornito dai model-
li parametrici. Sono modelli i cui elementi hanno coefficienti che variano in funzione
di certi parametri. Per poter definire i modelli parametrici, e necessario prima fissare
il concetto di connessione fra due sistemi aleatori.
Definizione 4.3.1. Siano S, T sistemi aleatori. Chiameremo K-connessione fra
S e T ogni funzione Γ fra lo spazio delle K-distribuzioni DK(S) e lo spazio delle
k-distribuzioni DK(T ).
Come al solito, quando il campo numerico K e sottinteso, lo ometteremo nella
notazione.
In fondo, quindi, le connessioni non sono altro che funzioni fra uno spazio Ks
e uno spazio Kt. Il nome che abbiamo dato, in riferimento al fatto che si tratta
di due spazi collegati a sistemi aleatori, serve a enfatizzare l’uso che faremo delle
connessioni: quello di trasportare distribuzioni dal sistema S al sistema T .
CAPITOLO 4. MODELLI STATISTICI 77
A tal proposito, se T ha n variabili aleatorie y1, . . . , yn, e l’alfabeto di ciascuna
variabile yi ha di elementi, allora DK(T ) puo essere identificato con Kd1×· · ·×Kdn .
In questo caso talvolta e utile pensare una connessione Γ come un insieme di funzioni
Γi : D(S)→ Kdi .
Se s1, . . . , sa sono tutti gli stati possibili delle variabili di S, e ti1, . . . , tidi sono gli
stati possibili della variabile yi, allora scriveremo anche:ti1 = Γi1(s1, . . . , sa)
... = ...
tidi = Γidi(s1, . . . , sa)
La definizione qui data di connessione, in linea di principio, e estremamente ge-
nerale: nessuna particolare proprieta e richiesta per la funzioni Γs; nemmeno la con-
tinuita. Naturalmente nei casi concreti studieremo in particolare delle connessioni
aventi certe proprieta ben definite.
E’ chiaro infatti che, in mancanza di qualsiasi proprieta, non si puo sperare che le
connessioni piu generali soddisfino molte proprieta.
Vediamo alcuni esempi significativi di connessioni.
Esempio 4.3.2. Sia S un sistema aleatorio e sia S ′ un suo sottosistema. Si ottiene
una connessione da S a S ′, detta proiezione semplicemente dimenticando le com-
ponenti delle distribuzioni che corrispondono a variabili aleatorie non contenute in
S ′.
Esempio 4.3.3. Sia S un sistema aleatorio e sia T = ΠS la sua correlazione totale.
Definiamo una connessione Γ : DK(S)→ DK(T ), detta connessione di indipendenza
o anche connessione di Segre, in questo modo. Se S ha variabili aleatorie x1, . . . , xn,
e ciascuna variabile xi ha ni stati, allora DK(S) e identificato con Kn1 × · · · ×Kan .
Γ manda la distribuzione
D = ((d11, . . . , d1a1), . . . , (dn1, . . . , dnan))
nel tensore (pensato come distribuzione su ΠS) D′ = Γ(D) tale che
D′i1,...,in = d1i1 · · · dnin .
E’ chiaro, per costruzione, che l’immagine della connessione e formata da tutte e
sole le distribuzioni di indipendenza su ΠS.
78 Cristiano Bocci, Luca Chiantini
Esistono chiaramente altri tipi di connessione interessanti. Un esempio pratico e
il seguente
Esempio 4.3.4. Consideriamo una popolazione di microorganismi in cui abbiamo
elementi di due tipi, A,B, che possono accoppiarsi fra loro in modo random. Al
termine degli accoppiamenti, avremo microorganismi con generi di tipo AA, BB, o
di tipo misto AB = BA.
La situazione iniziale corrisponde ad un sistema booleano con una variabile (il tipo
iniziale t0) che assume i valori A,B. Al termine abbiamo ancora un sistema con una
sola variabile (il tipo finale t) che puo assumere i 3 valori AA,AB,BB.
Se inizialmente inseriamo una distribuzione con a = D(A) elementi di tipo A e
D(b) = b elementi di tipo B, che distribuzione possiamo attenderci sulla variabile
finale t?
Un individuo ha una probabilita di incontrare un altro individuo di tipo A o B
proporzionale ad (a, b), quindi la distribuzione finale su t sara D′ data da D′(AA) =
a2, D′(AB) = 2ab, D′(BB) = b2. Questo procedimento corrisponde alla connessione
Γ : R2 → R3 Γ(a, b) = (a2, 2ab, b2).
Definizione 4.3.5. Diremo che un modello V ⊂ D(T ) e parametrico se esiste un
sistema aleatorio S e una connessione Γ fra S e T tale che V e l’immagine di Γ in
D(T ).
Un modello e parametrico polinomiale se Γ e definita da polinomi.
Un modello e torico se Γ e definita da monomi.
La motivazione della definizione di modello parametrico dovrebbe essere chiara
dalla rappresentazione di una connessione. Se s1, . . . , sa sono tutti gli stati possibili
delle variabili di S, e ti1, . . . , tidi sono gli stati possibili della variabile yi di T , allora
nel modello parametrico definito dalla connessione Γ abbiamo:ti1 = Γi1(s1, . . . , sa)
... = ...
tidi = Γidi(s1, . . . , sa)
dove i Γij rappresentano le componenti di Γ.
La definizione di modello che abbiamo dato inizialmente e talmente vasta da
risultare in generale scarsamente utilizzabile. In realta i modelli che utilizzeremo
nel seguito saranno sempre modelli algebrici o parametrici polinomiali.
CAPITOLO 4. MODELLI STATISTICI 79
Esempio 4.3.6. E’ chiaro dall’esempio 4.3.3 che il modello di indipendenza e dato
dall’immagine della connessione di indipendenza, definita dalla mappa di Segre (si
veda la Definizione 2.1.21), pertanto e un modello parametrico.
I tensori T del modello di indipendenza hanno infatti coefficienti che soddisfano
equazioni parametriche . . .
Ti1...in = v1i1v2i2 · · · vnin. . .
(4.3.1)
Dalle sue equazioni parametriche (4.3.1), si vede subito che il modello di indipen-
denza e un modello torico.
Esempio 4.3.7. Il modello dell’esempio 4.3.4 e un modello torico, in quanto definito
da equazioni: x = a2
y = 2ab
z = b2
Osservazione 4.3.8. E’ evidente, ma e bene sottolinearlo, che per le definizioni da
noi date, essere un modello algebrico o parametrico polinomiale e indipendente dai
cambiamenti di coordinate. Essere un modello torico invece puo’ dipendere dalla
scelta delle coordinate.
Definizione 4.3.9. Il termine modello lineare indica in generale un modello su S
definito in D(S) da equazioni lineari.
Ovviamente ogni modello lineare e algebrico e anche parametrico polinomiale, in
quanto si puo sempre parametrizzare uno spazio lineare.
Esempio 4.3.10. Anche se una connessione Γ, fra le K-distribuzioni di due sistemi
aleatori S e T , e definita da polinomi, il modello parametrico polinomiale che Γ
definisce non e necessariamente algebrico!.
Se infatti consideriamo K = R e due sistemi aleatori S e T aventi ciascuno una sola
variabile aleatoria con un solo stato, la connessione Γ : R→ R, Γ(s) = s2 determina
certamente un modello parametrico polinomiale (addirittura torico) che corrisponde
a R≥0 ⊂ R, quindi non puo’ essere definito in R dall’annullarsi di polinomi.
80 Cristiano Bocci, Luca Chiantini
Vedremo pero’ che allargando il campo di definizione delle distribuzioni, come
faremo nel capitolo successivo passando alle distribuzioni su C, sotto un certo punto
di vista tutti i modelli parametrici polinomiali saranno di fatto modelli algebrici.
Il seguente controesempio e una pietra miliare nello sviluppo di tanta parte della
Matematica moderna. A differenza dell’esempio 4.3.10, non potra essere recuperato
allargando il nostro campo di azione.
Esempio 4.3.11. Non tutti i modelli algebrici sono parametrici polinomiali.
Consideriamo infatti un sistema aleatorio S con una sola variabile avente tre stati.
Nello spazio delle distribuzioni D(S) = R3 consideriamo il modello algebrico V
definito dall’unica equazione x3 + y3 − z3 = 0.
Non puo’ esistere una connessione polinomiale Γ da un sistema S ′ a S la cui immagine
e V .
Infatti, supponiamo per assurdo l’esistenza di tre polinomi p, q, r, tali che x = p, y =
q, z = r. Ovviamente i tre polinomi devono soddisfare identicamente l’equazione
p3 + q3 − r3 = 0. Basta quindi verificare che non esistono tre polinomi legati
dalla precedente relazione. A patto di fissare valori per le altre variabili, possiamo
supporre che p, q, r siano polinomi in una sola variabile t. Inoltre possiamo supporre
che i tre non abbiano fattori comuni. Mettiamo che deg(p) ≥ deg(q) ≥ deg(r).
Derivando rispetto a t l’equazione:
p(t)3 + q(t)3 − r(t)3 = 0
si ottiene:
p2(t)p′(t) + q2(t)q′(t)− r2(t)r′(t) = 0.
Mettiamo insieme le due equazioni e consideriamole come un sistema lineare di
matrice: (p(t) q(t) −r(t)p′(t) q′(t) −r′(t)
).
La soluzione p2(t), q2(t), r2(t) deve essere proporzionale ai minori 2×2 della matrice,
quindi p2(t) e proporzionale a q(t)r′(t)− q′(t)r(t), eccetera. Confrontando i gradi, e
chiaro che p2(t) = l(t)(q(t)r′(t)− q′(t)r(t)), dove l(t) e un fattore di grado positivo.
Ma allora l(t) sarebbe un fattore non costante anche di q(t) e r(t), contro le ipotesi.
Naturalmente, ci sono esempi di modelli che nascono da connessioni che non
mettono in relazione un sistema e la sua correlazione totale.
CAPITOLO 4. MODELLI STATISTICI 81
Esempio 4.3.12. Mettiamo di avere una cultura batterica in cui inseriamo batteri
corrispondenti a due tipi di genoma, che chiameremo A,B.
Mettiamo che, in base al corredo genetico, i batteri posano sviluppare caratteristiche
riguardanti la grossezza della membrana e del nucleo. Per semplificare, mettiamo che
in questo esempio le cellule possano sviluppare nucleo e membrana grossi o piccoli.
In base alla teoria da verificare, le cellule di tipo A sviluppano, nella discendenza,
una membrana grossa nel 20% dei casi e sviluppano nucleo grosso nel 40% dei casi.
Le cellule di tipo B sviluppano membrana grossa nel 25% dei casi e membrana grossa
in un terzo dei casi. I due fenomeni sono indipendenti.
Costruiamo due sistemi aleatori. Il primo S, booleano, ha una sola variabile aleatoria
c (= cellula) con gli stati A,B. Il secondo T con due variabili booleane, m (=
membrana) e n (= nucleo). Indichiamo per entrambe con 0 lo stato grosso e con 1
lo stato piccolo.
La teoria induce una connessione Γ fra S e T . Nei quattro stati delle due variabili
di T , che indicheremo con x0, x1, y0, y1, tale connessione e definita da:x0 = 1
5a+ 1
4b
x1 = 45a+ 3
4b
y0 = 25a+ 1
3b
y1 = 35a+ 2
3b
dove a, b corrispondono ai due stati di S. Infatti mettiamo di introdurre 160 cellule,
di cui 100 di tipo A e 60 di tipo B. Questo porta a considerare una distribuzione D
su S data da D = (100, 60) ∈ R2.
La distribuzione che la connessione definisce su T e data da
ΓD = ((35, 125), (60, 100)) ∈ (R2)× (R2).
Questo riflette il fatto che nella popolazione cellulare (rapportata a 160) ci aspet-
tiamo di osservare alla fine 35 cellule con membrana grossa e 60 cellule con nucleo
grosso.
Se l’esperimento, piu realisticamente, riesce a cogliere la percentuale di cellule con
le due caratteristiche (mescolate), allora possiamo considerare una connessione che
lega S con la correlazione totale ΠT : indicando con x00, x01, x10, x11 variabili cor-
rispondenti ai quattro stati dell’unica variabile di ΠT , allora tale connessione Γ′ e
82 Cristiano Bocci, Luca Chiantini
definita da:
x00 =( 15a+ 1
4b)( 2
5a+ 1
3b)
(a+b)2
x01 =( 15a+ 1
4b)( 3
5a+ 2
3b)
(a+b)2
x10 =( 45a+ 3
4b)( 2
5a+ 1
3b)
(a+b)2
x11 =( 45a+ 3
4b)( 3
5a+ 2
3b)
(a+b)2
Questa connessione, a partire da D, determina su ΠT la distribuzione probabilistica
(approssimata):
Γ′D = (0, 082, 0, 137, 0, 293, 0, 488) ∈ R4.
Un esperimento sara in accordo con il modello se le percentuali osservate saranno
quelle descritte da quest’ultima connessione: 8, 2% di cellule con membrana e nucleo
grossi, ecc.
4.4 Modelli torici e matrici esponenziali
Ricordiamo che un modello torico e un modello parametrico su un sistema T corri-
spondente a una connessione da S a T che e definita mediante monomi.
Definizione 4.4.1. Sia W un modello torico definito da una connessione Γ da S a
T . Siano s1, . . . , sq tutti i possibili stati di tutte le variabili di S e siano t1, . . . , tp gli
stati di tutte le variabili di T . Abbiamo, per ogni i, ti = Γi(s1, . . . , sq), dove ciascun
Γi e un monomio nelle sj.
Chiameremo matrice esponenziale di W la matrice E = (eij), dove eij = esponente
di sj in ti.
E e quindi una matrice p× q di numeri interi non-negativi. Chiameremo complesso
associato a W il sottoinsieme di Zq formato dai punti corrispondenti alle righe di E.
Proposizione 4.4.2. Sia W un modello torico definito da una connessione mono-
miale Γ da S a T e sia E la sua matrice esponenziale.
Ogni relazione lineare∑aiRi = 0 fra le righe Ri di E corrisponde a equazioni
implicite polinomiali che sono soddisfatte da tutti i punti W .
CAPITOLO 4. MODELLI STATISTICI 83
Dimostrazione. Prendiamo una relazione∑aiRi = 0 fra le righe di E. Ad essa
associamo un’equazione polinomiale∏ai≥0
taii − z∏aj<0
tajj = 0
dove, indicando con c(Γi) il coefficiente del monomio,
z =
∏ai≥0 c(Γi)
ai∏aj<0 c(Γj)
aj
Verifichiamo che tale relazione polinomiale e soddisfatta da tutti i punti di W .
In effetti, sostituendo a t1, . . . , tp le loro espressioni in termini di Γ, rimangono due
monomi con esponenti uguali e coefficienti opposti, che si cancellano.
Si noti che le equazioni polinomiali ricavate in precedenza, sono di fatto binomiali.
Definizione 4.4.3. Le equazioni polinomiali associate a relazioni lineari fra le righe
della matrice esponenziale di un modello torico W definiscono un modello algebrico,
contenente W . Tale modello prende il nome di modello algebrico generato da W .
E’ chiaro dall’esempio 4.3.10 che il modello algebrico generato da un modello
torico W contiene sempre W , ma non sempre coincide con W . Vediamo un paio di
esempi in proposito.
Esempio 4.4.4. Riprendiamo l’esempio del modello di indipendenza su un dipolo
S.
Riprendendo la terminologia del paragrafo precedente, indichiamo con t1, . . . , tn gli
stati della prima variabile T e con u1, . . . , um gli stati della seconda variabile. Il
modello risultante e definito parametricamente su ΠS da y(ti,uj) = tiuj. Si tratta
pertanto di un modello torico, la cui matrice esponenziale e data da
R1
R2...Rm
Rm+1
Rm+2...
Rmn
=
1 0 . . . 0 1 0 . . . 01 0 . . . 0 0 1 . . . 0...
... . . ....
...... . . .
...1 0 . . . 0 0 0 . . . 10 1 . . . 0 1 0 . . . 00 1 . . . 0 0 1 . . . 0...
... . . ....
...... . . .
...0 0 . . . 1 0 0 . . . 1
84 Cristiano Bocci, Luca Chiantini
da cui si vedono tutte le relazioni fra righe della forma
Rqm+h +Rpm+k = Rqm+k +Rpm+h
che definiscono come equazioni in Rmn = Rm,n proprio i minori 2× 2 delle matrici.
Ne segue che il modello algebrico associato a questa connessione coincide con lo
spazio delle matrici di rango ≤ 1, che e proprio l’immagine della connessione di
indipendenza.
Esempio 4.4.5. Rivediamo la connessione dell’esempio 4.3.4. Essa definisce un
modello parametrico polinomiale W su R3 dato dalle equazioni parametrichex = a2
y = 2ab
z = b2
La matrice esponenziale associata e: 2 01 10 2
che, come unica relazione fra le righe, ha R1 + R3 = 2R2. Usando la formula per i
coefficienti, si ottiene l’equazione in R3:
4xz = y2.
Il modello algebrico W ′ definito da questa equazione non coincide con W . Infatti e
chiaro che i punti di W hanno x, z non-negative, mentre il punto (−1, 2,−1) sta in
W ′.
Si ha comunque W = W ′ ∩B dove B e il sottoinsieme dei punti di R3 a coordinate
non-negative. Infatti se (x, y, z) e un punto di B che soddisfa l’equazione, allora
posto a =√x, b =
√z, si ha y = ab.
Osservazione 4.4.6. Il metodo scientifico.
Dato un modello parametrico, definito da una connessione Γ da S a T , se cono-
sciamo una distribuzione ”iniziale” D su S (il dato dell’esperimento) e misuriamo la
distribuzione che ricaviamo D′ = Γ(D) su T (il risultato dell’esperimento), possiamo
facilmente dedurre se il modello ipotizzato si adatta o meno alla realta.
CAPITOLO 4. MODELLI STATISTICI 85
Se pero non abbiamo modo di conoscere la distribuzione D e possiamo solo misurare
la distribuzione D′, come accade in molti casi reali, allora sarebbe di grande aiuto
conoscere dei polinomi F che si annullano sul modello, cioe conoscere le sue equazioni
implicite. Infatti in questo caso il semplice controllo del fatto che F (D′) = 0 ci
puo fornire molte indicazioni: se la relazione non si verifica, il nostro modello e
chiaramente inadeguato; se invece si verifica, essa da un indizio a favore della validita
del modello.
Se poi sapessimo che il modello e anche algebrico e ne conoscessimo le equazioni,
il loro controllo su molte distribuzioni risultato di esperimenti, darebbe una buona
evidenza scientifica sulla validita del modello stesso.
Capitolo 5
Statistica Algebrica ProiettivaComplessa
No, non stiamo esagerando. Stiamo invece semplificando.
Molti dei fenomeni associati ai principali modelli aleatori sono infatti meglio com-
prensibili se studiati, almeno in prima battuta, dal punto di vista proiettivo e su un
campo numerico algebricamente chiuso.
Il principale legame fra la Statistica Algebrica e la Geometria Algebrica Proiettiva
e basato sulle costruzioni di questo capitolo.
5.1 Motivazioni
Abbiamo visto come molti modelli di interesse in settori della statistica siano definiti,
nello spazio delle distribuzioni di un sistema S, da equazioni algebriche (polinomiali)
di grado superiore al primo. Per comprendere tali modelli, un approccio matematico
e quello di studiare inizialmente i sottoinsiemi di uno spazio definiti dall’annullarsi
di polinomi. Cio equivale a studiare la teoria delle soluzioni di sistemi di equazioni
polinomiali di grado arbitrario, che va sotto il nome di Geometria Algebrica.
I metodi della Geometria Algebrica si fondano su varie teorie: certamente sul-
l’Algebra Lineare e Multilineare, ma anche sulla teoria degli anelli (in particolare
sulla Teoria degli Anelli di polinomi) e sull’Analisi Complessa. Ripeteremo qui solo
un accenno ai principali risultati che possono essere applicati a problemi statistici.
Bisogna tenere presente pero che la teoria in questione e piuttosto sviluppata, e ar-
87
88 Cristiano Bocci, Luca Chiantini
gomenti che non verranno qui introdotti potrebbero rivelarsi, in futuro, importanti
anche da un punto di vista statistico.
Il primo passo da compiere e quello di definire l’ambiente nel quale ci muoviamo.
Trattandosi di studiare soluzioni di equazioni non lineari, da un punto di vista
algebrico e naturale passare dal campo reale, fondamentale per le applicazioni ma
privo di alcuni elementi algebrici, al campo complesso che, essendo algebricamente
chiuso, permette una completa lettura delle soluzioni di equazioni polinomiali.
Dovremo allora ampliare, da un punto di vista teorico, lo spazio delle distribu-
zioni, per ammettere punti a coordinate complesse. Tali punti, corrispondenti a
distribuzioni con numeri complessi, ci permetteranno una caratterizzazione piu im-
mediata degli insiemi di soluzioni di sistemi algebrici. Naturalmente, al momento di
dover rileggere i risultati nella teoria statistica comune, dovremo tornare a modelli
definiti esclusivamente sul campo reale, quindi intersecare con lo spazio reale conte-
nuto in ogni spazio complesso. Tale passaggio finale, che in generale pone problemi
tecnici assolutamente non banali, potra essere pero trascurato in una prima lettura,
in cui le indicazioni che otterremo sui complessi ci saranno comunque di aiuto per
la comprensione dei fenomeni reali.
Una volta accettato questo primo ampliamento, per arrivare ad una comprensione
ancora piu approfondita dei fenomeni algebrici, e opportuno operare un secondo
passo, forse all’apparenza ancora piu impegnativo: il passaggio dagli spazi affini Cn
agli spazi proiettivi associati.
I motivi di questo secondo ampliamento si giustificano, da un punto di vista geo-
metrico, con l’esigenza di lavorare in ambienti compatti. La compattezza e infatti
una proprieta essenziale per la nostra comprensione geometrica. In termini molto
descrittivi, grazie all’introduzioni dei punti all’infinito, eviteremo di perdere le solu-
zioni quando, passando al limite, si dovessero verificare fenomeni di parallelismo o
comunque fenomeni asintotici. La possibilita di seguire i ragionamenti passando al
limite e una delle carte vincenti che la geometria in ambienti proiettivi offre, rispetto
a quella in ambienti affini.
Nauralmente, la compattificazione proiettiva, per avere un senso nei problemi
statistici, deve essere eseguita in modo opportuno, differenziando, ad esempio, il
passaggio al limite delle varie variabili aleatorie.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 89
Per chi trovasse eccessivamente macchinosa la procedura di utilizzare coordinate
omogenee per descrivere le distribuzioni su sistemi aleatori, giova forse ricordare
che un procedimento simile, in statistica, e presente da sempre: la normalizzazio-
ne. In pratica, se abbiamo una distribuzione D su una variabile aleatoria x avente
stati s1, . . . , sn, allora e naturale sostituire D con la distribuzione D ottenuta di-
videndo ciascun Dx(si) per la campionatura∑Dx(sj) (nel caso in cui x non sia
neutra rispetto a D). Si noti che, cosı facendo, nello spazio delle distribuzioni che
riguarda la variabile x, otteniamo di sostituire al punto (Dx(s1), . . . , Dx(sn)) il pun-
to (Dx(s1), . . . , Dx(sn)). Se nello spazio affine il punto risulta cambiato, nello spazio
proiettivo, in cui la n-upla rappresenta coordinate omogenee, passando alla norma-
lizzazione il punto non cambia! In effetti, ogni punto dello spazio proiettivo puo
essere sempre rappresentato da coordinate omogenee (a1, . . . , an) tali che∑aj = 1.
Da un altro punto di vista, la teoria statistica classica, nello spazio Rn delle distri-
buzioni di una variabile aleatoria x come sopra, tendeva a restringersi all’iperpiano
definito dall’equazione∑aj = 1, come abbiamo visto, ad esempio, nell’enunciato del
Teorema di Varcenko. La teoria statistica proiettiva lavora invece sulle distribuzioni
a meno di una scalatura, quindi non necessita tale restrizione, visto che dal punto
di vista proiettivo la normalizzazione, come ogni altra scalatura, risulta ininfluente.
E’ quindi abbastanza semplice convincersi che si tratta alla fine di due approcci
equivalenti. La difficolta di passare dall’uno all’altro risiede sostanzialmente nel-
l’abitudine. Il vantaggio di utilizzare il linguaggio proiettivo consiste nel poter poi
accedere direttamente alla vasta letteratura sulla Geometria Algebrica che, per molti
versi, fa principalmente uso di tale terminologia.
5.2 Spazi proiettivi, coni e varieta proiettive
Definizione 5.2.1. Sia V uno spazio vettoriale sul campo K. Definiamo su V \{0}una relazione di equivalenza ∼ che associa v, v′ se esiste α ∈ K con v′ = αv.
Chiameremo spazio proiettivo associato a V l’insieme quoziente P(V ) = V \{0}/ ∼.
Si chiama dimensione proiettiva di P(V ) il numero dim(V )− 1.
Quando V = Kn+1, allora indicheremo lo spazio proiettivo P(V ) anche con PnK(o semplicemente Pn, se K e sottinteso.
90 Cristiano Bocci, Luca Chiantini
La definizione precedente e ben nota in Geometria. I punti dello spazio proiettivo
sono classi di equivalenza della relazione∼, quindi sono composti da un vettore v 6= 0
e da tutti i suoi multipli. In questo modo, si recupera il concetto di punto all’infinito.
Un punto di PnK e quindi rappresentato da una classe di equivalenza di (n + 1)-
uple di numeri in K. Le coordinate omogenee di un punto sono un qualunque
rappresentante della classe di equivalenza. Si noti come le coordinate non siano
univocamente determinate, ma possano variare per un fattore di proporzionalita
α 6= 0.
Osservazione 5.2.2. PnK contiene vari sottoinsiemi in naturale corrispondenza biu-
nivoca con lo spazio affine Kn.
Prendiamo infatti il sottoinsieme Ui formato dai punti (a0, . . . , an) in cui la coordia-
nata i-esima ai e diversa da 0. E’ facile vedere che si tratta di una condizione ben
posta, nella classe di equivalenza. Ui ha una corrispondenza biunivoca naturale con
Kn, ottenuta come segue:
(a0, . . . , an) 7→ (a0
ai,a1
ai, . . . ,
aiai, . . . ,
anai
)
Ui prende il nome di sottospazio affine i-esimo.
Si noti che se P = (a0, . . . , an) e un punto di Ui, quindi ai 6= 0, allora esiste un unico
rappresentante di P per cui ai = 1. Il procedimento precedente identifica P ∈ Uicon il punto di Kn le cui coordinate corrispondono proprio a tale rappresentante di
P (esclusa la coordinata i-esima).
Definizione 5.2.3. Un sottoinsieme C di uno spazio vettoriale W sul campo K e
un cono se per ogni v ∈ C e per ogni a ∈ K si ha av ∈ C.
Osservazione 5.2.4. Abbiamo un ovvia suriezione p : Kn+1\{0} → PnK che manda
ogni (n+ 1)-upla nella sua classe di equivalenza. Se W ⊂ PnK , allora p−1(W )(∪{0})e un cono. Viceversa tutti i coni di Kn+1 sono controimmagini di sottoinsiemi di
PnK in p (∪{0}).
Dato un punto P ∈ PnK , chiameremo coordinate omogenee di P una qualunque
(n+ 1)-upla di elementi di K che e un rappresentante della classe di equivalenza P .
Osservazione 5.2.5. Ogni sottoinsieme di Kn definito da equazioni polinomia-
li omogenee p1, . . . , ps e un cono. Infatti, se pi e omogeneo di grado di, allora
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 91
pi(ax1, . . . , axn) = adipi(x1, . . . , xn), quindi per a 6= 0 pi(ax1, . . . , axn) = 0 se e solo
se pi(x1, . . . , xn) = 0.
La precedente osservazione puo essere invertita quando il campo K e algebrica-
mente chiuso.
Lemma 5.2.6. Sia K un campo algebricamente chiuso e sia p = p(t) un polinomio
in K[t1, . . . , tn] di grado maggiore di 0.
Allora esistono un punto x = (x1, . . . , xn) ∈ Kn tale che p(x) = 0 e un punto
y = (y1, . . . , yn) ∈ Kn tale che p(y) 6= 0.
Dimostrazione. Facciamo induzione sul numero di variabili di p, osservando che
in ogni caso la seconda affermazione discende dalla prima, prendendo come y una
soluzione di p(t) + 1 = 0.
Quando p ha una sola variabile, l’esistenza di x e ovvia per definizione di campo
algebricamente chiuso.
Supponiamo di aver dimostrato il risultato per i polinomi con meno di n variabili e
prendiamo p con n variabili. Possiamo scrivere p sviluppandolo rispetto alla prima
variabile
p = pdxd1 + pd−1x
d−11 + · · ·+ p0
dove ogni pi e un polinomio in x2, . . . , xn e pd 6= 0 per qualche d > 0 (altrimenti p
avrebbe solo n− 1 variabili). Prendiamo un punto (z2, . . . , zn) che non e soluzione
di pd(t) = 0. Tale punto esiste ovviamente se pd e costante ed esiste per induzione se
il grado di pd e positivo. Il polinomio p′ = p(t1, z2, . . . , zn) e un polinomio nella sola
variabile t1 di grado > 0. Allora esiste z1 ∈ K tale che p′(z1) = p(z1, . . . , zn) = 0.
Lemma 5.2.7. Sia K un campo algebricamente chiuso e siano p1(t), . . . , pm(t)
polinomi in K[t1, . . . , tn], non nulli.
Allora esistono infiniti punti x = (x1, . . . , xn) ∈ Kn tali che pi(x) 6= 0 per ogni i.
Dimostrazione. Facciamo induzione sul numero di variabili massimo che compaiono
nei pi. Se tutti i pi sono polinomi in K[xn], allora ciascuno di loro ha al piu di radici,
dove di e il grado di pi. Siccome K e algebricamente chiuso, e anche infinito, quindi
esistono infiniti valori di xn per cui p1(xn), . . . , pm(xn) 6= 0.
92 Cristiano Bocci, Luca Chiantini
Supponiamo l’asserto vero se tutti i polinomi stanno in K[x2, . . . , xn]; scriviamo
pi = pidixd1 + pidi−1x
d−11 + · · ·+ pi0
dove pidi 6= 0 e un polinomio in x2, . . . , xn per ogni i. Per induzione, esistono infiniti
punti (x2, . . . , xn) tali che pidi(x2, . . . , xn) 6= 0. Per ciascuno di tali punti, esistono,
sempre per induzione, infiniti valori di x1 tali che per ogni i
pidi(x2, . . . , xn)xd1 + pidi−1(x2, . . . , xn)xd−11 + · · ·+ pi0(x2, . . . , xn) 6= 0.
Proposizione 5.2.8. Sia K un campo algebricamente chiuso e sia p = p(t) un
polinomio in K[t1, . . . , tn] di grado d > 0.
Se p non e omogeneo, allora esiste un punto x = (x1, . . . , xn) ∈ Kn e un numero
α ∈ K tali che tale che p(x) = 0 ma p(αx) 6= 0.
Dimostrazione. Scriviamo p come somma di polinomi omogenei
p = pd + pd−1 + · · ·+ p0
dove ogni pi e omogeneo di grado i. Poiche p non e omogeneo, possiamo supporre
pd, pi 6= 0 per qualche i < d. Prendiamo tale i minimo.
Fissiamo y = (y1, . . . , yn) ∈ Kn in modo che pd(y) 6= 0. Allora p(ay) = adpd(y) +
ad−1pd−1(y) + · · · + aipi(y) e un polinomio di grado d nella variabile a, divisibile
per ai, p(ay) = aiq(ay) dove q(ay) e un polinomio di grado d − i > 0 in a, che ha
termine noto 6= 0. Per il Lemma 5.2.6, esistono a1, a2 ∈ K tali che q(a1y) = 0 e
q(a2y) 6= 0. Si osservi che a1 6= 0, visto che q(ay) ha termine noto non nullo. Allora
posto x = a1y e α = a2/a1, abbiamo la tesi.
La proposizione precedente ci fa capire che l’annullamento di un polinomio non
e definito su tutti i punti di una classe di equivalenza di P(Kn+1) = PnK , quando il
polinomio non e omogeneo.
Viceversa, se un polinomio e omogeneo, esso si annulla su un rappresentante di una
classe di equivalenza di PnK se e solo se si annulla su tutti i rappresentanti.
Resta pertanto giustificata la seguente
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 93
Definizione 5.2.9. Chiameremo varieta algebrica proiettiva ogni sottoinsieme di
PnK definito dall’annullarsi di una famiglia {pj} qualsiasi di polinomi omogenei.
In pratica, le varieta algebriche proiettive sono i sottoinsiemi di PnK le cui classi
di equivalenza hanno rappresentanti che sono soluzione di un sistema di equazioni
polinomiali omogenee.
Lo studio delle varieta algebriche proiettive e l’argomento proprio della Geometria
Algebrica Proiettiva. Si tratta di una teoria piuttosto avanzata, di cui richiameremo
i fatti fondamentali (alcuni senza dimostrazione) via via che si renderanno utili nella
nostra trattazione.
A tal proposito, cominciamo con una serie di osservazioni.
Osservazione 5.2.10. Se W e una varieta algebrica proiettiva, definita dall’annul-
larsi di un insieme J di polinomi omogenei, e J ′ ⊂ J e un altro insieme di polinomi
omogenei, allora la varieta W ′ definita da J ′ contiene W .
Si noti che si puo avere W = W ′ anche se J 6= J ′.
Osservazione 5.2.11. Le varieta algebriche proiettive formano un sistema di chiusi
per una topologia, detta la Topologia di Zariski.
Infatti ∅ e PnK sono entrambi varieta algebriche proiettive, in quanto definiti rispet-
tivamente dagli insiemi di polinomi omogenei {1} e {0}. Se {Wi} e un insieme di
chiusi, con Wi definito dall’annullarsi dell’insieme Ji di polinomi omogenei, allora⋂{Wi} e una varieta algebrica proiettiva, definita dall’annullarsi dei polinomi di
J =⋃{Ji}. Infine se W1,W2 sono varieta algebriche proiettive, definite dall’annul-
larsi dei polinomi di J1, J2 rispettivamente, allora W1 ∪W2 e definita dall’annullarsi
dell’insieme di polinomi omogenei
J1J2 = {pq : p ∈ J1, q ∈ J2}.
Esempio 5.2.12. Ogni singoletto rappresenta un chiuso nella topologia di Zariski,
che quindi soddisfa l’assioma di separazione T1.
Infatti se (a0, . . . , an) sono coordinate omogenee per un punto P , con ai 6= 0 allora
l’insieme di polinomi omogenei
I = {a0xi − aix0, . . . , anxi − aixn}
definisce il sottoinsieme {P} ⊂ Pn.
94 Cristiano Bocci, Luca Chiantini
Definizione 5.2.13. Sia I un ideale dell’anello R = K[x1, . . . , xn]. Diremo che I e
generato da J ⊂ R, e scriveremo I =< J >, se
I = {f1p1 + · · ·+ fmpm : f1, . . . , fm ∈ R, p1, . . . , pm ∈ J}.
Diremo che I e un ideale omogeneo se esiste un insieme di elementi omogenei J ⊂ R
tale che I =< J >.
Non e vero che un ideale omogeneo contiene solo elementi omogenei. Per esempio
in K[x] l’ideale omogeneo I =< x > contiene l’elemento non omogeneo x+x2. Vale
pero la seguente:
Proposizione 5.2.14. Un ideale I e omogeneo se e solo se comunque preso un
polinomio p ∈ I, p = pd + · · · + p0 con pi = parte omogenea di gradi i, si ha pi ∈ Iper ogni i.
Dimostrazione. Se vale la proprieta dell’enunciato, allora I e generato dai polinomi
pi che sono parti omogenee dei p ∈ I, quindi I e omogeneo.
Viceversa, sia I generato da un insieme J di polinomi omogenei e sia p ∈ I. Allora
p = f1p1 + · · ·+ fmpm, con pi ∈ J omogeneo di grado di. Indichiamo con pi la parte
omogenea di grado i in p e con fij la parte omogenea di grado i in fj (fij = 0 se
i < 0). Allora per motivi di grado si ha per ogni i
pi = f1 i−d1p1 + · · ·+ fm i−dmpm
per cui pi ∈< J >= I.
Osservazione 5.2.15. Se W e una varieta algebrica proiettiva, definita dall’annul-
larsi di un insieme J di polinomi omogenei, allora W e anche definita dall’annullarsi
di tutti i polinomi omogenei contenuti nell’ideale I =< J >.
In pratica quindi ogni varieta algebrica proiettiva e definita dall’annullarsi di tutti i
polinomi omogenei contenuto in un ideale omogeneo.
Se I e un ideale, definiamo il suo radicale√I come l’insieme
√I = {p : pm ∈ I per qualche m}.
√I e ancora un ideale e quando I e omogeneo, anche
√I e omogeneo.
La seguente proprieta (Teorema degli zeri di Hilbert) e una pietra miliare nell’uso
dei campi algebricamente chiusi in Geometria Algebrica.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 95
Teorema 5.2.16. (Nullstellensatz) Sia K un campo algebricamente chiuso. Due
ideali propri I1, I2 definiscono la stessa varieta algebrica se e solo se
√I1 =
√I2.
Dimostrazione. Una direzione discende dalla facile osservazione che per ogni ideale
omogeneo I, I e√I definiscono la stessa varieta algebrica.
L’altra direzione non e banale e richiede conoscenze sui campi algebricamente chiusi
che vanno oltre gli scopi di questa trattazione. Per essa si rimanda il lettore al testo
[ZariskiSamuel] di Algebra Commutativa.
Corollario 5.2.17. Se un insieme di polinomi p1, . . . , pk ∈ C[x0 . . . , xn] non hanno
soluzioni comuni in Cn+1, allora 1 ∈< p0, . . . , pk > .
Dimostrazione. Il radicale dell’ideale I =< p0, . . . , pk > definsce lo stesso insieme
algebrico dell’ideale generato da 1, quindi per qualche s, 1s ∈ I ma ovviamente
1s = 1.
Il Teorema degli zeri di Hilbert ha un corrispettivo omogeneo.
Se I e un ideale, definiamo il suo saturato sat(I) come l’insieme
sat(I) = {p : per ogni i = 0, . . . , n esistono si, ti > 0 tali che psixtii ∈ I}.
sat(I) e ancora un ideale e quando I e omogeneo, anche sat(I) e omogeneo.
Teorema 5.2.18. (Nullstellensatz omogeneo) Sia K un campo algebricamente
chiuso. Due ideali propri I1, I2 definiscono la stessa varieta algebrica proiettiva se e
solo se
sat(I1) = sat(I2).
Sempre nel testo [ZariskiSamuel] di Algebra Commutativa si trova la dimostra-
zione del seguente importante fatto.
Teorema 5.2.19. (Teorema della base) Sia J un ’insieme di polinomi e sia I
l’ideale generato da J . Allora esiste un sottoinsieme finito J ′ ⊂ J che genera I.
Il Teorema ci dice quindi che ogni varieta algebrica proiettiva coincide con le
soluzioni di un sistema finito di equazioni polinomiali omogenee.
Vediamo alcune conseguenze dei Teoremi precedenti.
96 Cristiano Bocci, Luca Chiantini
Definizione 5.2.20. Una varieta algebrica proiettiva e una ipersuperficie se e
definita in PnK dall’annullarsi di un singolo polinomio omogeneo p 6= 0.
Se il singolo polinomio omogeneo e primo grado, l’ipersuperficie e detta iperpiano.
Corollario 5.2.21. Ogni varieta algebrica proiettiva e intersezione di un numero
finito di ipersuperfici.
Dimostrazione. Se W e definita dall’insieme J di polinomi omogenei, sia J ′ =
{p1, . . . , pm} (pi 6= 0 per ogni i) un sottoinsieme finito in J tale che < J >=< J ′ >.
Allora W e anche la varieta algebrica definita da J ′, quindi per l’Osservazione 5.2.11
coincide con l’intersezione
W = W1 ∩ · · · ∩Wm
dove Wi e l’ipersuperficie definita da pi.
Osservazione 5.2.22. Macaulay dimostro che non esiste limite al numero di iper-
superfici necessarie a definire una varieta proiettiva. Piu precisamente, per ogni m
esiste una varieta algebrica proiettiva V di PnK (K algebricamente chiuso) che non
puo essere definita da un insieme I contenente meno di m polinomi omogenei. V
non puo quindi essere ottenuta intersecando meno di m ipersuperfici.
Una varieta definita dall’annullarsi di tanti polinomi omogenei di primo grado (e
quindi intersezione di iperpiani) e detta varieta lineare.
Le varieta lineari corrispondono ovviamente a spazi proiettivi definiti da sottospazi
vettoriali di Kn.
Corollario 5.2.23. Se K e un campo algebricamente chiuso, la topologia di Zariski
su K e irriducibile, cioe l’intersezione di due aperti non vuoti A1, A2 e sempre non
vuota. In altri termini, ogni aperto non vuoto e denso nella topologia di Zariski.
In particolare, PnK e irriducibile.
Inoltre PnK e compatto.
Dimostrazione. Sia Wi la varieta algebrica proiettiva complementare di Ai. per
ipotesi W1,W2 6= PnK . Vogliamo provare che W1 ∪W2 6= PnK . Se J1, J2 sono insiemi
finiti di polinomi omogenei, tali che Ji definisce Wi, allora J1J2 e un insieme finito di
polinomi omogenei che definisce W1 ∪W2. Per ipotesi esistono polinomi pi ∈ Ji che
sono diversi da 0. Pertanto il loro prodotto p ∈ J1J2 e diverso da 0. Per il Lemma
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 97
5.2.7 esiste quindi un punto x = (x1, . . . xn+1) ∈ Kn+1 tale che p(x) 6= 0. Se P ∈ PnKe il punto di coordinate omogenee x, allora P /∈ W1 ∪W2 e la prima affermazione e
dimostrata.
La seconda affermazione discende facilmente dalla prima.
Per la terza, sia {Wi} una famiglia di varieta algebriche proiettive tali che⋂{Wi} =
∅. Allora se Ji e un insieme di polinomi omogenei che definisce Wi, la varieta definita
da J =⋃Ji corrisponde alla varieta definita da {1}. Sia I l’ideale generato da J .
Allora, per il Nullstellensatz,√I coincide con il radicale dell’ideale generato da 1
(che per inciso e tutto K[x1, . . . , xn+1]), quindi 1 ∈ √I. Questo significa che 1m ∈ Iper qualche m, quindi necessariamente 1 ∈ I. Allora esistono p1, . . . , ps ∈ J e
polinomi f1, . . . , fs tali che
1 = f1p1 + . . . fsps.
Posto pi ∈ Jai , si ha allora che 1 appartiene all’ideale generato da Ja1 ∪ · · · ∪ Jas .Pertanto i punti della varieta Wa1 ∩ · · · ∩Was devono annullare anche il polinomio
1: impossibile!
Ne segue che Wa1 ∩ · · · ∩Was = ∅, quindi PnK e compatto.
Poiche i chiusi di uno spazio compatto sono compatti, ne segue che tutte le varieta
proiettive sono compatte.
5.3 Prodotti di spazi proiettivi
Tutte le definizioni date precedentemente si possono estendere al caso di un prodotto
di spazi proiettivi.
Consideriamo in questa sezione un prodotto Pm1 × · · · × Pmn . Un punto di tale
prodotto corrisponde ad una classe di equivalenza in cui gli elementi sono n-uple di
(mi + 1)-uple
((a10, . . . , aim1), . . . , (an0, . . . , anmn))
in cui per ogni i si ha (ai1, . . . , aimi) 6= 0. Due tali elementi
a = ((a10, . . . , a1m1), . . . , (an0, . . . , anmn))
b = ((b10, . . . , bim1), . . . , bn0, . . . , bnmn))
98 Cristiano Bocci, Luca Chiantini
stanno nella stessa classe se esistono costanti k1, . . . kn ∈ K (necessariamente tutte
non nulle) tali che per ogni i, j bij = kiaij.
La prima osservazione fondamentale e che un prodotto di spazi proiettivi non e
esso stesso uno spazio proiettivo.
Ad esempio, il prodotto P1 × P1 non e isomorfo a P2.
Osservazione 5.3.1. P1×P1 puo essere visto come l’insieme della coppie ((x0, x1), (y0, y1)) ∈(k2)2, in cui uno almeno fra x0, x1 e uno almeno fra y0, y1 sono diversi da 0, inoltre
due coppie ((x0, x1), (y0, y1)) e ((x′0, x′1), (y′0, y
′1)) sono identificate se esistono a, b ∈ C
tali che (x′0, x′1) = a(x0, x1) e (y′0, y
′1) = b(y0, y1).
Se consideriamo il sottoinsieme U00 di P1 × P1 formato da tutte le coppie per cui
x0 6= 0 e y0 6= 0, otteniamo una identificazione di U00 con K2, mandando P ∈ U00
nel punto (x1, y1) ∈ K2 che si ottiene prendendo il rappresentante di P in cui
x0 = y0 = 1. In questo senso, P1 × P1 contiene un sottoinsieme identificabile con il
sottoinsieme U0 ⊂ P2. Ma la compattificazione e differente: per P2, si aggiungono
a U0 i punti del tipo (0, x1, x2), in pratica i punti ottenuti mandando all’infinito la
seconda e la terza coordinata contemporaneamente (ma conservando memoria del
loro rapporto) mentre in P1 × P1 si aggiungono i punti del tipo ((0, x1), (y0, y1)) e
((x0, x1), (0, y1)), cioe si mandano all’infinito la x1 o la y1, in generale separatamente.
Detto ancora in altro modo, P2 fuori di U0 = K2 consiste in una retta, mentre
P1 × P1 fuori di U00 = K2 consiste in due rette (incidenti in ((0, 1), (0, 1))).
Definiamo le sottovarieta di un prodotto di spazi proiettivi, mediante l’annulla-
mento di polinomi multiomogenei.
Definizione 5.3.2. Diremo che un polinomio nelle variabili t10, . . . , t1m1 , . . . , tn0, . . . , tnmn
e multiomogeneo di multigrado d1, . . . , dn se e omogeneo di grado di rispetto alle
variabili ti0, . . . , timi , per ogni i.
E’ facile verificare che se p e un polinomio multiomogeneo di multigrado d1, . . . , dn,
dati due elementi a, b come sopra, che stanno nella stessa classe di equivalenza di
un punto del prodotto Pm1 × · · · × Pmn , allora p(b) = kd11 · · · kdnn p(a) e quindi
p(b) = 0 se e solo se p(a) = 0.
Resta pertanto definito il concetto di annullamento di un polinomio multiomoge-
neo su un punto di Pm1 × · · · × Pmn . E’ allora possibile la seguente
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 99
Definizione 5.3.3. Chiameremo varieta algebrica multiproiettiva ogni sottoinsie-
me di Pm1 × · · · × Pmn definito dall’annullarsi di una famiglia {pi} di polinomi
multiomogenei.
In pratica, le varieta algebriche multiproiettive sono le soluzioni di un sistema di
equazioni polinomiali multiomogenee.
Esempio 5.3.4. Dato un prodotto Pm1 × · · · × Pmn su K, sia, per ogni i, Yi una
varieta proiettiva in Pmi . Allora il prodotto Y1×· · ·×Yn e una varieta multiproiettiva.
Infatti, se per ogni i (fi1, . . . fisi) e un insieme di polinomi omogenei in ti0, . . . , tini che
definiscono Yi, allora il prodotto Y1×· · ·×Yn e definito dai polinomi multiomogenei
ottenuti eseguendo tutti i prodotti
fiiif2i2 · · · fnin .
Esempio 5.3.5. Ci sono esempi di varieta in Pm1 × · · · × Pmn che non sono il
prodotto di varieta sui singoli fattori.
Un esempio e dato dalla varieta proiettiva W definita da x1y2−x2y1 = 0 nel prodotto
P1 × P1.
Si noti infatti che la varieta non coincide con P1 × P1, mentre per ogni punto P di
coordinate (x1, x2) in P1 il punto (P, P ) sta in W , quindi W non e il prodotto di
due sottoinsiemi propri di P1.
Tutte le definizioni date per le varieta proiettive possono essere ripetuti per le
varieta multiproiettive. Le proprieta principali restano inalterate. ne mettiamo qui
di seguito un breve compendio.
Osservazione 5.3.6. Se W e una varieta algebrica multiproiettiva, definita dall’an-
nullarsi di un insieme J di polinomi multiomogenei, e J ′ ⊂ J e un altro insieme di
polinomi multiomogenei, allora la varieta W ′ definita da J ′ contiene W .
Si noti che si puo avere W = W ′ anche se J 6= J ′.
Osservazione 5.3.7. Le varieta algebriche multiproiettive in un prodotto X =
Pa1×· · ·×Pan formano un sistema di chiusi per una topologia, detta ancora Topologia
di Zariski su X.
X e irriducibile e compatto, in tale topologia. Le varieta multiproiettive sono
pertanto anch’esse compatte.
100 Cristiano Bocci, Luca Chiantini
Osservazione 5.3.8. Se W e una varieta algebrica multiproiettiva, definita dal-
l’annullarsi di un insieme J di polinomi multiomogenei, allora W e anche definita
dall’annullarsi dei polinomi multiomogenei contenuti negli ideali I =< J > e√I.
Teorema 5.3.9. (Nullstellensatz multiomogeneo) Sia K un campo algebrica-
mente chiuso. Due ideali I1, I2 multiomogenei definiscono la stessa varieta algebrica
proiettiva se e solo se√I1 =
√I2.
Il Teorema 5.2.19 ci dice che ogni varieta algebrica multiproiettiva coincide con
le soluzioni di un sistema finito di equazioni polinomiali multiomogenee.
Definizione 5.3.10. Una varieta algebrica proiettiva e una ipersuperficie se e
definita in PnK dall’annullarsi di un singolo polinomio multiomogeneo p 6= 0.
Corollario 5.3.11. Ogni varieta algebrica multiproiettiva e intersezione di un nu-
mero finito di ipersuperfici.
5.4 Modelli algebrici proiettivi
Cosa ha a che fare tutto questo con la Statistica Algebrica?
Quando consideriamo una distribuzione D ∈ D(x), dove X e un sistema alea-
torio, stiamo in pratica registrando una serie di dati raccolti. Ai fini della nostra
interpretazione dei dati, e solitamente ininfluente (entro certi limiti ragionevoli) la
campionatura delle variabili.
Se ad esempio stiamo valutando l’efficacia di un farmaco, somministrare la medicina
a 100 malati ed avere 50 guariti, ci da la stessa informazione che somministrare la
medicina a 120 malati e registrare 60 guariti.
Nella nostra terminologia, normalmente una distribuzione ci da la stessa informa-
zione, sul fenomeno che vogliamo analizzare, di ogni sua scalatura.
In Statistica classica il problema viene risolto scegliendo fra tutte le diverse sca-
lature di una distribuzione, la distribuzione probabilistica associata, introdotta nella
Definizione 1.3.2. Tale distribuzione e univocamente determinata, a partire da una
distribuzione D, ma solo quando tutte le variabili hanno campionatura diversa da 0
in D.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA101
Le distribuzioni probabilistiche associate stanno tutte in un sottospazio lineare di
D(X) = Ks1×· · ·×Ksn , definito dai vettori v = ((a11, . . . , a1s1), . . . , (an1, . . . , ansn))
che soddisfano le equazioni
a11 + · · ·+ a1s1 = · · · = an1 + · · ·+ ansn = 1.
Nella nostra impostazione, invece, preferiremo considerare lo spazio (multi)proiettivo
delle distribuzioni.
Definizione 5.4.1. Dato un sistema aleatorio X, con variabili x1, . . . , xn, chiame-
remo spazio (multi)proiettivo delle distribuzioni lo spazio multiproiettivo
P(D(X)) = Pa1 × · · · × Pan
quando xi ha un numero di stati pari a ai + 1 (si noti l’aumento di 1!).
Gli elementi di P(D(X)) sono pertanto identificabili come classi di equivalenza,
ciascuna contenente una distribuzione D e tutte le sue scalature.
In tal modo raccorderemo piu facilmente la Geometria Algebrica (Proiettiva) con
lo studio di modelli statistici significativi.
In questa nuova visione, solo i modelli statistici indipendenti dalle scalature (mul-
ticoni) nello spazio delle distribuzioni hanno significato. Poiche la stragrande mag-
gioranza dei modelli importanti (se correttamente interpretati) sono indipendenti
dalla scalatura, quindi sono coni, la profondita di indagine della nostra teoria non
ne risentira.
Definizione 5.4.2. Chiameremo K-modello proiettivo su X ogni sottoinsieme di
P(DK(X)).
Chiameremo K-modello algebrico proiettivo su X ogni modello corrispondente ad
una sottovarieta (multi)proiettiva, definito quindi dall’annullarsi di polinomi mul-
tiomogenei.
C’e una naturale mappa suriettiva da D(X) \ 0 su P(D(X)). La controimmagine
di un modello proiettivo su X in tale proiezione e quindi un modello M su X, che
ha la seguente proprieta:
se D ∈M e D′ e una scalatura di D, con D′ 6= O, allora D′ ∈M .
102 Cristiano Bocci, Luca Chiantini
Esempio 5.4.3. Il modello di indipendenza puo essere pensato come un modello
algebrico proiettivo, perche definito da tante equazioni multiomogenee (si veda il
Teorema 2.2.4).
Un modello lineare e algebrico proiettivo quando i polinomi lineari che lo definiscono
sono privi di termine noto.
Esempio 5.4.4. I modelli algebrici proiettivi su un sistema aleatorio X avente una
sola variabile (come una correlazione totale) sono strettamente legati ai coni dello
spazio vettoriale D(X).
Ogni cono definisce un modello proiettivo su X.
Viceversa, dato un modello proiettivo su X, la sua controimmagine nella proiezione
D(X)→ P(X) e un cono.
Esempio 5.4.5. Nel caso di un sistema formato da due dadi ordinari, lo spazio
proiettivo delle distribuzioni e P5 × P5. Lo spazio proiettivo delle distribuzioni di
ΠS e invece un P35, corrispondente allo spazio proiettivo delle matrici 5× 5.
Se S e un sistema aleatorio formato da un dado e da una moneta, lo spazio proiettivo
delle distribuzioni e P5 × P1. In questo caso si osservi che l’unica variabile della
correlazione totale ΠS ha 10 stati, quindi in questo caso lo spazio proiettivo delle
distribuzioni di ΠS e P9.
Se un sistema aleatorio S e formato da n variabili booleane, allora il suo spazio pro-
iettivo delle distribuzioni e un prodotto di n copie di P1, mentre lo spazio proiettivo
delle distribuzioni di ΠS e P2n−1.
5.5 Mappe proiettive
Per determinare l’analogo dei modelli parametrici nel caso proiettivo, abbiamo
bisogno di definire il concetto di mappa tra varieta proiettive.
Definizione 5.5.1. Sia W ⊂ Pa1 × · · · × Pan una varieta algebrica multiproiettiva.
Diremo che una funzione
f : W → PN
e una mappa proiettiva se e definita da polinomi multiomogenei, tutti dello stesso
multigrado. Cioe esistono polinomi multiomogeei p0, . . . , pN , dello stesso multigrado,
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA103
tali che ogni punto P ∈ W , P di coordinate ((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)), il
punto f(P ) ha coordinate
(p0((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)), . . .
. . . pN((x01, . . . , x0a1), . . . , (xn1, . . . , xnan))).
Una mappa proiettiva pertanto puo anche essere descritta da equazioni parame-
triche: y0 = p0((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)
... = ...
yN = pN((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)
Definizione 5.5.2. Sia W una varieta algebrica multiproiettiva. Diremo che una
funzione
f : W → Pb1 × · · · × Pbm
e una mappa proiettiva se tutte le sue componenti lo sono.
Esempio 5.5.3. Un esempio di mappa proiettiva si ottiene considerando spazi pro-
iettivi Pn e Pm, con n ≤ m e la mappa f : Pn → Pm, f = (p0(x0, . . . , xn), . . . , pm(x0, . . . , xn))
dove
pi(x0, . . . , xn) =
{xi se i ≤ n
0 altrimenti.
Questo esempio e il prototipo di una serie di applicazioni (iniettive) di spazi proiet-
tivi, dette immersioni lineari.
L’immagine della mappa precedente e infatti essa stessa uno spazio proiettivo,
equivalente a un sottospazio lineare.
Attenzione che la mappa non esiste quando n > m!
Infatti in questo caso il punto P ∈ Pn di coordinate (0, . . . , 0, 1) avrebbe per
immagine il punto di coordinate (0, . . . , 0), ma non esiste un tale punto in Pm.
L’osservazione precedente ci fa capire che non basta prendere dei polinomi mul-
tiomogenei per definire una mappa proiettiva.
In altri termini, m + 1 polinomi multiomogenei p0, . . . , pm in n + 1 incognite non
necessariamente definiscono una mappa proiettiva f : X ⊂ Pn → Pm. E’ anche
necessario che in ogni punto P ∈ X, ci sia almeno un polinomio pi tale che pi(P ) 6= 0.
Il viceversa e contenuto nella seguente osservazione generale.
104 Cristiano Bocci, Luca Chiantini
Proposizione 5.5.4. Polinomi multiomogenei
p10, . . . , p1,b1 , . . . , pm,0, . . . , pm,bm
nelle variabili x10, . . . , x1a1 , . . . , xn0, . . . , xnan definiscono una mappa proiettiva da
una varieta X ⊂ Pa1 × · · · × Pan a uno spazio Pb1 × · · · × Pbm quando per ogni
i = 1, . . . ,m:
- tutti i polinomi pij hanno grado fissato dj in ciascun gruppo di variabili xj0, . . . , xjaj ;
- per ogni P ∈ X e per ogni i esiste almeno un indice j tale che pij(P ) 6= 0.
Osservazione 5.5.5. Sia W ⊂ PnK una varieta algebrica proiettiva. Chiameremo
mappa lineare f : W → PmK una mappa proiettiva in cui tutti i polinomi sono
omogenei di grado uno in ogni variabile.
Una tale mappa e quindi associata ad una applicazione lineare F fra spazi vettoriali
Kn+1 → Km+1. Viceversa, ogni applicazione lineare F : Kn+1 → Km+1 definisce
una mappa lineare W → PmK , quando W non interseca il sottospazio proiettivo
associato a Ker(F ).
Presi polinomi p0, . . . , pm lineari omogenei nelle variabili x0, . . . , xn, questi defini-
scono una sottovarieta proiettiva lineare L di Pn (che puo essere vuota, se n ≤m.
I polinomi definiscono anche una mappa lineare f : X ⊂ Pn → Pm quando su ogni
punto di X uno almeno di loro non si annulla. Cio equivale a chiedere che L∩X = ∅.
Un esempio di mappe lineari e dato dalle immersioni lineari Pn → Pm, m ≥ n,
definite nell’esempio 5.5.3.
Esempio 5.5.6. Consideriamo un’applicazione lineare Kn+1 → Km+1 indotta dai
polinomi p0, . . . , pm e suriettiva.
Se m < n, tale applicazione non puo definire una mappa proiettiva f : Pn → Pm.
Infatti sicuramente esiste almeno un vettore non nullo Kn+1 in cui tutti i polinomi
pi si annullano.
Se pero indichiamo con L il sottospazio proiettivo di Pn definito da p0 = · · · = pm = 0
e X e una sottovarieta di Pn che non interseca L, allora i polinomi pi definiscono
una mappa proiettiva f : X → Pm.
Tale mappa, che schiaccia X in uno spazio proiettivo di dimensione inferiore, e detta
proiezione di X da L.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA105
Esempio 5.5.7. Cambiamenti di coordinate. Nello spazio Kn+1 sia B una
base, definita dai vettori v0, . . . , vn. Se B′ = {w0, . . . , wn} e un’altra base di Kn, la
funzione lineare F : Kn+1 → Kn+1 che manda ogni vi in wi definisce una mappa
proiettiva lineare f : PnK → PnK che prende il nome di cambiamento proiettivo di
coordinate.
Se B e la base canonica e wi = (ui0, . . . , uin, allora f e definita dai polinomi lineari
p0, . . . , pn, dove pi = ui0x0 + · · ·+ uin. E’ chiaro che non puo esistere un punto che
annulla tutti i pi, altrimenti tale punto avrebbe tutte le coordinate nulle rispetto
alla base B′, quindi corrisponderebbe al vettore nullo.
La mappa f e ovviamente invertibile.
Si noti che i cambiamenti di coordinate possono essere visti come casi limite
di immersioni lineari, o anche di proiezioni, quando le dimensioni dei due spazi
coincidono.
Per i nostri studi, grande importanza hanno le versioni proiettive delle mappe di
Segre e di Veronese, che sono state introdotte rispettivamente in 2.1.21 e 2.3.14.
Esempio 5.5.8. Abbiamo visto in precedenza che un prodotto di spazi proiettivi
non e in generale uguale ad uno spazio proiettivo.
Vediamo che, tuttavia, ogni prodotto di spazi proiettivi puo essere immerso in uno
spazio proiettivo singolo.
Consideriamo il prodotto Pa1 × · · · × Pan . Posto N = −1 + Π(a1 + 1), definiamo
un’immersione f prendendo tutti i polinomi multiomogenei (di multigrado (1, . . . , 1))
della forma x1i1x2i2 · · · xnin con ij = 0, . . . , aj (e facile verificare che tali polinomi
sono esattamente Π(a1 + 1)). Preso un ordinamento di tali polinomi, definiamo
un’immersione ponendo, per ogni punto P del prodotto, di coordinate zij,
f(P ) = (p0(zij), . . . , pN(zij))
dove pi e l’i-esimo polinomio nell’ordinamento scelto.
In pratica, si manda P nella N -upla di tutti i prodotti fra n delle sue coordinate,
ottenuti prendendo un fattore fra le prime d1, un fattore fra le seconde d2, eccetera.
Si noti che in ogni punto di X esiste almeno una coordinata su ciascun fattore Pdi
che e non-nulla, quindi f(P ) e ben definito perche, in ogni componente, almeno uno
dei prodotti e diverso da 0.
106 Cristiano Bocci, Luca Chiantini
Queste mappe, che sono tutte equivalenti a meno di un riordinamento delle coordi-
nate di PN , sono ben note in Geometria e corrispondono alla maniera piu semplice
per immergere un prodotto di spazi proiettivi in un unico spazio proiettivo.
Esse prendono il nome di mappe di Segre e le loro immagini prendono il nome di
varieta di Segre.
E’ facile vedere che le mappe di Segre soddisfano in effetti le condizioni della
Proposizione 5.5.4.
Verifichiamo che ogni mappa di Segre e effettivamente iniettiva.
Supponiamo di avere due punti P,Q, di coordinate rispettivamente zij, wij, tali che
f(P ) = f(Q). Supponendo per semplicita zj0 6= 0 per ogni j, si noti che si deve
avere, per ogni k
z10 · · · zjk · · · z0n = αj w10 · · ·wjk · · ·wn0
con αj costante che dipende solo da j. Pertanto le coordinate zj0, . . . , zj,aj so-
no proporzionali alle coordinate wj0, . . . , wj,aj . Dato che questo vale per ogni j,
l’assertoP = Q e dimostrato.
Esempio 5.5.9. Fissati interi positivi n, d, posto
M = −1 +
(n+ d
d
),
consideriamo le mappe iniettiva f : Pn → PM cosı definite: prendiamo tutti i mono-
mi monici di grado d nelle variabili x0, . . . , xn (e facile verificare che tali monomi sono
esattamente M + 1) e ordiniamoli, ottenendo una (M + 1)-upla (p0, . . . , pM). Defi-
niamo un’immersione ponendo, per ogni punto di Pn avente coordinate z0, . . . , zn,
f(P ) = (p0(z0, . . . , zn), dots, pM(z0, . . . , zn)
dove pi e l’i-esimo polinomio nell’ordinamento scelto. Questa mappe, che sono tutte
equivalenti a meno di un riordinamento delle coordinate di PM , prendono il nome
di mappe di Veronese e le loro immagini prendono il nome di varieta di Veronese di
grado d.
E’ facile vedere che le mappe di Veronese soddisfano in effetti le condizioni della
Proposizione 5.5.4.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA107
Osservazione 5.5.10. Consideriamo il prodotto Pn × · · · × Pn (d copie). Dentro il
prodotto abbiamo una varieta proiettiva ∆, detta diagonale, definita da tutti i punti
della forma (P, . . . , P ). Chiaramente ∆ puo essere identificato con un’immersione
lineare di Pn in Pn × · · · × Pn.
Una mappa di Segre f manda ∆ in un sottoinsieme di PN , dove N = −1 + (n +
1)s. Si consideri un sottoinsieme J dei polinomi della forma x1i1x2i2 · · ·xnin , in cui
non vi siano due elementi x1i1x2i2 · · ·xnin e x1j1x2j2 · · ·xnjn che differiscono per una
permutazione sui secondi indici, e sia J massimale.
E’ facile verificare che J e formato da M = −1+(n+dd
)elementi. Se L e il sottospazio
in cui tali polinomi si annullano, si puo verificare facilmente che L ∩ f(∆) = ∅.Componendo f|∆ con la proiezione PN \L→ PM , si ottiene esattamente una mappa
di Veronese di grado d, Pn → PM .
Esempio 5.5.11. Nel caso di Y = P1 × P1 × P1, una mappa di Segre Y → P7 si
ottiene prendendo i polinomi
p0 = x00x10x20, p1 = x00x10x21, p2 = x00x11x20, p3 = x00x11x21,
p4 = x01x10x20, p5 = x01x10x21, p6 = x01x11x20, p7 = x01x11x21.
Scartando i polinomi p2, p4, p5, p6, che presentano permutazioni, e restringendo al-
la diagonale, si ottiene la mappa di Veronese P1 → P3 che manda (a0, a1) in
(a30, a
20a1, a0a
21, a
31).
Siamo ora in grado di definire i modelli parametrici proiettivi su X.
Definizione 5.5.12. Se X, Y sono sistemi aleatori, chiameremo connessione pro-
iettiva ogni mappa proiettiva Γ : P(D(Y )) → P(D(X)). Si noti in particolare che
se Γ e una connessione proiettiva, allora l’immagine di ogni scalatura D′ di una
distribuzione D e una scalatura di γ(D).
Diremo che un modello M e parametrico proiettivo se e immagine in P(D(X)) di
una connessione proiettiva Γ.
Molti modelli parametrici interessanti hanno un corrispettivo parametrico proiet-
tivo.
Esempio 5.5.13. Il modello di indipendenza e parametrico proiettivo. Sia infatti
X un sistema aleatorio con variabili x1, . . . , xn e sia ai + 1 il numero di stati della
108 Cristiano Bocci, Luca Chiantini
variabile xi. Allora la correlazione totale ΠX ha un’unica variabile, con Π(ai + 1)
stati.
Il modello di indipendenza du X corrisponde alla mappa
P(D(X)) = Pa1 × · · · × Pan → P(D(ΠX)) = PM
(M = −1 + Π(ai + 1)) definita da:... = ...
ti1,...,in = a1i1a2i2 · · · anin... = ...
Dove abbiamo numerato le coordinate di un elemento di P(D(ΠX)), come al solito,
identificando tale elemento come tensore.
E’ evidente dalla stessa definizione che,il modello di indipendenza corrisponde ad
una varieta di Segre (si confronti con l’Esempio 2.1.21).
Si noti che in generale M e molto grande rispeto agli ai. Ad esempio se n = 3 e
a1 = a2 = a3 = 3, allora M = 63 e il modello corrisponde alla varieta di Segre di
P3 × P3 × P3 immersa in P63.
Ricordiamo che il prodotto P1 × P1 non e isomorfo a P2. Tramite la mappa di
Segre, P1 × P1 corrisponde ad una superficie in P3, immagine data da
((x1, x2), (y1, y2)) 7→ (x1y1, x1y2, x2y1, x2y2)
cioe, in termini parametrici: a11 = x1y1
a12 = x1y2
a21 = x2y1
a22 = x2y2
Tale superficie, che rappresenta il modello di indipendenza (proiettivo) di un sistema
booleano con due variabili, e definita da un’unica equazione (determinante della
corrispondente matrice 2× 2) a11a22 = a12a21.
Esempio 5.5.14. Su un sistema aleatorio con tre variabili x1, x2, x3, il modello sen-
za correlazione tripla dell’esempio 4.2.6 non e, strettamente parlando, parametrico
proiettivo.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA109
Infatti, riprendendo la terminologia dell’esempio, tale modello e definito conside-
rando il modello S ′ dato dall’unione delle correlazioni totali dei tre sottosistemi
di S che si ottengono cancellando a turno una delle variabili. S ′ ha anch’esso tre
variabili, corrispondenti a (x1, x2), (x1, x3), (x2, x3). I modelli senza correlazione tri-
pla si ottengono dalla connessione da S ′ a S, che manda ogni terna di matrici
(A,B,C) ∈ D(S ′), con A ∈ Cd1,d2 , B ∈ Cd1,d3 , C ∈ Cd2,d3 , nel tensore D ∈ D(ΠS)
definito da
D(i, j, k) = A(i, j)B(i, k)C(j, k).
E’ chiaro che tutte le componenti di questa mappa sono multiomogenee dello stesso
grado, ma non definiscono una mappa
Pd1d2−1 × Pd1d3−1 × Pd2d3−1 → Pd1d2d3−1.
perche se A,B,C sono tutte e tre non nulle, non e tuttavia detto che la loro immagine
sia non nulla.
Se restringiamo tale modello ad un opportuno modello X di distribuzioni su S ′,
otteniamo tuttavia una ben definita mappa da una varieta X ⊂ P3 × P3 × P3 in P7.
Tale mappa si ottiene componendo la mappa di Segre P3 × P3 × P3 → P63 con una
opportuna proiezione P63 → P7.
Il fatto che l’immagine di una mappa di Segre possa essere interpretata come
modello (proiettivo) di indipendenza di un sistema aleatorio, tramite il Teorema
2.2.4, ci garantisce che le varieta di Segre sono tutte varieta proiettive.
Vediamo come, in tutta generalita, esistano modelli parametrici proiettivi che
non sono modelli algebrici.
Esempio 5.5.15. Consideriamo due sistemi aleatori X, X ′, ciascuno con una sola
variabile booleana.
Identifichiamo entrambi gli spazi di distribuzione proiettivi su R P(D(X)) e P(D(X ′))
con P1R. Si puo definire una connessione proiettiva Γ : P(D(X)) → P(D(X ′))
ponendo Γ(x0, x1) = (x20, x
21).
E’ facile verificare che l’immagine W di Γ contiene infiniti punti di P1R. Ma non
tutti: infatti il punto di coordinate omogenee (1,−1) non sta nell’immagine.
D’altra parte, ogni varieta proiettiva in P1R, essendo definita dall’annullarsi di un
polinomio omogeneo in due variabili, o coincide con P1R, oppure puo contenere solo
un numero finito di punti.
110 Cristiano Bocci, Luca Chiantini
Quindi W non puo essere una varieta proiettiva.
Esempio 5.5.16. Riprendiamo la situazione rappresentata nell’Esempio 4.3.4.
Ricordiamo che la situazione iniziale corrisponde ad un sistema booleano X con una
variabile (di stati A,B) mentre la situazione finale corrispondeva a un sistema X ′
con una sola variabile che poteva assumere i 3 valori AA,AB,BB.
La connessione Γ, definita da Γ(a, b) = (a2, 2ab, b2), e chiaramente una mappa pro-
iettiva fra P(D(X)) = P1R e P(D(X ′)) = P2
R. L’immagine corrisponde al sottoinsieme
W ⊂ P2R definito dai punti che soddisfano l’equazione y2 = 4xz.
Si osservi pero che non tutte le coordinate omogenee di tali punti possono essere
ottenute nella mappa. Infatti il punto P di coordinate (1, 2, 1) sta nell’immagine (si
ottiene per (a, b) = (1, 1), ma nessuna coppia di R2 da (−1,−2,−1), che pure sono
coordinate di P .
5.6 Il Lemma di Chow
Il problema degli esempi precedenti consiste nel fatto che lavoriamo su un campo Rche non e algebricamente chiuso.
Quando lavoriamo su un campo K algebricamente chiuso, come C, i problemi
precedenti scompaiono. Cio e provato dal Teorema detto Lemma di Chow.
Dimostreremo tale Lemma, di importanza fondamentale in Statistica Algebrica,
con una serie di proposizioni.
Proposizione 5.6.1. Ogni mappa proiettiva e continua, nella topologia di Zariski.
Dimostrazione. Basta osservare che la controimmagine della varieta definita da I =
{Fi} ⊂ K[y0, . . . , ym] e la varieta definita dai polinomi
{Fi(p0, . . . , pm)} ⊂ C[x0, . . . , xn].
Dalla Proposizione precedente, segue che le mappe di Segre e di Veronese, cosı
come le immersioni lineari, sono funzioni continue, nelle topologie di Zariski.
E’ anche chiaro che i cambiamenti di coordinate sono omeomorfismi di PnK in se.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA111
Dato un prodotto di spazi proiettivi Pd1 × · · · × Pdn , per ogni indice i possiamo
considerare la proiezione sul fattore i-esimo
πi : Pd1 × · · · × Pdn → Pdi .
Dalla proposizione precedente otteniamo che, in particolare, tutte le proiezioni su
fattori sono continue.
Osservazione 5.6.2. Ricordiamo che ogni applicazione lineare F : Ka → Kb, il cui
nucleo ha dimensione h ≥ 0, puo essere espressa come combinazione F = F2oF1 di
applicazioni lineari, dove
� F1 e una suriezione Ka → Ka−h e
� F2 e un’immersione Ka−h → Kb.
Proposizione 5.6.3. Ogni mappa f da una varieta proiettiva X ⊂ Pn in Pm puo
essere scritta come combinazione f = ιoπoν dove
� ι e una immersione proietiva;
� π e una proiezione;
� ν e una mappa di Veronese.
Dimostrazione. Sia f una tale mappa, definita dai polinomi omogenei di grado d
q0, . . . , qm. Cio significa che f manda un punto P = (a0, . . . , an) ∈ X nel punto di
Pm definito da
f(P ) = (q0(a0, . . . , an), . . . , qm(a0, . . . , an)).
Se indichiamo con p0, . . . , pM i monomi monici di grado d nelle variabili x0, . . . , xn,
avremo per ogni i
qi =∑j
uijpj
con uij elementi di K.
Sia F : Kn+1 → Km+1 l’applicazione lineare definita dalla matrice U = (uij). Scri-
viamo, come indicato nella osservazione precedente, F = F2oF1 dove F2 e iniettiva
e F1 e suriettiva. Allora F1 induce una proiezione π : X → Pn−h, dove h e la dimen-
sione del nucleo di F . Infatti nessun punto P = (a0, . . . , an) ∈ X puo appartenere
112 Cristiano Bocci, Luca Chiantini
al nucleo di F , perche in tal caso f(P ) corrisponderebbe alla (m + 1)-upla nulla.
Inolte F2 induce un’immersione ι : Pn−h → Pm.
Non resta che verificare che f = ιoπoν, dove ν e la mappa di Veronese di grado d
su Pn.
Per ogni P = (a0, . . . , an) ∈ X, si ha che ιoπoν(P ) e uguale a F (ν(a0, . . . , an)), ma
ν(a0, . . . , an) = (p0(a0, . . . , an), . . . , pM((a0, . . . , an))
e quindi
ιoπoν(P ) = (∑j
u0jpj(a0, . . . , an), . . . ,∑m
umjpj(a0, . . . , an))
che e proprio uguale a (q0(a0, . . . , an), . . . , qm(a0, . . . , an)) = f(P ).
Possiamo generalizzare la proposizione precedente (ma complicando un po’ la
notazione!) al caso di varieta multiproiettive, utilizzando la mappa di Segre.
Proposizione 5.6.4. Ogni mappa multiproiettiva f da una varieta multiproiettiva
X ⊂ Pm0 ×Pmn in Pm puo essere scritta come combinazione f = ιoπoσo(ν0, . . . , νn)
dove
� ι e una immersione proietiva (eventualmente un cambiamento di coordinate);
� π e una proiezione (eventualmente un cambiamento di coordinate);
� σ e una mappa di Segre Pm0×Pmn → PM , con M = −1+(M0−1) · · · (Mn−1)
e Mi = −1 +(ni+didi
)per ogni i ;
� ciascun νi e una mappa di Veronese.
Dimostrazione. Sia f una tale mappa, definita dai polinomi multiomogenei q0, . . . , qm
di multigrado d1, . . . , dn. Cio significa che f manda un punto
P = ((a00, . . . , a0m0 , . . . , (an0, . . . , anmn)) ∈ X
nel punto (q0(P ), . . . , qm(P )) di Pm.
Indichiamo con pi0, . . . , piMii monomi monici di grado di nelle variabili xi0, . . . , ximi
e indichiamo con rj1,...,jn i prodotti di monomi
rj0,...,jn = p0j0 · · · pnjn
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA113
avremo per ogni i
qi =∑j0,...,jn
ui,(j0,...,jn)rj0,...,jn
con ui,(j0,...,jn) elementi di K.
Sia F : KM+1 → Km+1 l’applicazione lineare definita dalla matrice U = (ui,(j0,...,jn)).
Scriviamo F = F2oF1 dove F2 e iniettiva e F1 e suriettiva. Siano π e ι la proiezione e
l’immersione indotte rispettivamente da F2 e F1. Si puo verificare come sopra che su
X la mappa f coincide con ιoπoσo(ν0, . . . , νn), dove ciascun νi e la mappa di Veronese
di grado di, νi : Pmi → PM−i e σ e la mappa di Segre PM0 × · · · × PMn → PM .
Riassumendo quindi, se
f : X ⊂ Pm0 × · · · × Pmn → PM0 × · · · × PMk
e una mappa multiproiettiva, allora ogni componente fi di f puo essere scritta come
combinazione fi = ιioπioσio(νi0, . . . , νin come indicato nella proposizione precedente.
Per provare che i modelli parametrici proiettivi su un campo K algebricamen-
te chiuso sono modelli algebrici, e quindi sufficiente provare che le immersioni, le
proiezioni, le mappe di Segre e quelle di Veronese sono chiuse, nella topologia di
Zariski.
Proposizione 5.6.5. Ogni proiezione π : X ⊂ Pn → Pm, m ≤ n, e chiusa (nella
topologia di Zariski), cioe manda chiusi in chiusi.
In particolare, l’immagine di una proiezione e una varieta algebrica.
Dimostrazione. A patto di combinare π on un cambiamento di coordinate, che e un
omeomorfismo e quindi e chiuso, possiamo supporre che π sia definita da
π(y0, . . . , yn) = (y0, . . . , ym)
(proiezione sulle prime m+ 1 coordinate).
Sia W ⊂ X un chiuso nella topologia di Zariski di Pn, definito dall’ideale omo-
geneo radicale I ⊂ K[y0, . . . , yn]. Identificando K[y0, . . . , ym] come sottoanello di
K[y0, . . . , yn], poniamo J = I ∩ K[y0, . . . , ym]. Allora J e un ideale (omogeneo)
di K[y0, . . . , ym] che definisce esattamente l’insieme f(W ). Infatti e chiaro che se
114 Cristiano Bocci, Luca Chiantini
P ∈ Pn sta in W , allora P annulla tutti i polinomi di I, quindi f(P ), le cui coordinate
coincidono con le prime m+1 coordinate di P , annulla tutti i polinomi di J . Vicever-
sa sia Q = (q0, . . . , qm) ∈ Pm un punto le cui coordinate annullano tutti i polinomi di
J . Facciamo vedere che esistono qm+1, . . . , qn tali che P = (q0, . . . , qm, qm+1, . . . , qn)
sta in W , il che vuol dire che Q = f(P ) ∈ f(W ).
Consideriamo l’insieme di polinomi U = {p(q0, . . . , qm, ym+1, . . . , yn) : p ∈ I} ottenu-
to sostituendo parzialmente le coordinate di Q nei polinomi di I. U puo essere consi-
derato come un ideale di K[ym+1, . . . , yn]. Se dimostriamo che esistono qm+1, . . . , qn,
che annullano tutti gli elementi di U , abbiamo trovato cio che cercavamo.
Verifichiamo la precedente affermazione. Innanzitutto operiamo per induzione sul
numero di variabili, cosı da poter supporre n = m + 1. Analogamente possiamo
intersecare X con gli spazi lineari di equazioni qix0 − q0xi, i ≥ 2, in modo da
ricondurci a m = 1. Infine, operando un cambio di variabili, possiamo supporre
(q0, q1) = (1, 0). In definitiva, ci siamo ricondotti a verificare che, nelle nostre
ipotesi, se (1, 0) annulla tutti i polinomi omogenei di J ∩ K[y0, y1], allora esiste
q2 ∈ K tale che la terna (1, 0, q2) annulla tutti i polinomi di J .
Ragioniamo per assurdo. Se q2 non c’e, per il Nullstellensatz esiste f ∈ J tale che
f(1, 0, y2) non si annulla. Quindi f e della forma
f = f0 + y2f1 + · · ·+ ya2fa
dove f0, . . . , fa sono polinomi di K[y0, y1] tali che f1(1, 0) = · · · = fa(1, 0) = 0
mentre f0(1, 0) 6= 0, quindi f0 = yd0 + y1f′0, per qualche d > 0 e f ′0 ∈ K[y0, y1].
D’altra parte, ricordiamo che X, quindi anche W , non devono intersecare il luogo
definito da y0, . . . , ym = 0, altrimenti la proiezione di X non e definita. Cio vuol
dire, nel nostro caso, che J contiene un polinomio g del tipo g = yb0 +y0h0 +y1h1 con
b ≥ 1. Allora, con l’algoritmo mcm di Gauss nell’anello dei polinomi (K[y0, y1])[y2],
applicato a f, g si arriva a determinare un elemento p ∈ J della forma p = ye0 + y1p′0
con e > 0 e p′0 ∈ K[y0, y1]. Tale p sta in J ∩ K[y0, y1] e non si annulla in (1, 0),
assurdo.
Proposizione 5.6.6. Ogni immersione ι : X ⊂ Pn → Pm, m ≥ n, e chiusa (nella
topologia di Zariski), cioe manda chiusi in chiusi.
In particolare, l’immagine di una immersione e una varieta algebrica.
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA115
Dimostrazione. A patto di combinare ι on un cambiamento di coordinate, possiamo
supporre che essa sia definita da
π(y0, . . . , yn) = (y0, . . . , yn, 0, . . . , 0)
(immersione sulle prime m+ 1 coordinate).
Sia W ⊂ X un chiuso nella topologia di Zariski di Pn, definito dall’ideale omo-
geneo radicale I ⊂ K[y0, . . . , yn]. Identificando K[y0, . . . , yn] come sottoanello di
K[y0, . . . , ym], poniamo J = I+ < yn+1, . . . , ym >. Allora J e un ideale (omo-
geneo) di K[y0, . . . , ym] che definisce esattamente l’insieme f(W ). Infatti e chiaro
che se P ∈ Pn sta in W , allora f(P ) annulla tutti i polinomi di I e i polinomi
yn+1, . . . , ym. Viceversa sia Q = (q0, . . . , qm) ∈ Pm un punto le cui coordinate an-
nullano tutti i polinomi di J . Allora qn+1 = · · · = qm = 0, quindi Q = f(P ) con
P = (q0, . . . , qn) ∈ Pn. Inoltre P deve annullare chiaramente tutti i polinomi di
J ∩ K[y0, . . . , yn] ⊃ I, quindi P ∈ W e Q ∈ f(W ). Facciamo vedere che esistono
qm+1, . . . , qn tali che P = (q0, . . . , qm, qm+1, . . . , qn) sta in W , il che vuol dire che
Q = f(P ) ∈ f(W ).
Le due proposizioni precedenti sistemano le mappe proiettive lineari, nel senso
che provano che tutte le mappe proiettive lineari sono chiuse.
Passiamo ora alla mappa di Veronese.
Proposizione 5.6.7. Le mappe di Veronese sono chiuse.
Dimostrazione. Sia ν : Pn → PN , con N = −1 +(n+dd
), la mappa di Verone-
se di grado d su Pn. Determiniamo equazioni algebriche per V = ν(Pn). Siano
M0, . . . ,MN i monomi monici di grado d nelle variabili y0, . . . , yn, numerati secondo
un ordinamento scelto. Fissiamo monomi
Ma = ys00 · · · ysnn Mb = yt00 · · · ytnn
e individuiamo due indici si, tj > 0. Fissiamo q ≤ min{si, tj} e scriviamo:
Mc = ys00 · · · ysi−qi · · · ysj+qj · · · ysnn
Md = yt00 · · · yti+qi · · · ytj−qj · · · ytnn .
116 Cristiano Bocci, Luca Chiantini
E’ chiaro che MaMb = McMd e questo porta ad una equazione quadrica omogenea
xaxb − xcxd = 0 che e soddisfatta da tutti i punti dell’immagine V di ν.
Viceversa, l’insieme di tali equazioni algebriche definisce esattamente l’immagine,
cioe ogni punto che soddisfa tutte le equazioni sopra costruite deve stare in ν(Pn).
Infatti assumiamo M0 = yd0 e sia Q un punto che soddisfa tutte le equazioni sopra
costruite, Q = (q0, . . . , qm). Supponiamo per cominciare che q0 6= 0. Dato che i
tratta di coordinate proiettive, si puo assumere allora q0 = 1. Se assumiamo Mi =
ydi , i = 1, . . . , n poniamo pi = una radice d-esima di qi (si noti che esiste perche il
campo e algebricamente chiuso). Otteniamo allora un punto P = (1, k1, . . . , kn) ∈ Pn
che ha per immagine esattamente Q.
Per provare l’affermazione, procediamo per induzione sul numero di incognite n.
Se n = 0, l’affermazione e banale. Per n generico sia Mk il monomio ye00 · · · yenn e
proviamo che qk e proprio uguale a pe00 · · · penn . In effetti, si ha MkM0 = MrMs dove
Mr = yd−e10 ye11 Ms = yd−e2−···−en0 ye22 · · · yenn
(vale anche se n = 1: basta porre y2 = · · · = yn = 0) e poiche il numero di
variabili di Mr,Ms e minore di n, si ha per induzione qr = pd−e10 pe11 = pe11 e anche
qs = pe22 · · · pnen quindi
qk = MkM0(Q) = MrMs(Q) = pe00 · · · penn .
Qualora fosse q0 = 0, si cambia semplicamente y0 con un’alta incognita. Se infatti
qi = 0 per i = 0, . . . , n il ragionamento fatto sopra portebbe all’assurdo che qj = 0
per ogni j.
Rimane solo da provare che
Teorema 5.6.8. Ogni mappa di Segre e chiusa.
Dimostrazione. Per induzione, eseguendo un prodotto alla volta, sara sufficiente
dimostrare l’enunciato nel caso del prodotto di due spazi proiettivi, Pp × Pq.Cominciamo col provare che l’immagine di una mappa di Segre σ : Pp×Pq → PN =
Ps, s = pq + p+ q − 1 e chiusa.
Indichiamo con x0, . . . , xp le coordinate in Pp, con y0, . . . , yq le coordinate in Pq e
con z00, . . . , zpq le coordinate nello spazio Ps. Per ogni scelta di indici 0 ≤ i, j ≤ p,
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA117
0 ≤ k,m ≤ q, e chiaro che tutti i punti dell’immagine della mappa di Segre soddisfa-
no l’equazione quadratica omogenea zikzjm−zimzjk = 0. Verifichiamo che, viceversa,
se un punto Q ∈ PN soddisfa tutte queste equazioni quadratiche, allora Q sta nel-
l’immagine della mappa di Segre. Sia Q = (q00, . . . , qpq) e supponiamo per semplicita
che q00 6= 0, cosicche si possa assumere q00 = 1 (un conto analogo vale sostituendo
q00 con qualsivoglia coordinata non nulla). Poniamo P = (1, q10, . . . , qp0) ∈ Pp e
P ′ = (1, q01, . . . q0q) ∈ Pq e verifichiamo che σ(P ′, P ) = Q. In effetti, le equazioni di
cui sopra garantiscono che qij = qijq00 e uguale a q0jqi,0, come avviene per σ(P ′, P ).
Prendiamo ora chiusi W di Pp e U di Pq, definiti rispettivamente dall’annullarsi
dei polinomi di I ⊂ C[x0, . . . , xp] e J ⊂ C[y0 . . . , yq]. Verifichiamo che l’immagine
f(W × U) nella mappa di Segre e chiusa.
Sia φj : C[x0, . . . , xp] → C[z00, . . . , zpq] la mappa definita mandando un polinomio
omogeneo g(x0, . . . , xn) di grado d in
φ(g) = ydj g(x0, . . . , xp) = g(x0yj, . . . , xnyj) = g(z0j, . . . , znj).
In modo analogo definiamo ψj : C[y0, . . . , yq] ∈ C[z00, . . . , zpq]. Allora posto
I ⊕ I ′ =⋃
φj(I) ∪⋃
ψj(I′)
si ha che f(W ×U) e definito da I ⊕ I ′ e dalle equazioni zikzjm− zimzjk = 0. Infatti
ogni punto dell’immagine di X × Y soddisfa tutti i polinomi zikzjm − zimzjk = 0 e
tutti i polinomi di I ⊕ I ′. Viceversa, se un punto R di Ps soddisfa tutte le equazioni
zikzjm − zimzjk = 0, allora per quanto detto sopra R e uguale a σ(P, P ′) con P =
(a0, . . . , ap) ∈ Pp e P ′ = (b0, . . . , bq) ∈ Pq. Sia j un indice tale che bj 6= 0 per ogni
g ∈ I di grado d il punto (P, P ′) deve annullare gydj ∈ I⊕I ′, quindi P deve annullare
g. Ne segue che P ∈ W . In modo analogo si prova che P ′ ∈ U .
Corollario 5.6.9. (Lemma di Chow) Tutte le mappe multiproiettive sono chiuse.
Dal Lemma di Chow, segue immediatamente:
Teorema 5.6.10. Ogni modello parametrico proiettivo e un modello algebrico pro-
iettivo.
Questo teorema generalizza la situazione gia vista per il modello di indipendenza
e spiega come ogni modello parametrico proiettivo puo essere definito sulla base di
equazioni polinomiali omogenee.
118 Cristiano Bocci, Luca Chiantini
La dimostrazione del Lemma di Chow e dei teoremi che lo precedono spiega anche
in teoria come si possono trovare le equazioni omogenee di un modello parametrico
proiettivo.
Come ci si rende conto facilmente, non e affatto agevole seguire le indicazioni per
trovare un insieme effettivo di equazioni, anche con l’ausilio dei mezzi di calcolo.
L’uso delle basi di Groebner, che vedremo in un capitolo successivo, permette di
ottimizzare questo procedimento.
Dovrebbe invece essere evidente il vantaggio di presentare un modello con delle
equazioni omogenee (equazioni implicite), invece che tramite equazioni parametri-
che, nella pratica quotidiana della statistica algebrica: per testare se un dato feno-
meno, cioe una data distribuzione, rientra nel modello immaginato da una teoria
(in parole piu fantasiose: se un esperimento conferma o meno una teoria), una volta
note le equazioni implicite, e sufficiente verificare se la distribuzione le soddisfa. Un
conto simile e elementare, per ogni singola equazione. Nella pratica quotidiana, la
complicazione deriva solo dal fatto che normalmente ogni modello e descritto da un
numero astronomico di equazioni, a volte con coefficienti approssimati. I problemi
pero possono essere gestiti con metodi di ricerca a campione e controllo degli errori.
Dovendo invece mostrare che una data distribuzione appartiene ad un modello di
cui si conoscono solo equazioni parametriche, il problema si sposta nel mostrare
l’esistenza di parametri per cui la funzione di parametrizzazione restituisce la distri-
buzione di partenza. Un problema di esistenza simile e estremamante difficile da
controllare, anche in presenza di poche, precise equazioni. Figuriamoci quando le
equazioni sono migliaia, a coefficienti approssimati!
5.7 Teoria della dimensione
Uno dei concetti di base per le varieta proiettive (o multiproiettive), che purtroppo
e anche uno dei piu difficili da introdurre in modo elementare, e il concetto di
dimensione.
Per quanto possa sembrare strano, non e facile definire in modo rigoroso la dimen-
sione di una varieta proiettiva. Vi sono molteplici definizioni, che pero fanno ricorso
a concetti non banali di Algebra, quali il grado di trascendenza di una estensione di
campi, o la dimensione di un modulo graduato. Alternativamente vi sono definizioni
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA119
che fanno ricorso a concetti non banali di Geometria Proiettiva, quali la definizione
di elemento generico di una famiglia.
Alla base di tutto, c’e la definizione di componente irriducibile di una varieta.
Siccome il concetto di dimensione e rilevante per alcune applicazioni della Geo-
metria Algebrica alla Statistica, in questo capitolo ripercorriamo brevemente alcuni
concetti chiave nello studio della dimensione di una varieta, senza approfondire le
dimostrazioni, per le quali rimandiamo a testi base di Algebra Commutativa quali
[ZariskiSamuel] o [AtiyahMacdonald].
Definizione 5.7.1. Data una varieta algebrica proiettiva X ⊂ Pn, definita dal-
l’ideale omogeneo radicale saturato I, chiameremo anello delle coordinate di X il
quoziente
A(X) = C[x0, . . . , xn]/I.
A e un anello graduato che contiene C.
Esempio 5.7.2. I punti diX, in cui ad esempio x0 6= 0, corrispondono ad ideali della
forma 〈x1 − a1x0, . . . , xn − anx0〉 che contengono I. Tali ideali sono omogenei, non
massimali in C[x0, . . . , xn] in quanto sono contenuti nell’ideale massimale generato
da x0, . . . , xn. Prendono il nome di ideali omogenei submassimali. Poiche contengono
I, possono essere facilmente identificati con ideali dell’anello delle coordinate A(X).
Definizione 5.7.3. Uno spazio topologico X e irriducible se comunque presi due
aperti non vuoti di X, la loro intersezione e non vuota.
Tutti gli spazi proiettivi, con la loro topologia di Zariski, sono irriducibili.
Una conica semplicemente degenere nel piano (con la topologia di Zariski) e invece
riducibile.
Proposizione 5.7.4. La varieta algebrica proiettiva X ⊂ Pn, definita dall’ideale
omogeneo radicale saturato I, e irriducibile se e solo se I e un ideale primo.
Dal Teorema di decomposizione primaria degli ideali (vedi [AtiyahMacdonald],
cap.4) si ottiene:
Proposizione 5.7.5. Ogni varieta algebrica proiettiva X ⊂ Pn, e decomponibile
nell’unione finita di varieta algebriche irriducibili. Gli elementi di una decomposi-
zione si chiamano componenti irriducibili di X. Se consideriamo solo le componenti
120 Cristiano Bocci, Luca Chiantini
massimali, rispetto all’inclusione, la decomposizione di X in componenti irriducibili
e unica.
Esempio 5.7.6. Una conica semplicemente degenere nel piano puo essere decom-
posta nell’unione delle sue due rette componenti, che sono varieta irriducibili.
Si osservi che, a differenza delle componenti connesse,le componenti irriducibili
di una varieta possono avere intersezione non vuota.
Definizione 5.7.7. Sia X ⊂ Pn una varieta algebrica proiettiva irriducibile. L’i-
deale I che definisce X e pertanto primo, quindi l’anello delle coordinate A =
C[x0, . . . , xn]/I e un dominio di integrita.
Il campo dei quozienti K(A) di A e un’estensione di C.
Chiameremo dimensione di X il grado di trascendenza dell’estensione K(A)/C,
meno 1 (perche trattasi comunque di dimensione proiettiva).
Se X non e irriducibile, chiamremo dimensione di X la dimensione massima delle
sue componenti irriducibili.
Esempio 5.7.8. Lo spazio proiettivo Pn ha per anello delle coordinate C[x0, . . . , xn]
e il grado di trascendenza del campo dei quozienti e n+1. Pertanto Pn ha dimensione
n (e ci sarebbe stato da stupirsi del contrario!).
Esempio 5.7.9. Sia φ : Pm → Pn un’immersione proiettiva. Allora l’immagine X
di φ e una varieta algebrica irriducibile di dimensione m.
Infatti l’irriducibilita segue dal fatto che Pm e irriducibile. Se consideriamo X come
definita da equazioni parametriche associate a φx0 = p0(y0, . . . , ym)
. . . . . .
xn = pn(y0, . . . , ym)
allora si verifica che la funzione che manda xi in pi descrive un isomorfismo fra il
campo dei quozienti dell’anello delle coordinate di X e C[y0, . . . , ym].
Esempio 5.7.10. Se X ′ ⊂ X sono due varieta irriducibili, allora A(X ′) e un
quoziente di A(X), quindi dim(X ′) ≤ dim(X).
In realta, l’irriducibilita di X fa sı che l’uguaglianza fra le dimensioni implichi X =
X ′ (vedi [AtiyahMacdonald], XXX).
CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA121
Esempio 5.7.11. L’esempio precedente si puo estendere per provare che data un’im-
mersione proiettiva φ : Pm1 × · · · × Pms → Pn, l’immagine X di φ e una varieta
algebrica irriducibile di dimensione (m1 + · · ·+ms).
Corollario 5.7.12. La dimensione della varieta di Veronese di Pn in PN , di qual-
sisasi grado d, e n.
La dimensione della varieta di Segre data sdall’immersione di Segre di Pm1×· · ·×Pms
in PN e (m1 + · · ·+ms).
Corollario 5.7.13. Data una varieta multiproiettiva X ⊂ Pm1 × · · · × Pms, di
dimensione ν, la sua immagine in una immersione φ di Pm1 × · · · × Pms in PN , ha
ancora dimensione ν, in quanto, quando X e irriducibile, i campi dei quozienti degli
anelli delle coordinate di X e della sua immagine coincidono.
Cio in particolare e vero quando φ e un’immersione di Segre o di Veronese.
Nel seguito, applicheremo lo studio della dimensione a modelli che provengono
da funzioni polinomiali. A tal proposito risulta fondamentale il seguente principio.
Teorema 5.7.14. Sia φ una mappa definita dall’annullarsi di polinomi, da un aperto
Y ⊂ Pm (nella topologia di Zariski) in Pn. Sia X ⊂ Pm una varieta algebrica di
dimensione s. Sia X ′ la chiusura, nella topologia di Zariski di Pn, dell’immagine
φ(X ∩ Y ). Allora dim(X ′) ≤ dim(X).
Dimostrazione. Ci possiamo limitare al caso in cui X,X ′ sono entrambe irriducibili.
La mappa φ corrisponde alla scelta di equazioni parametrichey0 = φ0(x0, . . . , xm)
. . . . . .
yn = φn(x0, . . . , xm)
dove i φi sono polinomi che si annullano mai contemporaneamente in un punto di Y .
Tale mappa definisce un omomorfismo di anelli A(X ′)→ A(X) ottenuto mandando
appunto ciascun yi in φ(x0, . . . , xn). Tale mappa induce un omomorfismo sui campi
dei quozionti K(X ′)→ K(X), che e ovviamente suriettivo.
Un enunciato analogo vale nel caso multiproiettivo:
.
Esistono altre caratterizzazioni della dimensione di una varieta.
122 Cristiano Bocci, Luca Chiantini
Proposizione 5.7.15. Data una varieta proiettiva irriducibile X e un suo punto
P , associato all’ideale omogeneo mP = 〈x1 − a1x0, . . . , xn − anx0〉, (dove quindi
si suppone che la coordinata x0 del punto P sia non nulla), consideriamo l’anel-
lo A(X)P = (1/x0)(A(X)), che e un sottoanello del campo dei quozienti di X,
contenete A(X).
L’ideale mP e ancora primo in A(X)P . Si verifica che mP/m2P (in A(X)P ) e uno
spazio vettoriale di dimensione finita su C.
Lo spazio mP/m2P e deto spazio tangente di Zariski di X in P e la dimensione di
tale spazio vettoriale si chiama dimensione di immersione di X in P . Tale spazio
non dipende, a meno di isomorfismi, dalla scelta di una coordinata non nulla di P .
Se X e irriducibile, esiste un aperto di X nella topologia di Zariski formato di punti
P tali che la dimensione di immersione di X in P coincide con la dimensione di X.
I punti per cui la dimensione di immersione non e uguale alla dimensione di X si
chiamano punti singolari di X.
Esempio 5.7.16. Consideriamo la curva X definita dall’equazione x21x0 − x3
2 = 0
nel piano proiettivo P2.
Il campo dei quozienti dell’anello delle coordinate di X e un’estensione algebrica di
C(x0, x1), quindi ha grado di trascendenza 2 su C. Pertanto, come era facilmente
prevedibile, dim(X) = 1.
Consideriamo il punto P = (0, 1, 0) ∈ X. L’ideale submassimale di P e mP generato
da x0, x2 (e difatti x1x2 ∈ mP ). Consideriamo l’anello A(X)P = (1/x1)(A(X)). In
tale anello, x0 = (1/x21)(x3
2), quindi x0 ∈ m2P . Allora mP/m
2P e generato dal solo
elemento x2, quindi ha dimensione 1, come spazio vettoriale su C.
Se invece prendiamo il punto Q = (1, 0, 0), si ha A(X)Q = (1/x0)(A(X)). In tale
anello, non si ha x1 ∈ m2Q (mentre invece x2
1 = (1/x0)(x32) ∈ m3
Q, ma cio non ci
interessa). Anzi x1, x2 sono linearmente indipendenti in mQ/m2Q. Allora Q e un
punto singolare di X.
Altre caratterizzazioni della dimensione possono essere trovate nel capitolo delle
basi di Groebner.
Capitolo 6
Indipendenza condizionata
Un caso intermedio fra l’indipendenza totale e situazioni generiche di dipendenza
delle variabili aleatorie riguarda le cosiddette indipendenze condizionate.
Per comprendere il significato pratico dei modelli di indipendenza condizionata,
partiamo da due esempi
Esempio 6.0.17. Riprendiamo un esempio, presentato da B. Sturmfels in una
conferenza, e citato come leggenda metropolitana.
In Inghilterra, una rivista specializzata in statistiche curiose commissiono uno studio
sul seguente problema: essere tifosi di calcio incrementa la perdita di capelli?
Gli autori dello studio intervistarono molte persone, riportando le risposte a due
domande:
A) Sei tifoso di calcio? (riposte possibili 1=no, 2= un po, 3= tanto).
B) Perdi i capelli? (riposte possibili 1=no, 2= un po, 3= tanto).
I risultati vennero poi elencati nella seguente matrice 3× 3
M =
B \ A 1 2 3
1 72 41 152 60 55 453 40 70 82
Come si vede facilmente, la matrice non ha rango 1.
Interpretiamo il fatto in termini di Statistica Algebrica.
Il sistema aleatorio di partenza X comprendere due variabili (A = tifoso di calcio,
B = perdita di capelli), ciascuna con tre stati. M e la distribuzione su ΠX che
123
124 Cristiano Bocci, Luca Chiantini
nasce dall’indagine. Poiche M non ha rango 1, cioe non appartiene al Modello di
Indipendenza su ΠX, le due variabili non sono indipendenti.
In altri termini, essere tifosi di calcio influisce sulla perdita di capelli.
Il risultato e sorprendente, ancorche inequivocabile conseguenza dei dati raccolti e
la rivista si lancio in una serie di interpretazioni sul caso.
In realta l’interpretazione vera era molto semplice. Un indizio sulla soluzione del
mistero era contenuto nel fatto che la matrice M ha rango 2.
La rivista infatti aveva mescolato, nel risultato dell’indagine, il dato relativo a due
gruppi distinti: Uomini e Donne. Il gruppo U e piu incline ad essere tifoso di calcio
e a perdere i capelli rispetto al gruppo D. La disomogeneita del campione portava
ad un risultato falsato, infatti dividendo i risultati dell’indagine rispetto ad una
ulteriore variabile booleana (il genere G del campione) si ottiene un tensore 3×3×2
la cui scansione lungo il terzo indice (alto - basso) e fatta di due matrici di rango 1
T =
20 − − 10 − − 2/ | / | / |
50 − + 25 − + 5 |/ | 6 | | 6 | | |
70 − + 35 + + 7 | | || | | 20 + + 60 + − 80| | 6 | | 6 | | /| 10 + − 30 + − 40| / | / | /2 − − 6 − − 8
La precedente matrice M rappresenta la marginalizzazione relativamente al primo
indice. Quindi M e somma di due matrici di rango 1, ed infatti ha rango 2.
Si noti che le due variabili di partenza A,B sono davvero dipendenti fra loro, nel
seguente modo: se una persona e soggetta a perdita di capelli, e piu probabile che
sia uomo, quindi e piu probabile che sia tifoso di calcio (nell’esempio citato, in effetti
un po’ datato, si prendeva come dato di fatto che gli uomini sono piu soggetti delle
donne alla perita di capelli, e sono anche piu inclini ad seguire il calcio).
Il fatto che M , pur non indicando una indipendenza delle due variabili, avesse rango
minore del massimo consentito doveva suggerire ai ricercatori una connessione fra le
due variabili, mediata da una variabile nascosta G.
Un esempio simile e il seguente
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 125
Esempio 6.0.18. Questo esempio e un altro classico dello studio statistico algebrico:
l’esempio di una ricerca scientifica che porta ad un risultato solo apparentemente
significativo.
L’osteoporosi e una malattia delle ossa che colpisce principalmente persone anziane.
Poniamoci il problema: avere una patente di guida ha effetto sulla vulnerabilita
all’osteoporosi?
La domanda e apparentemente idiota: come puo la sensibilita ad una malattia
delle ossa essere influenzata dal possesso della patente? Eppure paradossalmente i
risultati sembrerebbero affermare il contrario.
Un ricercatore infatti, per studiare il fenomeno, costruisce un sistema aleatorio for-
mato da due variabili booleane: il possesso della patente e lo stato di malattia. Poi
considera una popolazione di persone anziane, diciamo 100 individui, li esamina ri-
spetto al possesso della patente e allo stato delle ossa, e costruisce una distribuzione
D sulla correlazione totale. Il risultato e espresso dalla matrice:(13 3722 28
)La matrice esprime il fatto che 13 persone hanno contemporaneamente patente e
osteoporosi, 37 hanno la patente ma non l’osteoporosi, eccetera.
Il risultato e incontrovertibile! La matrice di D ha determinante −450, quindi e ben
lontana dall’aver rango 1. Pertanto c’e correlazione fra l’avere la patente e contrarre
l’osteoporosi. Nel caso specifico e chiaro, dall’esame dei risultati, che avere la patente
rende meno probabile il manifestarsi dell’osteoporosi. Grande scoperta inattesa.
Una ricerca del genere rischia di finire su qualche giornale scientifico serio (speriamo
di no!) e di essere ripresa da telegiornali di mezzo mondo. Si potrebbero creare
attese infondate di guarigione, con schiere di vecchietti e vecchiette all’assalto delle
scuole-guida. Ci sarebbero magari dei clinici pronti a spiegare che la guida dei veicoli,
causa il movimento dei pedali e del volante, costituisce un allenamento benefico che
tonifica le ossa e le rende piu resistenti all’osteoporosi.
Purtroppo dobbiamo spengere facili entuasmi, perche la realta e un po’ diversa.
Il punto debole dell’esperimento statistico sta nel fatto che il campione scelto non
e omogeneo. Infatti fra gli individui selezionati vi sono mescolati uomini e donne
anziane. Se la scelta del campione e casuale, e probabile che si abbia una suddivisione
paritaria: 50 uomini e 50 donne. L’osteoporosi pero non colpisce i due sessi in modo
126 Cristiano Bocci, Luca Chiantini
omogeneo. le donne sono molto piu sensibili alla malattia rispetto agli uomini.
D’altra parte, specie nella popolaione anziana, per un uomo e assai piu consueto
avere la patente rispetto ad una coetanea donna.
La situazione si chiarifica se il sistema aleatorio scelto ha 3 variabili: al possesso della
patente x1 e alla osteoporosi x2 aggiungiamo la variabile booleana x3 che indica il
sesso (0 = uomo, 1 = donna). Nella correlazione totale di tale sistema, che e un
tensore di dimensione 3 e tipo (2, 2, 2), la distribuzione reale e:
D′ =
20 − − 20� | � |
5 − + 5 || 2 + − 8| � | �8 − − 32
che non ha certo rango 1, in quanto vi sono sottomatrici di determinante diverso
da 0. Il tensore ci dice che (x1 t x2|{x3}), in quanto le matrici superiore e infe-
riore hanno entrambe rango 1, cioe fissando la popolazione maschile o femminile,
in entrambe si vede che il possesso della patente non influisce sulla probabilita di
contrarre l’osteoporosi, come era largamente prevedibile.
Si noti che D rappresenta la marginalizzazione di D′ lungo x3, quindi non e vero che
x1 t x2. In altre parole, x1 e x2 sono effettivamente dipendenti fra loro. Che senso
ha questa affermazione? La si deve leggere cosı. Pendiamo un soggetto z che ha la
patente di guida. Essendo maggiore la percentuale dei patentati che sono uomini
piuttosto che donne, e piu probabile che z sia un uomo. Come tale, e meno probabile
che sviluppi l’osteoporosi. Viceversa, se un soggetto ha l’osteoporosi, e piu probabile
che sia di sesso femminile, quindi e meno probabile che abbia la patente.
La nostra percezione resta ancora un po’ perplessa. Il motivo sta nel fatto psicolo-
gico che la proprieta di essere uomo o donna, per un individuo, e vista ovviamen-
te come assai piu fondamentale rispetto all’avere la patente o anche allo sviluppo
dell’osteoporosi.
Gli esempi sopra esposti spiegano l’utilita di introdurre concetti di indipendenza
condizionata di variabili aleatorie e anche il concetto di variabili nascoste.
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 127
6.1 Modelli di indipendenza condizionata
Introduciamo in questa sezione il concetto di indipendenza condizionata e mostriamo
le sue proprieta di base.
Per tali condizioni, faremo riferimento ai concetti di Algebra Tensoriale contenuti
nella sezione sulla marginalizzazione, che qui riportiamo.
Definizione 6.1.1. (Definizione 2.4.7) Per ogni tensore T ∈ Kd1,...,dn , e per ogni
R ⊂ Jn, chiameremo scansione di T lungo R l’insieme formato dagli elementi ERQ,
dove Q varia nell’insieme delle funzioni Q : R ∈ Z, coerenti con (d1, . . . , dn).
Chiameremo marginalizzazione di T lungo R il tensore T ′ dato dalla somma di tutti
gli elementi appartenenti alla scansione di T lungo R.
Definizione 6.1.2. Sia S un sistema aleatorio con variabili X = {x1, . . . , xn}.Sia A ⊂ Jn. Una distribuzione D sulla correlazione totale di S soddisfa la condizione
tA (o anche che A e indipendente) se la marginalizzazione di D lungo Jn \ A ha
rango 1.
Posto B = Jn \ A, diremo che D soddisfa la condizione tA|B (che si legge A e
indipendente, dato B) se tutti gli elementi della scansione di D lungo B hanno
rango 1.
Le definizioni precedenti possono essere generalizzate e cumulate nella seguente. Se
A,B sono sottoinsiemi disgiunti di Jn, diremo che D soddisfa la condizione tA|B(A e indipendente, dato B) se, posto C = Jn \ (A ∪ B), la marginalizzazione D′ di
D lungo C soddisfa la condizione tA|B, cioe tutti gli elementi della scansione di D′
lungo B hanno rango 1.
Quando A = {xi, xj} ha due elementi, scriveremo anche xi t xj e xi t xj|B al
posto di tA e tA|B rispettivamente.
E’ chiaro che tA e equivalente a tA|B con B = ∅.
Esempio 6.1.3. Il tensore
D =
1 − − 0� | � |
1 − + 3 || 0 + − 1| � | �1 − − −1
128 Cristiano Bocci, Luca Chiantini
descrive una distribuzione sulla correlazione totale di un sistema booleano con tre
variabili x1, x2, x3.
In D, si ha x1 t x2, in quanto la marginalizzazione lungo x3 da(1 12 2
)Tuutavia, in D non si ha x1 t x3, perche la marginalizzazione lungo x2 da:(
4 10 1
)Esempio 6.1.4. Il tensore
6 − − 3� | � |
2 − + 1 || 2 + − 2| � | �1 − − 1
sulla correlazione totale di un sistema booleano con tre variabili x1, x2, x3, descrive
una distribuzione D per cui si ha (x1 t x2|{x3}), in quanto le due sottomatrici che
si ottengono prendendo x3 = 0 e x3 = 1 hanno entrambe rango 1.
Si noti che in D non si ha x1 t x2, in quanto la marginalizzazione lungo x3 da:(8 53 2
)che ha rango 2.
I due esempi precedenti 6.0.17 e 6.0.18 rappresentano situazioni in cui le due
variabili iniziali sono indipendenti, data la terza variabile (il genere).
Esempio 6.1.5. Prendiamo la catena di trasmissione di un segnale booleano, strut-
turata in una centrale A e due sedi B,C scollegate fra loro, rappresentate dal grafo
orientato in figura:� = A
↙ ↘B = � � = C
Ammettiamo che agli spigoli AB, AC siano associate rispettivamente le matrici
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 129
MAB =
23
13
13
23
MAC =
45
15
15
45
Tali matrici rappresentano la trasmissione del segnale, nel senso che se A trasmette
30 volte il segnale 0, B trascrive la distribuzione MAB · (30, 0) = (20, 10), cioe
trascrive 20 volte il segnale 0 e 10 volte il segnale 1. Analogamente C trascrive la
distribuzione MAC · (30, 0) = (24, 6).
Se la centrale A emette un segnale formato di 30 bit 0 e 30 bit 1, la distribuzione
risultante dal modello grafico, nel sistema boolenao con tre variabili A,B,C, e data
dal tensore:
D′ =
2 − − 16� | � |
4 − + 8 || 8 + − 4| � | �
16 − − 2
Si osservi che il tensore non ha rango 1, infatti le tre variabili non sono indipendenti.
D’altra parte, le due sottomatrici che si ottengono fissando A = 0 e A = 1 hanno
entrambe determinante nullo, quindi (B t C|A). Invece, la marginalizzazione del
tensore nella direzione di A da la matrice:(12 1818 12
)che ha rango 2, pertanto non e vero che B t C.
In effetti, se non si considera l’apporto della centrale A, il fatto che B riceva uno
0 rende probabile che il bit emesso fosse davvero 0, quindi rende piu probabile che
C riceva anche lui uno 0. Allora, se non conosciamo lo stato di A, B e C sono
effettivamente dipendenti. Se invece conosciamo positivamente anche lo stato di A,
allora B e C possono ricevere in modo corretto o erroneo, indipendentemente fra
loro.
Definizione 6.1.6. Le matrici utilizzate nell’esempio precedente sono di un tipo
molto utilizzato nelle applicazioni della Statistica Algebrica, specialmente per la
teoria delle stringhe di simboli (segnali digitali, DNA, eccetera). Esse prendono il
nome di matrici di Jukes-Cantor.
130 Cristiano Bocci, Luca Chiantini
In generale, una matrice di Jukes-Cantor e una matrice quadrata n × n in cui gli
elementi sulla diagonale sono tutti uguali ad un valore a, mentre tutti gli altri
elementi sono uguali ad un valore b.
Tali matrici rappresentano il fatto che, ad esempio nella trasmissione di un segnale,
se la trasmittente A emette un valore xi, la probabilita che la stazione B riceva cor-
rettamente xi e proporzionale ad a, indipendentemente da xi, mentre la probabilita
di un errore di ricezione (proporzionale a (n−1)b) si distribuisce equamente su tutti
gli altri valori xj, j 6= i.
Proposizione 6.1.7. Sia M una matrice n × n di Jukes-Cantor a valori reali,
che sulla diagonale ha il valore a mentre fuori della diagonale ha il valore b, con
a > b > 1. Allra M ha rango n.
Dimostrazione. Facciamo induzione sul rango. I casi n = 1, 2 sono banali. Per n
generico, si noti che cancellando ultima riga e ultima colonna, si ottiene una matrice
di Jukes-Cantor di tipo (n− 1)× (n− 1). Possiamo allora supporre, per induzione,
che le prime n− 1 righe di M siano linearmente indipendenti.
Se l’ultima riga Rn e combinazione lineare delle precedenti, cioe esiste una rela-
zione
Rn = a1R1 + · · ·+ an−1Rn−1,
allora confrontando l’ultimo elemento, si ottiene a = (a1 + · · · + an−1)b, per cui
(a1 + · · · + an−1 > 1. Quindi almeno uno degli ai e positivo. per fissare le idee,
mettiamo che sia a1 > 0. Confrontando i primi elementi delle righe, si ha allora
b = a1a+ (a2 + · · ·+ an−1b > (a1 + a2 + · · ·+ an−1)b > b,
una evidente contraddizione.
Esempio 6.1.8. Torniamo all’esempio 3.4.19 della scuola con due sezioni A,B, in
cui vengono distribuite borse di studio. Mettiamo che la situazione dopo 25 anni sia
data da:
D =
(9 66 4
)La matrice definisce una distribuzione sulla correlazione totale del sistema booleano
che ha due variabili A,B, corrispondenti alle due sezioni. Poiche la matrice ha rango
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 131
1, questa distribuzione indica l’indipendenza fra le possibilita di A,B di avere una
borsa.
Introduciamo una terza variabile aleatoria N , che vale 0 se l’anno e normale, cioe
viene distribuita una sola borsa, e 1 se l’anno e eccezionale, cioe vengono distribuite
2 borse oppure non ne vengono distribuite affatto. Nella correlazione totale del
nuovo sistema, si ottiene necessariamente la distribuzione definita dal tensore:
D′ =
0 − − 4� | � |
9 − + 0 || 6 + − 0| � | �0 − − 6
in quanto negli anni normali solo una delle due sezioni ha la borsa, cosa che non
puo’ capitare negli anni eccezionali.
Il tensore D′ non ha chiaramente rango 1. Si noti inoltre che gli elementi della
scansione di D′ lungo N non hanno rango 1. In effetti, sia negli anni eccezionali
che in quelli normali, sapere se la sezione A ha avuto o meno la borsa addirittura
determina il fatto che B l’abbia avuta o meno.
D’altra parte A t B, perche la marginalizzazione di D′ lungo la variabile N da la
matrice D, che e di indipendenza.
Definizione 6.1.9. Fissato un insieme di condizioni (tAi|Bi) come sopra, le distri-
buzoni che le soddisfano tutte formano un modello in D(ΠS). A tali modelli si da
il nome di modelli di indipendenza condizionata.
Proposizione 6.1.10. I modelli di indipendenza condizionata sono tutti modelli
algebrici omogenei, definiti da equazioni di grado ≤ 2.
I modelli di indipendenza condizionata sono tutti modelli parametrici polinomiali.
Ogni modello definito da una singola condizione (tA|B) e un modello torico, a patto
di un cambiamento omogeneo di coordinate.
Dimostrazione. Grazie alla proposizione 2.2.4, sappiamo che imporre ad un tensore
di avere rango 1 corrisponde ad annullare certi determinanti 2×2. Le equazioni che si
ottengono sono polinomiali omogenee (di secondo grado). Pertanto ogni condizione
132 Cristiano Bocci, Luca Chiantini
(tA|B) e definita dalla composizione di equazioni quadratiche e una marginalizza-
zione, quindi dalla composizione di equazioni quadratiche e lineari. Pertanto e il
risultante modello e algebrico.
Per dimostrare la seconda affermazione, notiamo che se D soddisfa una condizione
(tA|B) con A ∪ B = Jn (cioe non si ha marginalizzazione) per ogni elemento D′
della scansione di D lungo B devono esistene v1 . . . , va, con a = cardinalita di A, tali
che D′ = v1 ⊗ · · · ⊗ vn. E’ chiaro che tale condizione e parametrica polinomiale, di
fatto torica. Quando A∪B = Jn, la stessa cosa vale sui coefficienti che si ottengono
dalla marginalizzazione, i quali dipendono linearmente dai coefficienti di D.
Esempio 6.1.11. Consideriamo un sistema booleano S con tre variabili {x1, x2, x3},in modo che lo spazio delle distribuzioni D(ΠS) corrisponda allo spazio dei tensori
di tipo (2, 2, 2).
Il modello determinato da (x1 t x2|x3) contiene tutte le distribuzioni D che soddi-
sfano: {D(1, 1, 1)D(1, 2, 2)−D(1, 2, 1)D(1, 1, 2) = 0
D(2, 1, 1)D(2, 2, 2)−D(2, 2, 1)D(2, 1, 2) = 0
Lo stesso modello puo essere descritto parametricamente da:
D(1, 1, 1) = ac
D(1, 2, 1) = ad
D(1, 1, 2) = bc
D(1, 2, 2) = bd
D(2, 1, 1) = a′c′
D(2, 2, 1) = a′d′
D(2, 1, 2) = b′c′
D(2, 2, 2) = b′d′
e quindi e torico.
Il modello determinato da x1 t x2 contiene tutte le distribuzioni D che soddisfano:
(D(1, 1, 1) +D(2, 1, 1))(D(1, 2, 2) +D(2, 2, 2))−
− (D(1, 2, 1) +D(2, 2, 1))(D(1, 1, 2) +D(2, 1, 2)) = 0 (6.1.1)
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 133
oppure dalle distribuzioni definite da:(D(1, 1, 1) +D(2, 1, 1)) = ac
(D(1, 2, 2) +D(2, 2, 2)) = bd
(D(1, 2, 1) +D(2, 2, 1)) = ad
(D(1, 1, 2) +D(2, 1, 2)) = bc
che corrisponde al modello parametrico polinomiale:
D(1, 1, 1) = x
D(2, 1, 1) = ac− xD(1, 2, 2) = y
D(2, 2, 2) = bd− yD(1, 2, 1) = z
D(2, 2, 1) = ad− zD(1, 1, 2) = t
D(2, 1, 2) = bc− t
Questa ultima parametrizzazione, nelle nuove coordinate D′(i, j, k) con D′(1, j, k) =
D(1, j, k), D′(2, j, k) = D(1, j, k) +D(2, j, k), diviene
D′(1, 1, 1) = x
D′(2, 1, 1) = ac
D′(1, 2, 2) = y
D′(2, 2, 2) = bd
D′(1, 2, 1) = z
D′(2, 2, 1) = ad
D′(1, 1, 2) = t
D′(2, 1, 2) = bc
che rappresenta un modello torico.
6.2 Catene e alberi di Markov
Fra tutte le situazioni che riguardano l’indipendenza condizionata, un importante
caso a parte e rappresentato dalle catene di Markov.
134 Cristiano Bocci, Luca Chiantini
Nella pratica comune, si chiama catena di Markov un sistema aleatorio in cui le
variabili sono strattamente ordinate e in cui lo stato in cui ai trova ciascuna variabile
e determinato esclusivamente dallo stato in cui si trova la variabile precedente.
Se l’esclusivita e intesa in senso stetto, alte condizioni quali il tempo o fattori
esterni al sistema non influenzano il passaggio da una variabile a quella onsecutiva.
Pertanto, se in una distribuzione D di campionatura c, in cui la variabile xi si
trova sempre nello stato ε, la variabile xi+1 si trova d volte nello stato csi, allora
in una distribuzione di campionatura 2c, in cui la variabile xi si trova sempre nello
stato ε, la variabile xi+1 si deve trovare 2d volte nello stato csi.
E se in un’altra distribuzione D′ di campionatura c′, in cui la variabile xi si trova
sempre nello stato ε′, la variabile xi+1 si trova d′ volte nello stato csi, allora in una
distribuzione di campionatura c+ c′, in cui la variabile xi si trova c volte nello stato
ε e c′ volte nello stato ε′, la variabile xi+1 si deve trovare d+ d′ volte nello stato csi.
Resta allora giustificata la seguente:
Definizione 6.2.1. Sia X un sistema aleatorio le cui variabili sono x1, . . . , xn
(che considereremo ordinate). Sia ni il numero di stati della variabile xi. Siano
M1, . . . ,Mn−1 matrici, dove ciascuna Mi ha ni colonne e ni+1 righe.
Chiameremo modello di Markov di matrici M1, . . . ,Mn−1 il modello sulla corre-
lazione totale di X, formato dalle distribuzioni D, la cui marginalizzazione totale
(v1, . . . , vn), vi ∈ Kni , soddisfa tutte le seguenti condizioni:
vi+1 = Mivi, i = 1, . . . , n− 1.
Chiameremo semplicemente modello di Markov il modello sulla correlazione to-
tale di X, formato dalle distribuzioni D che soddisfano un modello di Markov, per
qualche scelta delle matrici.
Esempio 6.2.2. Consideriamo un sistema formato da tre centrali A,B,C che si
trasmettono un segnale booleano. A trasmette il segnale a B, che a sua volta lo
ritrasmette a C. Il segnale e disturbato secondo le matrici di Jukes -Cantor
M =
34
14
14
34
N =
23
13
13
23
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 135
Se A trasmette 60 volte 0 e 120 volte 1, la distribuzione che si osserva sulla correla-
zione totale e:
D =
10 − − 60� | � |
15 − + 10 || 5 + − 30| � | �
30 − − 20
La marginalizzazione totale di D e data da (60, 120), (75, 105), (85, 95). Poiche si
ha:
M(60//120
)=(75//105
)N(75//105
)=(85//95
)allora D e una distribuzione del modello di Markov associato alle matrici M,N .
Come si vede bene nell’esempio precedente, quando ci sono te variabili il modello
di Markov di matrici M,N e formato da distribuzioni D = (Dijk) i cui Dijk =
djMijNjk, dove (d1, . . . , dn) rappredsenta la marginalizzazione di D sulle variabili
x2, x3.
Proposizione 6.2.3. Le distribuzioni del modello di Markov sono esattamente le
distribuzioni che soddisfano tutte le indipendenze condizionate
xi t xj|xk
per ogni scelta di i, j, k tali che i < j < k.
Dimostrazione. Diamo solo un cenno della dimostrazione.
Un verso lo dimostriamo per n = 3. Se D soddisfa un modello di Markov, relativa-
mente alle matrici M,N allora posta (v1, v2, v3) la marginalizzazione totale di D, si
consideri R = {2} e Q : R→ Jn2 , Q(2) = j. Per quanto detto in seguito all’esempio
6.2.2, l’elemento R,Q di D e dato da un multiplo di Cj ⊗ Rj, dove Cj e la j-esima
colonna di M mentre Rj e la j-esima colonna di N . Pertanto tutti questi elementi
hanno rango 1.
Il caso generale si risolve marginalizzando la distribuzione D in modo da restrin-
gerla alle sole variabili xi, xj, xk.
Per il viceversa, descriviamo cosa succede per un sistema di tre variabili booleane.
Data la distribuzione Dijk 6= 0 che soddisfa x1tx3|x2, a meno di rinumerazione degli
136 Cristiano Bocci, Luca Chiantini
stati, si puo assumere D222 6= 0. Consideriamo le sottomatrici di D
M ′ =
(D112 D122
D212 D222
)N ′ =
(D211 D212
D221 D222
)Fissati due numeri h, k tali che hk = D212/D222, si moltiplica la seconda colonna di
M ′ per h e la seconda riga di N ′ per k.
Le due matrici cosı ottenute, opportunamente scalate, determinano matrici M,N
che descrivono il modello di Markov soddisfatto da D.
Nel caso generale, la procedura e simile ma piu complicata.
Per una trattazione piu completa, si rimanda il lettore all’articolo di Eriksson,
Ranestad, Sturmfels e Sullivant in [Siena].
Corollario 6.2.4. I modelli di catena di Markov sono modelli algebrici e anche mo-
delli parametrici polinomiali. (Poiche in generale sono coinvolte molte indipendenze
condizionate, questi modelli non sono in generale torici).
Osservazione 6.2.5. Consideriamo un sistema formato da tre variabili x1, x2, x3
aventi lo stesso numero di stati.
Nella pratica, quasi sempre il modello di catena di Markov viene associato a matrici
M,N che sono invertibili.
In questo caso, le distribuzioni che si ottengono sono le stesse che si hanno conside-
rando il modello di Markov sullo stesso sistema, ordinato in modo che x3 → x2 → x1,
con matrici N−1,M−1.
Quindi le catene di Markov, quando le matrici di passaggio sono invertibili, non
possono distinguere chi trasmette il segnale o lo riceve. Dal punto di vista delle
distribuzioni, le due catene
� = x1M→ � = x2
N→ � = x3 � = x3N−1
→ � = x2M−1
→ � = x1
sono di fatto indistinguibili.
Le catene di Markov possono essere generalizzate a modelli definiti su grafi ad
albero.
Definizione 6.2.6. Sia G un grafo ad albero, orientato.
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 137
Costruiamo un sistema aleatorio X le cui variabili sono i vertici di G, x1, . . . , xn (che
considereremo ordinate parzialmente dall’orientamento del grafo). Sia ni il numero
di stati della variabile xi. Per ogni spigolo (orientato) che unisce i vertici xi, xj, sia
data una matrice Mij con ni colonne e nj righe.
Chiameremo modello di albero di Markov su G, di matrici {Mij} il modello sulla
correlazione totale di X, formato dalle distribuzioni D, la cui marginalizzazione
totale (v1, . . . , vn), vi ∈ Kni , soddisfa tutte le seguenti condizioni:
vj = Mijvi.
Chiameremo semplicemente modello di Markov su G il modello sulla correlazione
totale di X, formato dalle distribuzioni D che soddisfano un modello di di albero di
Markov su G per qualche scelta delle matrici Mij.
Esempio 6.2.7. I modelli di catene di Markov sono ovviamente sempi di modelli
di alberi di Markov.
L’esempio piu semplice di modello di albero di Markov, oltre le catene, e quello
illustrato nell’esempio 6.1.5.
Restando all’esempio 6.1.5, e immediato comprendere che, per le stesse motivazio-
ni espresse nell’Osservazione 6.2.5, quando la matrice MAB e invertibile, il modello
associato allo schema
� = AMAB ↙ ↘MAC
B = � � = C
e indistiguibile dal modello di catena di Markov
� = BM−1AB−→ � = A
MAC−→ � = C
Il discorso precedente suggerisce che i modelli di alberi di Markov siano descritti
da modelli di indipendenza condizionata. In effetti il suggerimento e valido in quanto
in un albero, dati due vertici xi, xj, esiste al piu un cammino minimale che li unisce.
Teorema 6.2.8. Dato un grafo ad albero G e un sistema aleatorio X le cui variabili
sono i vertici x1, . . . , xn di G, una distribuzione D sulla correlazione totale di X sta
138 Cristiano Bocci, Luca Chiantini
nel modello di albero di Markov associato a G, per una qualche scelta delle matrici
Mij, se e solo se D soddisfa tutte le indipendenze condizionate
xi t xj|xk
ogniqualvolta xk sta nel cammino minimale che unisce xi, xj.
Per la dimostrazione, si rimanda al lavoro [SturmfelsSullivant] oppure al gia citato
articolo di Eriksson, Ranestad, Sturmfels e Sullivant in [Siena].
Esempio 6.2.9. Sia il modello di albero di Markov associato al grafo
A↙ ↘
B C
che quello di catena di Markov
A→ B → C
sono equivalenti al modello di indipendenza condizionata
A t C|B.
Esempio 6.2.10. Un esempio interessante di applicazione dei modelli di albero di
Markov si ha nello studio della Filogenetica, dove si cerca di ricostruire l’albero ge-
nealogico di una evoluzione (che puo essere biologica, ma anche chimica o linguistica
ecc.).
Ad esempio, supponiamo di dover sistemare la situazione evolutiva di cinque specie,
A,B,C,D,E, a partire dal progenitore A. Possiamo ipotizzare due diverse situazioni
evolutive, rappresentate dai grafi G1, G2, dove
G1 =
A↙ �
B �↙ ↘ ↘
C D E
cioe da A discendono direttamente B,E mentre C,D discendono da B; oppure
G2 =
A� ↘
� B↙ ↙ ↘
C D E
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 139
cioe da A discendono direttamente B,C mentre E,D discendono da B.
Costruiamo un sistema aleatorio sulle variabili A,B,C,D,E, che possiamo anche
considerare booleane. Se la siuazione riguarda un’evoluzione biologica, i due stati
potrebbero rappresentare la presenza di basi puriniche o pirimidiniche nelle posizioni
della catena di DNA delle specie. In questo caso, una distribuzione e rappresentata
da un tensore di tipo 2× 2× 2× 2× 2.
I modelli associati ai due grafi G1, G2 possono essere distinguibili in quanto, ad
esempio, nel primo si ha A t C|B, cosa che non avviene nel secondo caso.
6.3 Variabili nascoste
Torniamo in questa sezione agli esempi iniziali del capitolo 6.0.17 e 6.0.18.
La situazione prospettata in quegli esempi prevede la presenza di variabili na-
scoste, cioe variabili la cui presenza non era nota all’inizio, ma che condizionano la
dipendenza fra le variabili osservabili.
Anche nell’esempio 6.2.10 si puo verificare una situazione simile. Se le specie
A,B dalle quali derivano le altre sono solo ipotizzate nel passato, e chiaro che non
si puo sperare di osservarne il DNA, quindi le distribuzioni sulle variabili A,B non
sono note, per cui cio che osserviamo non e il vero tensore originario, ma solo la sua
marginalizzazione lungo le variabili A,B.
Come si puo sperare di determinare la presenza di variabili nascoste?
Un modo e suggerito dall’esempio 6.0.17 e sfrutta il concetto di rango (si veda la
Definizione 2.1.17). In quella situazione, le distribuzioni sulle due variabili osservabili
(A = tifoso, B = perdita capelli) erano rappresentate da matrici 3× 3. L’esistenza
della variabile nascosta (G = genere) implicava che la matrice della distribuzione
M era la marginalizzazione di un tensore T di tipo 3 × 3 × 2, la cui scansione
lungo la variabile nascosta era formata da due matrici M1,M2 di rango 1. Pertanto
M = M1 +M2 aveva rango ≤ 2.
Osservazione 6.3.1. Sia X un sistema di variabili y, x1, . . . , xm, dove y ha r stati
mentre ogni xi ha ni stati. Una distribuzione D su ΠX che sta nel modello di
indipendenza condizionata t{x1, . . . , xm}|y e rappresentata da un tensore di tipo
r× n1 × · · · × nm la cui scansione lungo la prima variabile e formata da elementi di
rango 1. pertanto la marginalizzazione di D lungo la variabile y ha rango ≤ r.
140 Cristiano Bocci, Luca Chiantini
Viceversa, consideriamo un sistema X ′ di variabili x1, . . . , xn come sopra e sia D′
una distribuzione di rango ≤ r su ΠX ′. Allora esiste una distrbuzione D su X (non
necessariamente una sola!) la cui marginalizzazione lungo y e D′. Infatti possiamo
scrivere
D′ = D1 + · · ·+Dr,
con ciascun Di di rango ≤ 1, quindi il tensore i cui elementi lungo la prima direzione
sono D1, . . . , Dr rappresenta la distribuzione D cercata.
L’osservazione precedente giustifica la definizione di modello di variabile nascosta
Definizione 6.3.2. Sulla correlazione totale di un sistema aleatorio X chiameremo
modello di variabile nascosta con r stati il sottoinsieme di ¶(D(ΠX)) formato da
punti corrispondenti a tensori di rango ≤ r.
Poiche il rango di un tensore T e invariante quando si moltiplica T per una
costante 6= 0, la definizione e ben posta nel mondo delle distribuzioni proiettive.
Il modello di indipendenza e un caso particolare (e degenere) di modelli di varia-
bile nascosta.
Esempio 6.3.3. Consideriamo un dipolo aleatorio X, formato dalle variabili A,B,
aventi rispettivamente a, b stati. Le distribuzioni su ΠX sono rappresentate da
matrici M di tipo a× b.Quando r < min{a, b}, il modello di variabile nascosta con r stati e uguale al
sottoinsieme delle matrici di rango ≤ r. E’ chiaro che tale modello e algebrico
(proiettivo), perche e descritto dall’annullarsi di tutti i sottodeterminanti (r + 1)×(r+ 1), che sono polinomi omogenei di grado r+ 1 nei coefficienti della matrice M .
Quando r ≥ min{a, b}, il modello di variabile nascosta con r stati puo essere ancora
definito, ma diventa banale: tutte le matrici a× b hanno rango ≤ r.
L’esempio precedente puo essere generalizzato. I modelli di variabile nascosta con
r stati diventano banali, cioe coincidono con l’intero spazio delle distribuzioni, per
r sufficientemente grande. Inoltre sono tutti modelli parametrici proiettivi, quindi
anche algebrici proiettivi, per il Lemma di Chow.
I modelli di variabile nascosta sono infatti legati al concetto geometrico di varieta
secante ad un sottoinsieme di uno spazio proiettivo.
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 141
Definizione 6.3.4. Sia Y un sottoinsieme di uno spazio proiettivo Pn. Diremo che
P ∈ Pn appartiene ad uno spazio r-secante Y se esistono punti P1, . . . , Pr ∈ Y (non
necessariamente distinti) tali che le coordinate omogenee di P sono combinazione
lineare delle coordinate omogenee di P1, . . . , Pn. E’ chiaro che la definizione e ben
posta, perche e invariante quando si moltiplicano le coordinate di P per una costante
non nulla.
Chiameremo varieta r-secante di Y , e indicheremo con S0r (Y ), il sottoinsieme di Pn
formato dai punti che appartengono ad uno spazio r-secante Y .
Osservazione 6.3.5. E’ evidente che si ha S01(Y ) = Y . Inoltre S0
i (Y ) ⊂ S0i+1(Y )
(puo anche valere l’uguaglianza).
Quando il cono su Y genera lo spazio vettoriale Kn+1, allora Y contiene n+ 1 punti
le cui coordinate sono linearmente indipendenti, quindi S0n+1(Y ) = Pn. In effetti e
chiaro che S0n+1(Y ) 6= Pn se e solo se il cono su Y e contenuto in un sottospazio
proprio di Kn+1, vale a dire se e solo se Y e contenuto in (almeno un) iperpiano di
Pn.
Si noti che si puo avere S0r (Y ) = Pn anche per r molto piu piccolo di n+ 1.
Proposizione 6.3.6. Nello spazio di tensori P = P(Kn1···nm), un tensore ha rango
≤ r se e solo se appartiene alla varieta r-secante della varieta di Segre S.
Ne segue che il modello di variabile nascosta con r stati corrisponde alla varieta
secante S0r (S) della varieta di Segre.
Dimostrazione. Per definizione (si veda l’Esempio 5.5.8) la varieta di Segre S e
proprio l’insieme dei tensori di rango 1.
In generale, se un tensore ha rango ≤ r, allora e somma di r tensori di rango 1,
quindi sta nella varieta r-secante di S.
Viceversa, se T appartiene alla varieta r-secante di S, allora esistono tensori T1, . . . , Tr
di S (quindi tensori di rango 1) tali che
T = a1T1 + · · ·+ arTr
quindi, dato che il rango di aiTi e 1, a meno che ai non sia 0, si ottiene che T e
somma di un numero ≤ r di tensori di rango 1.
142 Cristiano Bocci, Luca Chiantini
Le varieta secanti sono state a lungo studiate in Geometria Proiettiva per le loro
applicazioni allo studio delle proiezioni di varieta algebriche. Il loro utilizzo nei
modelli di variabile nascosta rappresenta uno dei maggiori punti di contatto fra la
Statistica Algebrica e la Geometria Algebrica.
Un punto importante nello studio dei modelli di variabile nascosta e che (pur-
troppo) tali modelli non sono modelli algebrici (e quindi nemmeno parametrici
proiettivi).
Proposizione 6.3.7. Nello spazio proiettivo P = P7 dei tensori di tipo 2× 2× 2 su
C, il sottoinsieme Y dei tensori di rango ≤ 2 non e una varieta algebrica.
Dimostrazione. Utilizzeremo il tensore di rango 3 definito nell’esempio 2.4.10, che
fra l’altro prova che Y non coincide con P.
Consideriamo i tensori del tipo D = uT1 + tT2, dove
T1 =
2 − − 3� | � |
0 − + 3 || 0 + − 4| � | �0 − − 2
T2 =
0 − − 0� | � |
1 − + 0 || 0 + − 0| � | �0 − − 0
Tali tensori generano uno spazio di dimensione 2 nello spazio vettoriale dei tensori,
quindi corrispondono ad una retta L ⊂ P. Per (u, t) = (1, 1) si ottiene il tensore D
dell’esempio 2.4.10, che ha rango 3. Quindi L 6⊂ Y .
Verifichiamo che tutti gli altri punti di L diversi da D stanno in Y In effetti se
D′ ∈ L \ {D}, allora D′ = uT1 + tT2, dove (u, t) non e proporzionale a (1, 1), cioe
u 6= t. Allora D′ puo essere decomposto nella somma di due tensori di rango 1 come
segue:
D′ =
0 − − 6t−12u2t−2u
� | � |0 − + 3t−6u
2t−2u|
| 0 + − 4u| � | �0 − − 2u
+
2u − − 6u2t−2u
� | � |t − + 3t
2t−2u|
| 0 + − 0| � | �0 − − 0
Se Y fosse un modello algebrico, esisterebbe almeno un polinomio omogeneo che
si annulla su tutti i punti di L, tranne D. Ma restringendo tale polinomio a L,
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 143
si otterrebbe un polinomio omogeneo p ∈ C[u, t] che si annulla ovunque, tranne
che nelle coordinate di D, cioe nelle coppie (u, u). D’altra parte, ogni polinomio
omogeneo non nullo di C[u, t] si decompone nel prodotto di un numero finito di
fattori lineari omogenei, quindi p, che non puo essere nullo perche non si annulla in
D, puo annullarsi solo in un numero finito di punti della retta proiettiva di coordinate
u, t, cioe di L.
Per ovviare a tale problema, si definiscono la varieta secante algebrica e di
conseguenza il modello algebrico di variabile nascosta.
Definizione 6.3.8. Sia Y un sottoinsieme di uno spazio proiettivo Pn. Chiameremo
varieta r-secante algebrica di Y , e indicheremo con Sr(Y ), la chiusura, nella topologia
di Zariski, di S0r (Y ). Tale chiusura corrisponde alla piu piccola varieta algebrica che
contiene S0r (Y ).
Sulla correlazione totale di un sistema aleatorio X chiameremo modello algebrico
di variabile nascosta con r stati il sottoinsieme di ¶(D(ΠX)) formato dalla varieta
r-secante algebrica della varieta di Segre corrispondente ai tensori di rango 1.
Esempio 6.3.9. Nello spazio proiettivo P = P7 dei tensori di tipo 2 × 2 × 2 su C,
sia S la varieta di Segre data dall’immersione di P1 × P1 × P1.
La varieta 2-secante algebrica di S coincide con tutto P7. Si verifica infatti che ogni
tensore di rango > 2 e limite di tensori di rango 2.
Osservazione 6.3.10. Si puo cercare di caratterizzare i modelli di variabile nascosta
come modelli parametrici.
Si consideri infatti, ad esempio, il prodotto P1×P1×P1 e la sua immersione X in P7.
La varieta 2-secante puo, a prima vista, essere ottenuta come varieta parametrica
definita dalle equazioni
Q = αP1 + βP2 a, b ∈ C P1, P2 ∈ X
che combinate con le equazioni parametriche di X, porta alle equazioni parametriche
complessive x111 = αa1b1c1 + βa′1b
′1c′1
x112 = αa1b1c2 + βa′1b′1c′2
. . . . . .
x222 = αa2b2c2 + βa′2b′2c′2
144 Cristiano Bocci, Luca Chiantini
laddove P1 = (a1, a2)⊗ (b1, b2)⊗ (c1, c2) e P1 = (a′1, a′2)⊗ (b′1, b
′2)⊗ (c′1, c
′2).
Purtroppo questa parametrizzazione non puo essere definita globalmente.
Infatti, facendo variare liberamente i parametri, dobbiamo considerare anche i casi
in cui P1 = P2. In questa situazione, per qualche scelta di α, β, l’immagine sarebbe
il punto (0, . . . , 0), che nel proiettivo non esiste. La parametrizzazione e pertanto
solo parziale.
Se escludiamo i valori dei parametri per cui l’immagine mi darebbe (0, . . . , 0), otte-
niamo una funzione ben definita su un aperto di Zariski di (P1)7. L’immagine Y di
tale aperto, pero, non e un chiuso di Zariski di p7. La chiusura di Zariski di Y in P7
coincide con tutto P7.
Parte dello studio delle varieta secanti e basato sul calcolo della dimensione. Da
quanto appena detto nell’osservazione precedente, una limitazione della dimensione
delle varieta secanti algebriche e sempre possibile.
Proposizione 6.3.11. La varieta r-secante algebrica della varieta di Segre X, im-
magine nella mappa di Segre del prodotto Pn1 × · · · × Pnm, ha dimensione limitata
da
dim(Sr(X)) ≤ min{N, nr + r − 1} (6.3.1)
dove N = (n1 + 1) · · · (nm + 1)− 1 e la dimensione dello spazio dove e immerso X
mentre n = n1 + · · ·+ nm e la dimensione di X.
Dimostrazione. Che la dimensione di X sia al massimo N dipende dal fatto che
la dimensione di una varieta algebrica in PN non puo superare la dimensione dello
spazio ambiente (vedi l’Esempio 5.7.10).
La seconda limitazione dim(Sr(X)) ≤ nr+ r− 1 discende dal Teorema 5.7.14, visto
che, generalizzando l’esempio precedente, su un aperto di Zariski, dim(Sr(X)) e
l’immagine di una mappa polinomiale da (Y )s × Pr−1 in PN .
Se al posto della mappa di Segre prendiamo la mappa di Veronese, si ottiene una
situazione analoga.
Proposizione 6.3.12. La varieta r-secante algebrica della varieta di Veronese X,
immagine nella mappa di Veronese di grado d su Pn, ha dimensione limitata da
dim(Sr(X)) ≤ min{N, nr + r − 1} (6.3.2)
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 145
dove N =(n+dd
)− 1 e la dimensione dello spazio dove e immerso X.
In entrambe le situazioni, chiameremo dimensione r-secante attesa della va-
rieta di Segre (rispettivamente, della varieta di Veronese) il secondo membro della
disequazione (6.3.1) (rispettivamente della disequazione (6.3.2)).
Definizione 6.3.13. Chiameremo rango generico dei tensori di tipo (n1 +1)×· · ·×(ns + 1) il minimo r per cui, detta X la varieta di Segre di Pn1 × · · · × Pnm in PN ,
si ha Sr(X) = PN .
Chiameremo rango simmetrico generico dei tensori simmetrici di tipo n× · · ·×n (d
volte) il minimo r per cui, detta X la varieta di Veronese di grado d di Pn in PN , si
ha Sr(X) = PN .
Esempio 6.3.14. Il rango generico delle matrici n× n e n.
Il rango generico dei tensori 2× 2× 2 e 2.
Il rango generico dei tensori 3× 3× 3 non puo essere 3. Infatti tali tensori di rangi
1 corrispondono alla immersione di Segre X di P2 × P2 × P2 in p26. La dimensione
della varieta 3-secante algebrica S3(X), per la proposizione 6.3.11 e limitata da
6 · 3 + 3− 1 = 20, quindi S3(X) 6= 26.
L’ultima parte dell’esempio precedente fornisce un principio generale
Proposizione 6.3.15. Posto n = n1 + · · ·+ nm e N = (n1 + 1) · · · (nm + 1)− 1, il
rango generico rg dei tensori di tipo (n1 + 1)× · · · × (ns + 1) soddisfa
rg ≥N + 1
n+ 1.
Posto N =(n+dd
)− 1, il rango simmetrico generico rsg dei tensori simmetrici di tipo
n× · · · × n (d volte) soddisfa
rsg ≥N + 1
n+ 1.
Si osservi che, in generale, ci sono tensori il cui rango e inferiore al rango generico,
ma ci possono anche essere tensori il cui rango e superiore al rango generico (cosa
che non puo avvenire nel caso di matrici). Si veda l’Esempio 2.4.10.
Esempio 6.3.16. In generale, potremmo aspettarci che il rango generico rg sia
esattamente uguale al piu piccolo intero ≥ (N + 1)/(n + 1). Cio non sempre si
verifica.
146 Cristiano Bocci, Luca Chiantini
La cosa e gia ovvia, nel caso di spazi di matrici.
Per tensori di dimensione maggiore, si consideri il caso dei tensori 2 × 2 × 2, per i
quali N = 26 e n = 6. Il minimo intero ≥ (N + 1)/(n+ 1) e 4, ma il rango genrico
e 5.
I tensori per i quali il rango generico e piu grande del minimo intero maggiore o
uguale a (N + 1)/(n+ 1) vengono chiamati difettivi.
Si conoscono pochi esempi di tensori difettivi, ma una loro classificazione completa
non e nota. Una trattazione della difettivita (come una dimostrazione dell’enunciato
sui tensori 2× 2× 2) esula dagli scopi di questa Introduzione e per essa si rimanda
al testo di Landsberg [Landsberg], capitolo ???
L’importanza del rango generico nello studio delle variabili nascoste e evidente.
Dato un sistema aleatorio S con variabili x1, . . . , xs, dove xi ha ni+1 stati, il modello
algebrico di variabile nascosta con r stati, sulla correlazione totale di S, equivale alla
varieta secante algebrica Sr(X) dove X e la varieta di Segre di Pn1 × · · · × Pnm . Le
distribuzioni che stanno in questo modello dovrebber suggerire che il fenomeno sotto
osservazione e in realta guidato da una variebile (appunto: nascosta) con r-stati.
ma se r ≥ rg, tale suggerimento e nullo.
Infatti, in questo caso Sr(X) e uguale all’intero spazio delle distribuzioni, quindi
praticamente tutte le distribuzioni suggeriscono la presenza di una simile variabile.
Cio, dal lato pratico, significa semplicemente che l’informazione data dalla variabile
nascosta aggiuntiva e nulla. In pratica, quindi, l’esistenza o non esistenza della
variabile nascosta non aggiunge nessuna informazione utile alla comprensione del
fenomeno
Esempio 6.3.17. Consideriamo lo studio di stringhe di DNA. Se osserviamo la
distribuzione delle basi su 3 posizioni della stringa, otteniamo distribuzioni descritte
da tensori 4× 4× 4. tensori di questo tipo non sono difettivi, per cui essendo n = 9,
N = 63, il rango generico e 7.
L’osservazione di una distribuzione di rango 6 suggerisce allora la presenza di una
variabile nascosta con 6 stati (come la suddivisione del nostro campione in 6 specie
diverse).
L’osservazione di una distribuzione di rango 7 non ci da allora nessuna evidenza
pratica sulla reale esistenza di una variabile nascosta con 7 stati.
CAPITOLO 6. INDIPENDENZA CONDIZIONATA 147
Se noi sospettiamo proprio l’esistenza di una variabile nascosta (la specie) con 7 o
piu stati, come possiamo verificarla?
La risposta e che non e possibile un’osservazione del genere considerando solo tre
posizioni del DNA. Se pero passiamo ad osservare quattro posizioni, otteniamo un
tensore 4 × 4 × 4 × 4. Tensori di questo tipo (che non sono neanche loro difettivi)
hanno rango generico uguale a d256/13e = 20. Se in questo caso otteniamo ancora
distribuzioni di rango 7, che e molto minore di 20, la nostra supposizione ha ricevuto
una formidabile evidenza sperimentale.
6.4 Modelli simmetrici
Capitolo 7
Basi di Groebner e Teoriadell’Eliminazione
7.1 Introduzione
Le basi di Groebner rappresentano indubbiamente lo strumento pi‘u potente per
l’algebra computazionale, in particolare per lo studio degli ideali polinomiali. A
breve introdurremo tali basi, le loro propriet‘a e e una serie di risultati e algoritmi
per il loro utilizzo. Prima, pero, soffermiamoci un attimo su tre esempi che rappre-
sentano tre argomenti classici nella manipolazione di polinomi in una variabile o di
equazioni lineari.
Esempio 7.1.1. Consideriamo l’anello dei polinomi k[x]. Tale anello e un dominio
a ideali principali, cioe, dato un ideale I ⊂ k[x] esiste g ∈ k[x] tale che I = 〈g〉([CoxLittleOShea], Capitolo 1, Corollario 4). Dato un polinomio f ∈ k[x], l’algo-
ritmo di divisione permette di determinare facilmente se f ∈ I: dividiamo f per g
ottenendo
f = g · q + r
dove q, r ∈ k[x] e r = 0 oppure deg(r) < deg(g). Questo prova che f ∈ I se e solo
se r = 0.
Esempio 7.1.2. Consideriamo il seguente sistema di equazioni
149
150 Cristiano Bocci, Luca Chiantini
a11x1 + ·+ a1nxn = b1
a21x1 + ·+ a2nxn = b2...
am1x1 + ·+ amnxn = bm
,
di cui vogliamo calcolare le soluzioni. Il metodo generale consiste nel trasformare,
tramite operazioni sulle righe e sulle colonne, la seguente matricea11 · · · a1n −b1...
......
am1 · · · amn −bm
(7.1.1)
in una matrice di Gauss-Jordan. Alla fine sara possibile trovare tutte le soluzioni del
sistema originale, sostituendo dei valori alle variabili che restano libere. Puo succe-
dere ovviamente che il sistema abbia una sola soluzione (e quindi nessuna variabile
resta libera) o che non abbia soluzioni: questo succede, quando nella trasformazioni
si ottiene la riga (0 · · · 0 1).
Esempio 7.1.3. Consideriamo il sottoinsieme V di kn parametrizzato da
x1 = a11t1 + ·+ a1mtm + b1
x2 = a21t1 + ·+ a2mtm + b2...
xn = an1t1 + ·+ anmtm + bn
dove n > m. Tale parametrizzazione definisce una mappa
F : km −→ kn
(t1, . . . , tm) 7→ (x1, . . . , xn)
dalla quale V risulta essere un sottospazio lineare affine di kn. Associamo alla
precedente mappa la matricea11 · · · a1n −1 0 · · · 0 b1
a21 · · · a2n 0 −1 · · · 0 b2...
......
......
...an1 · · · anm 0 0 · · · −1 bn
(7.1.2)
che rappresenta anche il sistema lineare dato da
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE151
a11t1 + ·+ a1mtn − x1 + b1 = 0a21t1 + ·+ a2mtn − x2 + b2 = 0
...an1t1 + ·+ anmtn − xn + bn = 0
Applicando Gauss-Jordan otteniamo una matrice della forma(Im Bm×n−m
0n−m B′n−m×n−m
)Le entrate della matrice B′ definiscono i coefficienti delle equazioni, nelle xi, che
definiscono V .
La generalizzazione naturale dell’Esempio 7.1.1 ad un numero maggiore di varia-
bili e degli Esempi 7.1.2 e 7.1.3 a polinomi di grado maggiore porta alla definizione
dei seguenti problemi
(1) Problema di appartenenza: dato f ∈ k[x1, . . . , xn] e dato un ideale I =
〈f1, . . . , fm〉, determinare se f ∈ I.
(2) Problema di risolvere equazioni polinomiali: trovare tutte le soluzioni, in kn
di un sistema di equazioni polinomiali
f1(x1, . . . , xn) = 0f2(x1, . . . , xn) = 0...fm(x1, . . . , xn) = 0.
(3) Problema di implicizzazione: Sia V un sottoinsieme di kn definito, in maniera
parametrica, da
x1 = g1(t1, . . . , ts)x2 = g2(t1, . . . , ts)...xn = gn(t1, . . . , ts).
Se gli gi sono polinomi (o funzioni razionali) nelle variabili tj, allora V e
una varieta affine. Trovare un sistema di equazioni polinomiali (nelle xi) che
definisce V .
152 Cristiano Bocci, Luca Chiantini
Il secondo e terzo problema sono, in un certo senso, l’uno inverso dell’altro: nel
secondo cerchiamo l’insieme delle soluzioni dato un sistema di equazioni, nel terzo,
invece, cerchiamo un sistema di equazioni dato l’insieme delle soluzioni.
Nell’Esempio 7.1.1 abbiamo visto che esiste un test algoritmico per il problema
di appartenza nel caso n = 1. In 7.3 vedremo una possibile generalizzane per
un numero n qualsiasi di variabili. Tuttavia l’algoritmo non e estendibile al caso
generale, in maniera ottimale, senza aver introdotto prima le basi di Groebner. In
maniera simile abbiamo visto, grazie agli Esempi 7.1.2 e 7.1.3 che esistono metodi
algoritmici per risolvere il problema di risoluzione di sistemi di equazioni e per il
problema dell’implicizzazione, nel caso di polinomi lineari. Vedremo, nei prossimi
paragrafi, l’utilita delle basi di Groebner anche per questi due problemi.
7.2 Ordinamenti monomiali
Se analizziamo attentamente l’Esempio 7.1.1 possiamo notare che resta sottointeso
un ordinamento tra i monomi in funzione del grado del monomio: xα > xβ se α >
β. Per essere piu precisi possiamo dire che stiamo lavorando con un ordinamento,
tramite il grado, sui monomi in una variabile:
· · · > xm+1 > xm > · · · > x2 > x > 1
In maniera simile, nell’Esempio 7.1.2 abbiamo fissato un ordinamento tra le variabili
x1 > x2 > · · · > xn.
per poi poter collocare i loro coefficienti, delle varie equazioni, in modo preciso nella
matrice (7.1.1), mentre nell’Esempio 7.1.3, la matrice (7.1.2) e stata ottenuta dalla
scelta dell’ordinamento
t1 > t2 > · · · tm > x1 > x2 > · · · > xn.
Risulta chiaro, quindi, che, per poter affrontare i problemi (1)–(3) sara necessario
un ordinamento dei termini dei polinomi in k[x1, . . . , xn]. Ne definiremo adesso
alcuni, differenti tra loro, che saranno utili in contesti diversi. Per far cio osserviamo
innanzitutto che possiamo ricostruire il monomio xα = xα11 · · ·xαnn dalla sua n−upla
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE153
di esponenti (α1, . . . , αn) ∈ Zn≥0. Questo fatto stabilisce una corrispondenza iniettiva
tra i monomi in k[x1, . . . , xn] e Zn≥0. Inoltre, ogni ordinamento tra i vettori di Zn≥0
definisce un ordinamento tra i monomi: se α > β, dove > e un dato ordinamento
su Zn≥0, allora diremo che xα > xβ.
Dato che un polinomio e una somma di monomi, vogliamo essere in grado di
scrivere i suoi termini ordinandoli in modo ascendente o discendente (e, ovviamente,
in maniera non ambigua). Per far questo bisogna
i) che sia possibile confrontare due qualsiasi monomi. Questo vuol dire richiedere
che l’ordinamento sia un ordinamento totale: dati i monomi xα e xβ, solo una
delle seguenti affermazioni deve essere vera
xα > xβ, xα = xβ, xβ > xα.
ii) tenere in considerazioni gli effetti delle operazioni di somma e prodotto sui
monomi. Quando sommiamo polinomi, dopo aver raccolto i termini, possiamo
semplicemente riarrangiare i termini. E’ la moltiplicazione, quindi che po-
trebbe dare problemi se moltiplicando un polinomio per un monomio (perche
basta analizzare il prodotto polinomio-monomio ?), l’ordinamento dei termini
cambiasse. Affinche questo non accada richiediamo che se xα > xβ e xγ sono
monomi, allora xαxγ > xβxγ.
Osservazione 7.2.1. Considerando gli ordinamenti su Zn≥0, la proprieta ii) significa
che se α > β allora, per ogni γ ∈ Zn≥0, α + γ > β + γ.
Definizione 7.2.2. Un ordinamento monomiale su k[x1, . . . , xn] e una qualsiasi rela-
zione > su Zn≥0 o, equivalentemente, una qualsiasi relazione sull’insieme dei monomi
xα, α ∈ Zn≥0 che soddisfa
(i) > e un ordinamento totale su Zn≥0.
(ii) Se α > β e γ ∈ Zn≥0, allora α + γ > β + γ.
(iii) > e un buon ordinamento su Zn≥0, cioe ogni sottoinsieme non vuoto di Zn≥0 ha
un elemento minimale rispetto a >.
154 Cristiano Bocci, Luca Chiantini
Osservazione 7.2.3. Non e difficile dimostrare che essere un buon ordinamento
equivale al fatto che ogni sequenza, in Zn≥0, strettamente descrescente, ad un certo
punto termina. Questo fatto sara di fondamentale importanza per dimostrare che
alcuni algoritmi si arrestano in un numero finito di passi in quanto alcuni termini
decrescono strettamente.
Introduciamo adesso gli ordinamenti piu utilizzati
Definizione 7.2.4. Siano α = (α1, . . . , αn) e β = (β1, . . . , βn) elementi di Zn≥0.
(lex) Diremo che α >lex β se, nel vettore differenza α − β ∈ Zn≥0 la prima entrata
diversa da zero, partendo da sinistra, e positiva. Scriveremo xα >lex xβ se
α >lex β.
(grlex) Diremo che α >grlex β se,
|α| =n∑i=1
αi > |β| =n∑i=1
βi o |α| = |β| e α >lex β.
Scriveremo xα >grlex xβ se α >grlex β.
(grevlex) Diremo che α >grevlex β se,
|α| =n∑i=1
αi > |β| =n∑i=1
βi o |α| = |β|
e la prima entrata diversa da zero, partendo da destra, e negativa. Scriveremo
xα >grevlex xβ se α >grevlex β.
L’ordinamento >lex prende il nome di ordinamento lessicografico, >grlex prende il
nome di ordinamento graduato lessicografico e >grevlex prende il nome di ordinamen-
to graduato lessicografico inverso. Lasciamo al lettore la verifica che gli ordinamenti
definiti nella precedente proposizione verificano le condizioni della Definizione 7.2.2.
Esempio 7.2.5.
1) (1, 2, 3, 4) >lex (0, 1, 4, 6) perche (1, 2, 3, 4)− (0, 1, 4, 5) = (1, 1,−1,−2);
2) (3, 3, 3, 4) >lex (3, 3, 3, 3) perche (3, 3, 3, 4)− (3, 3, 3, 3) = (0, 0, 0, 1);
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE155
3) (1, 3, 3, 4) <lex (2, 3, 2, 4) perche la prima entrata, da sinistra, di (1, 3, 3, 4) −(2, 3, 2, 4) = (−1, 0, 1, 0) e negativa;
4) (1, 2, 3, 4) <grlex (0, 1, 4, 6) perche |(1, 2, 3, 4)| = 10 < 11 = |(0, 1, 4, 6)|;
5) (3, 1, 2, 4) >grlex (3, 1, 1, 5) perche |(3, 1, 2, 4)| = |(3, 1, 1, 5)| = 10 e (3, 1, 2, 4) >lex
(3, 1, 1, 5) (infatti (3, 1, 2, 4)− (3, 1, 1, 5) = (0, 0, 1,−1);
6) (1, 2, 3, 4) <grevlex (0, 1, 4, 6) perche |(1, 2, 3, 4)| = 10 < 11 = |(0, 1, 4, 6)|;
7) (1, 3, 4, 4) >grevlex (2, 3, 2, 5) perche |(3, 1, 2, 4)| = |(3, 1, 1, 5)| = 12 e la prima
entrata, da destra, di (1, 3, 4, 4)− (2, 3, 2, 5) = (−1, 0, 2,−1) e negativa;
Ad ogni variabile xi e associato il vettore di Zn≥0 con entrate tutte nulle tranne
un 1 nella i−esima posizione. Si verifica facilmente che
(1, 0, . . . , 0) >lex (0, 1, . . . , 0) >lex · · · >lex (0, 0, . . . , 0, 1)
da cui segue x1 >lex x2 >lex · · · >lex xn. Nella pratica, lavorando, ad esempio, con
tre variabili, si preferisce chiamare le variabili x, y, z piuttosto che x1, x2, x3. In tal
caso assumiamo che l’ordine alfabetico tra le variabili x > y > z venga utilizzato per
definire l’ordinamento lessicografico tra i monomi. Si nota quindi che l’ordinamento
lessicografico funziona come l’usuale ordinamento di un vocabolario (da cui il nome).
Nell’ordinamento lessicografico ogni variabile domina qualsiasi monomio compo-
sto solo da variabili piu piccole. Ad esempio x1 >lex x52x
43 in quanto (1, 0, 0) −
(0, 5, 4) = (1,−5,−4). In definitiva, l’ordinamento lessicografico non tiene conto
del grado totale del monomio e, per questo motivo, si introducono l’ordinamento
graduato lessicografico e l’ordinamento graduato lessicografico inverso. Per capire le
differenze tra i due ordinamenti, notiamo innanzitutto che entrambi usano il grado
totale dei monomi nello stesso modo. Pero grlex usa l’ordinamento lex e quindi
“favorisce” la potenza maggiore della prima variabile, mentre grevlex, guardando
alla prima entrata positiva da destra, “favorisce” la piu piccola potenza dell’ultima
variabile. Per fare un esempio:
x4yz2 >grlex x3y3z e x3y3z >grevlex x
4yz2.
Conviene puntualizzare che esistono molti ordinamenti lessicografici, graduati e
graduati inversi, a seconda di come sono ordinate le variabili x1, . . . , xn. Ad esempio,
156 Cristiano Bocci, Luca Chiantini
per due variabili x, y possiamo considerare l’ordinamento dato da x > y, ma anche
quello dato da y > x. Quindi, date n variabili x1, . . . , xn, e possibile definire n!
ordinamenti di ciascun tipo.
Esempio 7.2.6. Mostriamo come gli ordinamenti monomiali si applicano ai poli-
nomi. Se f ∈ k[x1, . . . , xn] e abbiamo scelto un ordinamento monomiale >, allora
possiamo ordinare i termini di f in una maniera non ambigua rispetto a >. Consi-
deriamo, per esempio, f = 2x4yz3−3xyz5 + 5x3yz2 + 2x7. Rispetto all’ordinamento
lessicografico f si scrive come
f = 2x7 + 2x4yz3 + 5x3yz2 − 3xyz5.
Rispetto all’ordinamento graduato lessicografico f si scrive come
f = 2x4yz3 + 2x7 − 3xyz5 + 5x3yz2.
Rispetto all’ordinamento graduato lessicografico inverso f si scrive come
f = 2x4yz3 + 2x7 − 3xyz5 + 5x3yz2.
Definizione 7.2.7. Sia f =∑
α aαxα un polinomio non nullo in k[x1, . . . , xn] e sia
> un ordinamento monomiale
(i) il multigrado di f e
multideg(f) = max{α ∈ Zn≥0 : aα 6= 0}.
(ii) Il coefficiente principale di f e
LC(f) = amultideg(f)∈ k.
(iii) Il monomio principale di f e
LM(f) = xmultideg(f).
(iv) Il termine principale di f e
LT (f) = LC(f) · LM(f).
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE157
Vediamo le precedenti definizione all’opera sul polinomio f = 2x4yz3 − 3xyz5 +
5x3yz2 + 2x7 dell’Esempio 7.2.6, fissato l’ordinamento lessicografico:
multideg(f) = (7, 0, 0)LC(f) = 2LM(f) = x7
LT (f) = 2x7
Lemma 7.2.8. Siano f, g ∈ k[x1, . . . , xn] polinomi non nulli. Allora
(i) multideg(fg) = multideg(f) + multideg(g)
(iv) Se f + g 6= 0 allora multideg(f + g) ≤ max{multideg(f),multideg(g)}. Se,
inoltre, multideg(f) 6= multideg(g), allora vale l’uguaglianza.
D’ora in avanti assumeremo sempre che un particolare ordinamento monomiale
sia stato scelto e quindi che coefficiente, monomio e termine principale siano calcolati
relativamente a quell’ordinamento solamente.
7.3 Un algoritmo di divisione in k[x1, . . . , xn]
L’algoritmo di divisione visto nell’Esempio 7.1.1 permette di stabilire se un dato
polinomio f ∈ k[x] sta in un ideale I. Per studiare questo problema nel caso di anelli
in piu variabili e necessario riformulare un algoritmo di divisione in k[x1, . . . , xn] che
estenda quello in k[x]. Nel caso generale, questo significa dividere f ∈ k[x1, . . . , xn]
per f1, . . . , ft ∈ k[x1, . . . , xn] che equivale a esprimere f come espressione
f = a1f1 + · · ·+ atft + r
dove gli ai ed r sono elementi in k[x1, . . . , xn]. L’idea e la stessa del caso di una sola
variabile: moltiplichiamo un certo fi per un opportuno ai in modo da cancellare il
monomio principale di f .
Teorema 7.3.1. Sia > un fissato ordinamento monomiale su Zn≥0 e F = (f1, . . . , ft)
una t−upla ordinata di polinomi in k[x1, . . . , xn]. Allora ogni f ∈ k[x1, . . . , xn] puo
essere scritto come
f = a1f1 + · · ·+ atft + r
158 Cristiano Bocci, Luca Chiantini
dove ai, r ∈ k[x1, . . . , xn] e r = 0 oppure e una combinazione lineare, a coefficienti
in k, di monomi, nessuno dei quali e divisibile da nessuno dei termini principali
LT(f1), . . . ,LT(fs). Diremo che r e il resto della divisione di f per F . Inoltre, se
aifi 6= 0, allora
multideg(f) ≥ multideg(aifi).
Esempio 7.3.2. Dividiamo f = x2y−2y2+3x per f1 = xy+1 e f2 = y+x utilizzando
l’ordinamento lessicografico. I termini principali LT (f1) = xy e LT (f2) = x dividono
entrambi il termine principale di f , LT (f) = x2y. Quindi, avendo scritto prima f1
iniziamo a dividere per questo polinomio, ottenendo:
a1 =LT (f)
LT (f1)= x.
Sottraiamo poi a1f1 ad f
g = f − a1f1 = x2y − 2y2 + 3x− x2y + x = 2x− 2y2.
Il termine principale di questo polinomio, LT (g) = x, e divisibile per quello di f2 e
quindi calcoliamo
a2 =LT (g)
LT (f2
= 2, r = g − a2f2 = 2x− 2y2 − 2(x+ y) = −2y2 − 2y
In definitiva abbiamo
f = x · (xy + 1) + 2 · (x+ y)− 2y2 − 2.
Purtroppo, l’algoritmo di divisione sottointeso dal Teorema 7.3.1 non si comporta
bene come nel caso di una sola variabile, come evidenziano i seguenti esempi.
Esempio 7.3.3. Dividiamo f = x2y − xy2 + x2 + y2 per f1 = xy − 1 e f2 = x2 + 1,
usando come ordinamento monomiale sempre quello lessicografico. Procedendo come
per l’esempio precedente otteniamo
a1 =LT (f)
LT (f1)=x2y
xy= x, g = f − a1f1 = −xy2 + x2 + y2 + x
a2 =LT (g)
LT (f2
=x2
x2= 1, r = g − a2f2 = −xy2 + y2 + x− 1.
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE159
Si nota che il il termine principale del resto, LT (r) = −xy2, e ancora divisibile per
il termine principale di f1. Quindi possiamo nuovamente dividere per f1 ottenendo
a′1 =LT (r)
LT (f1)=−xy2
xy= −y, r′ = r − a′1f1 = x+ y2 +−y − 1.
In definitiva abbiamo
f = x · (xy − 1) + (x2 + 1)− y · (xy − 1) + x+ y2 − y − 1 =
= (x− y) · (xy − 1) + (x2 + 1) + x+ y2 − y − 1.
Esempio 7.3.4. Un altro problema dell’algoritmo di divisione in k[x1, . . . , xn] ri-
guarda il fatto che, riarrangiando l’ordine degli fi, i valori degli ai e di r possono
cambiare. In particolare il resto r non e univocamente determinato. Consideriamo
ad esempio il polinomio f = x2y− xy2 + x2 + y2 dell’esempio precedente, dividendo
prima per f2 = x2 + 1 e poi per f1 = xy − 1.
a2 =LT (f)
LT (f2)=x2y
x2= y, g = f − a2f2 = x2 − xy2 + y2 − y
Il termine principale di g, LT (g) = x2, non e divisibile per quello di f1, ma lo e
uno dei suoi monomi successivi: xy2. Mettiamo “da parte” x2 e consideriamo come
nuovo polinomio g = f − a2f2 − x2 = −xy2 + y2 − y.
a1 =LT (g)
LT (f1)=−xy2
xy= −y, g − a1f1 = y2 − 2y.
E per quanto detto prima, aggiungendo x2 al resto, avremo r = x2 + y2 − 2y, che
risulta essere diverso dal resto ottenuto nell’esempio precedente.
Esempio 7.3.5. L’algoritmo di divisione in k[x1, . . . , xn] non funziona bene neanche
per quanto riguarda il problema di appartenza ad un ideale. Nell’Esempio 7.1.1
avevamo visto che dati polinomi f, g, a, r ∈ k[x] con f = ag + r, allora f ∈ I = 〈g〉se e solo se r = 0. Nel caso di polinomi in piu variabili, r = 0 e una condizione
sufficiente in quanto, dato f , se otteniamo
f = a1f1 + · · ·+ atft
allora, chiaramente f ∈ 〈f1. . . . , fr〉. Tuttavia la condizione non e necessaria.
160 Cristiano Bocci, Luca Chiantini
Consideriamo ad esempio f = xy2 − x, f1 = xy + 1, f2 = y2 − 1 ∈ k[x, y] con
ordinamento lessicografico. Se dividiamo f per F = (f1, f2) otteniamo
xy2 − x = y · (xy + 1) + 0 · (y2 − 1) + (−x− y).
Invece, se dividiamo per F = (f2, f1) otteniamo
xy2 − x = x · (y2 − 1) + 0 · (xy + 1) + 0
che ci mostra che f ∈ 〈f1, f2〉. I calcoli precedenti ci mostrano che, sebbene f ∈〈f1, f2〉, possiamo tuttavia avere un resto nella divisione per F = (f1, f2).
Dai precedenti esempi possiamo concludere che l’algoritmo in k[x1, . . . , xn] e una
generalizzazione troppo imperfetta del caso di una sola variabile. Per ovviare a
questi problemi sara necessario introdurre le basi di Groebner. L’idea di fondo si
basa sul fatto che, quando lavoriamo con un insieme di polinomi f1, . . . , ft, questo
porta a lavorare anche con l’ideale da essi generato I = 〈f1, . . . , ft〉. Questo ci da la
possibilita di passare da f1, . . . , ft, ad un diverso insieme di generatori di I, ma con
proprieta migliori rispetto all’algoritmo di divisione. Prima di introdurre le basi di
Groebner richiamiamo alcuni concetti e risultati che ci saranno utili.
7.4 Ideali Monomiali
Definizione 7.4.1. Un ideale I ⊂ k[x1, . . . , xn] e un ideale monomiale se esiste un
sottoinsieme A ⊂ Zn≥0 (eventualmente infinito) tale che I consiste di tutti i polinomi
che sono somme finite della forma∑
α∈A hαxα, dove hα ∈ k[x1, . . . , xn]. In tal caso,
scriveremo I = 〈xα : α ∈ A〉.
Un esempio di ideale monomiale e dato da I = 〈x5y2, x4y3, x2y4〉. E’ possibile
caratterizzare tutti i monomi che stanno in un dato ideale monomiale.
Lemma 7.4.2. Sia I = 〈xα : α ∈ A〉 un ideale monomiale. Allora un monomio xβ
giace in I se e solo se xβ e divisibile per xα per qualche α ∈ A.
Dimostrazione. Se xβ e un multiplo di xα per qualche α ∈ A, allora xβ ∈ I per
definizione di ideale. Viceversa, se xβ ∈ I allora
xβ =t∑i=1
hixαi (7.4.1)
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE161
dove hi ∈ k[x1, . . . , xn] e αi ∈ A. Sviluppando ciascun hi come combinazione di
monomi, possiamo osservare che ogni termine a destra in (7.4.1) e divisibile per
qualche αi. Quindi anche il lato sinistro xβ in (7.4.1) deve avere la stessa proprieta.
Osserviamo che xβ e divisibile per xα quando xβ = xα · xγ per qualche γ ∈ Zn≥0
che equivale a chiedere β = α + γ. Quindi, l’insieme
α + Zn≥0 = {α + γ : γ ∈ Zn≥0}
consiste degli esponenti dei monomi che sono divisibili per xα. Questo fatto, insieme
al lemma precedente, ci permette di dare una descrizione grafica dei monomi in un
dato ideale monomiale. Ad esempio, se I = 〈x5y2, x4y3, x2y4〉, allora gli esponenti
dei monomi in I formano l’insieme((5, 2) + Zn≥0
)∪((4, 3) + Zn≥0
)∪((2, 4) + Zn≥0
).
Possiamo visualiizare questo insieme come l’unione dei punti interi in tre copie
traslate del primo quadrante del piano:
m
n
(5, 2)
(4, 3)
(2, 4)
Il seguente lemma permette di dire se un polinomio f sta in un ideale monomiale
I, guardando ai monomi di f (dimostrazione lasciata per esercizio).
Lemma 7.4.3. Sia I un ideale monomiale e f ∈ k[x1, . . . , xn]. Allora le seguenti
condizioni sono equivalenti
162 Cristiano Bocci, Luca Chiantini
(i) f ∈ I.
(ii) ogni termine di f sta in I.
(iii) f e una k−combinazione lineare di monomi in I.
Uno dei risultati principali sugli ideali monomiali e il cosiddetto Lemma di Dick-
son che ci assicura che ogni ideale monomiale e generato da un numero finito di mo-
nomi. Per la dimostrazione il lettore interessato puo consultare [CoxLittleOShea],
Teorema 5, Capitolo 2.4.
Lemma 7.4.4 (Lemma di Dickson). Un ideale monomiale I = 〈xα : α ∈ A〉 ⊂k[x1, . . . , xn] puo essere scritto nella forma I = 〈xα1 , xα2 , . . . , xαt〉 dove α1, α2, . . . , αt ∈A. In particolare I ha una base finita.
In realta, esiste un teorema piu generale che garantisce che ogni ideale I ⊂k[x1, . . . , xn] e finitamente generato. Tale teorema e noto come Teorema della Base
di Hilbert.
Teorema 7.4.5 (della base di Hilbert). Ogni ideale I ⊂ k[x1, . . . , xn] ammette una
base finita, cioe I = 〈g1, . . . , gt〉 per qualche g1, . . . , gt ∈ I.
Prima di dimostrare il Teorema della Base di Hilbert introduciamo alcuni concetti.
Definizione 7.4.6. Sia I ⊂ k[x1, . . . , xn] un ideale diverso dall’ideale nullo {0}.
(i) indichiamo con LT (I) l’insieme dei termini principali di I
LT (I) = {cxα : esiste f ∈ I con LT (f) = cxα}
(ii) indichiamo con 〈LT (I)〉 l’ideale generato dagli elementi in LT (I).
Dato I = 〈f1, . . . , ft〉, osserviamo che 〈LT (f1), . . . , LT (ft)〉 non e necessaria-
mente uguale a 〈LT (I)〉. E’ vero che LT (fi) ∈ LT (I) ⊂ 〈LT (I)〉 da cui se-
gue 〈LT (f1), . . . , LT (ft)〉 ⊂ 〈LT (I)〉, tuttavia 〈LT (I)〉 puo contenere strettamente
〈LT (f1), . . . , LT (ft)〉.
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE163
Esempio 7.4.7. Sia I = 〈f1, f2〉 con f1 = x2y − x2 + x e f2 = xy2 − xy. Usiamo
l’ordinamento grlex. Poiche
y · (x2y − x2 + x)− x · (xy2 − xy) = xy.
si ha xy ∈ I, da cui xy = LT (xy) ∈ 〈LT (I)〉. Comunque xy non e divisibi-
le per LT (f1) = x2y e per LT (f1) = xy2, e quindi, per il Lemma 7.4.2 xy 6∈〈LT (f1), LT (f2)〉.
Proposizione 7.4.8. Sia I ⊂ k[x1, . . . , xn] un ideale.
(i) LT (I) e un ideale monomiale
(ii) esistono g1, . . . , gt tale che 〈LT (I)〉 = 〈LT (g1), . . . , LT (gt)〉.
Dimostrazione. (i) I monomi principali LM(g) degli elementi g ∈ I \ {0} generano
l’ideale monomiale J := 〈LM(g) : g ∈ I \ {0}〉. Poiche LM(g) e LT (g) differiscono
per una costante diversa da zero, si ha che J = 〈LT (g) : g ∈ I \ {0}〉 = 〈LT (I)〉.Quindi 〈LT (I)〉 e un ideale monomiale.
(ii) Poiche 〈LT (I)〉 e generato dai monomi LM(g) con g ∈ I \ {0}, per il Lemma
di Dickson sappiamo che 〈LT (I)〉 = 〈LM(g1), LM(g2), . . . , LM(gt)〉 per un numero
finito di polinomi g1, g2, . . . , gt ∈ I. Poiche LM(gi) e LT (gi) differiscono per una co-
stante diversa da zero, per i = 1, . . . , t, si ha che 〈LT (I)〉 = 〈LT (g1), LT (g2), . . . , LT (gt)〉.
Usando la Proposizione precedente e l’algoritmo di divisione introdotto in 7.3
possiamo dimostrare il Teorema 7.4.5.
Dimostrazione del Teorema della Base di Hilbert. Se I = {0} prendiamo come in-
sieme dei generatori {0} che e indubbiamente finito. Se I contiene alcuni polinomi
diversi da zero, allora un insieme di generatori g1, . . . , gt per I puo essere costruito
nella maniera seguente. Per la Proposizione 7.4.8 esistono g1, . . . , gt ∈ I tali che
〈LT (I)〉 = 〈LT (g1), LT (g2), . . . , LT (gt)〉. Dimostriamo che I = 〈g1, . . . , gt〉.Chiaramente 〈g1, . . . , gt〉 ⊂ I poiche, per ogni i = 1, . . . , t, gi ∈ I. Viceversa,
sia f ∈ I un qualsiasi polinomio. Applichiamo l’algoritmo di divisione in 7.3 per
dividere f per 〈g1, . . . , gt〉. Otterremo un’espressione della forma
f = a1g1 + · · ·+ atgt + r
164 Cristiano Bocci, Luca Chiantini
dove i termini in r non sono divisibili per nessuno dei termini principali LT (gi).
Facciamo vedere che r = 0. Per fare questo, osserviamo innanzitutto che
r = f − a1g1 − · · · − atgt ∈ I.
Se r 6= 0 allora LT (r) ∈ 〈LT (I)〉 = 〈LT (g1), LT (g2), . . . , LT (gt)〉 e, per il Lemma
7.4.2 segue che LT (r) deve essere divisibile per almeno un termine principale LT (gi).
Questo contraddice la definizione di resto della divisione e quindi r deve essere uguale
a zero, da cui
f = a1g1 + · · ·+ atgt + 0 ∈ 〈g1, . . . , gt〉
che dimostra I ⊂ 〈g1, . . . , gt〉.
7.5 Basi di Groebner
Introduciamo adesso delle basi “buone” per l’algoritmo di divisione presentato in
7.3, buone nel senso che non si verificheranno i problemi descritti negli Esempi
7.3.3, 7.3.4 e 7.3.5. L’idea di base sta nel fatto che, una volta scelto un ordinamento
monomiale, ciascun f ∈ k[x1, . . . , xn] ha un unico termine principale LT (f).
Torniamo al Teorema 7.4.5: la base utilizzata nella dimostrazione la proprieta
particolare che 〈LT (g1), . . . , LT (gt)〉 = 〈LT (I)〉. Non e detto che ogni base di I
abbia tale proprieta e quindi diamo a tali basi un nome particolare.
Definizione 7.5.1. Sia fissato un ordinamento monomiale. Un sottoinsieme finito
G = {g1, . . . , gt} di un ideale I prende il nome di base di Groebner (o base standard)
se
〈LT (g1), . . . , LT (gt)〉 = 〈LT (I)〉
Il seguente risultato ci assicura che ogni ideale ha una base di Groebner.
Corollario 7.5.2. Sia fissato un ordinamento monomiale. Allora ogni ideale I ⊂k[x1, . . . , xn], diverso da {0}, ammette una base di Groebner. Inoltre, ogni base di
Groebner per un ideale I e una base di I.
Dimostrazione. Dato un ideale I, diverso da zero, l’insieme G = {g1, . . . , gt} costrui-
to nella dimostrazione del Teorema 7.4.5 e una base di Groebner per definizione.
Per la seconda parte dell’enunciato, basta osservare che sempre la dimostrazione del
Teorema 7.4.5 prova che I = 〈g1, . . . , gt〉, cioe G e una base per I.
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE165
Consideriamo l’ideale I = 〈f1, f2〉 dell’Esempio 7.4.7. Per quanto detto in tale
esempio, {f1, f2} = {x2y − x2 + x, xy2 − xy} non e una base di Groebner.
Nel prossimo paragrafo mostreremo come trovare basi di Groebner, ma prima
soffermiamoci su alcune loro proprieta che ci mostrano perche siano “buone” rispetto
all’algoritmo di divisione presentato in 7.3.
Proposizione 7.5.3. Sia G = {g1, . . . , gt} una base di Groebner per un ideale
I ⊂ k[x1, . . . , xn] e sia f ∈ k[x1, . . . , xn]. Allora esiste un unico r ∈ k[x1, . . . , xn]
tale che
(i) nessun monomio di r e divisibile per i termini principali LT (g1), . . . , LT (gt);
(ii) esiste g ∈ I tale che f = g + r;
In particolare, r e il resto della divisione di f per G, usando l’algoritmo di divisione,
indipendentemente da come gli elementi di G sono elencati.
Dimostrazione. L’algoritmo di divisione applicato ad f e G fornisce f = a1g1 +
· · ·+ atgt + r dove r soddisfa (i). Affinche (ii) sia soddisfatta e sufficiente prendere
g = a1g1 + · · · + atgt ∈ I. Questo prova l’esistenza di r. Per provare l’unicita,
supponiamo che f = g + r = g + r soddisfi (i) e (ii). Allora r − r = g − g ∈ I e
quindi, se r 6= r, allora LT (r− r) ∈ 〈LT (I)〉 = 〈LT (g1), . . . , LT (gt)〉. Per il Lemma
7.4.2 segue che LT (r − r) e divisibile per qualche LT (gi). Questo e impossibile in
quanto nessun termine di r, r e divisibile per nessuno tra LT (g1), . . . , LT (gt). Quindi
r − r deve essere zero e l’unicita resta provata.
Osservazione 7.5.4. Il resto r prende di solito il nome di forma normale di f . La
Proposizione precedente ci dice che le basi di Groebner possono essere caratteriz-
zate tramite l’unicita del resto. Osserviamo pero che, sebbene il resto sia unico,
indipendentemente dall’ordine con cui si divide f per i vari LT (gi), i coefficienti ai,
in f = a1g1 + · · ·+ atgt + r, non sono unici.
Come corollario della proposizione precedente otteniamo il seguente criterio per
stabilire se un polinomio appartiene a un ideale dato.
Corollario 7.5.5. Sia G = {g1, . . . , gt} una base di Groebner per un ideale I ⊂k[x1, . . . , xn] e sia f ∈ k[x1, . . . , xn]. Allora f ∈ I se e solo se il resto della divisione
di f per G e zero.
166 Cristiano Bocci, Luca Chiantini
Definizione 7.5.6. Scriviamo fF
per il resto della divisione di f per una t−upla
ordinata F = (f1, . . . , ft). Se F e una base di Groebner per 〈f1, . . . , ft〉, allora
possiamo guardare ad F come ad un insieme senza un particolare ordine grazie alla
Proposizione 7.5.3.
Esempio 7.5.7. Consideriamo il polinomio f = x2y− xy2 + x2 + y2 e F = {f1, f2}con f1 = xy − 1 e f2 = x2 + 1. Dall’Esempio 7.3.3 sappiamo che
fF
= x+ y2 − y − 1.
Se consideriamo invece F ′ = {f2, f1}, allora, dai conti fatti nell’Esempio 7.3.4,
otteniamo
fF ′
= x2 + y2 − 2y.
Iniziamo adesso a capire come sia possibile costruire una base di Groebner per
un ideale I a partire da un suo insieme di generatori f1, . . . , ft. Come abbiamo visto
prima, uno dei fatti per cui {f1, . . . , ft} non e detto che sia una base di Groebner
riguarda la possibilita che esista una combinazione polinomiale degli fi il cui termine
principale non sta nell’ideale generato dagli LT (fi). Questo ad esempio succede
quando i termini principali di una data combinazione axαfi − bxβfj si cancellano
lasciando solo termini di grado minore. D’altro canto axαfi − bxβfj ∈ I e quindi
il suo termine principale appartiene a 〈LT (I)〉. Per studiare questo fenomeno di
cancellazione introduciamo il concetto di S−polinomio.
Definizione 7.5.8. Siano f, g ∈ k[x1, . . . , xn] due polinomi non nulli.
(i) Se multideg(f) = α e multideg(g) = β, allora, posto γ = (γ1, . . . , γn) dove γi =
max{αi, βi}, chiamiamo xγ il minimo comune multiplo di LM(f) e LM(g),
scrivendo xγ =MCM(LM(f), LM(g)).
(ii) L’S−polinomio di f e g e la combinazione
S(f, g) =xγ
LT (f)· f − xγ
LT (g)· g.
Esempio 7.5.9. Consideriamo i polinomi f = 3x3z+x2y+xyz e g = x2y3 +y3 +z2
in k[x, y, z] con ordinamento lessicografico. Allora
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE167
multideg(f) = (3, 0, 1)multideg(g) = (2, 3, 0)
quindi γ = (3, 3, 1) e
S(f, g) =x3y3z
3x3z· f − x3y3z
x2y3· g =
1
3x2y4 +
1
3xy4x− xy3z − xz3.
Un S−polinomio S(f, g) serve a produrre la cancellazione dei termini principali.
Infatti ogni cancellazione di termini principali tra polinomi dello stesso multigrado
e ottenuta da questo tipo di combinazioni polinomiali, come garantito dal seguente
risultato.
Lemma 7.5.10. Supponiamo di avere una somma∑t
i=1 cifi dove ci ∈ k e multideg(fi) =
δ ∈ Zn≥0 per ogni i. Se multideg(∑t
i=1 cifi) < δ, allora∑t
i=1 cifi e una combinazione
lineare, con coefficienti in k, degli S−polinomi S(fi, fj), per 1 ≤ i, j ≤ t. Inoltre,
ciascun S(fi, fj) ha multigrado < δ.
Usando il concetto di S−polinomio e il lemma precedente possiamo dimostrare il
seguente criterio di Buchberger per stabilire se una base di un ideale e una base di
Groebner.
Teorema 7.5.11 (Burghberger S−pair criterion). Sia I un ideale in k[x1, . . . , xn].
Allora una base G = {g1, . . . , gt} per I e una base di Groebner per I se e solo se,
per ogni coppia di indici i 6= j, il resto della divisione di S(gi, gj) per G e zero.
Dimostrazione. Un verso del se e solo se e semplice in quanto, se G e una base di
Groebner, allora, dato che S(gi, gj) ∈ I, il loro resto per la divisione per G e zero,
per il Corollario 7.5.5. Dimostriamo quindi l’implicazione nell’altro verso.
Sia f ∈ I = 〈g1, . . . , gt〉 un polinomio non nullo. Esistono quindi polinomi hi ∈k[x1, . . . , xn] tali che
f =t∑i=1
higi. (7.5.1)
Per il Lemma 7.2.8 sappiamo che
multideg(f) ≤ max (multideg(higi)) (7.5.2)
Sia mi =multideg(higi) e definiamo δ = max(m1, . . . ,mt). Quindi la precedente
disuguaglianza puo essere scritta come multideg(f) ≤ δ. Se cambiamo la forma in
168 Cristiano Bocci, Luca Chiantini
(7.5.1) di come f puo essere scritta in termini di G, otterremo un differente valore per
δ. Dato che un ordinamento monomiale e un buon ordinamento, possiamo scegliere
un espressione per f della forma (7.5.1) per cui δ sia minimale.
Facciamo vedere adesso che, se δ e minimale, allora multideg(f) = δ. Dimostria-
molo per assurdo supponendo che multideg(f) < δ. Scriviamo f in modo da isolare
i termini di multigrado δ:
f =∑mi=δ
higi +∑mi<δ
higi
=∑mi=δ
LT (hi)gi +∑mi=δ
(hi − LT (hi))gi +∑mi<δ
higi(7.5.3)
I monomi che appaiono nella seconda e terza somma, della seconda riga, hanno tutti
multigrado < δ. Quindi, la nostra ipotesi multideg(f) < δ ci dice che anche la prima
somma ha multigrado < δ.
Siano LT (hi) = cixαi , allora la prima somma∑
mi=δ
LT (hi)gi =∑mi=δ
cixαigi
ha esattamente la forma descritta nel Lemma 7.5.10 con fi = xαigi. Quindi, sempre
per il Lemma 7.5.10 questa somma e una combinazione lineare degli S−polinomi
S(xαjgj, xαkgk). Inoltre si ha
S(xαjgj, xαkgk) =
xδ
xαjLT (gj)xαjgj −
xδ
xαkLT (gk)xαkgk
= xδ−γjkS(gjgk)
dove xγjk e il minimo comune multiplo tra LM(gj) e LM(gk)). Quindi esistono
costanti cjk ∈ k tali che∑mi=δ
LT (hi)gi =∑j,k
cjkxδ−γjkS(gj, gk). (7.5.4)
Le nostre ipotesi ci dicono che il resto di S(gj, gk) e zero nella divisione per g1, . . . , gt.
Tramite l’algoritmo di divisione, questo significa che ciascuno S−polinomio puo
essere scritto nella forma
S(gj, gk) =t∑i=1
aijkgi (7.5.5)
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE169
dove aijk ∈ k[x1, . . . , xn]. L’algoritmo di divisione ci dice anche che
multideg(aijkgi) ≤ multideg(S(gj, gk)) (7.5.6)
per ogni scelta di i, j e k. Questo ci dice che quando il resto e zero, possiamo trovare
un’espressione per S(gj, gk) in termini di G dove non tutti i termini principali si
cancellano. Infatti, multiplichiamo l’espressione di S(gj, gk) per xδ−γjk ottenendo
xδ−γjkS(gj, gk) =t∑i=1
bijkgi,
dove bijk = xδ−γjkaijk. Quindi, dalla (7.5.6) e dal Lemma 7.5.10 otteniamo
multideg(bijkgi) ≤ multideg(xδ−γjkS(gj, gk)) < δ. (7.5.7)
Se sostituiamo la precedente espressione di xδ−γjkS(gj, gk) in (7.5.4) otteniamo la
seguente equazione
∑mi=δ
LT (hi)gi =∑j,k
cjkxδ−γjkS(gj, gk) =
∑j,k
cjk
(∑t
bijkgi
)=∑i
higi
che, per la (7.5.7), ha la proprieta che, per ogni i,
multideg(higi) < δ.
Infine, sostituiamo∑
mi=δLT (hi)gi =
∑i higi nella (7.5.3) ottenendo un’espres-
sione per f che e una combinazione lineare degli gi dove tutti i termini hanno mul-
tigrado strettamente minore di δ. Questo contraddice la minimalita di δ e quindi si
deve avere multideg(f) = δ.
Quindi multideg(f) =multideg(higi), per qualche i, da cui segue che LT (f) e
divisibile per LT (gi). Quindi LT (f) ∈ 〈LT (g1), . . . , LT (gt)〉 e il teorema e dimo-
strato.
Esempio 7.5.12. Consideriamo l’ideale della cubica gobba I = 〈y−x2, z−x3〉 in R3.
Proviamo che G = {y − x2, z − x3} e una base di Groebner per I. Supponiamo che
sia fissato l’ordinamento lessicografico con y > z > x. Consideriamo S−polinomio
S(y − x2, z − x3) =yz
y(y − x2)− yz
z(z − x3) = −zx2 + yx3.
170 Cristiano Bocci, Luca Chiantini
Tramite l’algoritmo di divisione otteniamo
−zx2 + yx3. = x3 · (y − x2) + (−x2) · (z − x3) + 0.
e quindi S(y − x2, z − x3)G = 0 e G e una base di Groebner per I, per il Teorema
7.5.11. Il lettore verifichi che, per l’ordinamento x > y > z, G non e una base di
Groebner per I.
7.6 Algoritmo di Buchberger
Abbiamo visto, grazie al Corollario 7.5.2 che ogni ideale ammette una base di Groeb-
ner, ma purtroppo non ci dice come costruirla. Vediamo quindi adesso come sia
possibile ovviare a questo problema tramite l’algoritmo di Buchberger.
Teorema 7.6.1. Sia I = 〈f1, . . . , fs〉 6= {0]} un ideale in k[x1, . . . , xn]. Una base
di Groebner per I puo essere costruita, in un numero finito di passi, con il seguente
algoritmo.
Input: F = (f1, . . . , fs)
Output: una base di Groebner G = (g1, . . . , gt) per I, con F ⊂ G.
G := F
RIPETERE
G′ := G
PER ogni coppia {p, q}, p 6= q in G′ FAI
S := S(p, q)G′
SE S 6= 0 ALLORA G := G ∪ {S}FINO A QUANDO G = G′
Esempio 7.6.2. Consideriamo ancora l’ideale I = 〈f1, f2〉 dell’Esempio 7.4.7. Sap-
piamo gia che {f1, f2} = {x2y − x2 + x, xy2 − xy} non e una base di Groebner. in
quanto y · (x2y− x2 + x)− x · (xy2− xy) = xy = LT (xy) 6∈ 〈LT (f1), LT (f2)〉. Posto
G′ = G = {f1, f2} calcoliamo
S(f1, f2) :=x2y2
x2yf − x2y2
(xy2g = xy.
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE171
Poiche S(f1, f2)G′
= xy, ggiungiamo quindi f3 = xy a G. Ripercorriamo il ciclo con
il nuovo insieme di polinomi ottenendo
S(f1, f2) = xy, S(f1, f3) = −x2 + x, S(f2, f3) = −xy
da cui otteniamo
S(f1, f2)G′
= 0, S(f1, f3)G′
= −x2 + x, S(f2, f3)G′
= 0.
Aggiungiamo quindi f4 = x2 − x a G. Iterando nuovamente il ciclo ottiene
S(f1, f2) = xy, S(f1, f3) = −x2 + x, S(f1, f4) = −x2 + xy + xS(f2, f3) = −xy, S(f2, f4) = −x2y + xy2, S(f3, f4) = xy
da cui calcoliamo
S(f1, f2)G′
= 0, S(f1, f3)G′
= 0, S(f1, f4)G′
= 0
S(f2, f3)G′
= 0, S(f2, f4)G′
= 0, S(f3, f4)G′
= 0
Quindi possiamo uscire dal ciclo e la base di Groebner ottenuta e G = {x2y − x2 +
x, xy2 − xy, xy, x2 − x}.
Osservazione 7.6.3. L’algoritmo del Teorema 7.6.1 e solo una versione rudimen-
tale dell’algoritmo di Buchberger, in quanto non e molto pratico dl punto di vista
computazionale. Infatti, una volta che un resto S(p, q)G′
e uguale a zero, questo
rimarra zero anche se aggiungiamo ulteriori generatori a G′. Quindi non c’e ragione
di calcolare nuovamente quei resti che sono gia stati analizzati nel loop principale.
Infatti, se aggiungiamo i nuovi generatori fj, uno alla volta, gli unici resti da control-
lare sono quelli del tipo S(fi, fj)G′
, dove i ≤ j− 1. Il lettore interessato puo trovare
una versione rifinita dell’algoritmo di Buchberger in [CoxLittleOShea], Capitolo 2.9.
Le basi di Groebner ottenute tramite il Teorema 7.6.1 sono spesso troppo gros-
se rispetto al necessario. Possiamo eliminare alcuni generatori usando il seguente
risultato.
Lemma 7.6.4. Sia G una base di Groebner per un ideale I ⊂ k[x1, . . . , xn]. Sia
p ∈ G un polinomio tale che LT (p) ∈ 〈LT (G \ {p}〉. Allora G \ {p} e ancora una
base di Groebner per I.
172 Cristiano Bocci, Luca Chiantini
Dimostrazione. Sappiamo che 〈LT (G)〉 = 〈LT (I)〉. Se 〈LT (p)〉 ∈〉LT (G \ {p}〉,allora LT (G \ {p} = LT (G). Per definizione si ha che G \ {p} e ancora una base di
Groebner per I.
Modificando le costanti in mod che tutti i coefficienti principali siano pari a 1 e
rimuovendo, da G, ogni p per cui LT (p) ∈ 〈LT (G \ {p}〉, arriviamo alla cosiddetta
base di Groebner minimale.
Definizione 7.6.5. Una base di Groebner minimale per un ideale I e una base di
Groebner G per I tale che
(i) LC(p) = 1 per ogni p ∈ G.
(ii) Per ogni p ∈ G, LT (p) 6∈ 〈LT (G \ {p}〉.
Esempio 7.6.6. Consideriamo la base di Groebner G = {x2y − x2 + x, xy2 −xy, xy, x2 − x} dell’Esempio 7.6.2 (con ordinamento grlex). I coefficienti princi-
pali sono tutti pari a 1, quindi la condizione i) e verificata, altrimenti avremmo
moltiplicato i polinomi della base per opportune costanti. Osserviamo che
LT (x2y − x2 + x) = x2yLT (xy2 − xy) = xy2
LT (xy) = xyLT (x2 − x) = x2
Quindi i termini principali di x2y − x2 + x e xy2 − xy sono contenuti nell’ideale
〈xy, x2〉 = 〈LT (xy), LT (x2−x)〉 e quindi una base minimale per l’ideale I = 〈x2y−x2 + x, xy2 − xy〉 e data da {xy, x2 − x}.
Un ideale puo avere molte basi di Groebner minimali. Tuttavia possiamo trovarne
una che e meglio delle altre.
Definizione 7.6.7. Una base di Groebner ridotta per un ideale I ⊂ k[x1, . . . , xn] e
una base di Groebner G per I tale che
(i) LC(p) = 1 per ogni p ∈ G.
(ii) Per ogni p ∈ G, nessun monomio di p sta in 〈LT (G \ {p}〉.
Le basi di Groebner ridotte hanno la seguente importante proprieta.
Proposizione 7.6.8. Sia I ⊂ k[x1, . . . , xn] un ideale diverso da {0}. Allora, fissato
un ordinamento monomiale, I ha un’unica base di Groebner ridotta.
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE173
7.7 Teoria dell’eliminazione
La Teoria dell’Eliminazione rappresenta uno metodo sistematico per eliminare va-
riabili da un sistema di equazioni polinomiali. La parte centrale di questo metodo
si basa sul Teorema di Eliminazione e sul Teorema di Estensione. Definiamo adesso
in un modo formale il concetto di “eliminare le variabili”, in termini di ideali.
Definizione 7.7.1. Dato I = 〈f1, . . . , ft〉 ⊂ k[x1, . . . , xn], l−esimo ideale di elimi-
nazione Il e l’ideale di k[xl+1, . . . , xn] definito da
Il = I ∩ k[xl+1, . . . , xn].
Si dimostra facilmente che Il e un ideale di k[xl+1, . . . , xn]. Ovviamente l’ideale
I0 coincide con I stesso. Va osservato anche che ordinamenti diversi danno ideali di
eliminazione diversi.
E’ chiaro, a questo punto, che eliminare x1, . . . , xl significa trovare i polinomi
non nulli contenuti nell’l−esimo ideale di eliminazione. Questo puo essere fatto
facilmente tramite le basi di Groebner (una volta fissato un opportuno ordinamento
monomiale !).
Teorema 7.7.2 (di eliminazione). Sia I ⊂ k[x1, . . . , xn] un ideale e sia G una base
di Groebner per I rispetto all’ordinamento lessicografico con x1 > x2 > · · · > xn.
Allora, per ogni 0 ≤ l ≤ n, l’insieme
Gl = G ∩ k[xl+1, . . . , xn]
e una base di Groebner per l’l−esimo ideale di eliminazione Il.
Dimostrazione. Fissiamo l con 0 ≤ l ≤ n. Per costruzione Gl ⊂ Il e quindi e
sufficiente dimostrare che 〈LT (Il)〉 = 〈LT (Gl)〉. L’inclusione 〈LT (Gl)〉 ⊂ 〈LT (Il)〉e ovvia. Per dimostrare l’altra inclusione osserviamo che se f ∈ Il allora f ∈ I.
Quindi LT (f) e divisibile per LT (g) per qualche g ∈ G. Poiche f ∈ Il, allora LT (g)
e formato solo delle variabili xl+1, . . . , xn. Siccome stiamo usando l’ordinamento
lessicografico con x1 > x2 > · · · > xn ogni monomio formato da x1, . . . , xl e piu
grande di tutti i monomi in k[xl+1, . . . , xn] e quindi LT (g) ∈ k[xl+1, . . . , xn] implica
g ∈ k[xl+1, . . . , xn]. Questo mostra che g ∈ Gl, da cui segue 〈LT (Il)〉 ⊂ 〈LT (Gl)〉.
174 Cristiano Bocci, Luca Chiantini
Il Teorema di Eliminazione mostra che una base di Groebner, nell’ordinamento
lessicografico, non elimina solo la prima variabile, ma anche le prime due, e le prime
tre e cosı via. Spesso, pero, vogliamo eliminare solo certe variabili, mentre non
ci interessa delle altre. In questi casi, puo essere difficoltoso calcolare una base di
Groebner con l’ordinamento lessicografico, soprattutto perche tale ordinamento puo
dare alcune basi di Grobener non particolarmente buone. Per versioni del Teorema
di Eliminazione che si basano su altri ordinamenti si rimanda a [CoxLittleOShea].
Passiamo adesso a introdurre il Teorema di Estensione. Supponiamo di avere un
ideale I ⊂ k[x1, . . . , xn] che definisce la vareta affine
V (I) = {(a1, . . . , an) ∈ kn : f(a1, . . . , an) = 0 per ogni f ∈ I}.
Consideriamo l’l−esimo ideale di eliminazione. Chiameremo (al+1, . . . , an) ∈ V (Il)
una soluzione parziale del sistema di equazioni di partenza. Per estendere (al+1, . . . , an)
ad una soluzione completa di V (I) dobbiamo innanzitutto aggiungere una coordina-
ta: questo significa trovare al in modo che (al, al+1 . . . , an) ∈ V (Il−1), cioe stia nella
varieta definita dal precedente ideale di eliminazione. Piu precisamente, suppoi-
niamo che Il−1 = 〈g1, . . . , gs〉 ⊂ k[xl, . . . , xn]. Quindi vogliamo trovare le soluzioni
xl = al delle equazioni
g1(xl, al+1, . . . an) = 0, . . . , gs(xl, al+1, . . . an) = 0.
Gli gi(xl, al+1, . . . an) sono polinomi in una variabili e quindi le loro soluzioni comuni
sono le soluzioni del massimo comune divisore dei precedenti s polinomi.
Ovviamente puo succedere che gli gi(xl, al+1, . . . an) non abbiamo soluzioni comu-
ni, a seconda della scelta delgi al+1, . . . an. Quindi, il nostro obiettivo, al momento, e
cercare di determinare, a priori, quali soluzioni parziali si estendono a soluzioni com-
plete. Restringiamo la nostra attenzione al caso dove abbiamo eliminato la prima
variabile x1 e quindi vogliamo sapere se una soluzione parziale (a2, . . . , an) ∈ V (I1)
si estende a una soluzione (a1, . . . , an) ∈ V (I). Il sequente teorema ci dice quando
cio e possibile.
Teorema 7.7.3 (dell’estensione). Sia I = 〈f1, . . . , ft〉 ⊂ C[x1, . . . , xn] e sia I il
primo ideale di eliinazione di I. Per ciascun 1 ≤ i ≤ t scriviamo fi nella forma
fi = gi(x2, . . . , xn)xNi1 + termini in x1 di grado < Ni
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE175
dove Ni ≥ 0 e gi ∈ C[x2, . . . , xn] e diverso da zero. Supponiamo esista una soluzione
parziale (a2, . . . , an) ∈ V (I1). Se (a2, . . . , an) 6∈ V (g1, . . . gt), allora esiste a1 ∈ Ctale che (a1, . . . , an) ∈ V (I).
Si nota subito che il Teorema dell’Estensione richiede il campo dei complessi.
Infatti, supponiamo che k = R e consideriamo le equazioni
x2 = y, x2 = z.
Se eliminiamo x otteniamo y = z e quindi tutte le soluzioni parziali (a, a) per ogni
a ∈ R. Poiche i coefficienti principali di x in x2 = y e x2 = z non si annullano mai,
il Teorema dell’Estensione ci garantisce che (a, a) si puo estendere, ammesso che si
lavori su C. Su R infatti x2 = a non ha soluzioni reali se a e negativo, quindi le
uniche soluzioni parziali (a, a) che si estendono sono quelle per per ogni a ∈ R≥0.
Osservazione 7.7.4. Sebbene il Teorema dell’estensione da un’enunciato solo nel
caso in cui si elimini la prima variabile, puo essere tuttavia utilizzato per eliminare
ogni numero di variabili. L’idea e quella di estendere le soluzioni una variabile alla
volta: prima a xl−1, poi a xl−2 e cosı via fino a x1.
Il Teorema dell’Estensione e particolarmente utile quando uno dei coefficienti
principali e costante.
Corollario 7.7.5. Sia I = 〈f1, . . . , ft〉 ⊂ C[x1, . . . , xn] e assumiano che per qualche
i, fi si puo scrivere nella forma
fi = cixN1 + termini in x1 di grado < N
dove c ∈ C e diverso da zero e N > 0. Se I1 e il primo ideale di eliminazione di I
e (a2, . . . , an) ∈ V (I1), allora esiste a1 ∈ C tale che (a1, . . . , an) ∈ V (I).
7.8 La geometria dell’eliminazione
Come vedremo adesso, il processo di eliminazione corrisponde a proiettare varieta
in sottospazi di dimensione piu bassa. Per il resto della sezione lavoriamo su C.
176 Cristiano Bocci, Luca Chiantini
Sia V = V (f1, . . . , ft) ⊂ Cn una varieta affine. Per eliminare le prime l variabili
x1, . . . , xl consideriamo la mappa di proiezione
πl : Cn → Cn−l(a1, . . . , an) 7→ (al+1, . . . an)
.
Il seguente lemma ci spiega il legame tra πl(V ) e l−esimo ideale di eliminazione.
Lemma 7.8.1. Sia Il = 〈f1, . . . , ft〉∩C[xl+1, . . . , xn], l−esimo ideale di eliminazione
di I. Allora, in Cn−l, si ha
πl(V ) ⊂ V (Il).
Osserviamo che possiamo scrivere πl(V ) come
πl(V ) =
{(al+1, . . . , an) ∈ V (Il) : ∃a1, . . . al ∈ Ccon (a1, . . . , al, al+1, . . . , an) ∈ V
}.
Quindi πl(V ) consiste esattamente delle soluzioni parziali che si estendono a soluzioni
complete. Possiamo quindi dare una versione geometrica del Teorema di estensione.
Teorema 7.8.2. Data V = V (f1, . . . , ft) ⊂ Cn, sia gi come nel Teorema 7.7.3. Se
I1 e il primo ideale di eliminazione di 〈f1, . . . , ft〉, allora vale l’uguaglianza, in Cn−l
V (I1) = π1(V ) ∪ (V (g1, . . . , gt) ∩ V (I1))
dove π1 : Cn → Cn−1 e la proiezione sulle ultime n− 1 componenti.
Il precedente Teorema ci dice, quindi, che π1(V ) copre la varieta affine V (I1), ad
eccezione, eventualmente, di una parte che giace in V (g1, . . . , gt). Sfortunatamente
non sappiamo quanto questa parte sia grande e, esistono casi, in cui V (g1, . . . , gt)
e letteralmente enorme. Tuttavia, il seguente risultato ci permette di capire ancora
meglio il rapporto tra π1(V ) e V (I1).
Teorema 7.8.3 (Teorema della chiusura). Sia V = V (f1, . . . , ft) ⊂ Cn e sia Il
l−esimo ideale di eliminazione di I = 〈f1, . . . , ft〉, allora:
(i) V (Il) e la piu piccola varieta affine contenente πl(V ) ⊂ Cn−l.
(ii) Quando V 6= ∅, esiste una varieta affine W $ V (Il) tale che V (Il)\W ⊂ πl(V ).
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE177
Il Teorema di chiusura da una descrizione parziale di πl(V ) che ricopre V (Il)
eccetto per i punti che giacciono in una varieta strettamente piu piccola di V (Il).
Concludiamo la sezione con la versione geometrica del Corollario 7.7.5 che rap-
presentava una situazione molto favorevole all’eliminazione.
Corollario 7.8.4. Sia V = V (f1, . . . , ft) ⊂ Cn e assumiano che per qualche i, fi si
puo scrivere nella forma
fi = cixN1 + termini in x1 di grado < N
dove c ∈ C e diverso da zero e N > 0. Se I1 e il primo ideale di eliminazione di I,
allora, in Cn−1,
π1(V ) = V (I1),
dove π1 e la proiezione sulle ultime n− 1 componenti.
7.9 Implicizzazione
L’idea che sta alla base dell’implicizzazione riguarda la ricerca delle equazioni che
definiscono una varieta V , inizialmente data in forma parametrica, in Spesso la rap-
presentazione parametrica non definisce tutta la varieta V e, con il problema di im-
plicizzazione, si cercano le equazioni che definiscono la piu piccola varieta contenente
la parametrizzazione.
esempio cubica gobba
Risolviamo il problema di implicizzazione nel caso di una parametrizzazione
polinomialex1 = f1(t1, . . . , tm)
...xn = fn(t1, . . . , tm)
(7.9.1)
dove f1, . . . , fm ∈ k[t1, . . . , tm]. Questi, geometricamente, rappresentano la funzione
F : km → kn
che associa allam−upla (t1, . . . , tm) l’n−upla (f1(t1, . . . , tm), . . . , fn(t1, . . . , tm)). Quin-
di F (km) ⊂ kn e il sottoinsieme parametrizzato dalle equazioni in (7.9.1). Tutta-
via non e detto che F (km) sia una varieta affine ed una soluzione al problema di
implicizzazione sara la piu piccola varieta affine che contiene F (km).
178 Cristiano Bocci, Luca Chiantini
Possiamo collegare implicizzazione ed eliminazione nel modo seguente. Le equa-
zioni in (7.9.1) definiscono una varieta
V = V (x1 − f1, . . . , xn − fn) ⊂ km+n
dove xi − fi e un polinomio in k[t1, . . . , tm, x1, . . . , xn]. I punti di V possono essere
scritti nella forma
(t1, . . . , tm, f1(t1, . . . , tm), . . . , fn(t1, . . . , tm)).
Quindi V e il grafo della funzione F . Consideriamo le funzioni
i : km → km+n
πm : km+n → km
definite da
i(t1, . . . , tm) = (t1, . . . , tm, f1(t1, . . . , tm), . . . , fn(t1, . . . , tm))πm(t1, . . . , tm, x1, . . . , xn) = (x1, . . . , xn)
.
Abbiamo quindi un diagramma commutativo
DIAGRAMMA
dove F = πm ◦ i e i(km) = V . Quindi otteniamo che l’immagine della parame-
trizzazione e la proiezione del suo grafo, cioe
F (km) = πm(i(km)) = πm(V ).
Teorema 7.9.1 (implicizzazione polinomiale). Se k ‘e un campo infinito, sia F :
km → kn la funzione definita dalla parametrizzazione polinomiale il (7.9.1). Sia
I l’ideale I = 〈x1 − f1, . . . , xn − fn〉 ⊂ k[t1, . . . , tm, x1, . . . , xn] e sia Im = I ∩k[x1, . . . , xn] m−esimo ideale di eliminazione. Allora V (Im) e la piu piccola varieta
in kn che contiene F (km).
Il precedente teorema ci fornisce quindi un algoritmo per il problema dell’impli-
cizzaizone polinomiale:
Input: x1 = fi(t1, . . . , tm) i = 1, . . . , n.
Output: equazioni in k[x1, . . . , xn] per la piu piccola varieta contenente
F (km).
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE179
DEFINIRE I = 〈x1 − f1, . . . , xn − fn〉
CALCOLARE una base di Groebner G di I rispetto all’ordinamento
lessicografico dove ogni ti e piu grande di ogni xj
Per il Teorema di Eliminazione, i polinomi in G che non contengono monomi nelle
ti definiscono l’ideale della piu piccola varieta contenente la parametrizzazione.
7.10 Applicazioni delle basi di Groebner e della
teoria dell’eliminazione
Presi insieme, l’S−pair criterion e il Teorema 7.6.1 forniscono le basi algoritmiche
per la teoria delle basi di Groebner. Vediamo adesso alcune applicazioni di questi
due risultati.
7.10.1 Problema di appartenenza all’ideale
Utilizzando le basi di Groebner insieme all’algoritmo di divisione otteniamo un algo-
ritmo per il problema di appartenenza. Infatti, dato un polinomio f ∈ k[x1, . . . , xn]
e un ideale I ⊂ k[x1, . . . , xn], con I = 〈f1, . . . , fs〉, possiamo stabilire se f ∈ I nel-
la maniera seguente. Innanzitutto, grazie al Teorema 7.6.1 troviamo una base di
Groebner G = {g1, . . . , gt} per I. Successivamente, dal Corollario 7.5.5 otteniamo
f ∈ I se e solo se fG
= 0.
Esempio 7.10.1. Consideriamo l’ideale I =< xy+z2, 3xyz−y2 > con ordinamento
grlex. Usiamo il software Singular per controllare se il polinomio f = x4y+x2y2−yz sta in I. Definiamo inizialmente l’anello, l’idealee il polinomio f .
>ring r=0,(x,y,z),Dp;
>ideal I=xy+z^2, 3xyz-y^2;
> poly f=x4y+x2y2-yz;
dove DP indica che stiamo usando grlex. Per calcolare una base di Grobner di I
basta scrivere
> std(I);
180 Cristiano Bocci, Luca Chiantini
_[1]=xy+z2
_[2]=3z3+y2
Per controllare se f ∈ I potremmo digitare
> reduce(f,I);
// ** I is no standard basis
-x3z2+z4-yz
Tuttavia si nota che Singular fornisce un avviso sul fatto che i generatori di I non
sono una base di Groebner (come si vede dal calcolo della base sopra). Possiamo
quindi calcolare l’appartenenza di f ad I richiedendo di calcolare reduce rispetto
alla base di Groebner:
> reduce(f,std(I));
-x3z2-1/3y2z-yz
Il fatto che il risultato sia diverso da zero, ci dice che f /∈ I.
7.10.2 Risolvere equazioni polinomiali
L’aiuto delle basi di Groebner per risolvere equazioni polinomiali sta nel fatto che
ci permettono di passare a nuove equazioni in cui la forma e semplificata: infatti
le variabili risultano eliminate dalle equazioni in maniera successiva (e l’ordine di
eliminazione sembra corrispondere all’ordinamento monomiale scelto). Un sistema
di equazioni in questa forma e piu semplice da risolvere: partendo dalle soluzioni
dell’ultima equazione, si torna indietro sostituendo le soluzioni ottenute e risolven-
do per le nuove variabili. Osserviamo che il procedimento diventa particolarmente
vantaggioso quando l’ultima equazione contiene una sola variabile. Possiamo quin-
di affermare che le basi di Groebner, applicate a questo problema, generalizzano il
metodo di Gauss-Jordan, per sole equazioni lineari. C’e da dire, tuttavia, che non
tutti gli ordinamenti daranno basi di Groebner in cui le variabili si eliminano suc-
cessivamente nelle varie equazioni. L’ordinamento che assicura questa eliminazione
e quello lessicografico.
Esempio 7.10.2. Consideriamo le equazioni
x2 + x+ y = 0, x− z = 0, z2 + x2− y2 = 0
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE181
che definiscono l’ideale I = 〈x2+x+y, x−z, z2+x2−y2〉. Calcoliamo, in Singular,
una sua base di Groebner per l’ordinamento lex.
> ring r=0,(x,y,z),lp;
> ideal I=x2+x+y,x-z,z2+x2-y2;
> std(I);
_[1]=z4+2z3-z2
_[2]=y+z2+z
_[3]=x-z
Il primo elemento della base contiene solo la variabile Z e ha soluzioni
z = 0, −1−√
2− 1, −1 +√
2.
A questo punto, sostituendo semplicemente tali valori per z negli altri due polinomi
della base di Groebner e determinare cosı le soluzioni delle equazioni di partenza.
7.10.3 Problema di implicizzazione
Consideriamo le equazioni parametrichex1 = f1(t1, . . . , tm)...
xn = fn(t1, . . . , tm)
(7.10.1)
dove gli fi sono funzioni polinomi (ma in generale possono essere funzioni ra-
zionali) e supponiamo che definiscano una varieta algebrica V ⊂ kn; siamo quindi
interessati a trovare le equazioni di V .
Consideriamo la varieta affine in kn+m definita, in k[t1, . . . , tm, x1, . . . , xn], dalle
equazionix1 − f1(t1, . . . , tm) = 0
...xn − fn(t1, . . . , tm) = 0
L’idea e quella di eliminare le variabili ti dalle precedenti equazioni.
Senza utilizzare la teoria dell’eliminazione, possiamo utilizzare le sole basi di
Groebner per risolvere il problema di implicizzazione. Consideriamo, infatti, in
k[t1, . . . , tm, x1, . . . , xn], l’ordinamento lessicografico definito sulle variabili come
t1 > · · · > tm > x1 > · · · > xn
182 Cristiano Bocci, Luca Chiantini
e calcoliamo una base di Groebner per l’ideale I = 〈xi − fi(t1, . . . , tm)〉. Siccome
stiamo usando un ordinamento lessicografico, ci aspettiamo che la base di Groebner
abbia polinomi che eliminano variabili e t1, . . . , tm saranno eliminate prima in quan-
to “piu grandi” nell’ordinamento dato. Quindi la base di Groebner di I conterra
equazioni nelle sole xi: queste sono i candidati per le equazioni di V .
Esempio 7.10.3. Consideriamo la cubica gobba C in P3 parametrizzata dax0 = t3
x1 = t2s
x2 = ts2
x3 = s3
Per trovare le sue equazioni implicite possiamo definire inizialmente l’ideale I =
〈x0 − t3, x1 − t2s, x2 − ts2, x3 − s3〉 e calcolare una sua base di Groebner tramite
l’ordinamento lex con t > s > x > y > z.
> ring r=0,(t,s,x(0..3)),lp;
> ideal I=x(0)-t3,x(1)-t2s,x(2)-ts2,x(3)-s3;
> std(I);
_[1]=x(1)*x(3)-x(2)^2
_[2]=x(0)*x(3)-x(1)*x(2)
_[3]=x(0)*x(2)-x(1)^2
_[4]=s^3-x(3)
_[5]=t*x(3)-s*x(2)
_[6]=t*x(2)-s*x(1)
_[7]=t*x(1)-s*x(0)
_[8]=t*s^2-x(2)
_[9]=t^2*s-x(1)
_[10]=t^3-x(0)
Si nota che, nei 10 generatori della base di Groebner per I, solo i primi 3 conten-
gono solo le variabili xi. Quindi questi danno le equazioni che rappresentano C in
forma implicita:
x1x3 − x22 = 0, x0x3 − x1x2 = 0, x0x2 − x2
1 = 0.
CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE183
Esempio 7.10.4. Consideriamo nuovamente la cubica gobba dell’esempio prece-
dente, ma calcoliamo le sue equazioni implicite tramite la teoria dell’eliminazione.
In Singular carichiamo inizialmente la libreria opportuna
> LIB "elim.lib";
// ** loaded /usr/local/Singular/3-1-6/LIB/elim.lib (14661,2012-03-05)
// ** loaded /usr/local/Singular/3-1-6/LIB/ring.lib (15322,2012-10-12)
// ** loaded /usr/local/Singular/3-1-6/LIB/primdec.lib (14732,2012-03-30)
// ** loaded /usr/local/Singular/3-1-6/LIB/absfact.lib (14191,2011-05-04)
// ** loaded /usr/local/Singular/3-1-6/LIB/triang.lib (13499,2010-10-15)
// ** loaded /usr/local/Singular/3-1-6/LIB/matrix.lib (13658,2010-11-16)
// ** loaded /usr/local/Singular/3-1-6/LIB/nctools.lib (14246,2011-05-26)
// ** loaded /usr/local/Singular/3-1-6/LIB/random.lib (14661,2012-03-05)
// ** loaded /usr/local/Singular/3-1-6/LIB/poly.lib (14852,2012-04-30)
// ** loaded /usr/local/Singular/3-1-6/LIB/general.lib (14191,2011-05-04)
// ** loaded /usr/local/Singular/3-1-6/LIB/inout.lib (13499,2010-10-15)
>
Successivamente calcoliamo l’ideale di eliminazione di I dell’esempio precedente:
> elim(I,ts);
_[1]=-x(1)*x(3)+x(2)^2
_[2]=-x(0)*x(3)+x(1)*x(2)
_[3]=-x(0)*x(2)+x(1)^2
ottenendo nuovamente le equazioni che rappresentano C in forma implicita:
x1x3 − x22 = 0, x0x3 − x1x2 = 0, x0x2 − x2
1 = 0.
7.11 Polinomi omogenei e funzione di Hilbert
Appendice A
Nozioni di combinatorica
Sia A un insieme con n elementi {a1, . . . , an}.
1) Le m-uple di elementi di A, cioe gli elementi di Am, sono nm.
Infatti per ottenere una m-upla abbiamo n scelte per il primo elemento, n
scelte per il secondo, e cosı via.
2) Le m-uple di elementi distinti di A sono invece:
n · (n− 1) · · · · · (n−m+ 1) =n!
(n−m)!.
Infatti stavolta abbiamo n scelte per il primo elemento, ma solo n − 1 scelte
per il secondo, n− 2 scelte per il terzo, e cosı via.
E’ chiaro che, perche la cosa abbia senso, si deve avere n ≥ m. In particolare,
ponendo n = m, si ottiene il numero di n-uple di elementi distinti di A,
solitamente note come permutazioni di A: esse sono n!.
3) Le m-uple non ordinate di elementi distinti di A, cioe i sottoinsiemi di cardi-
nalita m di A, sono: (n
m
)=
n!
m!(n−m)!.
Infatti esiste una funzione suriettiva (di dimenticanza) dall’insieme delle m-
uple di elementi distinti e l’insieme delle m-uple non ordinate di elementi
185
distinti, in cui la controimmagine di ogni m-upla non ordinata e data dalle sue
permutazioni, che sono m! (per quanto detto prima). In particolare, l’unione
di tutti gli insiemi di m-uple distinte e non ordinate, al variare di m, determina
tutti i sottoinsiemi di A. Visto che i sottoinsiemi di A sono 2n, si ha
2n =∑
m=1,...,n
(n
m
)=
∑m=1,...,n
n!
m!(n−m)!.
Si noti che, avendo per definizione 0! = 1, si deve porre(n0
)= 1.
Si ottiene poi la formula, per n > m > 0,(n
m
)=
(n− 1
m− 1
)+
(n− 1
m
)(A.0.1)
Infatti le m-uple non ordinate e con elementi distinti si dividono in quelle
che non contengono a1 e quelle che lo contengono. Le prime sono le m-uple
non ordinate a elementi distinti su un insieme di n − 1 elementi: ce ne sono
esattamente(n−1m
). Le seconde si ottengono aggiungendo a1 ad una (m − 1)-
upla dello stesso tipo su un insieme di n − 1 elementi, quindi sono(n−1m−1
).
4) Calcoliamo il numero di m-uple non ordinate di elementi non necessariamente
distinti di A. Esse sono: (n+m− 1
n− 1
)Per dimostrare questa formula, usiamo induzione rettangolare su n,m. Quan-
do m = 1, ci sono esattamente n tali oggetti. E infatti in questo caso(n+m−1n−1
)=(nn−1
)= n.
Analogamente se n = 1, c’e una sola tale m-upla: a1, a1, . . . , a1. E infatti qui(n+m−1n−1
)=(m0
)= 1.
Sia la formula valida per ogni n′ < n e m′ < m. Le m-uple non ordinate
si possono nuovamente dividere in quelle che contengono a1 e quelle che non
lo contengono. Le prime, per induzione su n, sono(n+m−2n−2
). Le seconde si
ottengono aggiungendo a1 ad una (m − 1)-upla non ordinata qualsiasi. Per
induzione su m, le seconde sono(n+m−2n−1
). Per terminare il calcolo, basta ora
usare la formula A.0.1.
186
5) Si noti che ogni m-upla non ordinata, con possibili ripetizioni, puo essere
scritta sotto forma di termine, cioe di monomio con coefficiente 1. Ad esempio
a1, a1, a2, a3, a3, a3 si puo scrivere come a21a2a
33. E viceversa. Pertanto il numero
dei termini di grado m in n variabili e(n+m− 1
n− 1
). (A.0.2)
Poiche i termini formano una base dello spazio dei polinomi omogenei di gra-
do fissato, si ottiene che il sottospazio di K[a1, . . . , an] formato dai polinomi
omogenei di grado m ha dimensione(n+m−1n−1
).
6) Il numero di m-uple ordinate in cui l’elemento ai e ripetuto ji volte, e ovvia-
mente uguale al numero di permutazioni di un insieme di m elementi, diviso
per le permutazioni dei sottoinsiemi formati da indici uguali. Pertanto tale
numero e uguale am!
j1! · · · jn!. (A.0.3)
Tale numero e uguale al coefficiente del monomio xj11 · · ·xjnn nello sviluppo
della potenza (x1 + · · ·+ xn)m. Infatti il coefficiente e ottenuto scegliendo un
addendo da m fattori uguali a (x1 + · · · + xn) in modo da prendere il primo
fattore j1 volte, il secondo fattore j2 volte, e cosı via.
187
Bibliografia
[AtiyahMacdonald] Atiyah M.F., Macdonald I.G., Introduction to Commuta-
tive Algebra, Addison-Wesley, Reading (1969).
[CoxLittleOShea] Cox D., Little J., O’Shea D., Ideals, Varieties, and Algori-
thms: An Introduction to Computational Algebraic Geometry and
Commutative Algebra, Graduate Texts in Mathematics, Springer, New York
(2007).
[Landsberg] Landsberg J.M., Tensors: Geometry and Applications, Gra-
duate Studies in Mathematics, American Mathematical Society, Providence
(2012).
[PachterSturmfels] Pachter L. and Sturmfels B., Algebraic Statistics for
Computational Biology, Cambridge University Press, Cambridge (2005).
[SturmfelsSullivant] Sturmfels B., Sullivant S., Toric ideals of phylogenetic
invariants, J. Comput. Biol. 12 (2005), 204–228.
[Siena] AA.VV., Projective varieties with unexpected properties, Pro-
ceedings della conferenza internazionale in onore di G.Veronese, Siena 2004.,
Walter DeGruyter, Berlin (2005).
[ZariskiSamuel] Zariski O. and Samuel P., Commutative Algebra, Graduate
Texts in Mathematics, Springer, New York (1958).
189