Introduzione alla Statistica Algebrica (versione preliminare)chiantini/did/00libro.pdf ·...

Introduzione alla Statistica Algebrica

(versione preliminare)

Cristiano Bocci, Luca Chiantini

Indice

1 Sistemi aleatori e distribuzioni 1

1.1 Sistemi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Misurazione di una distribuzione . . . . . . . . . . . . . . . . . . . . . 11

2 Algebra tensoriale 15

2.1 Tensori e rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Tensori decomponibili . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3 Tensori simmetrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.4 Elementi di un tensore . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Statistica Algebrica elementare 39

3.1 Probabilita elementare . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Connessioni di indipendenza e marginalizzazione . . . . . . . . . . . . 42

3.3 Booleanizzazione e connettori logici . . . . . . . . . . . . . . . . . . . 49

3.4 Dipoli aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4 Modelli statistici 71

4.1 Modelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.2 Modelli di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.3 Connessioni e modelli parametrici . . . . . . . . . . . . . . . . . . . . 76

4.4 Modelli torici e matrici esponenziali . . . . . . . . . . . . . . . . . . . 82

5 Statistica Algebrica Proiettiva Complessa 87

5.1 Motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.2 Spazi proiettivi, coni e varieta proiettive . . . . . . . . . . . . . . . . 89

i

5.3 Prodotti di spazi proiettivi . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4 Modelli algebrici proiettivi . . . . . . . . . . . . . . . . . . . . . . . . 100

5.5 Mappe proiettive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.6 Il Lemma di Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.7 Teoria della dimensione . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6 Indipendenza condizionata 123

6.1 Modelli di indipendenza condizionata . . . . . . . . . . . . . . . . . . 127

6.2 Catene e alberi di Markov . . . . . . . . . . . . . . . . . . . . . . . . 133

6.3 Variabili nascoste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

6.4 Modelli simmetrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7 Basi di Groebner e Teoria dell’Eliminazione 149

7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

7.2 Ordinamenti monomiali . . . . . . . . . . . . . . . . . . . . . . . . . 152

7.3 Un algoritmo di divisione in k[x1, . . . , xn] . . . . . . . . . . . . . . . . 157

7.4 Ideali Monomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

7.5 Basi di Groebner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

7.6 Algoritmo di Buchberger . . . . . . . . . . . . . . . . . . . . . . . . . 170

7.7 Teoria dell’eliminazione . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.8 La geometria dell’eliminazione . . . . . . . . . . . . . . . . . . . . . . 175

7.9 Implicizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

7.10 Applicazioni delle basi di Groebner e della teoria dell’eliminazione . . 179

7.10.1 Problema di appartenenza all’ideale . . . . . . . . . . . . . . . 179

7.10.2 Risolvere equazioni polinomiali . . . . . . . . . . . . . . . . . 180

7.10.3 Problema di implicizzazione . . . . . . . . . . . . . . . . . . . 181

7.11 Polinomi omogenei e funzione di Hilbert . . . . . . . . . . . . . . . . 183

A Nozioni di combinatorica 185

Bibliografia 189

ii

Capitolo 1

Sistemi aleatori e distribuzioni

1.1 Sistemi aleatori

Questa sezione contiene le definizioni fondamentali con le quali costruiremo la nostra

teoria statistica.

E’ bene avvertire subito che nel settore della Statistica Algebrica, sviluppatosi

assai di recente, le definizioni di base non sono ancora standardizzate.

Pertanto le definizioni che seguono, utilizzate nel presente testo, possono differire

di molto (piu nella forma, in realta, che nella sostanza) da quelle di altri testi.

Definizione 1.1.1. Chiameremo variabile aleatoria un oggetto x dotato di un in-

sieme finito, non vuoto di simboli A(x), detto alfabeto di x o anche insieme degli

stati di x. Ogni elemento di A(x) e pertanto uno stato della variabile x.

Chiameremo sistema aleatorio X ogni insieme finito di variabili aleatorie.

La condizione di finitezza, richiesta sia nell’alfabeto di una variabile aleatoria che

nel numero di variabili di un sistema, e tipica della Statistica Algebrica. In altre

situazioni statistiche, questa ipotesi viene a mancare.

Definizione 1.1.2. Chiameremo sottosistema di un sistema aleatorio X ogni siste-

ma definito da un sottoinsieme X ′ ⊂ X.

Esempio 1.1.3. Gli esempi piu semplici di sistema aleatorio sono quelli in cui S

contiene una sola variabile aleatoria.

Una situazione concreta si ottiene prendendo come unico elemento di S, cioe

come unica variabile aleatoria, un dado x, il cui alfabeto e costituito da A(x) =

{1, 2, 3, 4, 5, 6}.

1

2 Cristiano Bocci, Luca Chiantini

Un’altra situazione concreta ben nota e quella in cui l’unico elemento di S e una

moneta m, che ha come alfabeto la coppia A(x) = {T,C} (testa o croce).

Esempio 1.1.4. Una schedina puo essere rappresentata dal sistema aleatorio X che

contiene 14 variabili aleatorie, le quattordici partite, ciascuna avente come alfabeto

l’insieme {1, 2, X}.

Esempio 1.1.5. Possiamo naturalmente costruire un esempio di sistema aleatorio

X che contiene come variabili due dadi {x1, x2}, entrambi aventi come alfabeto

A(xi) = {1, 2, 3, 4, 5, 6}.Una situazione di sistema aleatorio connesso, ma diverso, si ottiene prendendo

come sistema Y l’insieme formato come unico elemento dalla coppia di dadi x =

(x1, x2) e, come alfabeto A(x), dai valori combinati ottenuti gettando i due dadi:

{(1, 1), (1, 2), . . . , (6, 6)}.Un esempio ancora diverso si ottiene prendendo come sistema Z quello definito

da un’unica variabile z che ha per alfabeto la somma dei valori ottenuti dal lancio

dei due dadi {2, 3, 4, . . . , 12}.I sistemi aleatori Y, Z possono sembrare a prima vista equivalenti. Va invece

subito messo ben in chiaro che si tratta di sistemi ben distinti. A parte il fatto che

per prendere la coppia e necessario scegliere un ordinamento dei due dadi, il secondo

sistema non prefigura nessun tipo di relazione fra il lancio dei due dadi, mentre il

primo puo prevedere relazioni di qualunque tipo.

Esempio 1.1.6. Vi sono esempi di sistemi aleatori che contengono molte variabili.

Anzi, spesso gli esempi piu significativi per le applicazioni in economia o in biologia

hanno numeri di variabili veramente astronomici!

Ad esempio, in economia e nella valutazione di un mercato, si esaminano sistemi

in cui si costruisce una variabile aleatoria per ogni operatore economico. E’ facile

capire che le variabili in gioco possono facilmente arrivare ad essere migliaia, se non

addirittura milioni.

In biologia, e molto importante lo studio dei sistemi in cui le variabili aleatorie

rappresentano posizioni nella catena del DNA (centinaia o anche migliaia di posizio-

ni) e quindi l’alfabeto di ciascuna variabile aleatoria consiste nelle quattro basi del

DNA (Adenina, Guanina, Citosina e Timina, che abbrevieremo con {A,C,G, T}).Nel seguito, ci riferiremo a questo ultimo tipo di sistemi, chiamandoli sistemi DNA.

CAPITOLO 1. SISTEMI ALEATORI E DISTRIBUZIONI 3

Esempio 1.1.7. Per motivi di cultura locale, faremo talvolta riferimento a sistemi

che descrivono situazioni probabilistiche riferite alle operazioni connesse con il Palio

di Siena.

In tali sistemi, le variabili hanno spesso come alfabeto l’insieme delle contrade (o

un suo sottoinsieme), che riportiamo qui per referenza:

Aquila (useremo talvolta il simbolo: A)

Bruco (simbolo: B)

Chiocciola (simbolo: H)

Civetta (simbolo: C)

Drago (simbolo: D)

Giraffa (simbolo: G)

Istrice (simbolo: I)

Leocorno (simbolo: E)

Lupa (simbolo: L)

Nicchio (simbolo: N)

Oca (simbolo: O)

Onda (simbolo: Q)

Pantera (simbolo: P)

Selva (simbolo: S)

Tartuca (simbolo: R)

Torre (simbolo: T)

Valdimontone (simbolo: M).

Definizione 1.1.8. Una variabile aleatoria x di un sistema aleatorio X si dice

booleana se il suo alfabeto ha cardinalita 2. Diremo che un sistema e booleano se

ogni sua variabile aleatoria lo e.

Gli stati delle variabili aleatorie booleane possono essere sempre pensati come la

coppia di condizioni (vero, falso). In effetti l’alfabeto tipico di una variabile aleatoria

booleana e Z2, con 1 = vero e 0 = falso (per convenzione; attenzione che in qualche

testo tale convenzione e rovesciata!).

Altri alfabeti come testa-croce, oppure pari-dispari, saranno usati spesso per le

variabili aleatorie booleane, piu che altro per motivi mnemonici.


Definizione 1.1.9. Chiameremo mappa o morfismo fra i sistemi aleatori X e Y

una coppia f = (F,G) dove F e una funzione F : X → Y e per ogni x ∈ X, G

definisce una funzione tra alfabeti G(x) : A(x)→ A(F (x)).

Tutta la terminologia usata per le funzioni si trasferisce alle mappe di sistemi

aleatori. Quindi si parlera di mappe iniettive, suriettive, isomorfismi ecc. Rispetto

a questa definizione, i sistemi aleatori formano una categoria.

Esempio 1.1.10.

1) Se X ′ e un sottosistema di X, la funzione di inclusione X ′ → X definisce in modo

ovvio una mappa iniettiva di sistemi aleatori. In questo caso, le mappe tra relativi

alfabeti sono sempre rappresentate dalle identita.

2) Consideriamo il sistema aleatorioX, definito da un dado x di alfabeto {1, 2, 3, 4, 5, 6}),come nell’esempio 1.1.3. Sia Y il sistema definito da Y = {y}, con A(y) = {P,D}(P=pari, D=dispari). E’ chiaro che le funzioni F : X → Y , F (x) = y e G : A(x)→A(y) tale che G(1) = G(3) = G(5) = D, G(2) = G(4) = G(6) = P , definiscono una

mappa di sistemi aleatori.

La definizione seguente sara di importanza notevole per lo studio delle relazioni

fra variabili aleatorie.

Definizione 1.1.11. Chiameremo correlazione (totale) di un sistema aleatorio S =

{x1, . . . , xn} il sistema aleatorio ΠS = {x} dove x rappresenta il prodotto cartesiano

degli elementi x1, . . . , xn di S, e il cui alfabeto e dato dal prodotto cartesiano degli

alfabeti A(x1)× · · · × A(xn).

Lasciamo al lettore le facili modifiche da apportare alla precedente definizione,

per ottenere le correlazioni parziali di un sistema aleatorio.

Da notare, ed e un fatto importante, che la definizione di prodotto cartesiano

richiede di fissare preventivamente un ordinamento delle variabili di S. Pertanto,

a rigore, la correlazione totale di un sistema non e univocamente determinata, ma

cambia al variare dell’ordinamento scelto.

Esempio 1.1.12. Consideriamo un sistema S in cui le variabili aleatorie sono tre

monete m1,m2,m3, tutte con alfabeto {T,C} (vedi esempio1.1.3).


Una correlazione totale e data dal sistema ΠS che ha per unica variabile il prodottom = m1 ×m2 ×m3 e come suo alfabeto:

{(T, T, T ), (T, T, C), (T,C, T ), (T,C,C), (C, T, T ), (C, T,C), (C,C, T ), (C,C,C)}.

Un esempio di correlazione parziale e data dal sistema Y che ha per variabili aleatorie

m1×m2 em3 e alfabetiA(m3) = {T,C}, A(m1×m2) = {(T, T ), (T,C), (C, T ), (C,C)}.

Osservazione 1.1.13. Si noti bene che se S e un sistema con due monete m1,m2,

nella sua correlazione totale l’unico elemento, che rappresenta insieme le due monete

non ha per alfabeto un insieme con tre elementi {TT, TC,CC}, bensı un insieme

con quattro elementi {(T, T ), (T,C), (C, T ), (C,C)}.Infatti la scelta e l’importanza dell’ordinamento ci porta a dover distinguere il

caso (T,C) (prima moneta = testa, seconda moneta = croce) dal caso (C, T ) (prima

moneta = croce, seconda moneta = testa).

E’ chiaro che se S e un sistema che contiene una sola variabile aleatoria, allora S

coincide con la sua correlazione totale.

Definizione 1.1.14. Sia f : S → T una mappa di sistemi aleatori, definita da

F : X → Y e da G(x) : A(x) → A(F (x)) per ogni variabile x di S. Supponiamo

F biiettiva. Allora f definisce in modo naturale una mappa Πf : ΠS → ΠT fra le

correlazioni totali.

Basta porre, per ogni stato s = (s1, . . . , sn) dell’unica variabile di ΠS, Πf(s) =

(G(x1)(s1), . . . , G(xn)(sn)).

1.2 Distribuzioni

La definizione di distribuzione e il punto fondamentale nello studio statistico dei

sistemi aleatori. Si tratta in effetti del concetto che permette di riprodurre l’idea di

esperimento sulle variabili aleatorie, per la descrizione dei fenomeni reali

Definizione 1.2.1. Chiameremo K-distribuzione su un sistema aleatorio S formato

dalle variabili x1, . . . , xn, un insieme di funzioni D = (D1, . . . , Dn), dove ciascun Di

e una funzione dall’alfabeto A(xi) in K.


Negli esempi concreti, K sara sempre un insieme numerico, generalmente uno fra

N,Z,Q,R o anche C, il campo dei numeri complessi.

Il significato delle distribuzioni e quello di associare ad ogni stato di una variabile

xi del sistema S, il numero di volte (o la percentuale di volte) che tale stato e stato

verificato in una serie di esperimenti.

Esempio 1.2.2. Sia S il sistema aleatorio che ha per unica variabile una moneta

m, di alfabeto A(m) = {T,C} (che puo essere truccata!).

Se tiriamo in aria un certo numero di volte la moneta, ottenendo dT volte T esta e

dC volte Croce, abbiamo la N-distribuzione D che, per l’unica variabile del sistema,

e definita dalla funzione Dm : {T,C} → N, Dm(T ) = dT , Dm(C) = dC .

E’ chiaro che tale distribuzione puo essere identificata con l’elemento (dT , dC) di N2.

Posto d = dT+dC(> 0), dall’esperimento precedente si ottiene anche laQ-distribuzione

D′ che associa a T il numero dT/d e a C il numero dC/d (la probabilita di uscita di

T o C, desunta dall’esperimento).

Esempio 1.2.3. Consideriamo ora il il sistema aleatorio S formato da due monete

m1,m2, ciascuna sempre di A(mi) = {T,C}.Se tiriamo in aria un certo numero di volte le monete, ottenendo per la prima d1 volte

T e e1 volte C, e per la seconda d2 volte T e e2 volte C, otteniamo la N-distribuzione

D = (D1, D2) definita dalle funzioni

D1 : {T,C} → N, D1(T ) = d1, D1(C) = e1,

D2 : {T,C} → N, D2(T ) = d2, D1(C) = e2

E’ chiaro che tale distribuzione puo essere identificata con l’elemento ((d1, e1), (d2, e2))

di N2 × N2.

Si noti che la correlazione ΠS del sistema ha un’unica variabile m = m1 ×m2 con

alfabeto A(m) = {TT, TC,CT,CC}.Una N-distribuzione su ΠS e data da un’unica funzione che associa ad ognuno dei

quattro stati, il numero di volte che viene registrato.

Perche l’esperimento fornisca una distribuzione su ΠS, occorre che le monete ven-

gano lanciate in coppia e occorre registrare, per ogni coppia di lanci, il risultato

congiunto delle due monete (nell’ordine).


Esempio 1.2.4. In modo analogo, consideriamo il sistema S di tipo DNA ottenu-

to considerando come variabili aleatorie 100 posizioni p1, . . . , p100 nel DNA di un

organismo (ciascuna con alfabeto {A,C,G, T}). Stavolta lo spazio delle distribu-

zioni e D(S) = R4 × · · · × R4 = R400. Esaminando 1000 soggetti, otteniamo una

Z-distribuzione D su S che per ogni variabile pi, associa ai simboli A,C,G, T il

numero di occorrenze della corrispondente base nella posizione i-esima, registrata

negli esperimenti.

Definizione 1.2.5. L’insieme delle K-distribuzioni di un sistema aleatorio S forma

lo spazio delle distribuzioni DK(S).

Osservazione 1.2.6. Sia S un sistema aleatorio in cui vi sono n variabili x1, . . . , xn.

Indichiamo con ai il numero di elementi dell’alfabeto A(xi), cioe il numero di stati

che la variabile xi puo assumere.

Le K-distribuzioni su S possono essere identificate con punti dello spazio

Ka1 × · · · ×Kan .

Quindi identificheremo spesso DK(S) con tale spazio. E’ chiaro che DK(S) coincide

anche con Ka1+···+an , ma per motivi facilmente intuibili, conviene distinguere i valori

della distribuzione relativi a variabili diverse.

Osservazione 1.2.7. A modifica di quanto appena detto nella osservazione prece-

dente, se S e un sistema aleatorio in cui vi sono 2 variabili x1, x2, con alfabeti aventi

rispettivamente a1 e a2 elementi, allora l’unica variabile aleatoria della correlazione

totale ΠS ha a1a2 stati. Quindi lo spazio delle K-distribuzioni su ΠS dovrebbe

essere identificato con Ka1a2 .

Sara invece conveniente, per ricordare che l’unica variabile di ΠS nasce come pro-

dotto cartesiano delle due variabili di S, pensare a DK(ΠS) come lo spazio Ka1,a2

delle matrici a1 × a2 a coefficienti in K.

Cosı, per una distribuzione D su ΠS, indicheremo con Dij il valore associato allo

stato (i, j) dell’unica variabile, corrispondente agli stati i di x1 e j di x2.

Per sistemi con un numero maggiore di variabili, faremo ricorso alle matrici

multidimensionali, che verranno chiamate tensori.

Per ogni intero positivo i, indichiamo qui con Ji, l’insieme {1, . . . , i}.


Definizione 1.2.8. Chiameremo tensore su K, di dimensione n e tipo d1×· · ·× dnogni funzione T : Jd1 × · · · × Jdn → K, dove, per ogni intero positivo i, indichiamo

con Ji, l’insieme {1, . . . , i}.

In pratica, un tensore di dimensione n e tipo (d1×· · ·×dn) consiste in un insieme

di elementi di K, indicizzati da n-uple i1 . . . in con 1 ≤ ij ≤ dj.

Osservazione 1.2.9. I vettori di Kn possono essere pensati come tensori di dimen-

sione 1 e tipo n, o anche come tensori di dimensione 2 e tipo 1× n, eccetera.

Le matrici n × m sono tensori di dimensione 2 e tipo n × m (o anche tensori di

dimensione 3 e tipo 1× n×m, ecc.).

Quando K e un campo numerico, l’insieme di tutti i tensori di dimensione n e tipo

(d1, . . . , dn), rispetto alle operazioni definite multiindice per multiindice, forma uno

spazio vettoriale di dimensione d1 · · · dn, isomorfo cioe a Kd1···dn . Indicheremo tale

spazio con Kd1,...,dn .

I numeri di K verranno pensati come tensori di dimensione 0.

Esempio 1.2.10. Un esempio di tensore su R di dimensione 3 e tipo 2× 2× 2 puo

essere rappresentato nella figura seguente:

2 − − 1� | � |

−1 − + 0 || 3 + − 4| � | �4 − − 7

Non e facile ovviamente dare una rappresentazione grafica simile per tensori di

dimensione superiore.

Osservazione 1.2.11. Se X e un sistema aleatorio con variabili x1, . . . , xn, con

alfabeti aventi rispettivamente a1, . . . , an elementi, allora l’unica variabile aleatoria

della correlazione totale ΠX ha a1a2 · · · an stati.

Sara conveniente d’ora in poi pensare a DK(ΠS) come lo spazio Ka1,a...,an dei tensori

di tipo a1 × · · · × an a coefficienti in K.

Cosı, per una distribuzione D su ΠS, indicheremo con Di1...in il valore associato allo

stato dell’unica variabile, corrispondente agli stati i1 di x1, . . . , in di xn.


Lo studio dei tensori e quindi strettamente collegato allo studio di sistemi aleatori

nei quali vogliamo mettere in relazione le variabili fra loro.

Va subito precisato che i tensori, benche siano una generalizzazione delle matrici,

hanno proprieta in generale estremamente diverse e spesso ancora inesplorate.

In effetti, l’Algebra (e la Geometria) degli spazi di tensori rappresenta il punto

di contatto principale fra lo studio della statistica su insiemi discreti e altre disci-

pline, quali la Geometria Algebrica, la cui esplorazione costituisce l’elemento piu

significativo di questo testo.

Definizione 1.2.12. Prendiamo due sistemi aleatori S e T e una mappa f = (F,G) :

S → T .

Supponiamo che f induca una suriezione S → T . Allora, data una distribuzione D

su S, si ottiene una distribuzione indotta fD∗ su T (detta distribuzione immagine)

ponendo, per ogni stato t di una variabile y di T :

fD∗ (t) =∑

x∈F−1(y),s∈G(x)−1(t)

Dx(t)

.

In generale, data una distribuzione D su T , si ottiene una distribuzione indotta f ∗Dsu S (detta distribuzione controimmagine) ponendo, per ogni stato s di una variabile

x di S:

f ∗D(s) = DF (x)(G(x)(s)).

Ribadiamo che le distribuzioni su sistemi aleatori devono, da un punto di vista

matematico, essere considerate come un dato del problema, da cui e possibile ricavare

altre distribuzioni derivate o inferire leggi fisiche, biologiche, economiche, calcistiche

o quant’altro. Cio e illustrato, sperimentalmente, dall’esempio seguente.

Esempio 1.2.13. Dal 1945, fine della seconda guerra mondiale, ad oggi (2009) si

corrono regolarmente a Siena due Palii all’anno. In piu sono stati corsi altri 12 Palii

straordinari. Per un totale di 142 Palii.

Costruiamo un sistema aleatorio in cui vi sono 17 variabili aleatorie booleane, una

per ciascuna contrada. Per ciascuna prendiamo l’alfabeto {0, 1}. Lo spazio delle

distribuzioni di tale sistema e R2 × · · · × R2 = R34.


Definiamo una distribuzione (a campionatura costante uguale a 142) ponendo per

ogni contrada x, Dx(1) = numero di Palii corsi e Dx(0) = numero di Palii non corsi.

I dati sono riassunti nella seguente tabella:

x nome Dx(1) Dx(0)

A Aquila 82 60B Bruco 84 58H Chiocciola 78 64C Civetta 85 57D Drago 88 54G Giraffa 82 60I Istrice 79 63E Leocorno 93 49L Lupa 84 58N Nicchio 78 64O Oca 83 59Q Onda 77 65P Pantera 90 52S Selva 82 60R Tartuca 85 57T Torre 86 56M V aldimontone 84 58

Ne segue che la contrada che ha corso piu Palii e il Leocorno, mentre quella che ne

ha corsi di meno e l’Onda.

Sullo stesso sistema si puo porre una nuova distribuzione E, ponendo Ex(1) =


numero di Palii vinti, Ex(0) = numero di Palii non vinti. la nuova tabella e:

x nome Ex(0) Ex(1)

A Aquila 8 134B Bruco 5 137H Chiocciola 9 133C Civetta 7 135D Drago 10 132G Giraffa 11 131I Istrice 8 134E Leocorno 9 133L Lupa 5 137N Nicchio 9 133O Oca 12 130Q Onda 7 135P Pantera 8 134S Selva 14 128R Tartuca 9 133T Torre 3 139M V aldimontone 8 134

Si direbbe ad occhio, pertanto, che non necessariamente chi corre piu Palii raccoglie

piu vittorie.

1.3 Misurazione di una distribuzione

Introduciamo due concetti (la campionatura e la scalatura) sulle distribuzioni di un

sistema aleatorio.

Definizione 1.3.1. Quando K e un insieme numerico, data una K-distribuzione

D = (D1, . . . , Dn) su S = {x1, . . . , xn}, chiameremo campionatura della variabile xi

in D il numero

cD(xi) =∑

s∈A(xi)

Di(s).

Diremo che D ha campionatura costante se tutte le variabili di S hanno la stessa

campionatura in D.

Una K-distribuzione D su S e detta probabilistica se ogni xi ∈ S ha campionatura

uguale a 1.


Osservazione 1.3.2. Sia S = {x1, . . . , xn} un sistema aleatorio sul quale e definita

la K-distribuzione D = (D1, . . . , Dn), con K campo numerico.

Se ogni variabile xi ha campionatura cD(xi) 6= 0, possiamo ottenere da D una

distribuzione probabilistica associata D = (D1, . . . Dn) ponendo, per ogni i e per

ogni stato s ∈ A(xi):

Di(s) =Di(s)

cD(xi).

Nel sistema formato da una sola moneta dell’esempio 1.2.2, la distribuzione D′ e

proprio la distribuzione probabilistica associata a D (vista come Q-distribuzione).

Nel seguito, per semplificare il linguaggio, quando l’insieme K di codominio delle

distribuzioni e sottinteso, o quando e totalmente ininfluente, faremo a meno di citarlo

e parleremo direttamente di distribuzione su un sistema aleatorio S.

Se non diversamente specificato, d’ora in poi faremo sempre conto di usare, come

insieme K, un campo numerico.

Richiamiamo ancora al lettore il fatto che la notazione di base della Statistica

Algebrica e ben lungi dall’essere standard.

Anche il modo di indicare le distribuzioni e purtroppo non univoco. Se sij e il j-

esimo stato dell’i-esima variabile xi del sistema S, data una distribuzione D, noi

indicheremo con Di(sij) il valore di D su tale stato.

In qualche testo, Di(sij) viene anche indicato con Dxi=sij , inteso come il numero di

volte che la variabile xi e stata trovata nello stato sij.

Esempio 1.3.3. Consideriamo un torneo di tennis ad eliminazione diretta, giocato

da 8 tennisti. Ad esso possiamo associare un sistema aleatorio con 8 variabili boo-

leane, rappresentanti i giocatori. Indichiamo con D la distribuzione che, per ogni

giocatore xi, e definita da:

Di(0) = numero di partite vinte;

Di(1) = numero di partite perse.

E’ chiaro che la campionatura c(xi) di ogni giocatore xi indica il numero di partite

giocate. Ad esempio c(xi) = 3 se xi e stato finalista, mentre c(xi) = 1 per i quattro

giocatori subito eliminati. Quindi non si tratta di una distribuzione a campionatura

costante.


Questa distribuzione non ha variabili con campionatura nulla. Esiste pertanto

la distribuzione probabilistica associata D, che rappresenta la statistica di vitto-

rie/sconfitte. Ad esempio, per il vincitore xk, si ottiene

Dk(0) = 1, Dk(1) = 0.

Invece, per un giocatore xj eliminato in semifinale,

Dj(0) = Dj(1) =1

2.

Il concetto di distribuzione probabilistica associata ad una distribuzione D e molto

importante in testi analitici sulla Teoria della Probabilita, al punto che qualche testo

direttamente lavora solo su distribuzioni probabilistiche.

Non e questa la strada che abbiamo scelto, nella nostra presentazione della

Statistica Algebrica.

Piu che al concetto di distribuzione probabilistica associata, noi faremo uso del

concetto di scalatura, piu utile per collegare gli spazi di distribuzioni con spazi

standard della Geometria Algebrica.

Definizione 1.3.4. Sia D = (D1, . . . , Dn) una K-distribuzione su un sistema alea-

torio S = {x1, . . . , xn}, con K campo numerico. Diremo che una distribuzione

D′ = (D′1, . . . , D′n) e una scalatura di D se per ogni xi ∈ X esiste una costante

λi ∈ K − {0} tale che, per ogni stato s ∈ A(xi), D′i(s) = λiDi(s).

E’ chiaro che la distribuzione probabilistica associata a una distribuzione D

rappresenta un esempio di scalatura di D.

Si noti inoltre che se D′ e una scalatura di D e D,D′ hanno la stessa campionatura,

allora devono coincidere.

Nel seguito, vedremo che l’operazione di scalatura non cambia in modo sostanziale

una distribuzione sul nostro sistema aleatorio. Tenderemo quindi, con un procedi-

mento di proiettivizzazione, a considerare sostanzialmente uguali due distribuzioni

che differiscono per una scalatura.

Proposizione 1.3.5. Sia f : S → T una mappa di sistemi aleatori, indotta da una

biiezione sugli insiemi delle variabili. Sia D una distribuzione su S e sia D′ una

sua scalatura. Allora fD′∗ e una scalatura di fD∗ .


Dimostrazione. Per ogni stato t di una variabile y ∈ T , detta x la corrispondente

variabile di S, si ha:

fD′

∗ (t) =∑

s∈A(x),s 7→t

D′(s) =∑

s∈A(x),s 7→t

c(x)D(s) = c(x)fD∗ (t).

Capitolo 2

Algebra tensoriale

Inseriamo qui un capitolo in cui raccogliamo il materiale sugli spazi di tensori, che

sara fondamentale per il nostro studio di Statistica Algebrica.

Tale capitolo va considerato alla stregua di un deposito di risultati algebrici, cui

faremo riferimento in tutti i capitoli successivi del testo.

Avvertiamo il lettore che noi considereremo i tensori come insiemi strutturati

di numeri, mentre in molti libri (di argomenti diversi) i tensori sono definiti come

mappe multilineari.

La nostra scelta, coerente con quanto di solito viene fatto nei testi di Statistica

Algebrica, e chiaramente equivalente all’altra una volta che siano state fissate basi

per gli spazi vettoriali coinvolti.

La scelta di basi (canoniche) e sostanzialmente sempre dettata, negli spazi di

distribuzioni, dalla definizione stessa dei sistemi aleatori ai quali essi si riferiscono.

2.1 Tensori e rango

Richiamiamo brevemente la definizione di tensore, introdotta nel capitolo prece-

dente. Si vedano a tale proposito la Definizione 1.2.8 e seguenti.

Per ogni intero positivo i, indichiamo con Ji, l’insieme {1, . . . , i}.

15


Definizione 2.1.1. Chiameremo tensore su K, di dimensione n e tipo d1×· · ·× dnogni funzione T : Jd1 × · · · × Jdn → K, dove, per ogni intero positivo i, indichiamo

con Ji, l’insieme {1, . . . , i}.

In pratica, un tensore di dimensione n e tipo (d1×· · ·×dn) consiste in un insieme

di elementi di K, indicizzati da n-uple i1 . . . in con 1 ≤ ij ≤ dj.

Osservazione 2.1.2. I vettori di Kn possono essere pensati come tensori di dimen-

sione 1 e tipo n, o anche come tensori di dimensione 2 e tipo 1× n, eccetera.

Le matrici n × m sono tensori di dimensione 2 e tipo n × m (o anche tensori di

dimensione 3 e tipo 1× n×m, ecc.).

Quando K e un campo numerico, l’insieme di tutti i tensori di dimensione n e tipo

(d1, . . . , dn), rispetto alle operazioni definite multiindice per multiindice, forma uno

spazio vettoriale di dimensione d1 · · · dn, isomorfo cioe a Kd1···dn . Indicheremo tale

spazio con Kd1,...,dn .

I numeri di K verranno pensati come tensori di dimensione 0.

Esempio 2.1.3. Un esempio di tensore su R di dimensione 3 e tipo 2× 2× 2 puo

essere rappresentato nella figura seguente:

2 − − 1� | � |

−1 − + 0 || 3 + − 4| � | �4 − − 7

Non e facile ovviamente dare una rappresentazione grafica simile per tensori di

dimensione superiore.

Definizione 2.1.4. Dato un tensore T di tipo a1, . . . , an, si chiama sottotensore

il tensore che si ottiene fissando il valore di alcuni indici di T e facendo variare

liberamente gli altri in un range prefissato.

Quando si fissano tutti gli indici di T tranne due, il sottotensore che si ottiene e una

sottomatrice di T .

Osservazione 2.1.5. Dato un tensore T di tipo a1, . . . , an, esso e associato ad una

funzione multilineare

T : Ka1 × · · · ×Kan → K

CAPITOLO 2. ALGEBRA TENSORIALE 17

definita da

T (v1, . . . , vn) =∑

Ti1...inv1i1 · · · vnin .

Viceversa, data una mappa multilineare T come sopra, si puo ad essa associare

un tensore T definito ponendo

Ti1...in = T (e1i1 , . . . , enin),

dove ei1, . . . , eiai sono gli elementi della base canonica di Kai .

Questa associazione definisce una corrispondenza biunivoca fra tensori di tipo

a1, . . . , an e mappe multilineari Ka1 × · · · ×Kan → K. Una simile corrispondenza

biunivoca si ottiene sostituendo le basi canoniche degli spazi Kai con alter basi

qualsiasi.

Si noti che in alcuni testi (di Geometria Differenziale o di Fisica Matematica) si

sceglie di definire i tensori come mappe multilineari, riservando ai nostri tensori il

termine di matrici multivariate.

Possiamo generalizzare ai tensori di dimensione qualsiasi alcuni dei concetti prin-

cipali introdotti nell’Algebra Lineare delle matrici.Iniziamo con la generalizzazione

In particolare, estendiamo a tutti i tensori il concetto di rango. Il procedimento parte

dalla caratterizzazione del rango di una matrice, in termini del prodotto tensoriale.

Vale la pena di osservare subito che il concetto di rango di un tensore ha in ge-

nerale un comportamento assolutamente diverso, molto piu complesso, dell’analogo

concetto dell’algebra matriciale.

Proposizione 2.1.6. Sia M = (mij) una matrice s×n a coefficienti in un campo K,

non nulla. Allora M ha rango 1 se e solo se esistono vettori v = (v1, . . . , vm) ∈ Km,

w = (w1, . . . , ws) ∈ Kn tali che, per ogni i, j;

mij = viwj.

Dimostrazione. Se v, w esistono, sia i un indice per cui la riga i-esima di M e non

nulla. Allora vi 6= 0 e per ipotesi, ogni altra riga k-esima e uguale a vk/vi volte la

riga i-esima, per cui M ha rango 1.

Viceversa, sia M di rango 1 e sia mij 6= 0. Allora ogni riga k-esima deve essere

uguale a mkj/mij volte la riga i-esima, da cui, posto

v = (m1j

mij

, . . . ,msj

mij

) w = (mi1, . . . ,min)


la formula segue facilmente.

La Proposizione precedente suggerisce la definizione del prodotto tensoriale.

Definizione 2.1.7. Dati due vettori v = (a1, . . . , am) ∈ Km e w = (b1, . . . , bn) ∈Kn, si chiama prodotto tensoriale v ⊗ w la matrice Z = (zij) ∈ Km,n definita da

zij = viwj.

Ricordando che i vettori vengono solitamente identificati con colonne, cioe con ma-

trici di tipo n × 1, si puo definire il prodotto tensoriale facendo uso del prodotto

righe per colonne:

v ⊗ w = v · wt

Il prodotto tensoriale definisce quindi una mappa:

⊗ : Km ×Kn → Km,n

e vedremo che tale mappa non e iniettiva, ne suriettiva.

Il prodotto tensoriale e un’applicazione bilineare da Km ×Kn = Kn+m a Km,n,

cioe soddisfa:

(v + v′)⊗ w = v ⊗ w + v′ ⊗ w

v ⊗ (w + w′) = v ⊗ w + v ⊗ w′

(av)⊗ w = a(v ⊗ w) = v ⊗ (aw)

per ogni v, v′ ∈ Km, w,w′ ∈ Kn e a ∈ K.

Osservazione 2.1.8. Dalla Proposizione 2.1.6 discende che v ⊗ w e sempre una

matrice nulla o di rango 1, viceversa ogni matrice Z ∈ Km,n di rango 1 puo essere

espressa come prodotto tensoriale di vettori v ∈ Km, w ∈ Kn.

Esempio 2.1.9. Il prodotto righe per colonne corrisponde ad un prodotto tensoriale

seguito da una applicazione lineare.

Infatti, se T ∈ Rn,m e U ∈ Rm,s sono due matrici, il loro prodotto tensoriale e il

tensore Q e tipo (n,m,m, s) di dimensione 4 dato da Q(i, j, k, l) = T (i, j)U(k, l). Il

prodotto righe per colonne si ottiene mandando Q nella matrice Z ∈ Rn,s tale che:

Z(i, l) =∑j

Q(i, j, j, l).


Proposizione 2.1.10.

1) (Annullamento del prodotto) v ⊗ w = 0 se e solo se v = 0 oppure w = 0.

2) Se v⊗w = v′⊗w′ 6= 0, allora esiste uno scalare a 6= 0 tale che v′ = av, w′ = 1aw.

Dimostrazione. Se v = 0 o w = 0, allora tutti i coefficienti della matrice v ⊗ w

sono nulli. Viceversa se v = (a1, . . . , am) 6= 0, allora esiste un indice per cui ai 6= 0;

analogamente se w = (b1, . . . , bn) 6= 0, esiste un indice per cui bj 6= 0. Ma allora

nella matrice prodotto, si ha zij = aibj 6= 0. Questo prova 1).

Supponiamo v⊗w = v′⊗w′ = Z = (zij) 6= 0, con v = (a1, . . . , an), v′ = (a′1, . . . , a′n).

Si osservi che, per 1), w 6= 0. Fissiamo un indice i per cui la riga i-esima non

e nulla. Tale riga e uguale sia a aiw che a a′iw′, per cui ai, a

′i 6= 0. Posto a =

a′i/ai, sia ha w′ = 1aw. Per ogni altro indice j, la riga j-esima di Z e uguale sia

a ajw che a a′jw′. Allora ajw = (a′j/a)w da cui, essendo w 6= 0, aj = (a′j)/a. Ne

segue v′ = (a′1, . . . , a′n) = (aa1, . . . , aan) = av. Viceversa e immediato verificare che

av ⊗ (1/a)w = v ⊗ w per ogni a 6= 0.

Proposizione 2.1.11. Se v = (v1, . . . , vm) e w = (w1, . . . , wn) allora la matrice

v ⊗ w = (aij) soddisfa:∑i,j

aij = (v1 + · · ·+ vm)(w1 + · · ·+ wn).

Dimostrazione. Si ha:∑i,j

aij =∑i,j

viwj =∑i

vi(w1 + · · ·+ wn) = (∑i

vi)(w1 + · · ·+ wn).

Osservazione 2.1.12. Si osservi che se Z = (zij) e una matrice di rango 1 di numeri

reali, tale che ogni suo coefficiente e strettamente positivo, allora si puo assumere

Z = (a1, . . . , am)⊗ (b1, . . . , bn) con ai, bj > 0 per ogni i, j.

Infatti 0 < z11 = a1b1 implica che a1 e b1 sono entrambi non nulli, dello stesso

segno. Per la Proposizione 2.1.10, si puo assumere che a1, b1 siano entrambi positivi,

cambiando eventualmente v, w con −v,−w, visto che (−v)⊗ (−w) = v⊗w. Allora

se ai ≤ 0, avremmo zi1 = aib1 ≤ 0, contro l’ipotesi. Analogamente si prova che

bj > 0 per ogni j.


Possiamo ora generalizzare il prodotto tensoriale a spazi di tensori qualsiasi.

Definizione 2.1.13. Siano T ∈ Kd1,...,dn , U ∈ Ke1,...,em tensori. Chiameremo

prodotto tensoriale T ⊗ U il tensore W ∈ Kd1,...,dn,e1,...,em tale che:

W (a1, . . . , an, b1, . . . , bm) = T (a1, . . . , an) · U(e1, . . . , em)

Osservazione 2.1.14. E’ evidente che il prodotto tensoriale e una applicazione

bilineare sugli spazi di tensori.

E’ inoltre facile (!) verificare che il prodotto tensoriale e associativo.

Si noti bene che, quando T, U sono matrici, il prodotto tensoriale non coincide con il

loro prodotto righe per colonne: moltiplicando tensorialmente due matrici si ottiene

infatti un tensore di dimensione 4.

In effetti, il prodotto tensoriale, a parte casi banali, non e un’operazione interna

a nessuno spazio di tensori. Esso pero definisce un’operazione interna all’algebra

tensoriale multi-graduata ⊗K, i cui pezzi omogenei sono gli spazi di tensori Rd1,...,dn .

Si noti bene infine che il prodotto tensoriale non e commutativo: scambiando l’ordine

dei fattori, si possono ottenere tensori diversi, anche dimensionalmente.

In modo analogo a quanto fatto nella Proposizione 2.1.10, si puo provare la legge

di annullamento del prodotto.

Proposizione 2.1.15. T ⊗ U = 0 se e solo se T = 0 oppure U = 0.

Osservazione 2.1.16. La Proposizione 2.1.6 puo essere riscritta dicendo che una

matrice M di tipo s × n a coefficienti in un campo K, non nulla, ha rango 1 se e

solo se esistono vettori v ∈ Km, w ∈ Kn tali che M = v ⊗ w.

Possiamo ora ampliare a tutti i tensori il concetto di rango.

Definizione 2.1.17. Diremo che ogni tensore nullo ha rango 0.

Diremo che un tensore non nullo T ∈ Kd1,...,dn e di rango 1 oppure semplice, o

anche decomponibile quando esistono vettori vi ∈ Kdi tali che T = v1 ⊗ · · · ⊗ vn

(l’associativita del prodotto tensoriale rende inutile specificare l’ordine con il quale

eseguiamo i prodotti).

Chiameremo rango di un tensore T il minimo k per cui esistono tensori semplici

T1, . . . , Tk, tali che T = T1 + · · · + Tk. In questo caso diremo che T1, . . . , Tk danno

una decomposizione del tensore T .


E’ chiaro che i tensori nulli sono gli unici di rango 0.

Verifichiamo che, nel caso di matrici, la definizione di rango data sopra coincide con

la solita definizione dell’Algebra Lineare, dove il rango e la dimensione dello spazio

delle righe.

La Proposizione 2.1.6 ci assicura che le matrici semplici sono esattamente quelle che

hanno spazio delle righe di dimensione 1.

Proposizione 2.1.18. Una matrice M ha spazio delle righe R di dimensione minore

o uguale a k se e solo se esistono k matrici di rango 1, M1, . . . ,Mk tali che M =

M1 + · · ·+Mk.

Dimostrazione. Se M = M1 + · · ·+Mk, con ciascun Mi di rango 1, siano v1, . . . , vk

vettori tali che per ogni i vi genera lo spazio delle righe di Mi. Allora lo spazio delle

righe di M e contenuto nello spazio generato da v1, . . . , vk.

Viceversa, se rango M ≤ k, siano v1, . . . , vk vettori che generano lo spazio delle righe

di M . Allora, per ogni riga Ri di M , si ha Ri =∑aijvj. Sia per ogni j Mj = la

matrice che ha per righe aijvj. Le matrici M1, . . . ,Mk o sono nulle o hanno tutte

rango 1 e la loro somma e M .

Il concetto di rango permette in effetti una stratificazione dello spazio dei tensori

in base alla loro complessita. I tensori di rango 1 sono davvero semplici anche

nelle loro applicazioni statistiche, e la complessita intuitiva di un tensore cresce in

generale con l’aumentare del rango.

Proposizione 2.1.19. Il rango di un sottotensore di T non puo superare il rango

di T .

Dimostrazione. La cosa e ovvia se T e il tensore nullo. Suppponiamo allora T 6= 0.

Se T ha rango 1, allora esistono vettori vi ∈ Kdi tali che T = v1⊗· · ·⊗vn. Eliminare

da T gli elementi aventi un primo indice uguale a q equivale, per definizione di

prodotto tensoriale, ad eliminare nel corrispondente vettore v1 l’elemento q-esimo.

Il tensore ottenuto T ′ e ancora di rango 1, visto che si decompone nel prodotto

v′1⊗ v2⊗ · · · ⊗ vn, dove v′1 e uguale al vettore v1, tolto l’elemento q-esimo. Poiche lo

stesso discorso vale eliminando gli elementi con qualsiasi altro indice fissato, segue

che ogni sottotensore di T e di rango 1, a meno che non sia nullo. Questo prova

l’affermazione per i tensori di rango 1.


Per i tensori di rango maggiore, la proposizione segue dall’osservazione che se T =

T1 + · · · + Tk, con Ti di rango 1, allora ogni sottotensore T ′ di T e ancora uguale

a T ′1 + · · · + T ′k, dove T ′i si ottiene da Ti eliminando tutti gli elementi con indici

eliminati nel passaggio da T a T ′. Ogni T ′i e quindi nullo, o di rango 1.

Osservazione 2.1.20. Se T e un tensore di rango r, allora per ogni scalare a ∈ R,

a 6= 0, anche aT ha rango r.

L’insieme di tensori di rango fissato (unito allo 0) rappresenta pertanto un cono,

all’interno dello spazio vettoriale Rd1,...,dn .

Si noti pero che, come gia avviene per le matrici, la somma di tensori non rispetta

il rango, quindi l’insieme dei tensori di rango fissato non e un sottospazio.

Terminiamo questo paragrafo introducendo una notazione.

Definizione 2.1.21. Le funzioni (multilineari)

Ka1 × · · · ×Kan → Ka1...an

definite mandando (v1, . . . , vn) in v1⊗ · · · ⊗ vn prendono il nome di mappe di Segre.

Le mappe di Segre prendono il nome del matematico italiano Corrado Segre

(1863–1924). Il loro corrispettivo geometrico rappresenta una fondamentale relazio-

ne fra spazi proiettivi.

2.2 Tensori decomponibili

Vediamo di caratterizzare, in questa sezione, i tensori di rango 1, cioe quelli semplici

o decomponibili.

Proposizione 2.2.1. Se un tensore ha rango 1, allora tutte le sue sottomatrici 2×2

hanno determinante nullo.

Dimostrazione. E’ in pratica solo una questione di notazione. Se T = v1 ⊗ · · · ⊗ vn,

con vi = (vi1, vi2, . . . ), allora per ogni scelta di una coppia di indici α, β si ha:

ti1,...,α=a,...,β=b,...,inti1,...,α=c,...,β=d,...,in =

= (v1i1 · · · vαa · · · vβb · · · vnin)(v1i1 · · · vαc · · · vβd · · · vnin)


mentre:

ti1,...,α=a,...,β=d,...,inti1,...,α=c,...,iβ=b,...,in =

= (v1i1 · · · vαa · · · vβd · · · vnin)(v1i1 · · · vαc · · · vβb · · · vnin)

quindi:

ti1,...,α=a,...,β=b,...,inti1,...,α=c,...,β=d,...,in =

= ti1,...,α=a,...,β=d,...,inti1,...,α=c,...,β=b,...,in .

Esempio 2.2.2. La proposizione precedente non puo purtroppo essere invertita, nel

senso che esistono tensori di rango maggiore di uno, in cui tutte le sottomatrici 2×2

hanno determinante nullo.

Si consideri infatti il tensore 2× 2× 2 T , definito da

T1,1,1 = 1 T1,1,2 = 0 T1,2,1 = 0 T1,2,2 = 0T2,1,1 = 0 T2,1,2 = 0 T2,2,1 = 0 T2,2,2 = 1.

T =

0 − − 1� | � |

0 − + 0 || 0 + − 0| � | �1 − − 0

E’ ovvio che tutte le sottomatrici 2×2 hanno determinante nullo. Tuttavia T non puo

avere rango 1. Se infatti T = (a1, a2) ⊗ (b1, b2) ⊗ (c1, c2), allora T1,1,1 = a1b1c1 6= 0

implica che a1, b1, c1 6= 0. Ma allora T1,1,2 = T1,2,1 = T2,1,1 = 0 implicano che

a2 = b2 = c2 = 0. Poiche T2,2,2 = a2b2c2 6= 0, si ha una contraddizione.

Per poter determinare un insieme di equazioni in grado di descrivere il sottoinsie-

me dei tensori semplici, bisogna estendere il numero di coppie di elementi del tensore

di cui va provata la proporzionalita. A tal fine e necessario estendere la notazione.

Ricordiamo che abbiamo indicato con Jn, l’insieme {1, . . . , n}. Sia J ⊂ Ji. Fissati

due elementi ta = ta1,...,an e tb = tb1,...,bn , indichiamo con t(ta, tb, J) l’elemento ti1,...,in

dove ij = aj se j ∈ J , ij = bj altrimenti.


Osservazione 2.2.3. Se un tensore T e semplice, allora per ogni coppia di elementi

ta = ta1,...,an e tb = tb1,...,bn di T e per ogni J ⊂ Jn, si ha

tatb = t(ta, tb, J)t(ta, tb, J′) (2.2.1)

dove J ′ = Jn \ J .

Infatti se T = v1 ⊗ · · · ⊗ vn, con vi = (vi1, vi2, . . . ), allora entrambi i prodotti in

(2.2.1) sono uguali a

v1a1v1b1 · · · vnanvnbn .

Quando ta, tb differiscono solo per due indici, cioe appartengono ad una sottoma-

trice 2 × 2 di T , allora l’uguaglianza 2.2.1 esprime semplicemente il fatto che tale

sottomatrice ha determinante nullo.

Nell’esempio precedente, si noti che prendendo ta = t111 e tb = t222 e J = {1}, si

ottiene t(ta, tb, J) = t122 e t(ta, tb, J′) = t211 e la formula (2.2.1) non vale in quanto

tatb = 1 6= 0 = t(ta, tb, J)t(ta, tb, J′).

Teorema 2.2.4. Un tensore T non nullo e semplice se e solo se soddisfa tutte le

uguaglianze (2.2.1), per ogni scelta di ta, tb, J .

Dimostrazione. Per l’osservazione precedente, dobbiamo solo provare che se tutte

le uguaglianze (2.2.1) sono verificate, allora il tensore e semplice. Lavoriamo per

induzione sulla dimensione del tensore.

Quando il tensore ha dimensione 2, cioe e una matrice, allora l’enunciato e ben noto:

il rango e 1 se tutti i sottodeterminanti 2× 2 si annullano.

In generale, prendiamo un elemento ta = ta1,...,an 6= 0 in T . Sappiamo per induzione

che, fissato il primo indice uguale a a1, esistono vettori v2, . . . vn tali che per ogni

scelta di i2, . . . , in

ta1,i2,...,in = v2i2 · · · vnin .

Definiamo per ogni m ∈ Jn il fattore di proporzionalita

pm =tm,a2,...,anta1,a2,...,an

e definiamo il vettore v1 = (p1, . . . , pm).


Allora si ha T = v1 ⊗ v2 ⊗ · · · ⊗ vn. Infatti per ogni tb = tb1,...,bn , posto J = {1}, si

ottiene dalle uguaglianze (2.2.1)

tatb = ta1,b2,...,bntb1,a2,...,an = ta1,b2,...,bn · pb1ta1,a2,...,an

da cui

v2a2 · · · vnantb = v2b2 · · · vnbn · v1b1v2a2 · · · vnan

e pertanto, essendo ta 6= 0 quindi v2a2 , . . . , vnan 6= 0,

tb = v2b2 · · · vnbn · v1b1 .

Le equazioni corrispondenti alle uguaglianze (2.2.1) descrivono un insieme di

equazioni per il sottoinsieme dei tensori decomponibili. Tale insieme di eqeuazioni,

in generale, non e tuttavia minimale.

La proposizione precedente ci fornisce un metodo algoritmico per verificare se

un tensore ha rango 1. Si noti tuttavia che, per tensori di dimensione elevata, le

verifiche da fare possono essere in numero notevole!

Le analogie fra rango di tensori e rango di matrici finiscono qui. Non e noto un

metodo simile a quello di Gauss-Jordan, per calcolare il rango di un tensore. Non e

noto (in generale) un analogo del determinante che ci possa permettere di studiare

il rango di un tensore.

Inoltre, il rango massimo che un tensore di tipo (d1, . . . , dn) puo avere non e neces-

sariamente il rango del generico tensore di quel tipo.

Le principali questioni sul rango dei tensori sono ancora un importante argomento

di ricerca per l’algebra multilineare.

Esempio 2.2.5. Il seguente tensore di dimensione 3 e tipo 2× 2× 2 ha rango 2:

7 − − 4� | � |

5 − + 4 || 5 + − −1| � | �1 − − 0


Infatti esso non ha rango 1, perche alcune sue sottomatrici 2×2 hanno determinante

non nullo. Il rango e 2, infatti esso e somma dei due tensori

1 − − 1� | � |

3 − + 3 || 2 + − 2| � | �1 − − 1

+

6 − − 3� | � |

2 − + 1 || 3 + − −3| � | �1 − − −1

che hanno entrambi rango 1.

Si osservi che NON e nota una caratterizzazione simile per gli insiemi di tensori

di rango superiore.

Solo in casi particolari di spazi di tensori di dimensione e rango piccoli, conosciamo

un insieme completo di equazioni che li descrivono.

Per maggiori informazioni rimandiamo al testo di Landsberg [Landsberg].

2.3 Tensori simmetrici

Cosı come avviene per le matrici, anche per i tensori si possono definire il concetto

di oggetto simmetrico o alternante.

Definizione 2.3.1. Diremo che un tensore di tipo (d1, . . . , dn) e cubico se d1 = d2 =

· · · = dn.

Diremo che un tensore cubico T e simmetrico se per ogni scelta degli indici i1, . . . , in

e per ogni loro permutazione σ, si ha:

T (σ(i1), . . . , σ(in)) = T (i1, . . . , in).

Diremo che T e alternante se:

T (σ(i1), . . . , σ(in)) = (−1)σT (i1, . . . , in)

dove (−1)σ indica il segno della permutazione.

Osservazione 2.3.2. E’ immediato verificare che i tensori di tipo fissati simmetrici

o alternanti formano un sottospazio dello spazio dei tensori.

D’altra parte, il prodotto tensoriale di tensori simmetrici o alternanti non e affatto

detto che sia ancora simmetrico o alternante.


Esempio 2.3.3. Ogni n-upla di indici i1, . . . , in puo essere permutata in modi unico

ad una n-upla non decrescente, cioe tale che ij ≤ ij+1 per ogni j.

Questa osservazione ci permette di costruire una base per il sottospazio dei tensori

simmetrici. Infatti per ogni scelta di una n-upla ordinata di indici i1, . . . , in che

soddisfa ij ≤ ij+1 per ogni j, si definisce il tensore simmetrico e(ii, . . . , in) come

segue:

e(i1, . . . , in)j1,...,jn =

{1 se (j1, . . . , jn) e permutazione di (i1, . . . , in);

0 altrimenti.

E’ facile verificare che i tensori e(ii, . . . , in) formano una base (che chiameremo base

canonica) del sottospazio dei tensori simmetrici.

Di seguito riportiamo i 4 elementi della base canonica dei tensori simmetrici 2×2×2.

e(1, 1, 1) =

0 − − 0� | � |

0 − + 0 || 0 + − 0| � | �1 − − 0

e(1, 1, 2) =

0 − − 0� | � |

1 − + 0 || 1 + − 0| � | �0 − − 1

e(1, 2, 2) =

1 − − 0� | � |

0 − + 1 || 0 + − 1| � | �0 − − 0

e(2, 2, 2) =

0 − − 1� | � |

0 − + 0 || 0 + − 0| � | �0 − − 0

Esempio 2.3.4. Se T e un tensore alternante e (i1, . . . , in) e una n-upla di indici in

cui un indice e ripetuto, scambiando fra loro i due indici uguali, si ottiene

Ti1,...,in = −Ti1,...,in

quindi Ti1,...,in = 0.

ertanto nei tensori alternanti tutti i coefficienti in cui un indice e ripetuto sono nulli.

Cio prova che non esistono tensori alternanti 2× 2× 2, tranne il tensore nullo. Piu

in generale l’unico tensore alternante d × · · · × d, n volte, con d < n, e il tensore

nullo.Questo fatto ci mostra che, a differenza di quanto avviene per le matrici, uno

spazio di tensori cubici, in generale, non e somma diretta del sottospazio dei tensori

simmetrici e del sottospazio dei tensori alternanti.


Esempio 2.3.5. Per costruire una base dello spazio dei tensori alternanti d×· · ·×d,

n volte, con d ≥ n, si considerino le n-uple di indici i1, . . . , inordinate in modo

crescente, cioe tali che ij < ij+1 per ogni j. Per ciascuna di tali n-uple, costruiamo

il tensore ε(i1, . . . , in) tale che

ε(i1, . . . , in)j1,...,jn =

{(−1)σ se j1, . . . , jn = σ(i1, . . . , in), σ = permutazione;

0 altrimenti.

E’ facile verificare che gli elementi ε(i1, . . . , in) formano una base (canonica) dello

spazio dei tensori alternanti.

Osservazione 2.3.6. Se T e un tensore simmetrico, non e detto che i sottotensori

di T siano simmetrici.

Esiste una stretta relazione fra lo spazio dei tensori simmetrici e gli spazi di

polinomi omogenei di grado fissato.

Definizione 2.3.7. Definiamo una mappa P che va dallo spazio di tensori Kd,...,d

di dimensione n allo spazio dei polinomi omogenei di grado n, a coefficienti in K,

nelle incognite x1, . . . , xd.

La mappa e definita ponendo per ogni tensore T

P (T ) =∑i1,...,in

Ti1,...,inxi1 · · ·xin .

Ad esempio, in tale mappa il tensore e(1, 1, 2) definito sopra ha per immagine il

polinomio di grado 3 in due incognite 3x21x2.

La funzione P non e certamente iniettiva, in quanto ad esempio le due matrici(1 20 2

) (1 11 2

)hanno la stessa immagine in P .

Vale comunque la seguente

Proposizione 2.3.8. La mappa P , ristretta al sottospazio dei tensori simmetrici,

e biiettiva e determina un isomorfismo fra lo spazio dei tensori simmetrici di tipo

d× · · · × d, n volte, e lo spazio dei polinomi omogenei di grado n in d incognite.


Dimostrazione. Basta costruire la relazione inversa. Per questo, se (i1, . . . , in) e

una n-upla di indici ordinata in modo non decrescente, con 1 ≤ ij ≤ d per ogni j,

indichiamo con ν(i1, . . . , in) il numero di permutazioni di (i1, . . . , in) che sono diverse

fra loro. Indichiamo anche con si1,...,in(j), j = 1, . . . , d, il numero di volte in cui j

compare nella n-upla. Per ogni polinomio omogeneo di grado n

p(x1, . . . , xd) =∑

j1+···+jd=n

aj1...jdxj11 · · ·x

jdd

poniamo P−1(p) = tensore T tale che

Ti1,...,in =1

ν(i1, . . . , in)asi1,...,in (1),...,si1,...,in (d).

E’ un conto diretto la verifica che P−1 e l’inversa di P . Basta infatti osservare che i

numeri si1,...,in(j) non cambiano in una permutazione di (i1, . . . , in).

Il fatto che P ( e quindi anche P−1) sono applicazioni lineari discende subito dalla

definizione di somma di tensori e somma di polinomi.

Esempio 2.3.9. La mappa P permette quindi di identificare polinomi omogenei

con tensori simmetrici.

Ad esempio, il polinomio di terzo grado in due variebili x31 + 3x2

1x2− 2x32 e associato

al tensore0 − − −2

� | � |1 − + 0 || 1 + − 0| � | �1 − − 1

La definizione di rango, che descrive la complessita di un tensore, puo dunque

essere adattata allo studio dei polinomi.

Da questo punto di vista (che tuttavia non e l’unico possibile!) i polinomi semplici

sono quelli che hanno rango 1 come tensori. Per studiare quali polinomi godono di

questa proprieta, facciamo la seguente osservazione.

Proposizione 2.3.10. Dati dei vettori v1, . . . , vn ∈ Kd, tutti non nulli, il loro

prodotto tensoriale e simmetrico se e solo se tutti i vi sono multipli di uno stesso

vettore v.


Dimostrazione. Sia T = v1⊗· · ·⊗vn con vi = (vi1, . . . , vid) per ogni i. Poiche v1 6= 0,

esiste una componente v1j 6= 0. Possiamo supporre v11 6= 0 (un ragionamento simile

funziona anche negli altri casi). Si ha allora che v21 6= 0. Infatti altrimenti, preso

un indice j per cui v2j 6= 0, per ogni scelta di i3, . . . , in sarebbe

v11v2jv3i3 · · · vnin = T1ji3...in = Tj1i3...in = v1jv21v3i3 · · · vnin = 0.

Siccome esistono indici i3, . . . , in per cui v3i3 , . . . , vnin sono tutti non nulli, otterrem-

mo l’assurdo v11v2j = 0.

Facciamo ora induzione su n ≥ 2.

Sia n = 2. Posto a = v21/v11, vogliamo provare che v1 = av2. Poiche la matrice

T = v1 ⊗ v2 e simmetrica, deve essere Tij = v1iv2j = vijv2i = Tji per ogni scelta di

i, j, quindi v2j = v1jv21/v11 e l’asserto e dimostrato.

Sia n > 2. Il tensore T ′ = v2 ⊗ · · · ⊗ vn deve essere simmetrico. Infatti T1i2...in =

v11T′i2...in

quindi, essendo v11 6= 0, se esistesse una permutazione (j2, . . . , jn) di

(i2, . . . , in) con T ′j2...jn 6= T ′i2...in avremmo anche T1j2...jn 6= T1i2...in , contro la sim-

metria di T . Allora per induzione sappiamo che esiste un vettore v = (b1, . . . , bn)

tale che v2 = a2v, . . . , vn = anv (ovviamente quindi a2, . . . , an 6= 0). Poniamo

u = b1/v11. Scelti come sopra indici i3, . . . , in per cui v3i3 , . . . , vnin sono tutti non

nulli, si ha per ogni j

v11(a2bj)v3i3 · · · vnin = T1ji3...in = Tj1i3...in = v1j(a2b1)v3i3 · · · vnin

da cui v11bj = v1jb1, quindi bj = uv1j. Cio prova che v = uv1, da cui segue

l’asserto.

Su un campo algebricamente chiuso vale il seguente corollario.

Corollario 2.3.11. Su un campo K algebricamente chiuso, un tensore simmetrico

T ha rango 1 se e solo se e della forma T = v ⊗ · · · ⊗ v, per qualche vettore v 6= 0.

Dimostrazione. Per la proposizione precedente, sappiamo che se T simmetrico ha

rango 1, allora e del tipo T = v1⊗· · ·⊗ vn ed esiste un vettore non nullo w e numeri

a1, . . . , an ∈ K tali che vi = aiv per ogni i. Posto allora ε = radice n-esima del

prodotto a1 · · · an e posto v = εw, si ha T = v ⊗ · · · ⊗ v. Il viceversa e banale.

Vediamo le conseguenze sui polinomi.


Osservazione 2.3.12. Sia v = (a1, . . . , ad) un vettore di Kd e sia T il tensore

T = v ⊗ · · · ⊗ v (n volte). Allora P (T ) ∈ K[x1, . . . , xd] e uguale al polinomio

(a1x1 + · · ·+ adxd)n.

Dimostrazione. Evidente dal fatto che il coefficiente di xj11 · · · xjdd in (a1x1 + · · · +

adxd)n e proprio zaj11 · · · a

jdd , dove z e il numero di permutazioni distinte della n-upla

(1, . . . , 1, 2 . . . , 2, . . . , d, . . . , d) dove ciascun i e ripetuto ji volte (si veda la formula

A.0.2 dell’Appendice).

Proposizione 2.3.13. I polinomi che hanno rango 1 come tensori sono le potenze

di forme lineari.

Per descrivere i tensori di rango 1 abbiamo fatto ricorso alla mappa di Segre (si

veda la Definizione 2.1.21).

In modo analogo, per descrivere i tensori simmetrici facciamo ricorso alle mappe di

Veronese, che prendono il nome dal matematico italiano Giuseppe Veronese (1854-

1917).

Definizione 2.3.14. Per ogni n, d indichiamo con M1, . . . ,MN i monomi monici

distinti di grado n in d incognite.

Per ogni scelta di coefficienti z1, . . . , zN ∈ K \ {0}, chiameremo mappa di Veronese

la funzione ν : Kd → KN che manda (a1, . . . , ad) nella N -upla

(z1M1(a1, . . . , an), . . . , zNMN(a1, . . . , an)).

Per la formula A.0.3 dell’Appendice, si ha

N = N(n, d) =

(n+ d

d

)=

(n+ d

n

).

Le mappe di Veronese piu utilizzate sono quella in cui tutti i coefficienti sono

uguali a 1 e quella in cui ogni coefficiente zi e uguale al numero di permutazioni

distinte della n-upla (1, . . . , 1, 2 . . . , 2, . . . , d, . . . , d) associata al monomio Mi.

Se identifichiamo KN con lo spazio dei polinomi omogenei di grado n in d variabili,

prendendo come base quella formata dai monomi monici, allora l’immagine di que-

st’ultima mappa di Veronese coincide con il sottoinsieme dei polinomi di rango 1

(piu il polinomio nullo).


Osservazione 2.3.15. Se identifichiamo Kn come spazio dei tensori simmetrici di

tipo d × · · · × d (n volte), allora questi e un sottospazio di Kd,...,d. Sia D ⊂ Kd,...,d

l’insieme dei tensori di rango ≤ 1, che e l’immagine della mappa di Segre, allora

D ∩KN e proprio l’immagine della seconda mappa di Veronese sopra definita.

Proposizione 2.3.16. Se due d-uple A = (a1, . . . , ad) e B = (b1, . . . , bd) non nulle

hanno la stessa immagine nella mappa di Veronese ν, allora sono proporzionali.

Dimostrazione. Dimostriamo l’enunciato nel caso in cui zi = 1 per ogni i.

Sia Mi il monomio monico corrispondente a xni . Allora Mi(A) = Mi(B) implica che

ai = εibi, con εi = radice n-esima dell’unita. Inoltre ai = 0 implica bi = 0.

Preso ai 6= 0, sia M ′j il monomio monico xn−1

i xj. Allora M ′j(A) = M ′

j(B) implica

che se aj 6= 0, si ha 1 = εn−1i εj da cui εj = 1/εn−1

i = εi.

Cio prova che B = εiA.

Spesso scambieremo fra loro due mappe di Veronese aventi gli stessi n, d. In

effetti e ovvio che le immagini di due mappe di Veronese distine, con n, d fissati,

differiscono per un isomorfismo di KN .

Definizione 2.3.17. Sia F 6= 0 un polinomio omogeneo di grado n in d variabili.

Chiameremo rango simmetrico di F il minimo r per cui esistono potenze di forme

lineari F n1 , . . . , F

nr tali che F = F n

1 + · · ·+ F nr .

Il calcolo del rango simmetrico e l’equivalente, per polinomi, delle decomposizioni

di Waring per numeri interi.

Il matematico inglese E. Waring (1736-1798) si occupo infatti del problema di de-

comporre un intero positivo come somma di potenze di interi positivi. Da un certo

punto di vista, si tratta di una generalizzazione dell’Ultimo Teorema di Fermat.

Waring provo che ogni intero si puo scrivere come somma di a ≤ 4 quattro quadrati

e b ≤ 9 cubi. In generale, i Problemi di Waring consistono nel determinare il minimo

r per cui ogni intero positivo e somma di al piu r potenze n-esime (positive).

Problemi simili a quelli di Waring, sostituendo gli interi con i polinomi omoge-

nei, sono di grande importanza nello studio dei tensori e della Statistica Algebrica.

Molti di tali problemi sono ancora aperti. Rimandiamo, per un approfondimento

sull’argomento, al paragrafo 5.4 del testo di Landsberg [Landsberg].


Attenzione che se identifichiamo F come tensore (simmetrico), allora non e chiaro

se il suo rango simmetrico e uguale al suo rango, essendo quest’ultimo definito dal

minimo r′ per cui esistono tensori T1, . . . , Tr′ (non necessariamente simmetrici!) tali

che F = T1 + · · ·+ Tr′ .

E’ chiaro che r ≥ r′, ma non sappiamo se vale l’uguaglianza.

Nel 2008 P. Comon ha congetturato che valga sempre l’uguaglianza r = r′. Ad

oggi, sono noti solo risultati parziali al riguardo. Rimandiamo per la discussione al

paragrafo 5.7 del testo di Landsberg [Landsberg].

2.4 Elementi di un tensore

Vediamo in questo paragrafo alcuni nozioni di grande importanza per l’applicazione

dei prodotti tensoriali alla statistica algebrica.

Ricordiamo che Jn indica l’insieme dei numeri Jn = {1, . . . , n}.

Definizione 2.4.1. Consideriamo lo spazio Kd1,...,dn dei tensori di dimensione n e

tipo (d1, . . . , dn). Per ogni sottoinsieme R ⊂ J , diremo che una funzione Q : R→ Ze coerente con (d1, . . . , dn) se per ogni r ∈ R si ha 1 ≤ Q(r) ≤ dr.

Per ogni scelta di R e Q : R → Z coerente con (d1, . . . , dn), chiameremo elemento

R,Q di T ∈ Kd1,...,dn il sottotensore ERQ(T ) formato dai coefficienti Ti1...in tali che

ir = Q(r) per ogni r ∈ R.

Osservazione 2.4.2. Per ogni T ∈ Kd1,...,dn , l’elemento ERQ(T ) corrisponde a un ten-

sore in Ke1,...,em , dove m = n− cardinalita di R, (e1, . . . , em) ottenuta da (d1, . . . , dn)

cancellando gli elementi dr con r ∈ R.

Fissati R,Q, la funzione che manda ogni tensore di Kd1,...,dn nel suo elemento R,Q

e un’applicazione lineare di spazi di tensori.

Esempio 2.4.3. Preso il tensore

T =

3 − − −2� | � |

1 − + 1 || 1 + − 0| � | �2 − − 1


per R = {1} ⊂ J3 = {1, 2, 3} e per Q : R→ Z, Q(1) = 2, si ha:

ERQ(T ) =

(1 13 −2

)cioe ER

Q corrisponde alla ’faccia superiore” del cubo, che e data dagli elementi del

tensore il cui terzo indice e 2.

Se invece Q manda 1 in 1, si ha la faccia inferiore

ERQ(T ) =

(2 11 0

).

Preso R = {1, 3} con Q(1) = 2, Q(3) = 1 si ottiene lo spigolo ERQ(T ) = (1, 0) formato

dagli elementi T211, T221.

Esempio 2.4.4. Se T e una matrice a× b, che e un tensore di dimensione 2, fissato

R = {2} ⊂ J2 = {1, 2}, gli elementi ERQ(T ) corrispondono alle colonne di T .

In modo analogo, se R = {1}, gli elementi ERQ(T ) corrispondono alle righe di T .

Naturalmente un tensore non nullo puo avere elementi nulli: basta prendere una

matrice non nulla che ha una riga nulla.

Proposizione 2.4.5. Ogni elemento di un tensore di rango 1 ha rango ≤ 1.

Dimostrazione. Operando ricorsivamente su R, e sufficiente far vedere questo fatto

quando R e un singoletto.

Supponiamo per semplicita R0{1}. Se Q(r) = q e T = v1 ⊗ v2 ⊗ · · · ⊗ vn, allora e

immediato dalla definizione che ERQ(T ) = v1q(v2 ⊗ · · · ⊗ vn).

La precedente proposizione si estende a valori superiori del rango.

Proposizione 2.4.6. Ogni elemento di un tensore di rango k ha rango ≤ k.

Dimostrazione. Viene immediatamente dalla proposizione precedente e dal fatto che

se T = T1 + · · ·+ Tk, allora per linearita

ERQ(T ) = ER

Q(T1) + · · ·+ ERQ(Tk).


Si osservi che in generale e impossibile attendersi l’uguaglianza, nelle proposizioni

precedenti: abbiamo visto nell’esempio 2.2.5 che ci sono tensori di tipo 2× 2× 2 di

rango 3. E’ chiaro che ogni loro elemento non puo avere rango maggiore di 2.

In realta, il rapporto fra rango di un tensore e quello di tutti i suoi elementi non e

ancora ben compreso, in tutti i suoi particolari.

Definizione 2.4.7. Per ogni tensore T ∈ Kd1,...,dn , e per ogni R ⊂ Jn, chiame-

remo scansione di T lungo R l’insieme formato dagli elementi ERQ, dove Q varia

nell’insieme delle funzioni Q : R ∈ Z, coerenti con (d1, . . . , dn).

Chiameremo R-spazio di T il sottospazio di tenori generato dalla scansione di T

lungo R.

Chiameremo marginalizzazione di T lungo R la somma di tutti gli elementi appar-

tenenti alla scansione di T lungo R.

Anche la marginalizzazione definisce un’applicazione lineari di spazi di tensori.

Esempio 2.4.8. Se T e una matrice, i due r-spazi di T coincidono con lo spazio

delle righe e lo spazio delle colonne.

Esempio 2.4.9. Per analogia con quanto avviene per le matrici, qualcuno potebbe

pensare che tutti gli R-spazi di un tensore debbano avere la stessa dimensione. Cio

e pero falso.

Prendiamo ad esempio il tensore

T =

2 − − 0� | � |

4 − + 2 || 1 + − 0| � | �2 − − 1

Post R1 = {3}, allora i generatori dell’ R1- spazio di T sono le matrici(2 11 0

) (4 22 0

)e pertanto tale spazio ha dimensione 1.

Se pero prendiamo R2 = {1}, i generatori dell’ R2-spazio sono le matrici(2 14 2

) (1 02 0

)che non sono proporzionali, quindi tale spazio ha dimensione 2.


Un’altra grande differenza fra matrici e tensori di dimensione superiore e che non

si puo dare una definizione di rango di un tensore mediante le dimensioni dei suoi

R-spazi.

Infatti, ad esempio, esistono tensori 2 × 2 × 2 che hanno rango 3, mentre i loro

R-spazi sono ovviamente tutti generati da due matrici, quindi non possono avere

dimensione 3.

Un esempio di tensore 2× 2× 2 di rango 3 e illustrato qui sotto.

Esempio 2.4.10. Il tensore

D =

2 − − 3� | � |

1 − + 3 || 0 + − 4| � | �0 − − 2

ha rango 3, perche non e possibile scriverlo come somma di due tensori di rango

1. Quest’ultima affermazione puo essere provata svolgendo i calcoli. Vediamo una

dimostrazione.

Siano per assurdo T = (Tijk) e T ′ = (T ′ijk) due tensori di rango 1, la cui somma e D.

Si deve allora avere che (D111, D121) = (0, 0) e somma di (T111, T121) + (T ′111, T′121),

pertanto questi due vettori sono fra loro proporzionali e generano un sottospazio

W ⊂ K2 di dimensione ≤ 1.

Se sono (entrambi, ovviamente,) non nulli, siccome T, T ′ hanno rango 1 e quindi

i loro sottodeterminanti 2 × 2 si annullano, tutti i vettori (T112, T122), (T211, T221),

(T212, T222), (T ′112, T′122), (T ′211, T

′221), (T ′212, T

′222) devono stare in W . Ma allora anche

(1, 2) e (3, 3), che sono somma di tali vettori, stanno in W . Poiche W ha dimensione

≤ 1 mentre (1, 2), (3, 3) sono linearmente indipendenti, si arriva ad un assurdo.

Supponiamo invece (T111, T121) = (T ′111, T′121) = (0, 0). Poiche i due vettori (T112, T122),

(T ′112, T′122) hanno somma (1, 2), non possono entrambi essere nulli, quindi possiamo

supporre (T112, T122) 6= (0, 0). Siccome T ha rango 1, deve esistere a ∈ K tale che

(T211, T221) = a(T112, T122), inoltre

0 = T111T212 − T211T112 = aT 2112 0 = T121T222 − T221T122 = aT 2

122

quindi a = 0 e (T211, T221) = (0, 0). Ma allora (T ′211, T′221) = (2, 4). Poiche T ′ ha

rango 1, (T ′112, T′122) deve essere multiplo di (T ′211, T

′221) = (2, 4). Quindi (T211, T212),


che e uguale a (1, 2) − (T ′112, T′122), deve essere anche lui multiplo di (2, 4). Poiche

T, T ′ hanno rango 1, ne segue che i vettori (T212, T222), (T ′212, T′222) devono anch’essi

essere multipli di (2, 4). Ma la loro somma (T212, T222) + (T ′212, T′222) = (3, 3) non e

multipla di (2, 4). Abbiamo percio un assurdo.

Definizione 2.4.11. Un caso particolare di marginalizzazione e il seguente.

Se T e un tensore di tipo d1 × · · · × dn, si chiama marginalizzazione totale di T il

vettore (T1, . . . , tn) ∈ Kd1 × · · · ×Kdn dove ti e la marginalizzazione di T rispetto a

R = Jn \ {i}.

Esempio 2.4.12. Ad esempio dato un sistema S con due variabili booleane, le

distribuzioni si ΠS sono definite da tensori T ∈ K2,2,2. Se ad esempio

T =

3 − − 1� | � |

−1 − + 0 || 1 + − 1| � | �4 − − 1

allora la marginalizzazione totale e il vettore ((7, 3), (3, 6), (7, 3)).

Esempio 2.4.13. Il termine marginalizzazione proviene storicamente dallo studio

statistico dei sistemi aleatori S con due variabili e della loro correlazione totale.

Se infatti consideriamo un sistema con due variabili, A,B, dove A ha te stati mentre

B e booleana, allora una distribuzione sulla correlazione totale e una matrice T di

tipo 3× 2. Data la matrice rappresentata qui sotto(1 −2 43 1 1

)allora la marginalizzazione totale di T si ottiene facendo la somma delle righe e delle

colonne, che puo essere rappresentata in figura scrivendo i valori ottenuti sui margini

della matrice. (1 −2 43 1 1

)35

4 −1 5

Capitolo 3

Statistica Algebrica elementare

In questo capitolo, trattiamo alcuni esempi elementari di calcolo statistico alla luce

delle definizioni principali date nei capitoli precedenti.

3.1 Probabilita elementare

Ripercorriamo brevemente, in questo paragrafo, alcuni dei concetti base del calcolo

delle probabilita, nella nuova terminologia.

Dato un sistema aleatorio S, vediamo di introdurre il concetto di probabilita di

ciascuno degli stati s1, . . . , sn di una variabile aleatoria x.

Eliminiamo subito l’idea che se gli stati sono n, ciascuno di loro abbia necessaria-

mente probabilita 1/n. Nessuno infatti ci garantisce, in partenza, che gli stati siano

equiprobabili. Se ad esempio S rappresenta una schedina (esempio 1.1.4) e quindi

x e una partita, gli stati di x sono tre: 1, 2, X e le loro probabilita non saranno in

generale equamente suddivise in 13, 1

3, 1

3, ma dipenderanno da fattori quali la forza

delle singola squadre, chi gioca in casa, ecc.

Esempio 3.1.1. Nel campionato di calcio serie A 2005/06 sono state giocate 380

partite. Di esse 176 si sono concluse con la vittoria della squadra di casa, 108 in

pareggio e le rimanenti 96 con vittorie in trasferta.

Se pertanto costruiamo il sistema che ha per unica variabile aleatoria una partita

p di alfabeto {1, 2, X}, il campionato induce una distribuzione D tale che Dp(1) =

176, Dp(X) = 108, Dp(2) = 96.

39


La normalizzazione D ci da i valori di probabilita che si ottengono dal campionatoscorso:

Dp(1) =176

380' 46, 2% Dp(X) =

108

380' 28, 4% Dp(2) =

96

380' 24, 4%.

La distribuzione che rappresenta l’equiprobabilita e la seguente:

Esempio 3.1.2. Chiameremo distribuzione equa su un sistema aleatorio S la di-

stribuzione E che associa ad ogni stato s di ogni variabile aleatoria il numero

1.

La distribuzione probabilistica associata ad E e data da pExi(s) = 1ni

, dove ni e il

numero di stati della variabile xi.

La stessa probabilita si ottiene ovviamente partendo dalla distribuzione cE, c ∈ R,

che ad ogni stato associa il valore c.

Si noti che la distribuzione equa ha campionatura costante solo se le variabili

hanno tutte lo stesso numero di stati.

Vediamo come recuperare la famosa formula per il calcolo della probabilita:

casi favorevoli

casi possibili

Consideriamo un caso concreto.

Esempio 3.1.3. In ogni Palio corrono solo dieci delle diciassette contrade. Le dieci

contrade che correranno nel prossimo Palio di Luglio sono scelte come segue: corrono

sicuramente le sette che non hanno corso nel Palio del Luglio precedente, unite a tre

contrade che sono estratte con un sorteggio fra le dieci che nel Luglio scorso avevano

corso il Palio.

Qual e la probabilita che una contrada x, pur avendo corso nel Palio del Luglio

scorso, possa correre nel prossimo Palio di Luglio?

Costruiamo al proposito due sistemi aleatori.

Il primo T ha una sola variabile aleatoria, l’estrazione e. Quanti sono gli elementi

dell’alfabeto A(e) di e, cioe i possibili stati di e? Bisogna scegliere 3 contrade in

un insieme di 10. Abbiamo 10 scelte per la prima estratta, dopodiche ne restano

9 per la seconda estratta e in seguito 8 per la terza. In totale 10 · 9 · 8 = 720

stati. Diamo ovviamente per scontato che l’estrazione avvenga senza particolari

CAPITOLO 3. STATISTICA ALGEBRICA ELEMENTARE 41

favoritismi, in modo che ciascuna terna abbia la stessa probabilita di uscire. Questo

si ottiene considerando la distribuzione equa E su T . La probabilita indotta su ogni

terna(ordinata) e pertanto 1/720.

Il secondo sistema S ha anch’esso una variabile aleatoria, corrispondente ad una fra

le dieci contrade fra le quali avviene l’estrazione. Tale variabile, che chiameremo c,

e booleana, con alfabeto Z2 (1 = corre, 0 = non corre).

Consideriamo la mappa di sistemi aleatori fc : T → S, che manda e in c e ogni

terna t ∈ A(e) in 0 o 1, a seconda che c sia nella terna t o no.

La probabilita che c corra nel prossimo Luglio e definita dalla distribuzione Dc = fcE∗

su S.

Dc(1) e uguale al numero di terne che contengono c. Quante sono? le terne in cui

c e primo elemento si ottengono scegliendo il secondo elemento fra 9 e il terzo fra i

rimanenti 8, quindi sono 72. Altrettante sono le terne in cui c compare al secondo

o al terzo posto. Per un totale di 72 · 3 = 216 terne. Quindi Dc(1) = 216 e di

conseguenza, ovviamente, Dc(0) = 720−216 = 504. Ne segue che la probabilita che

ha una contrada c di correre nel Luglio prossimo, pur avendo gia corso nel Luglio

scorso, e:

p =Dc(1)

Dc(0) +Dc(0)=

216

720=

3

10' 33, 3%

Nell’esempio precedente, solo due le possibilita per c: o corre (1) o non corre (0).

I casi possibili sono 720, cioe gli stati di e, che vengono considerati equiprobabili.

Quelli considerati favorevoli sono quelli che stanno nella controimmagine di 0, cioe

Dc(0) che vale 216. Da qui la formula.

E’ bene rimarcare con forza che in molti casi concreti e assolutamente impossibile

conoscere a priori il sistema S e la mappa f che, a partire dalla distribuzione equa

su S ci danno la probabilita su T .

Prendiamo l’esempio di una moneta, di cui non sappiamo nulla, e dei suoi due

stati T = testa e C = croce. Qual e la probabilita che lanciando la moneta si ottenga

una delle due possibilita?

A priori nessuno puo affermare con certezza che la probabilita e 1/2: la moneta

potrebbe benissimo essere truccata!

E il mondo fisico, economico, biologico e pieno di monete o dadi truccati. Per

esempio, esaminando la prima base delle catene di DNA di tutti gli organismi, si


osserverebbe che la distribuzione non e equa, essendo la base T molto meno frequente

della A. Similmente, nessuno, compilando una schedina, di fronte alla partita Inter

- Siena, si sognerebbe di pensare che la probabilita dei tre risultati, 1, 2, X, sia

equamente distribuita.

3.2 Connessioni di indipendenza e marginalizza-

zione

Riportiamo qui la definizione di connessione di indipendenza, data nel capitolo

precedente (Definizione 4.3.3).

Esempio 3.2.1. Sia S un sistema aleatorio e sia T = ΠS la sua correlazione totale.

Definiamo una connessione Γ : DK(S)→ DK(T ), detta connessione di indipendenza

o anche connessione di Segre, in questo modo. Se S ha variabili aleatorie x1, . . . , xn,

e ciascuna variabile xi ha ni stati, allora DK(S) e identificato con Kn1 × · · · ×Kan .

Γ manda la distribuzione

D = ((d11, . . . , d1a1), . . . , (dn1, . . . , dnan))

nel tensore (pensato come distribuzione su ΠS) D′ = Γ(D) tale che

D′i1,...,in = d1i1 · · · dnin .

E’ chiaro, per costruzione, che l’immagine della connessione e formata da tutte e

sole le distribuzioni di indipendenza su ΠS.

Proposizione 3.2.2. Se D e una distribuzione probabilistica, anche ΠD lo e.

Dimostrazione. Sia S = (X,α) un sistema aleatorio, con X = {x1, . . . , xn} e sia

ΠS = (Y, β) una sua correlazione totale. Sia D una correlazione probabilistica su

S. Indichiamo con y l’unica variabile aleatoria di ΠS. Dobbiamo provare che:

1 =∑

a1∈α(x1),...,an=α(xn)

ΠDy(a1, . . . , an) =

=∑

a1∈α(x1),...,an=α(xn)

Dx1(a1) ·Dx2(a2) · · · · ·Dxn(an) =

= (∑

a∈α(x1)

Dx1(a))

( ∑a2∈α(x2),...,an=α(xn)

Dx2(a2) · · · · ·Dxn(an)

).


Poiche∑

a∈α(x1) Dx1(a)) = 1, la conclusione segue per induzione sul numero di

variabili aleatorie di S.

Proposizione 3.2.3. Sia f = (F,G) : S → T una mappa di sistemi aleatori e sia

D una distribuzione su S. Sia D′ = fD∗ la distribuzione indotta su T . Allora la

distribuzione ΠD indotta sulla correlazione totale di S ha per immagine in Πf la

distribuzione ΠD′.

Dimostrazione. Siano x1, . . . , xn le variabili di S e y1, . . . , yn le variabili di T , con

yi = F (xi). Per ogni stato t = (t1, . . . tn) dell’unica variabile (y1 × · · · × yn) di ΠT ,

si ha ΠD′(t) = Πi=1,...,nD′(ti) e

D′(ti) =∑

si∈A(xi),Gxi(si)=ti

D(si).

D’altra parte ΠD(s1, . . . , sn) = D(s1) · · · · ·D(sn) quindi:

(Πf)ΠD∗ (t1, . . . , tn) =

∑(s1,...,sn)→(t1,...,tn)

ΠD(s1, . . . , sn)

coincide con πD′(t1, . . . , tn).

Esempio 3.2.4. Sia X un sistema aleatorio booleano con due variabili aleatorie

x, y, entrambe di alfabeto {0, 1}. Sia D la distribuzione definita da:

Dx(0) =1

6, Dx(1) =

5

6, Dy(0) =

1

6, Dy(1) =

5

6.

Si tratta chiaramente di una distribuzione probabilistica.

La sua distribuzione prodotto su (Y = {z}, β), z = x× y e definita da

ΠDz(0, 0) =1

6· 1

6=

1

36

ΠDz(0, 1) =1

6· 5

6=

5

36

ΠDz(1, 0) =5

6· 1

6=

5

36

ΠDz(1, 1) =5

6· 5

6=

25

36

che e una distribuzione probabilistica, in quanto 136

+ 536

+ 536

+ 2536

= 1.


La connessione di indipendenza puo essere, in un certo senso, invertita. Al tal

proposito, richiamiamo la definizione di marginalizzazione totale, ripresa dal capitolo

precedente (Definizione 2.4.11).

Definizione 3.2.5. Un caso particolare di marginalizzazione e il seguente.

Se T e un tensore di tipo d1 × · · · × dn, si chiama marginalizzazione totale di T il

vettore (T1, . . . , tn) ∈ Kd1 × · · · ×Kdn dove ti e la marginalizzazione di T rispetto a

R = Jn \ {i}.

Definizione 3.2.6. Sia S un sistema aleatorio e sia T = ΠS la sua correlazio-

ne totale. Definiamo una connessione Γ : DK(T ) → DK(S), detta connessione di

marginalizzazione (totale) M in questo modo. Dato un tensore (pensato come di-

stribuzione su ΠS) D′, M(D′) e la distribuzione data dalla marginalizzazione totale

di D′. In pratica M(D′) associa allo stato j-esimo della variabile xi di S il numero∑D′ai,...,an , dove la somma e presa su tutti gli elementi del tensore il cui i-esimo

indice e uguale a j.

Si noti inoltre che la marginalizzazione di D′ e sempre una distribuzione a campio-

natura costante, uguale alla campionatura di D′

Esempio 3.2.7. Vediamo in concreto come operano le connessioni di indipenden-

za e marginalizzazione. Riprendiamo a tal proposito l’esempio sull’efficacia di un

farmaco, cioe l’esempio 3.4.2.

Con la notazione introdotta, consideriamo il sistema aleatorio booleano X, le cui due

variabili F,G rappresentano la prima la somministrazione del farmaco, la seconda

la guarigione e riprendiamo la distribuzione D (a campionatura costante uguale a

100)

DF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) = 70.

Se Γ e la connessione di indipendenza, allora Γ(D) e il tensore 2× 2 (matrice):(600 14002400 5600

)Ovviamente si tratta di una matrice di rango 1, che esprime il fatto che il farmaco

non ha nessun effetto (e indipendente) sulla guarigione dei soggetti.

La marginalizzazione di Γ(T ) fornisce la distribuzione D′′ su X:

D′′F (0) = 600 + 1400 = 2000, D′′F (1) = 2400 + 5600 = 8000,


D′′G(0) = 600 + 2400 = 3000, D′′G(1) = 1400 + 5600 = 7000

da cui si vede che D′′ e una scalatura di D, con fattore di scalatura uguale alla

campionatura 100.

Esempio 3.2.8. Consideriamo un sistema aleatorio booleano formato da due mo-

nete m1,m2, ciascuna delle quali avente gli stati T,C. Effettuiamo separatamente

100 lanci della prima e della seconda moneta e riportiamo i risultati ottenuti. Sup-

poniamo di avere per la prima moneta 30 volte T e 70 volte C, mentre per la seconda

moneta otteniamo 60 volte T e 40 volte C. Questo porta ad una distribuzione D

data da ((30, 70), (60, 40)).

Tramite la connessione indipendente Π, si ottiene sull’unica variabile della correla-

zione totale T di S, una distribuzione che associa ai quattro possibili stati:

ΠD(T, T ) = 1800ΠD(T,C) = 1200ΠD(C, T ) = 4200ΠD(C,C) = 2800

Prendendo la normalizzata, si vede che secondo tale distribuzione la probabilita di

ottenere (T,C) e 1200/10000 = 12%.

Marginalizzando la distribuzione si ottiene la distribuzione M(ΠD) che agli stati

delle variabili di S associa (3000, 7000), ((6000, 4000).

Si osservi che M(ΠD) e una scalatura di D.

Gli esempi precedenti possono essere generalizzati:

Proposizione 3.2.9. Sia S un sistema aleatorio e sia T la sua correlazione totale.

Indichiamo con Π la connessione indipendente da S a T e con M la marginalizza-

zione da T a S.

Se D e una distribuzione su S, allora M(ΠD) e una scalatura di D.

Dimostrazione. Se s11 e il primo stato della prima variabile di S, allora

M(ΠD(s11)) =∑

ΠD(s11, s2,k2 , . . . , snkn) =∑

D(s11)D(s2,k2) . . . D(snkn) =

D(s11)(∑

D(s11)D(s2,k2) . . . D(snkn)) (3.2.1)


e lo stesso si ripete per tutti gli altri stati. Allora, posto c1 =∑D(s11)D(s2,k2) . . . D(snkn),

si ottiene per ogni stato s1i della prima variabile di S,

M(ΠD(s1i)) = D(s1i)c1.

Simili formule valgono per tutte le altre variabili di S, per cuiM(ΠD) e una scalatura

di D.

Esempio 3.2.10. Il viceversa della proposizione precedente non e valido in generale.

Nel sistema aleatorio dell’esempio 3.2.8, consideriamo infatti una connessione D′ su

T definita da:D′(T, T ) = 6D′(T,C) = 1D′(C, T ) = 3D′(C,C) = 1

ottenuta registrando 11 coppie di lanci.

La marginalizzazione M da la distribuzione ((7, 4), (9, 2)) su S. Applicando la

connessione di indipendenza Π, si ottiene su T

ΠM(D′)(T, T ) = 63ΠM(D′)(T,C) = 14ΠM(D′)(C, T ) = 36ΠM(D′)(C,C) = 8

che non e certo una scalatura di D′.

Cio che non va nell’esempio precedente e rappresentato dal fatto che la distri-

buzione di partenza D′ non e di indipendenza, quindi Π(M(D′)), che e ovviamente

una distribuzione di indipendenza, non puo essere uguale a D′.

Se partiamo da D′ di indipendenza, l’inversione fra marginalizzazione e connessione

di indipendenza funziona.

Proposizione 3.2.11. Sia S un sistema aleatorio e sia T la sua correlazione to-

tale. Indichiamo con Π la connessione di indipendenza da S a T e con M la

marginalizzazione da T a S.

Se D′ e una distribuzione di indipendenza su T , allora Π(M(D′)) e la distribuzione

nulla oppure e una scalatura di D′.


Dimostrazione. Poiche D′ e di indipendenza, esistono vettori vi = (vi1, . . . , viai) ∈Kai tali che , come tensore, D′ = v1⊗ · · · ⊗ vn (ovviamente si suppone che S sia un

sistema con variabili, x1, . . . , xn, tale che per ogni i la variabile xi ha ai stati).

Allora M(D′) associa agli stati della variabile xj il vettore

M(D′)j = (∑ij=1

v1i1 · · · vnin), . . . ,∑ij=aj

v1i1 · · · vnin).

Segue che, posto ci = campionatura di v1 ⊗ · · · ⊗ vi ⊗ · · · ⊗ vn, M(D′) associa allo

stato j-esimo di xi il valore vijci. Pertanto

Π(M(D′)) = (c1 · · · cn)D′.

Se uno dei ci e 0, si ottiene la distribuzione nulla, altrimenti si ottiene una scalatura

di D′.

Corollario 3.2.12. Per ogni distribuzione D, a campionatura costante non nulla,

su S esiste una e una sola distribuzione di indipendenza D′ su ΠS = T tale che D

e la marginalizzazione di D′.

Dimostrazione. Siano D′, D′′ sono due distribuzioni di indipendenza aventi la stessa

marginalizzazione D = (v1, . . . , vn). Allora D′, D′′ hanno la stessa campionatura c,

uguale alla campionatura delle varibili in D. Per la precedente proposizione, D′, D′′

sono entrambe uguali a una scalatura di Π(D). Poiche hanno la stessa campionatura,

devono coincidere.

Per quanto riguarda l’esistenza, per costruzione basta prendere (1/c)ΠD.

Quando studiamo sistemi con piu variabili, e tali variabili sono indipendenti,

abbiamo pertanto uno schema chiaro di passaggio da una distribuzione sulle variabili

ad una distribuzione sulla loro correlazione.

Le cose si complicano molto quando la correlazione tra le variabili non e banale.

Ad esempio, consideriamo un sistema aleatorio con variabili rappresentanti squa-

dre di calcio, tutte con alfabeto {1, x, 2}. Se costruiamo una distribuzione D proba-

bilistica indicando per ogni squadra la probabilita (desunta ad esempio da risultati

precedenti) di ottenere un certo risultato in una data partita, allora, secondo il senso


comune, la probabilita di avere una certa distribuzione di risultati in una partico-

lare domenica dipendera non solo dalla distribuzione D, ma anche dagli scontri che

vengono svolti: se la squadra A gioca contro la squadra B, le probabilita che esca

fuori un certo risultato per B non sono certo indipendenti dalle probabilita che esca

fuori un certo risultato per A!

Se e noto il modo in cui le probabilita si compongono, gestito da una connessione

Γ, si possono ripetere molte delle considerazioni svolte nei paragrafi precedenti.

Esempio 3.2.13. Consideriamo un sistema aleatorio formato da due variabili A, B,

associate a due squadre del campionato, entrambe con stati 1, X, 2 (vittoria, pari e

sconfitta) e prendiamo come distribuzione D la normalizzazione della distribuzione

ottenuta associando ad ogni stato il numero di vittorie, pareggi e sconfitte della

squadra in questione, nel campionato.

Consideriamo la correlazione totale su S, avente come unica variabile y = A × B.

Ci sono 9 stati di y, corrispondenti alle coppie di risultati per le due squadre.

Se vogliamo usare questo schema per calcolare la probabilita che esca un determi-

nato risultato nella scontro diretto fra A e B, non possiamo fare certo ricorso alla

connessione indipendente. Innanzitutto esistono coppie di risultati impossibili: se

c’e lo scontro diretto e una delle due squadre pareggia, anche l’altra deve pareggia-

re! Quindi la connessione da utilizzare deve associare obbligatoriamente il valore 0

a tutti i risultati impossibili (1, 1), (1, X), (X, 1), (X, 2), (2, X), (2, 2).

Resta da vedere cosa associare ai risultati possibili (1, 2), (X,X), (2, 1). Una scel-

ta apparentemente ragionevole e quella di scegliere per una coppia la media delle

probabilita dei risultati per ogni singola squadra. In questo caso, la connessione Γ

associa:

Γs(z1, z2) =z1 + z2

2se s = (1, 2), (X,X), (2, 1)

Γs(z1, z2) = 0 altrimenti,

dove z1, z2 sono le coordinate corrispondenti alle due componenti di s = (s1, s2).

Per inciso, il precedente metodo di assegnazione della probabilita ha dato, empiri-

camente, un pessima prova. La connessione giusta per predire i risultati delle partite

in schedina (ammesso che esista!) deve essere molto piu complicata. Naturalmente

chi riuscisse a trovarla avrebbe la possibilita di arricchirsi rapidamente.


3.3 Booleanizzazione e connettori logici

Iniziamo questa sezione con un esempio, anche questo tratto dal Palio di Siena.

Esempio 3.3.1. Il meccanismo che porta alle dieci partecipanti del Palio di Luglio,

illustrato nell’Esempio 3.1.3, viene ripetuto passo per passo per il Palio di Ago-

sto: anche d’Agosto corrono le sette contrade che non hanno partecipato al Palio

dell’Agosto precedente, insieme a tre contrade sorteggiate fra le rimanenti dieci.

I meccanismi di sorteggio dei due Palii, Luglio e Agosto, sono assolutamente indi-

pendenti.

E’ pertanto ben possibile che in un anno una contrada possa correre entrambi i Palii,

come e possibile che non ne corra nemmeno uno.

La Lupa non ha corso nessuno dei due Palii del 2006. Pertanto correra di sicuro

entrambi i Palii del 2007. Quante sono le probabilita che corra entrambi i Palii del

2008? Quante sono le probabilita che corra almeno un Palio del 2008?

Per rispondere a queste domande, costruiamo un sistema aleatorio S con due va-

riabili aleatorie L =Luglio e A =Agosto. Per ciascuna delle due, l’alfabeto e l’in-

sieme delle terne di contrade che possono risultare dalla corrispondente estrazione.

Ciascuna variabile ha pertanto 720 stati (si veda l’Esempio 3.1.3).

Sia ora S ′ = ΠS la correlazione totale su S. Essa ci da tutti i possibili esiti delle

due estrazioni per i Palii del 2008. S ′ ha una sola variabile, con (720)2 = 518.400

stati.

Prendiamo poi il sistema booleano T con la sola variabile Lupa, di alfabetoA(Lupa) =

Z2.

Per conoscere la probabilita che la Lupa corra entrambi i Palii, costruiamo la mappa

ε : S ′ → T cosı definita: ε manda ovviamente l’unica variabile y ∈ S ′ in Lupa; ogni

stato s di y, che corrisponde ad una coppia di terne, viene mandato in 1 o 0, a

seconda che la Lupa compaia in entrambe le terne, oppure no.

Quanti sono gli stati s che finiscono in 0? Vi sono 216 terne fra le 720 possibili in

cui la Lupa compare, sia nel primo che nel secondo elemento di s. Quindi le coppie

di terne che hanno la Lupa in entrambi gli elementi sono 216 · 216 = 46.656.

Allora, presa la distribuzione equa su S ′, essa induce su T la distribuzione D = εE∗

tale che DLupa(1) = 46.656 e DLupa(0) = 518.400− 46.656 = 471.744. Ne segue che


la probabilita che la Lupa corra entrambi i Palii del 2008 e

D(1) =D(1)

D(0) +D(1)=

46.656

518.400=

9

100= 9%.

Per conoscere la probabilita che la Lupa corra almeno un Palio, costruiamo la mappa

u : S ′ → T cosı definita: u manda ovviamente l’unica variabile y ∈ S ′ in Lupa; ogni

stato s di y, che corrisponde ad una coppia di terne, viene mandato in 0 o 1, a

seconda che la Lupa compaia in almeno una terna, oppure no.

Quanti sono ora gli stati s che finiscono in 0? Vi sono 216 terne fra le 720 possibili in

cui la Lupa compare nel primo elemento di s. Fra i 720−216 = 504 casi rimanenti, ce

ne sono 504 ·216 in cui la Lupa compare nel secondo elemento della terna. Quindi le

coppie di terne che hanno la Lupa in almeno un elemento sono 216 ·720+504 ·216 =

264.384.

Allora, presa la distribuzione equa su S ′, essa induce su T la distribuzione R = uE∗

tale che RLupa(1) = 264.384 e RLupa(0) = 518.400 − 264.384 = 254.016. Ne segue

che la probabilita che la Lupa corra almeno un Palio del 2008 e

R(1) =R(1)

R(0) +R(1)=

264.384

518.400=

51

100= 51%.

Per meglio comprendere gli esempi precedenti, e opportuno introdurre la defini-

zione di booleanizzazione di un sistema aleatorio.

Infatti, nella situazione descritta, si tratta di passare da un sistema aleatorio ad uno

booleano collegato. In pratica, si tratta di dividere i possibili stati di ogni variabile

aleatoria in stati buoni e stati cattivi, mandando i primi in 1 e gli altri in 0.

Negli esempi precedenti, uno stato e considerato buono se e solo se contiene la

Lupa.

Definizione 3.3.2. Si chiama booleanizzazione o dicotomia di un sistema aleatorio

S il dato di un sistema aleatorio booleano T e di una mappa f : S → T che e

formata da una biiezione F : X → Y sulle variabili aleatorie.

La situazione puo allora essere riassunta come segue:

Proposizione 3.3.3. Sia S un sistema aleatorio con una sola variabile x e sia

E la distribuzione equa su S. Sia f : S → T una sua boolanizzazione. Sia D la

distribuzione immagine di E tramite f . La probabilita indotta da D su T corrisponde


al quoziente avente per denominatore il numero di tutti gli stati di tutte le variabili

aleatorie di S (i casi possibili) e come numeratore la somma di tutti gli stati di tutte

le variabili di S che vanno in 1 tramite le funzioni di f (i casi favorevoli).

Osservazione 3.3.4. E’ praticamente ovvio che data una distribuzione D razionale

su un sistema T con una sola variabile, si puo sempre trovare un sistema S con una

mappa f : S → T in modo che D sia l’immagine in f della distribuzione equa su S.

Esempio 3.3.5. Applichiamo il procedimento all’esempio 3.2.13.

Fissiamo il sistema S formato da due variabili, rappresentanti due squadre di se-

rie A 2005/06, diciamo Juventus e Siena, entrambe con gli stati 1, X, 2. Come

connessione prendiamo la Γ descritta nell’esempio.

La distribuzione D dei risultati delle due squadre, desunta dal campionato 2005/06,

e la seguente:

DJuventus(1) = 27, DJuventus(X) = 10, DJuventus(2) = 1DSiena(1) = 9, DSiena(X) = 12, DSiena(2) = 17.

Pertanto si ha una distribuzione ΓD data da:

ΓD(1, 2) =27 + 17

2= 22, ΓD(X,X) =

10 + 12

2= 11 ΓD(2, 1) =

1 + 9

2= 5,

mentre per tutti gli altri sei stati, ΓD e 0.

Consideriamo come buono uno stato se prevede la vittoria di una squadra, cioe

prendiamo la booleanizzazione f che manda, per entrambe le variabili aleatorie,

(1, 2) e (2, 1) in 1 e (X,X) in 0.

Il problema equivale a chiedere: date le probabilita di risultati determinate da ΓD,

qual e la probabilita che nello scontro diretto esca un risultato in cui c’e una vit-

toria, o della Juventus o del Siena? In altri termini, qual e la probabilita, nella

distribuzione determinata da D e Γ, che non esca il pareggio?

Componendo Γ con la connessione indotta da f , la distribuzione sopra descritta

determina una distribuzione D′′ sul sistema booleano ad una variabile, tale che

D′′(1) = ΓD(1, 2) + ΓD(2, 1) = 27, D′′(0) = ΓD(X,X) = 11. Allora la probabilita

che non esca un pareggio si ottiene normalizzando e corrisponde a 2738' 71%.

Se il risultato del precedente esempio non sembra realistico, e tutto da imputare

alla scelta della connessione Γ, il vero punto complesso di tutta l’apparecchiatura di

dati.


Esempio 3.3.6. Vediamo cosa sarebbe successo nell’esempio precedente, prendendo

come connessione Ψ quella che associa alle coppie possibili il prodotto e non la media

delle due distribuzioni. Posto D′ = (Πf)ΨD∗ , si ha

D′(1) = ΨD(1, 2) + ΨD(2, 1) = 468, D′(0) = ΨD(X,X) = 120.

da cui la probabilita diventa 468588' 79, 6%, gia piu realistico.

A questo punto, vediamo di formalizzare compiutamente l’esempio 3.3.1, in modo

da semplificare anche i calcoli.

Utilizzeremo a tal proposito la formalizzazione del sistema dell’esempio 3.1.3: in

fondo l’esempio 3.3.1 si compone di due sistemi tipo 3.1.3 accoppiati.

Se pero prendiamo la booleanizazione del sistema aleatorio dell’esempio 3.1.3, e ne

facciamo la correlazione totale per applicarla all’esempio 3.3.1, ci troviamo di fronte

alla difficolta che la correlazione totale di un sistema con due variabili booleane non

e booleana!

Per ovviare a tale inconveniente, e necessario introdurre il concetto di connettivo

logico.

Definizione 3.3.7. Chiameremo connettivo logico n-ario una funzione θ : Zn2 → Z2.

Esempio 3.3.8. L’esempio piu famoso di connettivo logico sono i due quantificatori

∀,∃, generalizzazione dei connettivi binari OR e AND.

L’operatore ∃ e definito su (s1, . . . , sn) ∈ Zn2 dal prodotto degli si, mentre ∀ e definito

da 1− Π(1− si).Naturalmente, molti altri connettivi logici possono essere definiti e le loro proprieta

sono molteplici: ci sono operatori commutativi, associativi, ...

I due quantificatori ∀,∃ sono esempi di operatori commutativi e associativi.

Esempio 3.3.9. I connettivi logici 1-ari sono quattro.

C’e l’identita I, che lascia tutto immutato.

C’e l’importante connettivo NOT, definito da NOT(0) = 1, NOT(1) = 0, che inverte.

C’e il connettivo MAI, definito da MAI(0)=MAI(1) = 1.

C’e il connettivo OK, definito da OK(0)=OK(1) = 0.


Definizione 3.3.10. Se S = (X,α) e un sistema aleatorio booleano con n variabili,

ogni connettivo logico n-ario θ definisce in modo ovvio una mappa (che continueremo

ad indicare con lo stesso simbolo) da ΠS al sistema booleano T avente una sola

variabile. Basta mandare ogni stato (s1, . . . , sn) di ΠS in θ(s1, . . . , sn).

Tale mappa corrisponde ovviamente ad una booleanizzazione di ΠS.

Esempio 3.3.11. Interpretiamo l’esempio 3.3.1 alla luce delle nuove definizioni.

Il sistema S da cui partiamo ha due variabili, l’estrazione di luglio L e l’estrazione

di Agosto A. Ciascuna variabile aleatoria ha 720 stati.

Prendiamo una booleanizzazione T di S, definendo buono uno stato se contiene la

Lupa, sia per L che per A. La distribuzione equa su S definisce una distribuzione

D su T , che definisce a sua volta la distribuzione prodotto ΠD su ΠT .

Se prendiamo un connettivo logico θ, otteniamo una distribuzione prodotto D′ su

una booleanizzazione di ΠS, che ci da la probabilita che una certa combinazione di

eventi si verifichi.

Per esempio, consideriamo il connettivo Θ = ∀. La normalizzazione di ΘD′∗ calcola

la probabilita che la Lupa corra entrambi i Palii del 2008.

Se invece consideriamo il connettivo θ = ∃, la normalizzazione di θD′∗ calcola la

probabilita che la Lupa corra almeno un Palio del 2008.

Il connettivo ONE, definito su Z22 da ONE(0, 0) = 1, ONE(1, 0) = 0, ONE(0, 1) = 0,

ONE(1, 1) = 1, ci descrive invece la probabilita che la Lupa corra esattamente un

Palio del 2008 (il 42%).

Osservazione 3.3.12. Un modo per semplificare i calcoli dell’esempio 3.3.1 pro-

vengono dalla teoria precedente.

Se consideriamo la distribuzione D indotta sulla booleanizzazione T di S, possiamo

calcolare la sua normalizzazione ∆. Segue dal punto (b) della Proposizione 2.1.10

che D e ∆ inducono distribuzioni su ΠT aventi la stessa normalizzazione, perche

sono l’una scalatura dell’altra.

Per la proposizione 1.3.5, le immagini di ΠD e Π∆ su una booleanizzazione di ΠT

indotta da un connettivo logico θ sono una scalatura dell’altra, quindi inducono la

stessa distribuzione di probabilita.

Ne segue che possiamo usare ∆ al posto di D per calcolare la distribuzione di

probabilita indotta da quest’ultimo,su una booleanizzazione di ΠT .


Esempio 3.3.13. Torniamo all’esempio 3.3.1 e utilizziamo l’osservazione precedente

per semplificare i calcoli.

Abbiamo una distribuzione D su T = ({Lupa}, β}, con β(Lupa) = Z2. L’esempio

3.1.3 ci dice che la normalizzazione ∆ di D manda 0 in 3/10 e 1 in 7/10. Questo

definisce su ΠT la distribuzione Π∆ definita da:

Π∆(0, 0) =3

10· 3

10=

9

100, Π∆(0, 1) =

3

10· 7

10=

21

100,

Π∆(1, 0) =7

10· 3

10=

21

100, Π∆(1, 1) =

7

10· 7

10=

49

100. (3.3.1)

Se prendiamo il connettivo logico ∀, questi manda (0, 0) in 0 e le altre coppie in 1.

La distribuzione indotta da Π∆ pertanto manda 0 in 9/100 e 1 in (21+21+49)/10 =

91/100.

Se prendiamo il connettivo logico ∃, questi manda la coppia (1, 1) in 1 e le altre in

0. La distribuzione indotta da Π∆ pertanto manda 0 in (9 + 21 + 21)/100 = 51/100

e 1 in 49/100.

Il connettivo logico ONE manda (0, 0) e (1, 1) in 1 e le altre in 0. La distribuzione

indotta da Π∆ pertanto manda 0 in (21 + 21)9/100 = 42/100 e 1 in (9 + 49)/100 =

58/100.

E cosı via.

Si noti che i dati sono consistenti con quelli trovati nell’esempio 3.3.1, ma i conti

si sono molto semplificati.

Sia dato un sistema aleatorio S. Comunque presa una distribuzione D su S, una

booleanizzazione f : S → T di S e un connettivo logico θ, si tratta di:

determinare la probabilita di ciascuno dei due stati del sistema booleano T ′, ad una

variabile, associato a ΠT da θ.

Il procedimento per determinare la probabilita cercata e il seguente:

- costruiamo la mappa indotta sulle correlazioni totali Πf : ΠS → ΠT ;

- costruiamo la distribuzione ΓD su ΠS;

- costruiamo la distribuzione D′ = (Πf)ΓD∗ su ΠT ;

- costruiamo la mappa indotta dal connettivo logico θ : ΠT → T ′;

- costruiamo la distribuzione D′′ = θD′∗ .

La normalizzata di D′′ ci da la distribuzione probabilistica cercata.


Esempio 3.3.14. Il precedente esempio 3.3.1 mostra una applicazione del procedi-

mento sopra descritto.

Qui S e il sistema formato dalle due estrazioni di Luglio e Agosto, e la connessio-

ne scelta e quella indipendente, cioe si stabilisce che non vi sono interferenze fra

l’estrazione di Luglio e quella di Agosto.

Se prendiamo come distribuzione D quella equa, come connettivo logico ∀ e come

booleanizzazione quella che definisce 0 (cioe buono) uno stato quando contiene la

Lupa, il problema della probabilita diretta, con questi dati, consiste nel domandarsi:

Qual e la probabilita che, sia di Luglio che di Agosto (∀), si verifichi un evento

buono (cioe un’estrazione contenente la Lupa), ammesso che le estrazioni non siano

truccate (distribuzione equa)?

Abbiamo visto che la risposta assegna a 0 la probabilita 216/720. Cioe, nella nostra

notazione,

p(S,Γ, D, T, θ)(0) =216

720p(S,Γ, D, T, θ)(1) =

504

720.

Esempio 3.3.15. L’impostazione data nel presente paragrafo non risente della

difficolta legata all’equita della moneta, del dado, o degli altri processi aleatori.

Infatti, se S e un sistema che rappresenta un dado non truccato, la probabilita che

tale dado, gettato, restituisca un valore pari si ottiene prendendo: (1) la distribuzione

equa E su S, (2) una booleanizzazione f di S che manda 2, 4, 6 in 0 e 1, 3, 5 in 1.

La normalizzata della distribuzione fE∗ ci dice allora che tale probabilita e uguale

a fE∗ (0)/6 = 50%. In questo caso il risultato si poteva ottenere calcolando (casi

favorevoli)/(casi possibili).

Se pero il dado e truccato, la formula (casi favorevoli)/(casi possibili) non e piu

valida. Mentre il procedimento sopra descritto continua a dare il risultato corrett-

to, una volta sostituita la distribuzione equa con un’altra distribuzione (dato del

problema!) che tenga conto della struttura del dado.

Se ad esempio il dado truccato e associato alla distribuzione D:

D(1) = D(2) = D(3) = D(4) = D(5) = 1, D(6) = 4

(cioe, in termini intuitivi, l’uscita del 6 e quattro volte piu probabile delle altre),

allora la probabilita di avere un risultato pari e data da fD∗ (0)/10 = 610

, cioe sale al

60%.


3.4 Dipoli aleatori

Studiamo in questo paragrafo, in particolare, i sistemi aleatori formati da due

variabili, cioe i dipoli.

La caratteristica piu interessante dei dipoli (di cui abbiamo visto molti esempi nei

paragrafi precedenti) consiste nel fatto che le distribuzioni sulla loro connessione

totale sono rappresentati da matrici.

Questo aspetto ci permettera di anticipare sui dipoli una serie di riflessioni che

saranno molto meno agevoli su sistemi con piu di due variabili.

Definizione 3.4.1. Chiameremo dipolo aleatorio un sistema aleatorio formato da

due variabili. Diremo che il dipolo e di tipo m,n quando la prima variabile ha un

alfabeto di m elementi e la seconda variabile ha un alfabeto di n elementi.

E’ chiaro che estenderemo ai dipoli tutta la terminologia del capitolo precedente.

Parleremo ad esempio di dipolo booleano per indicare un dipolo aleatorio in cui

entrambe le variabili sono booleane, cioe un dipolo di tipo 2, 2.

Se un dipolo ha tipo m,n, allora la sua correlazione totale ha un’unica variabile

aleatoria, con un alfabeto di nm elementi.

I dipoli aleatori, nonostante la loro semplicita, si prestano anche ad essere utilizza-

ti per analisi di una certa rilevanza. Un esempio classico e illustrato nella situazione

di studio della efficacia di un farmaco.

Esempio 3.4.2. Prendiamo un’industria farmaceutica che voglia verificare se un

dato farmaco e efficace contro una determinata patologia.

L’industria cerchera di verificare l’efficacia arruolando un certo numero di volontari

(la popolazione) affetti dalla patologia e somministrando ad alcuni di essi il farmaco,

agli altri un placebo. Dalla registrazione del numero di guarigioni, si devono trarre

le conclusioni.

La situazione e illustrata da un sistema aleatorio booleanoX, le cui due variabili F,G

rappresentano la prima la somministrazione del farmaco, la seconda la guarigione

(al solito 1 = sı, 0 = no).

Su questo sistema introduciamo la distribuzione D (a campionatura costante) cosı

definita:

DF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) = 70.


Cio corrisponde ad un esperimento, in cui abbiamo 100 soggetti, affetti dalla patolo-

gia. A 80 di essi viene somministrato il farmaco, mente agli altri 20 e somministrato

un placebo. Al termine della osservazione, 30 soggetti sono ancora malati, mente i

rimanenti 70 sono guariti.

E’ possibile ricostruire, tramite D, informazioni sull’efficacia del farmaco? Certa-

mente no: non sappiamo se i 70 guariti provengono in percentuale maggiore dal

gruppo che ha ricevuto il farmaco.

Per avere significativita, l’esperimento deve riportare, per ciascuno dei due gruppi

(quello che ha ricevuto il farmaco e quello che ha ricevuto il placebo) il numero di

soggetti guariti.

Si deve cioe eseguire l’esperimento riportando la distribuzione D′ ∈ D(ΠX) che

assegna un numero a ciascuno degli stati della variabile FG di ΠX:

- D′(0, 0) = soggetti che non hanno ricevuto il farmaco e non sono guariti;

- D′(0, 1) = soggetti che non hanno ricevuto il farmaco e sono guariti;

- D′(1, 0) = soggetti che hanno ricevuto il farmaco ma non sono guariti;

- D′(1, 1) = soggetti che hanno ricevuto il farmaco e sono guariti.

Supponiamo di aver osservato la seguente distribuzione:

D′(0, 0) = 6, D′(0, 1) = 14, D′(1, 0) = 24, D′(1, 1) = 56.

Tradotto significa che delle 100 persone sotto osservazione, le 20 trattate con il

placebo si sono cosı distribuite: 14 sono guarite e 6 no. Invece, delle 80 trattate, 56

sono guarite e 24 no. In accordo con il dato che ci devono essere state 70 = 14 + 56

non guarigioni e 30 = 6 + 24 non guarigioni.

Come suggerito nell’Osservazione 1.2.6, rappresentiamo D′ con una matrice

D′ =

6 14

24 56

Cosa ricavare dall’esperimento? Come si vede, in entrambi i gruppi, il numero di

soggetti guariti corrisponde ai 710

del totale. Cio suggerisce una totale inefficacia del

farmaco: la guarigione G sembra indipendente dall’assunzione del farmaco F .


Un esito dell’indagine molto piu favorevole al farmaco si otterrebbe con una distri-

buzione D′′ su ΠX rappresentata dalla matrice:

D′′ =

10 10

20 60

che porterebbe a 10 soggetti guariti e 10 non guariti fra i trattati con placebo,

mentre i trattati con farmaco registrerebbero 60 guariti contro 20 non guariti (si

noti che ancora le guarigioni totali sono esattamente 70 = 10 + 60). In questo caso

i soggetti trattati con farmaco hanno una frazione molto piu rilevante di guariti,

rispetto all’altro gruppo. Per cui, l’esperimento suggerisce che un effetto benefico

del farmaco c’e stato (cioe F ha influito su G).

Dal punto di vista matematico, la differenza sostanziale fra le due matrici, che

cambia il risultato l’influenza reciproca fra le due variabili, sta nel fatto che le righe

di D′ sono proporzionali, cioe D′ ha rango 1, mente D′′ ha rango 2.

Dato un dipolo aleatorio S di tipo m,n, indichiamo con t1, . . . , tm gli stati della

prima variabile aleatoria e con s1, . . . , sn gli stati della seconda variabile.

Ricordiamo che se D′ e una distribuzione su ΠS, la matrice associata a D′ e la

matrice m× n A = (aij) tale che aij = D′(ti, sj).

Definizione 3.4.3. Diremo che una distribuzione D′ sulla correlazione totale ΠS

di un dipolo aleatorio S, e una distribuzione di indipendenza se la matrice associata

ha rango ≤ 1.

Si noti che la definizione di matrice associata comporta di fatto un ordinamento

degli alfabeti delle variabili di S. Tuttavia, combinando l’ordinamento la matrice

cambia solo per una permutazione di righe e colonne, quindi il suo rango non varia.

Ricordiamo che, come evidenziato nella Proposizione 2.1.6, data una matrice

A = (aij) di tipo m × n, A ha rango ≤ 1 se e solo se esistono due vettori v =

(v1, . . . , vm) ∈ Rm e w = (w1, . . . , wn) ∈ Rn, tali che per ogni i, j, aij = wivj.

L’osservazione ci permette di mostrare che la definizione di distribuzione di in-

dipendenza e coerente con quanto abbiamo detto nei paragrafi precedenti riguardo

all’indipendenza di variabili aleatorie.


Teorema 3.4.4. Sia S un dipolo aleatorio e sia Γ la connessione di indipendenza

su S. Sia D′ una distribuzione su ΠS.

D′ e una distribuzione di indipendenza se e solo se esiste una distribuzione D su S

tale che D′ = ΓD.

Se D′ e una distribuzione di indipendenza probabilistica, allora esiste un’unica di-

stribuzione probabilistica D su S tale che D′ = ΓD.

Dimostrazione. Indichiamo con T, U le variabili aleatorie di S. Supponiamo che

T abbia m stati t1, . . . , tm e U abbia n stati u1, . . . , un. Sia D una distribuzione

su S e sia D′ = ΓD. Allora, per definizione di connessione indipendente, posto

DT = (DT (t1), . . . , DT (tm)) e DS = (DU(u1, . . . , DU(un)), la matrice (aij) di D′ e

data da aij = DT (i)DU(j). Per la proposizione precedente, tale matrice ha rango

≤ 1, quindi D′ e una distribuzione di indipendenza.

Viceversa supponiamo che D′ sia una distribuzione di indipendenza su ΠS. Allora

per la proposizione precedente, esistono vettori v = (v1, . . . , vm) e w = (w1, . . . , wn)

tali che la matrice A = (aij di D′ e definita da aij = wivj. Posto D(ti) = vi e

D(uj) = wj per ogni i, j, si ottiene la distribuzione cercata su S.

Supponiamo ora cheD′ sia probabilistica. La matrice diD′, quindi soddisfa∑

i,j aij =

1. Determiniamo come sopra due vettori v, w i cui prodotti determinano A. Le righe

di A sono date da v1w, . . . , vnw, quindi∑i,j

aij =∑i

(ai1 + · · ·+ ain) =

=∑i

(viw1 + · · ·+ viwn) =∑i

vi(∑j

wj) = (∑i

vi)(∑j

wj). (3.4.1)

Ne segue che (∑

i vi)(∑

j wj) = 1. Allora posto (∑

j wj) = q, si ottiene che q 6=0 e (

∑i vi) = 1/q. Quindi la distribuzione D definita da qv e (1/q)w su S e

probabilistica, perche:∑i

D(ti) =∑i

qvi = q(∑i

vi) = 1∑j

D(sj) = (∑j

wj)/q = 1.

Per la Proposizione 3.2.9 la connesione di indipendenza sulla distribuzione pro-

babilistica D′ determina D.


Quindi, data una distribuzione di indipendenza D′ sulla correlazione totale di un

dipolo S, si puo identificare in modo unico una distribuzione probabilistica D su S

indotta da D′.

Esempio 3.4.5. Torniamo al sistema aleatorio dell’esempio 3.4.2. Abbiamo visto,

e commentato da un punto di vista matematico, che la distribuzione probabilisti-

ca D definisce, mediante prodotto tensoriale, una distribuzione probabilistica di

indipendenza sulla correlazione ΠS.

Se tuttavia operiamo la stessa procedura sulla distribuzione originaria D, otte-

niamo su ΠS una distribuzione ∆ che e ancora di indipendenza, ma difficilmen-

te interpretabile direttamente. Infatti il prodotto tensoriale di (DF (0), DF (1)) per

(DG(0), DG(1)) ci da la matrice:

∆ =

600 1400

2400 5600

.

Dividendo tale matrice per 100 = DF (0) + DF (1) = DG(0) + DG(1), si ottiene la

molto piu leggibile matrice: 6 14

24 56

,

che altri non e che la matrice di D′, moltiplicata per il solito 100. La leggibilita

di quest’ultima dipende dal fatto che ci da un immediato controllo della situazione:

siccome stiamo parlando del trattamento di 100 individui, 100D′ ci spiega che, nel

caso in esame, si riscontrano:

- 6 guarigioni e 14 non guarigioni fra i soggetti trattati col farmaco;

- 24 guarigioni e 56 non guarigioni fra i soggetti non trattati.

Si noti che la distribuzione originaria D su S si ottiene dalla matrice 100D′ eseguendo

la somma per righe e la somma per colonne.

In modo analogo, si osservi che la distribuzione su ΠS data da

100D′′ =

10 10

20 60

ci suggerisce una situazione in cui fra le persone trattate col farmaco si registrano 10

guarigioni e 10 non guarigioni, mentre fra i non trattati le guarigioni sono 20 e le non


guarigioni 60. Qui siamo di fronte ad una distribuzione che non e di indipendenza.

Ancora una volta tuttavia, la somma per righe e la somma per colonne della matrice

100D′′ ci riportano alla distribuzione iniziale D su S.

Vediamo di ripetere, in modo piu approfondito per i dipoli, la teoria della margi-

nalizzazione delle distribuzioni.

Definizione 3.4.6. Sia S un sistema aleatorio, avente variabili T1, . . . , Tq, con alfa-

beti α(T1), . . . , α(Tq). Sia D una distribuzione su S e D′ una distribuzione su ΠS.

Diremo che D′ e coerente con D se, detta M la connessione di marginalizzazione, si

ha M(D′) = D.

In altre parole, per ogni i = 1, . . . , q e per ogni stato ti ∈ α(Ti), si ha:∑j 6=i,tj∈α(Tj)

D′(t1, . . . , ti, . . . , tn) = D(ti)

Esempio 3.4.7. Continuiamo l’esempio 3.4.2. Calcoliamo la campionatura di D

sulle due variabili aleatorie F,G di S. Sia ha:

c(F ) = DF (0) +DF (1) = 100 c(G) = DG(0) +DG(1) = 100.

La campionatura di una variabile aleatoria determina infatti, in esempi di questo

tipo, il numero di soggetti coinvolti nella variabile aleatoria.

Si noti che D ha campionatura costante. Analogamente e facile vedere che D,

essendo probabilistica, ha anch’essa campionatura costante (uguale a 1).

Le distribuzioni D′ e D′′ sono entrambe coerenti con D. Infatti si ha:

fissato la stato 0 di F , D′(0, 0) +D′(0, 1) = 1050

= 15

= DF (0),

fissato la stato 1 di F , D′(1, 0) +D′(1, 1) = 4050

= 45

= DF (1),

fissato la stato 0 di G, D′(0, 0) +D′(0, 1) = 1550

= 310

= DG(0),

fissato la stato 1 di G, D′(0, 1) +D′(1, 1) = 3550

= 710

= DG(1)

e conto analogo vale per D′′.

Similmente, 100D′ e 100D′′ sono coerenti con D. Infatti:

fissato la stato 0 di F , 100D′(0, 0) + 100D′(0, 1) = 6 + 14 = 20 = DF (0),

fissato la stato 1 di F , 100D′(1, 0) + 100D′(1, 1) = 24 + 56 = 80 = DF (1),

fissato la stato 0 di G, 100D′(0, 0) + 100D′(0, 1) = 6 + 24 = 30 = DG(0),

fissato la stato 1 di G, 100D′(0, 1) + 100D′(1, 1) = 14 + 56 = 70 = DG(1)


e conto analogo vale per 100D′′.

Si noti che la campionatura di 100D′ e 100D′′ sull’unica variabile aleatoria di ΠS e

100, esattamente come il valore costante della campionatura di D.

Il legame fra distribuzioni a campionatura costante e distribuzioni coerenti e dato

dalla seguente

Proposizione 3.4.8. Se D′ e una distribuzione su ΠS coerente con la distribuzione

D su S, allora D ha campionatura costante.

Dimostrazione. E’ sufficiente far vedere che la campionatura di D su una qualunque

variabile Ti e uguale alla campionatura di D′ sull’unica variabile di ΠS. Si ha:

c(Ti) =∑

ti∈α(Ti)

DTi(ti) =

=∑

ti∈α(Ti)

(∑

j 6=i,tj∈α(Tj)

D′(t1, . . . , ti, . . . , tn)) =

=∑

tj∈α(Tj)

D′(t1, . . . , tn) =∑

D′(t1, . . . , tn) (3.4.2)

dove quest’ultima somma varia fra tutti gli stati dell’unica variabile di ΠS.

Osservazione 3.4.9. Dalla dimostrazione precedente segue che se una distribuzione

D su S e probabilistica, allora ogni distribuzioneD′ su ΠS coerente conD e anch’essa

probabilistica.

Data una distribuzione D su S, introduciamo la seguente notazione:

Co(D) = { distribuzioni D′ su ΠS, coerenti con D} = M−1(D).

Quando S e un dipolo di tipo m,n, abbiamo visto che possiamo identificare le

distribuzioni su ΠS con le matrici m × n, che formano uno spazio affine Km,n di

dimensione mn. Per ogni distribuzione D su S, Co(D) e quindi un sottoinsieme di

uno spazio affine.

Teorema 3.4.10. Per ogni distribuzione D a campionatura costante su un dipolo S

di tipo m,n, Co(D) e un sottospazio affine di dimensione mn−m− n+ 1 in Km,n.


Dimostrazione. Siano T, U le variabili di S, rispettivamente di stati (t1, . . . , tm),

(u1, . . . , un). Sia D′ una distribuzione su ΠS, identificata con la matrice D′ =

(aij) ∈ Rm,n. La coerenza di D′ con D e descritta, come spiegato nella propo-

sizione 2.1.9, dal fatto che la somma delle righe della matrice di D′ deve assu-

mere i valori DT (t1), . . . , DT (tm) e la somma delle colonne deve assumere i valori

DU(u1), . . . , DU(un). Quindi D′ sta in co(D) se e solo se e soluzione del sistema

lineare a n+m equazioni e nm incognite:

a11 + · · ·+ a1n = DT (t1)

. . . = . . .

am1 + · · ·+ amn = DT (t1)

a11 + · · ·+ am1 = DU(t1)

. . . = . . .

a1n + · · ·+ amn = DU(t1)

Ne segue che Co(D) e un sottospazio affine di Rm,n. La matrice H del sistema

lineare precedente e divisa in blocchi:(M1 M2 . . . Mm DT

I I . . . I DU

)dove I e la matrice identica n × n, Mi e la matrice m × n che ha la riga i-

esima composta di 1 e tutto il resto 0, mentre DT rappresenta il vettore colonna

(DT (t1), . . . , DT (tm)) e DU rappresenta il vettore colonna (DU(u1), . . . , DU(un)).

Si osservi che le m+n righe di H non sono indipendenti, perche e facile verificare che

la somma delle prime m righe e il vettore unitario (1, 1, . . . , 1), esattamente come la

somma delle ultime n righe. Quindi il rango di H e al piu n+m− 1.

In particolare, il sistema puo avere soluzione solo se i termini noti soddisfano

DT (t1) + · · ·+DT (tm) = DU(u1) + · · ·+DU(un),

cosa che equivale all’ipotesi che D abbia campionatura costante.

Per terminare la dimostrazione del teorema, basta verificare che H ha rango almeno

n+m−1, cioe contiene una sottomatrice (n+m−1)×(n+m−1) di rango massimo.

Si osservi che il blocco n× n nell’angolo in basso a sinistra e una matrice identica,

di rango n. Cancellando le ultime n righe e le prime n colonne di H, si ottiene la

matrice m × (mn − n) H ′ = (M2 M3 . . . Mn) la quale ha la prima riga nulla, ma


rango m − 1, in quanto le sue colonne di posto 1, n + 1, 2n + 1, . . . , (m − 2)n + 1

contengono una matrice identica (m− 1)× (m− 1).

Esempio 3.4.11. Conviene convincersi del teorema precedente, verificando che H

ha rango m+ n− 1, in alcuni casi concreti.

Ad esempio, se m = 2, n = 3, la matrice H e:1 1 1 0 0 00 0 0 1 1 11 0 0 1 0 00 1 0 0 1 00 0 1 0 0 1

Invece se m = 3, n = 2, la matrice H e:

1 1 0 0 0 00 0 1 1 0 00 0 0 0 1 11 0 1 0 1 00 1 0 1 0 1

Definizione 3.4.12. In Km,n abbiamo un importante sottospazio affine U , detto

simplesso unitario fondamentale, di dimensione nm− 1, formato da tutte le matrici

la cui somma dei coefficienti e 1: la sua equazione lineare e∑

i,j aij = 1.

Tale simplesso unitario fondamentale rappresenta tutte le distribuzioni probabilisti-

che su ΠS.

Abbiamo visto che se D′ e coerente con la distribuzione D di campionatura co-

stante k, allora anche la campionatura di D′ sull’unica variabile di ΠS e k. In altri

termini la matrice (aij) che rappresenta D′ soddisfa∑

i,j aij = k. Ne segue:

Proposizione 3.4.13. Per ogni distribuzione D a campionatura costante su S, lo

spazio affine Co(D) e parallelo al simplesso unitario fondamentale U . Co(D) e

contenuto in U se e solo se D e una distribuzione probabilistica.

Vediamo infine il rapporto fra Co(D) e il cono delle distribuzioni di indipendenza.

Osservazione 3.4.14. Ricordiamo che, per la proposizione 3.2.11, per ogni distri-

buzione D a campionatura costante non nulla su S, esiste un’unica distribuzione D′

su ΠS coerente con D, che e anche una distribuzione di indipendenza.


Verifichiamo direttamente questo fatto sui dipoli.

Indichiamo al solito con T, U le variabili di S, rispettivamente di stati (t1, . . . , tm),

(u1, . . . , un). Sia k 6= 0 il valore costante della campionatura di D, cioe k =

t1 + · · · + tm = u1 + · · · + un. Indichiamo con DT , DU rispettivamente i vettori

(DT (t1), . . . , DT (tm)), (DU(u1), dots,DU(un)). Allora la matrice (1/k)DTDU (pro-

dotto righe per colonne) rappresenta una distribuzione di indipendenza D′ su ΠS

che e coerente con D. Infatti per ogni i = 1, . . . ,m si ha

∑j

D′(ti, uj) =∑j

1

kDT (ti)DU(uj) =

=1

kDT (ti)(DU(u1) + · · ·+DU(un)) = DT (ti)

e analogamente per ogni j = 1, . . . , n:

∑i

D′(ti, uj) =∑i

1

kDT (ti)DU(uj) =

=1

k(DT (t1) + · · ·+DT (tm))DU(uj) = DU(uj).

Supponiamo che esista un’altra distribuzione di indipendenza D′′ su ΠS, coerente

con D. Siano v = (v1, . . . , vm) e w = (w1, . . . , wn) vettori tali che D′′ = vw. Poniamo

p = v1 + · · ·+ vm, q = w1 + · · ·+ wn. Abbiamo pq = k in quanto, come dimostrato

nella proposizione 3.4.8, k e la somma di tutti i coefficienti della matrice di D′′.

Come abbiamo visto nella proposizione 2.1.9, per ogni i la somma della riga i-esima

della matrice di D′′ deve essere uguale a DT (ti). Poiche tale somma per ogni i e

uguale a (w1 + · · · + wn)vi = qvi, allora qv = DT . Analogamente si ha pw = DU .

Allora, posto z = q/k, si ha zv = (1/k)DT inoltre p = k/q = 1/z, quindi

D′ = (1

kDT )DU = zv

1

zw = vw = D′′.

Si osservi che se D e una distribuzione su S a campionatura costante uguale a

zero, anche in questo caso esiste un’unica distribuzione di R coerente con D: si

tratta della distribuzione nulla.

Esempio 3.4.15. Abbiamo visto che data una distribuzione su ΠS, la richiesta di

coerenza permette di determinare un’unica distribuzione su S.


Viceversa, data una distribuzione D su S, esistono infinite distribuzioni D′ su ΠS,

coerenti con D.

Il teorema precedente ci assicura che una solo di esse e una distribuzione di indipen-

denza.

Secondo i dati dell’esempio 3.4.7, la distribuzione 6 14

24 56

e l’unica coerente con la distribuzioneDF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) =

70.

Esempio 3.4.16. Supponiamo che ad essere sottoposti a trattamento farmaceutico

sia una popolazione non tracciabile individualmente, come una coltura batterica:

sappiamo che abbiamo dato una dose di farmaco a 20 (milioni) di batteri su una

popolazione di 100 (milioni) e dopo qualche minuto registriamo cambiamenti su 30.

Ma non sappiamo di questi 30 quanti provengono da soggetti trattati e quanti no.

Possiamo concludere qualcosa sulla indipendenza del cambiamento dal trattamento?

Certamente no! Le considerazioni sopra esposte indicano che esistono molte distri-

buzioni sulla correlazione totale che sono coerenti con la distribuzione DF (0) = 20,

DF (1) = 80, DG(0) = 30, DG(1) = 70. Una di loro permette di concludere l’indi-

pendenza, le altre no. Senza ulteriori informazioni sull’esperimento, non si puo pero

decidere quale delle due eventualita si e verificata.

Esempio 3.4.17. Talvolta basta in realta poco per poter concludere sull’indipen-

denza delle variabili in un dipolo.

Consideriamo un dipolo S le cui due variabili X, Y rappresentano una posizione

di DNA in due momenti diversi, ciascuna delle due ha alfabeto {A,C,G, T}. Il

trattamento subito dalle cellule puo cambiare la sequenza del DNA, che peraltro

puo cambiare anche spontaneamente. Il problema e determinare se effettivamente il

trattamento produce effetti su questo cambiamento. La correlazione totale di S ha

una variabile con 16 stati, rappresentati su una matrice 4×4. Se pero non e possibile

tracciare esattamente l’evoluzione di ogni singola base del DNA, ma possiamo solo

rilevare la distribuzione iniziale e finale delle varie basi nella popolazione di cellule

esaminata, arrivare a conclusioni sulla dipendenza e impossibile. Mettiamo pero di


poter marcare, con una sostanza, ad esempio le molecole della base A. In questo caso

il conto di molecole A marcate ci dice quanto vale la distribuzione finale sullo stato

(A,A) della variabile di ΠS. Poiche esiste una sola distribuzione di indipendenza D′

su ΠS che e coerente con D, se il valore rilevato su (A,A) non coincide con quello

previsto da tale distribuzione, possiamo concludere la non indipendenza delle due

variabili di S.

Nell’esempio in questione, d’altra parte, qualora il valore rilevato per (A,A) fosse

quello previsto dalla distribuzione di indipendenza D′, questo ci fornirebbe solo un

indizio per concludere l’indipendenza delle variabili, in quanto sono ancora molte le

distribuzioni su ΠS coerenti con D, che assumono su (A,A) un valore fissato.

Esempio 3.4.18. Consideriamo la seguente situazione. In un circolo per il gioco del

bridge, due giocatori assidui A,B seguono questa regola: giocano alternativamente

un giorno una partita in coppia insieme, un giorno una partita in coppie contrap-

poste. Dopo 100 giorni, la situazione e la seguente: A ha vinto 30 partite e ne ha

perse 70, mentre B ne ha vinte 40 e perse 60. Si puo determinare analiticamente

l’andamento delle vittorie e sconfitte? Si puo verificare se la vittoria o la sconfitta

di ciascuno dei due e indipendente o meno dal giocare in coppia con l’altro?

Ad entrambe le domande si puo rispondere affermativamente. Abbiamo un sistema

S che e un dipolo booleano, con due variabili A,B e gli stati 0 = vittoria, 1 =

sconfitta. Abbiamo la distribuzione D su S definita da

DA(0) = 30, DA(1) = 70, DB(0) = 40, DB(1) = 60.

ChiaramenteD ha campionatura costantemente uguale a 100. Vogliamo determinare

da questi dati una distribuzione D′ su ΠS, coerente con D, che mi renda chiara tutta

la situazione. E’ chiaro pero che di distribuzioni su ΠS, coerenti con D, ne esistono

infinite. Per il teorema 3.4.10, queste distribuzioni D′ riempiono un sottospazio

affine di R2,2 avente dimensione 2 · 2− 2− 2 + 1 = 1.

Il dato in piu rispetto all’esempio 3.4.5 e dato dal sapere che i giocatori hanno

giocato alternativamente in coppia e contrapposti. Quindi delle 100 partite giocate,

50 volte erano insieme, per cui l’esito finale combinato poteva solo essere (0, 0) o

(1, 1), mentre 50 volte erano contrapposti, e il risultato poteva essere solo (0, 1) o

(1, 0). In definitiva, la matrice (aij) della distribuzione D′ che stiamo cercando deve


soddisfare l’ulteriore condizione:

a11 + a22 = a12 + a21 (= 50).

La distribuzione di indipendenza D′′ coerente con D ha matrice data dal prodotto

tensoriale (30, 70)(40, 60), diviso per la campionatura di D, cioe 100. Si ottiene:

D′′ =

(12 1828 42

).

Tutte le altre distribuzioni coerenti con D′′ si ottengono aggiungendo a D′′ le solu-

zioni del sistema omogeneo:a11 + a12 = 0

a11 + a12 = 0

a11 + a12 = 0

a11 + a12 = 0

le quali sono tutte multiple di

(−1 11 −1

).

Pertanto una generica distribuzione coerente con D ha matrice:

D′ =

(12− z 18 + z28 + z 42− z

).

Imponendo a11 + a22 = a12 + a21, si ottiene z = 2, quindi si ha un’unica matrice

possibile:

D′ =

(10 2030 40

).

Allora giocando in coppia A e B hanno vinto 10 volte e perso 40, mentre giocando

contro A ha vinto 20 volte, B ha vinto 30 volte.

Infine, la percentuale di vittorie dipende dal giocatore A e B, perche il determinante

di D′ e −200 6= 0 (entrambi hanno vantaggio a non giocare in coppia con l’altro).

Esempio 3.4.19. Non sempre la conoscenza di un’equazione in piu permette di

conoscere tutta la distribuzione su ΠS, nemmeno nel caso booleano.

Consideriamo la seguente situazione. In una scuola ci sono due sezioni, A,B. La

scuola puo assegnare tutti gli anni delle borse di studio, in base alle proprie capacita

di bilancio. Le borse non possono mai essere piu di due. Negli anni di magra, non si

assegnano borse, mentre in altri anni puo capitare che ne venga assegnata una sola.

Si adotta un rigido criterio di ripartizione per non privilegiare una sezione rispetto


all’altra. Se ci sono due borse da assegnare, esse vengono date una per sezione.

Negli anni in cui c’e una sola borsa, essa viene assegnata una volta a una sezione,

una volta all’altra.

Dopo 25 anni, la situazione e la seguente: la sezione A ha ottenuto una borsa 15

volte e 15 sono le volte che l’ha avuta la sezione B. Possiamo da questi dati stabilire

quanti sono stati gli anni di magra? Possiamo stabilire se il fatto che la sezione B

riceva una borsa comporta vantaggi o svantaggi per la sezione A?

Purtroppo la risposta ad entrambe le domande stavolta e negativa.

Per capire il motivo, costruiamo un sistema S che e un dipolo booleano, con due

variabili A,B e gli stati 0 = borsa, 1 = non borsa. Abbiamo la distribuzione D su

S definita da

DA(0) = 15, DA(1) = 10, DB(0) = 15, DB(1) = 10.

Vogliamo anche stavolta determinare da questi dati una distribuzione D′ su ΠS.

Il fatto in piu che conosciamo e il seguente: visto che non vi sono squilibri fra le

due sezioni (entrambe hanno ricevuto 12 borse) e chiaro che gli anni in cui e stata

assegnata una sola borsa sono in numero pari. Pertanto il numero di anni in cui la

sezione A ha ricevuto una borsa e B no e uguale al numero di anni in cui e accaduto

il viceversa. In altri termini, la matrice D′ = (aij) che stiamo cercando soddisfa

l’ulteriore equazione a12 = a21, cioe e una matrice simmetrica.

Ma questo non ci aiuta: tutte le distribuzioni coerenti con D sono simmetriche!

Infatti siccome DA(0) = DB(0) e DA(1) = DB(1), si deve avere D′ = (aij) con

a11 + a12 = a11 + a21, a21 + a22 = a12 + a22

da cui necessariamente a12 = a21.

Calcolando come nell’esempio precedente, si vede che l’unica distribuzione di indi-

pendenza coerente con D e a11 = 9, a12 = 6, a21 = 6, a22 = 4, quindi e simmetrica.

Analogamente le soluzioni del sistema lineare omogeneo dell’esempio precedente so-

no matrici simmetriche. Le distribuzioni coerenti con D sono tutte e sole quelle date

da:

D′ =

(9− z 6 + z6 + z 4− z

)e come si vede, sono tutte simmetriche.


In termini di spazi affini, i sottospazi Co(D) sono tutti paralleli al sottospazio delle

matrici simmetriche.

Nell’esempio, la situazione totale puo, indifferentemente, essere rappresentata da

una delle tre seguenti matrici:(8 77 3

) (10 55 5

) (9 66 4

).

Si noti che nel primo caso, per la sezione B e uno svantaggio che la sezione A abbia

una borsa, perche quando A ha una borsa B ha una borsa solo in 8 casi su 15, mentre

quando A non ce l’ha, B ha la borsa in 7 casi su 10 (ovviamente 7/10 > 8/15). Per

la seconda matrice, la situazione si ribalta: per B e piu facile avere la borsa quando

anche A ce l’ha (2 su 3 contro il 50%). Infine nel terzo caso, la situazione di A e per

B assolutamente indifferente.

Ci si potrebbe a questo punto interrogare sul significato statistico di avere distri-

buzioni su un dipolo corrispondenti a matrici di rango 2,3,...

Su tali argomenti, non banali, che prefigurano il caso di variabili nascoste, ritorne-

remo nei paragrafi successivi.

Capitolo 4

Modelli statistici

4.1 Modelli

In questo capitolo introduciamo il concetto di modello, punto essenziale della in-

ferenza statistica. Il concetto viene qui rivisto mediante la nostra interpretazione

algebrica.

La definizione generale e molto semplice:

Definizione 4.1.1. Si chiama modello su un sistema aleatorio X ogni sottoinsieme

M dello spazio delle distribuzioni D(X).

Naturalmente, nella sua totale generalita, la definizione precedente e poco signi-

ficativa.

La Statistica Algebrica consiste in pratica nel focalizzare l’attenzione solo su certi

particolari tipi di modelli.

Definizione 4.1.2. Un modello M su un sistema aleatorio X e detto algebrico se,

nelle coordinate di D(X), M corrisponde all’insieme delle soluzioni di un sistema

finito di equazioni polinomiali.

Se inoltre i polinomi sono omogenei, il modello M prende il nome di omogeneo.

E’ chiaro che i modelli algebrici sono quelli suscettibili di studio con i metodi

propri dell’Algebra e della Geometria Algebrica.

Nella realta statistica, si verifica che molti modelli importanti per lo studio dei

sistemi aleatori (discreti) sono di fatto modelli algebrici.

71


Esempio 4.1.3. Su un qualunque sistema X, le distribuzioni a campionatura co-

stante formano un esempio di modello M su un qualunque sistema aleatorio. Tale

modello e algebrico omogeneo.

Infatti, se x1, . . . , xn sono le variabili di X e identifichiamo DR(X) con Ra1×· · ·×Ran ,

con coordinate y11, . . . , y1a1 , y21, . . . , y2a2 , . . . , yn1, . . . , ynan , allora M e definito dalle

equazioni omogenee nelle yij:

y11 + · · ·+ y1a1 = y21 + · · ·+ y2a2 = · · · = yn1 + · · ·+ ynan .

Le distribuzioni probabilistiche formano un sottomodello del modello precedente, che

e ancora algebrico, ma non omogeneo!

4.2 Modelli di indipendenza

La classe piu famosa di modelli algebrici su sistemi aleatori e quella data dai

modelli di indipendenza.

Dato un sistema aleatorio X, il modello di indipendenza su X e in realta un

sottoinsieme dello spazio delle distribuzioni della correlazione totale S = ΠX, che

contiene le distribuzioni in cui le variabili di X risultano essere indipendenti fra loro.

L’esempio iniziale (ammettiamolo, abbastanza cruento) consiste nell’esempio 3.4.2,

che qui riportiamo per completezza.

Esempio 4.2.1. Prendiamo un’industria farmaceutica che voglia verificare se un

dato farmaco e efficace contro una determinata patologia.

L’industria cerchera di verificare l’efficacia arruolando un certo numero di volontari

(la popolazione) affetti dalla patologia e somministrando ad alcuni di essi il farmaco,

agli altri un placebo. Dalla registrazione del numero di guarigioni, si devono trarre

le conclusioni.

La situazione e illustrata da un sistema aleatorio booleanoX, le cui due variabili F,G

rappresentano la prima la somministrazione del farmaco, la seconda la guarigione

(al solito 1 = sı, 0 = no).

CAPITOLO 4. MODELLI STATISTICI 73

Su questo sistema introduciamo la distribuzione D (a campionatura costante) cosı

definita:

DF (0) = 20, DF (1) = 80, DG(0) = 30, DG(1) = 70.

Cio corrisponde ad un esperimento, in cui abbiamo 100 soggetti, affetti dalla patolo-

gia. A 80 di essi viene somministrato il farmaco, mente agli altri 20 e somministrato

un placebo. Al termine della osservazione, 30 soggetti sono ancora malati, mente i

rimanenti 70 sono guariti.

E’ possibile ricostruire, tramite D, informazioni sull’efficacia del farmaco? Certa-

mente no: non sappiamo se i 70 guariti provengono in percentuale maggiore dal

gruppo che ha ricevuto il farmaco.

Per avere significativita, l’esperimento deve riportare, per ciascuno dei due gruppi

(quello che ha ricevuto il farmaco e quello che ha ricevuto il placebo) il numero di

soggetti guariti.

Si deve cioe eseguire l’esperimento riportando la distribuzione D′ ∈ D(ΠX) che

assegna un numero a ciascuno degli stati della variabile FG di ΠX:

- D′(0, 0) = soggetti che non hanno ricevuto il farmaco e non sono guariti;

- D′(0, 1) = soggetti che non hanno ricevuto il farmaco e sono guariti;

- D′(1, 0) = soggetti che hanno ricevuto il farmaco ma non sono guariti;

- D′(1, 1) = soggetti che hanno ricevuto il farmaco e sono guariti.

Supponiamo di aver osservato la seguente distribuzione:

D′(0, 0) = 6, D′(0, 1) = 14, D′(1, 0) = 24, D′(1, 1) = 56.

Tradotto significa che delle 100 persone sotto osservazione, le 20 trattate con il

placebo si sono cosı distribuite: 14 sono guarite e 6 no. Invece, delle 80 trattate, 56

sono guarite e 24 no. In accordo con il dato che ci devono essere state 70 = 14 + 56

non guarigioni e 30 = 6 + 24 non guarigioni.

Come suggerito nell’Osservazione 1.2.6, rappresentiamo D′ con una matrice

D′ =

6 14

24 56

Cosa ricavare dall’esperimento? Come si vede, in entrambi i gruppi, il numero di

soggetti guariti corrisponde ai 710

del totale. Cio suggerisce una totale inefficacia del

farmaco: la guarigione G sembra indipendente dall’assunzione del farmaco F .


Un esito dell’indagine molto piu favorevole al farmaco si otterrebbe con una distri-

buzione D′′ su ΠX rappresentata dalla matrice:

D′′ =

10 10

20 60

che porterebbe a 10 soggetti guariti e 10 non guariti fra i trattati con placebo,

mentre i trattati con farmaco registrerebbero 60 guariti contro 20 non guariti (si

noti che ancora le guarigioni totali sono esattamente 70 = 10 + 60). In questo caso

i soggetti trattati con farmaco hanno una frazione molto piu rilevante di guariti,

rispetto all’altro gruppo. Per cui, l’esperimento suggerisce che un effetto benefico

del farmaco c’e stato (cioe F ha influito su G).

Dal punto di vista matematico, la differenza sostanziale fra le due matrici, che

cambia il risultato l’influenza reciproca fra le due variabili, sta nel fatto che le righe

di D′ sono proporzionali, cioe D′ ha rango 1, mente D′′ ha rango 2.

L’esempio precedente giustifica la definizione di modello di indipendenza, per

i sistemi aleatori con due variabili (dipoli), gia di fatto introdotto nei capitoli

precedenti.

Definizione 4.2.2. Sia X un sistema aleatorio, avente due variabili aleatorie x1, x2

e sia Y = ΠX. Lo spazio delle K-distribuzioni su Y e identificato con lo spazio di

matrici Ka1,a2 , dove ai e il numero degli stati della variabile xi.

Ricordiamo che una distribuzione D ∈ DK(Y ) e una distribuzione di indipendenza

se D, come matrice, ha rango ≤ 1.

Il modello di indipendenza su X e il sottoinsieme di DK(Y ) formato dalle distribu-

zioni di rango ≤ 1.

Per estendere la definizione di indipendenza ai sistemi di piu variabili, conside-

riamo l’esempio seguente.

Esempio 4.2.3. Sia X un sistema aleatorio, avente due variabili aleatorie x1, x2

che rappresentano rispettivamente una moneta e un dado (stavolta non truccati!).

Sia Y = ΠX e sia D la R-distribuzione su Y definita dalla matrice

D =

112

112

112

112

112

112

112

112

112

112

112

112

.


E’ chiaro che D e una distribuzione di indipendenza e probabilistica. La si puo

leggere come il fatto che la probabilita che esca un numero d dal dado e contempo-

raneamente una faccia (ad esempio T ) dalla moneta, e il prodotto della probabilita

che esca d dal dado 16

per la probabilita che esca T dalla moneta 12.

Possiamo quindi utilizzare la Definizione 2.1.17 per definire il modello di indipen-

denza.

Definizione 4.2.4. Sia X un sistema aleatorio, avente variabili x1, . . . , xn e sia

Y = ΠX. Lo spazio delle K-distribuzioni su Y e identificato con lo spazio di tensori

Ka1,...,an , dove ai e il numero degli stati della variabile xi.

Una distribuzione D ∈ DK(Y ) e una distribuzione di indipendenza se D, come

tensore, ha rango 1.

Il modello di indipendenza su X e il sottoinsieme di DK(Y ) formato dalle distribu-

zioni di indipendenza (cioe dai tensori di rango 1).

Il modello di indipendenza corrisponde quindi al sottoinsieme dei tensori semplici

(o decomponibili) in uno spazio di tensori.

Abbiamo visto, nel Teorema 2.2.4 del capitolo relativo all’Algebra Tensoriale,

come puo essere descritto tale sottoinsieme. Dato che tutte le relazioni (2.2.1) cor-

rispondono all’annullarsi di una espressione polinomiale (quadratica) nei coefficienti

del tensore, si ha:

Corollario 4.2.5. Il modello di indipendenza e un modello algebrico.

Si noti che per i tensori 2 × 2 × 2, il modello di indipendenza e definito da 12

equazioni quadratiche (6 facce + 6 diagonali).

Le equazioni corrispondenti alle uguaglianze (2.2.1) descrivono un insieme di

equazioni per il modello di indipendenza. Tale insieme , in generale, non e tuttavia

minimale.

Le distribuzioni di indipendenza rappresentano situazioni in cui non vi e nes-

sun legame fra il comportamento delle varie variabili aleatorie di S, che risultano

pertanto indipendenti.

Ci sono naturalmente casi intermedi fra un legame totale e un legame nullo, come

si vede nel seguente:


Esempio 4.2.6. Sia S un sistema aleatorio con 3 variabili. Lo spazio delle distri-

buzioni D(ΠS) e formato da tensori di dimensione 3 e tipo (d1, d2, d3). Diremo che

una distribuzione D ∈ D(ΠS) e senza correlazione tripla se esistono tre matrici

A ∈ Rd1,d2 , B ∈ Rd1,d3 , C ∈ Rd2,d3 tali che per ogni i, j, k:

D(i, j, k) = A(i, j)B(i, k)C(j, k).

Un esempio pratico, quando S e booleano, e dato dal tensore

−3 − − 4� | � |

−1 − + 6 || 0 + − 2| � | �0 − − −4

che si ottiene dalle matrici

A =

(2 11 3

)B =

(0 1−1 2

)C =

(1 −23 2

)

4.3 Connessioni e modelli parametrici

Un altro importante esempio di modelli della Statistica Algebrica e fornito dai model-

li parametrici. Sono modelli i cui elementi hanno coefficienti che variano in funzione

di certi parametri. Per poter definire i modelli parametrici, e necessario prima fissare

il concetto di connessione fra due sistemi aleatori.

Definizione 4.3.1. Siano S, T sistemi aleatori. Chiameremo K-connessione fra

S e T ogni funzione Γ fra lo spazio delle K-distribuzioni DK(S) e lo spazio delle

k-distribuzioni DK(T ).

Come al solito, quando il campo numerico K e sottinteso, lo ometteremo nella

notazione.

In fondo, quindi, le connessioni non sono altro che funzioni fra uno spazio Ks

e uno spazio Kt. Il nome che abbiamo dato, in riferimento al fatto che si tratta

di due spazi collegati a sistemi aleatori, serve a enfatizzare l’uso che faremo delle

connessioni: quello di trasportare distribuzioni dal sistema S al sistema T .


A tal proposito, se T ha n variabili aleatorie y1, . . . , yn, e l’alfabeto di ciascuna

variabile yi ha di elementi, allora DK(T ) puo essere identificato con Kd1×· · ·×Kdn .

In questo caso talvolta e utile pensare una connessione Γ come un insieme di funzioni

Γi : D(S)→ Kdi .

Se s1, . . . , sa sono tutti gli stati possibili delle variabili di S, e ti1, . . . , tidi sono gli

stati possibili della variabile yi, allora scriveremo anche:ti1 = Γi1(s1, . . . , sa)

... = ...

tidi = Γidi(s1, . . . , sa)

La definizione qui data di connessione, in linea di principio, e estremamente ge-

nerale: nessuna particolare proprieta e richiesta per la funzioni Γs; nemmeno la con-

tinuita. Naturalmente nei casi concreti studieremo in particolare delle connessioni

aventi certe proprieta ben definite.

E’ chiaro infatti che, in mancanza di qualsiasi proprieta, non si puo sperare che le

connessioni piu generali soddisfino molte proprieta.

Vediamo alcuni esempi significativi di connessioni.

Esempio 4.3.2. Sia S un sistema aleatorio e sia S ′ un suo sottosistema. Si ottiene

una connessione da S a S ′, detta proiezione semplicemente dimenticando le com-

ponenti delle distribuzioni che corrispondono a variabili aleatorie non contenute in

S ′.

Esempio 4.3.3. Sia S un sistema aleatorio e sia T = ΠS la sua correlazione totale.

Definiamo una connessione Γ : DK(S)→ DK(T ), detta connessione di indipendenza

o anche connessione di Segre, in questo modo. Se S ha variabili aleatorie x1, . . . , xn,

e ciascuna variabile xi ha ni stati, allora DK(S) e identificato con Kn1 × · · · ×Kan .

Γ manda la distribuzione

D = ((d11, . . . , d1a1), . . . , (dn1, . . . , dnan))

nel tensore (pensato come distribuzione su ΠS) D′ = Γ(D) tale che

D′i1,...,in = d1i1 · · · dnin .

E’ chiaro, per costruzione, che l’immagine della connessione e formata da tutte e

sole le distribuzioni di indipendenza su ΠS.


Esistono chiaramente altri tipi di connessione interessanti. Un esempio pratico e

il seguente

Esempio 4.3.4. Consideriamo una popolazione di microorganismi in cui abbiamo

elementi di due tipi, A,B, che possono accoppiarsi fra loro in modo random. Al

termine degli accoppiamenti, avremo microorganismi con generi di tipo AA, BB, o

di tipo misto AB = BA.

La situazione iniziale corrisponde ad un sistema booleano con una variabile (il tipo

iniziale t0) che assume i valori A,B. Al termine abbiamo ancora un sistema con una

sola variabile (il tipo finale t) che puo assumere i 3 valori AA,AB,BB.

Se inizialmente inseriamo una distribuzione con a = D(A) elementi di tipo A e

D(b) = b elementi di tipo B, che distribuzione possiamo attenderci sulla variabile

finale t?

Un individuo ha una probabilita di incontrare un altro individuo di tipo A o B

proporzionale ad (a, b), quindi la distribuzione finale su t sara D′ data da D′(AA) =

a2, D′(AB) = 2ab, D′(BB) = b2. Questo procedimento corrisponde alla connessione

Γ : R2 → R3 Γ(a, b) = (a2, 2ab, b2).

Definizione 4.3.5. Diremo che un modello V ⊂ D(T ) e parametrico se esiste un

sistema aleatorio S e una connessione Γ fra S e T tale che V e l’immagine di Γ in

D(T ).

Un modello e parametrico polinomiale se Γ e definita da polinomi.

Un modello e torico se Γ e definita da monomi.

La motivazione della definizione di modello parametrico dovrebbe essere chiara

dalla rappresentazione di una connessione. Se s1, . . . , sa sono tutti gli stati possibili

delle variabili di S, e ti1, . . . , tidi sono gli stati possibili della variabile yi di T , allora

nel modello parametrico definito dalla connessione Γ abbiamo:ti1 = Γi1(s1, . . . , sa)

... = ...

tidi = Γidi(s1, . . . , sa)

dove i Γij rappresentano le componenti di Γ.

La definizione di modello che abbiamo dato inizialmente e talmente vasta da

risultare in generale scarsamente utilizzabile. In realta i modelli che utilizzeremo

nel seguito saranno sempre modelli algebrici o parametrici polinomiali.


Esempio 4.3.6. E’ chiaro dall’esempio 4.3.3 che il modello di indipendenza e dato

dall’immagine della connessione di indipendenza, definita dalla mappa di Segre (si

veda la Definizione 2.1.21), pertanto e un modello parametrico.

I tensori T del modello di indipendenza hanno infatti coefficienti che soddisfano

equazioni parametriche . . .

Ti1...in = v1i1v2i2 · · · vnin. . .

(4.3.1)

Dalle sue equazioni parametriche (4.3.1), si vede subito che il modello di indipen-

denza e un modello torico.

Esempio 4.3.7. Il modello dell’esempio 4.3.4 e un modello torico, in quanto definito

da equazioni: x = a2

y = 2ab

z = b2

Osservazione 4.3.8. E’ evidente, ma e bene sottolinearlo, che per le definizioni da

noi date, essere un modello algebrico o parametrico polinomiale e indipendente dai

cambiamenti di coordinate. Essere un modello torico invece puo’ dipendere dalla

scelta delle coordinate.

Definizione 4.3.9. Il termine modello lineare indica in generale un modello su S

definito in D(S) da equazioni lineari.

Ovviamente ogni modello lineare e algebrico e anche parametrico polinomiale, in

quanto si puo sempre parametrizzare uno spazio lineare.

Esempio 4.3.10. Anche se una connessione Γ, fra le K-distribuzioni di due sistemi

aleatori S e T , e definita da polinomi, il modello parametrico polinomiale che Γ

definisce non e necessariamente algebrico!.

Se infatti consideriamo K = R e due sistemi aleatori S e T aventi ciascuno una sola

variabile aleatoria con un solo stato, la connessione Γ : R→ R, Γ(s) = s2 determina

certamente un modello parametrico polinomiale (addirittura torico) che corrisponde

a R≥0 ⊂ R, quindi non puo’ essere definito in R dall’annullarsi di polinomi.


Vedremo pero’ che allargando il campo di definizione delle distribuzioni, come

faremo nel capitolo successivo passando alle distribuzioni su C, sotto un certo punto

di vista tutti i modelli parametrici polinomiali saranno di fatto modelli algebrici.

Il seguente controesempio e una pietra miliare nello sviluppo di tanta parte della

Matematica moderna. A differenza dell’esempio 4.3.10, non potra essere recuperato

allargando il nostro campo di azione.

Esempio 4.3.11. Non tutti i modelli algebrici sono parametrici polinomiali.

Consideriamo infatti un sistema aleatorio S con una sola variabile avente tre stati.

Nello spazio delle distribuzioni D(S) = R3 consideriamo il modello algebrico V

definito dall’unica equazione x3 + y3 − z3 = 0.

Non puo’ esistere una connessione polinomiale Γ da un sistema S ′ a S la cui immagine

e V .

Infatti, supponiamo per assurdo l’esistenza di tre polinomi p, q, r, tali che x = p, y =

q, z = r. Ovviamente i tre polinomi devono soddisfare identicamente l’equazione

p3 + q3 − r3 = 0. Basta quindi verificare che non esistono tre polinomi legati

dalla precedente relazione. A patto di fissare valori per le altre variabili, possiamo

supporre che p, q, r siano polinomi in una sola variabile t. Inoltre possiamo supporre

che i tre non abbiano fattori comuni. Mettiamo che deg(p) ≥ deg(q) ≥ deg(r).

Derivando rispetto a t l’equazione:

p(t)3 + q(t)3 − r(t)3 = 0

si ottiene:

p2(t)p′(t) + q2(t)q′(t)− r2(t)r′(t) = 0.

Mettiamo insieme le due equazioni e consideriamole come un sistema lineare di

matrice: (p(t) q(t) −r(t)p′(t) q′(t) −r′(t)

).

La soluzione p2(t), q2(t), r2(t) deve essere proporzionale ai minori 2×2 della matrice,

quindi p2(t) e proporzionale a q(t)r′(t)− q′(t)r(t), eccetera. Confrontando i gradi, e

chiaro che p2(t) = l(t)(q(t)r′(t)− q′(t)r(t)), dove l(t) e un fattore di grado positivo.

Ma allora l(t) sarebbe un fattore non costante anche di q(t) e r(t), contro le ipotesi.

Naturalmente, ci sono esempi di modelli che nascono da connessioni che non

mettono in relazione un sistema e la sua correlazione totale.


Esempio 4.3.12. Mettiamo di avere una cultura batterica in cui inseriamo batteri

corrispondenti a due tipi di genoma, che chiameremo A,B.

Mettiamo che, in base al corredo genetico, i batteri posano sviluppare caratteristiche

riguardanti la grossezza della membrana e del nucleo. Per semplificare, mettiamo che

in questo esempio le cellule possano sviluppare nucleo e membrana grossi o piccoli.

In base alla teoria da verificare, le cellule di tipo A sviluppano, nella discendenza,

una membrana grossa nel 20% dei casi e sviluppano nucleo grosso nel 40% dei casi.

Le cellule di tipo B sviluppano membrana grossa nel 25% dei casi e membrana grossa

in un terzo dei casi. I due fenomeni sono indipendenti.

Costruiamo due sistemi aleatori. Il primo S, booleano, ha una sola variabile aleatoria

c (= cellula) con gli stati A,B. Il secondo T con due variabili booleane, m (=

membrana) e n (= nucleo). Indichiamo per entrambe con 0 lo stato grosso e con 1

lo stato piccolo.

La teoria induce una connessione Γ fra S e T . Nei quattro stati delle due variabili

di T , che indicheremo con x0, x1, y0, y1, tale connessione e definita da:x0 = 1

5a+ 1

4b

x1 = 45a+ 3

4b

y0 = 25a+ 1

3b

y1 = 35a+ 2

3b

dove a, b corrispondono ai due stati di S. Infatti mettiamo di introdurre 160 cellule,

di cui 100 di tipo A e 60 di tipo B. Questo porta a considerare una distribuzione D

su S data da D = (100, 60) ∈ R2.

La distribuzione che la connessione definisce su T e data da

ΓD = ((35, 125), (60, 100)) ∈ (R2)× (R2).

Questo riflette il fatto che nella popolazione cellulare (rapportata a 160) ci aspet-

tiamo di osservare alla fine 35 cellule con membrana grossa e 60 cellule con nucleo

grosso.

Se l’esperimento, piu realisticamente, riesce a cogliere la percentuale di cellule con

le due caratteristiche (mescolate), allora possiamo considerare una connessione che

lega S con la correlazione totale ΠT : indicando con x00, x01, x10, x11 variabili cor-

rispondenti ai quattro stati dell’unica variabile di ΠT , allora tale connessione Γ′ e


definita da:

x00 =( 15a+ 1

4b)( 2

5a+ 1

3b)

(a+b)2

x01 =( 15a+ 1

4b)( 3

5a+ 2

3b)

(a+b)2

x10 =( 45a+ 3

4b)( 2

5a+ 1

3b)

(a+b)2

x11 =( 45a+ 3

4b)( 3

5a+ 2

3b)

(a+b)2

Questa connessione, a partire da D, determina su ΠT la distribuzione probabilistica

(approssimata):

Γ′D = (0, 082, 0, 137, 0, 293, 0, 488) ∈ R4.

Un esperimento sara in accordo con il modello se le percentuali osservate saranno

quelle descritte da quest’ultima connessione: 8, 2% di cellule con membrana e nucleo

grossi, ecc.

4.4 Modelli torici e matrici esponenziali

Ricordiamo che un modello torico e un modello parametrico su un sistema T corri-

spondente a una connessione da S a T che e definita mediante monomi.

Definizione 4.4.1. Sia W un modello torico definito da una connessione Γ da S a

T . Siano s1, . . . , sq tutti i possibili stati di tutte le variabili di S e siano t1, . . . , tp gli

stati di tutte le variabili di T . Abbiamo, per ogni i, ti = Γi(s1, . . . , sq), dove ciascun

Γi e un monomio nelle sj.

Chiameremo matrice esponenziale di W la matrice E = (eij), dove eij = esponente

di sj in ti.

E e quindi una matrice p× q di numeri interi non-negativi. Chiameremo complesso

associato a W il sottoinsieme di Zq formato dai punti corrispondenti alle righe di E.

Proposizione 4.4.2. Sia W un modello torico definito da una connessione mono-

miale Γ da S a T e sia E la sua matrice esponenziale.

Ogni relazione lineare∑aiRi = 0 fra le righe Ri di E corrisponde a equazioni

implicite polinomiali che sono soddisfatte da tutti i punti W .


Dimostrazione. Prendiamo una relazione∑aiRi = 0 fra le righe di E. Ad essa

associamo un’equazione polinomiale∏ai≥0

taii − z∏aj<0

tajj = 0

dove, indicando con c(Γi) il coefficiente del monomio,

z =

∏ai≥0 c(Γi)

ai∏aj<0 c(Γj)

aj

Verifichiamo che tale relazione polinomiale e soddisfatta da tutti i punti di W .

In effetti, sostituendo a t1, . . . , tp le loro espressioni in termini di Γ, rimangono due

monomi con esponenti uguali e coefficienti opposti, che si cancellano.

Si noti che le equazioni polinomiali ricavate in precedenza, sono di fatto binomiali.

Definizione 4.4.3. Le equazioni polinomiali associate a relazioni lineari fra le righe

della matrice esponenziale di un modello torico W definiscono un modello algebrico,

contenente W . Tale modello prende il nome di modello algebrico generato da W .

E’ chiaro dall’esempio 4.3.10 che il modello algebrico generato da un modello

torico W contiene sempre W , ma non sempre coincide con W . Vediamo un paio di

esempi in proposito.

Esempio 4.4.4. Riprendiamo l’esempio del modello di indipendenza su un dipolo

S.

Riprendendo la terminologia del paragrafo precedente, indichiamo con t1, . . . , tn gli

stati della prima variabile T e con u1, . . . , um gli stati della seconda variabile. Il

modello risultante e definito parametricamente su ΠS da y(ti,uj) = tiuj. Si tratta

pertanto di un modello torico, la cui matrice esponenziale e data da

R1

R2...Rm

Rm+1

Rm+2...

Rmn

=

1 0 . . . 0 1 0 . . . 01 0 . . . 0 0 1 . . . 0...

... . . ....

...... . . .

...1 0 . . . 0 0 0 . . . 10 1 . . . 0 1 0 . . . 00 1 . . . 0 0 1 . . . 0...

... . . ....

...... . . .

...0 0 . . . 1 0 0 . . . 1


da cui si vedono tutte le relazioni fra righe della forma

Rqm+h +Rpm+k = Rqm+k +Rpm+h

che definiscono come equazioni in Rmn = Rm,n proprio i minori 2× 2 delle matrici.

Ne segue che il modello algebrico associato a questa connessione coincide con lo

spazio delle matrici di rango ≤ 1, che e proprio l’immagine della connessione di

indipendenza.

Esempio 4.4.5. Rivediamo la connessione dell’esempio 4.3.4. Essa definisce un

modello parametrico polinomiale W su R3 dato dalle equazioni parametrichex = a2

y = 2ab

z = b2

La matrice esponenziale associata e: 2 01 10 2

che, come unica relazione fra le righe, ha R1 + R3 = 2R2. Usando la formula per i

coefficienti, si ottiene l’equazione in R3:

4xz = y2.

Il modello algebrico W ′ definito da questa equazione non coincide con W . Infatti e

chiaro che i punti di W hanno x, z non-negative, mentre il punto (−1, 2,−1) sta in

W ′.

Si ha comunque W = W ′ ∩B dove B e il sottoinsieme dei punti di R3 a coordinate

non-negative. Infatti se (x, y, z) e un punto di B che soddisfa l’equazione, allora

posto a =√x, b =

√z, si ha y = ab.

Osservazione 4.4.6. Il metodo scientifico.

Dato un modello parametrico, definito da una connessione Γ da S a T , se cono-

sciamo una distribuzione ”iniziale” D su S (il dato dell’esperimento) e misuriamo la

distribuzione che ricaviamo D′ = Γ(D) su T (il risultato dell’esperimento), possiamo

facilmente dedurre se il modello ipotizzato si adatta o meno alla realta.


Se pero non abbiamo modo di conoscere la distribuzione D e possiamo solo misurare

la distribuzione D′, come accade in molti casi reali, allora sarebbe di grande aiuto

conoscere dei polinomi F che si annullano sul modello, cioe conoscere le sue equazioni

implicite. Infatti in questo caso il semplice controllo del fatto che F (D′) = 0 ci

puo fornire molte indicazioni: se la relazione non si verifica, il nostro modello e

chiaramente inadeguato; se invece si verifica, essa da un indizio a favore della validita

del modello.

Se poi sapessimo che il modello e anche algebrico e ne conoscessimo le equazioni,

il loro controllo su molte distribuzioni risultato di esperimenti, darebbe una buona

evidenza scientifica sulla validita del modello stesso.

Capitolo 5

Statistica Algebrica ProiettivaComplessa

No, non stiamo esagerando. Stiamo invece semplificando.

Molti dei fenomeni associati ai principali modelli aleatori sono infatti meglio com-

prensibili se studiati, almeno in prima battuta, dal punto di vista proiettivo e su un

campo numerico algebricamente chiuso.

Il principale legame fra la Statistica Algebrica e la Geometria Algebrica Proiettiva

e basato sulle costruzioni di questo capitolo.

5.1 Motivazioni

Abbiamo visto come molti modelli di interesse in settori della statistica siano definiti,

nello spazio delle distribuzioni di un sistema S, da equazioni algebriche (polinomiali)

di grado superiore al primo. Per comprendere tali modelli, un approccio matematico

e quello di studiare inizialmente i sottoinsiemi di uno spazio definiti dall’annullarsi

di polinomi. Cio equivale a studiare la teoria delle soluzioni di sistemi di equazioni

polinomiali di grado arbitrario, che va sotto il nome di Geometria Algebrica.

I metodi della Geometria Algebrica si fondano su varie teorie: certamente sul-

l’Algebra Lineare e Multilineare, ma anche sulla teoria degli anelli (in particolare

sulla Teoria degli Anelli di polinomi) e sull’Analisi Complessa. Ripeteremo qui solo

un accenno ai principali risultati che possono essere applicati a problemi statistici.

Bisogna tenere presente pero che la teoria in questione e piuttosto sviluppata, e ar-

87


gomenti che non verranno qui introdotti potrebbero rivelarsi, in futuro, importanti

anche da un punto di vista statistico.

Il primo passo da compiere e quello di definire l’ambiente nel quale ci muoviamo.

Trattandosi di studiare soluzioni di equazioni non lineari, da un punto di vista

algebrico e naturale passare dal campo reale, fondamentale per le applicazioni ma

privo di alcuni elementi algebrici, al campo complesso che, essendo algebricamente

chiuso, permette una completa lettura delle soluzioni di equazioni polinomiali.

Dovremo allora ampliare, da un punto di vista teorico, lo spazio delle distribu-

zioni, per ammettere punti a coordinate complesse. Tali punti, corrispondenti a

distribuzioni con numeri complessi, ci permetteranno una caratterizzazione piu im-

mediata degli insiemi di soluzioni di sistemi algebrici. Naturalmente, al momento di

dover rileggere i risultati nella teoria statistica comune, dovremo tornare a modelli

definiti esclusivamente sul campo reale, quindi intersecare con lo spazio reale conte-

nuto in ogni spazio complesso. Tale passaggio finale, che in generale pone problemi

tecnici assolutamente non banali, potra essere pero trascurato in una prima lettura,

in cui le indicazioni che otterremo sui complessi ci saranno comunque di aiuto per

la comprensione dei fenomeni reali.

Una volta accettato questo primo ampliamento, per arrivare ad una comprensione

ancora piu approfondita dei fenomeni algebrici, e opportuno operare un secondo

passo, forse all’apparenza ancora piu impegnativo: il passaggio dagli spazi affini Cn

agli spazi proiettivi associati.

I motivi di questo secondo ampliamento si giustificano, da un punto di vista geo-

metrico, con l’esigenza di lavorare in ambienti compatti. La compattezza e infatti

una proprieta essenziale per la nostra comprensione geometrica. In termini molto

descrittivi, grazie all’introduzioni dei punti all’infinito, eviteremo di perdere le solu-

zioni quando, passando al limite, si dovessero verificare fenomeni di parallelismo o

comunque fenomeni asintotici. La possibilita di seguire i ragionamenti passando al

limite e una delle carte vincenti che la geometria in ambienti proiettivi offre, rispetto

a quella in ambienti affini.

Nauralmente, la compattificazione proiettiva, per avere un senso nei problemi

statistici, deve essere eseguita in modo opportuno, differenziando, ad esempio, il

passaggio al limite delle varie variabili aleatorie.

CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA 89

Per chi trovasse eccessivamente macchinosa la procedura di utilizzare coordinate

omogenee per descrivere le distribuzioni su sistemi aleatori, giova forse ricordare

che un procedimento simile, in statistica, e presente da sempre: la normalizzazio-

ne. In pratica, se abbiamo una distribuzione D su una variabile aleatoria x avente

stati s1, . . . , sn, allora e naturale sostituire D con la distribuzione D ottenuta di-

videndo ciascun Dx(si) per la campionatura∑Dx(sj) (nel caso in cui x non sia

neutra rispetto a D). Si noti che, cosı facendo, nello spazio delle distribuzioni che

riguarda la variabile x, otteniamo di sostituire al punto (Dx(s1), . . . , Dx(sn)) il pun-

to (Dx(s1), . . . , Dx(sn)). Se nello spazio affine il punto risulta cambiato, nello spazio

proiettivo, in cui la n-upla rappresenta coordinate omogenee, passando alla norma-

lizzazione il punto non cambia! In effetti, ogni punto dello spazio proiettivo puo

essere sempre rappresentato da coordinate omogenee (a1, . . . , an) tali che∑aj = 1.

Da un altro punto di vista, la teoria statistica classica, nello spazio Rn delle distri-

buzioni di una variabile aleatoria x come sopra, tendeva a restringersi all’iperpiano

definito dall’equazione∑aj = 1, come abbiamo visto, ad esempio, nell’enunciato del

Teorema di Varcenko. La teoria statistica proiettiva lavora invece sulle distribuzioni

a meno di una scalatura, quindi non necessita tale restrizione, visto che dal punto

di vista proiettivo la normalizzazione, come ogni altra scalatura, risulta ininfluente.

E’ quindi abbastanza semplice convincersi che si tratta alla fine di due approcci

equivalenti. La difficolta di passare dall’uno all’altro risiede sostanzialmente nel-

l’abitudine. Il vantaggio di utilizzare il linguaggio proiettivo consiste nel poter poi

accedere direttamente alla vasta letteratura sulla Geometria Algebrica che, per molti

versi, fa principalmente uso di tale terminologia.

5.2 Spazi proiettivi, coni e varieta proiettive

Definizione 5.2.1. Sia V uno spazio vettoriale sul campo K. Definiamo su V \{0}una relazione di equivalenza ∼ che associa v, v′ se esiste α ∈ K con v′ = αv.

Chiameremo spazio proiettivo associato a V l’insieme quoziente P(V ) = V \{0}/ ∼.

Si chiama dimensione proiettiva di P(V ) il numero dim(V )− 1.

Quando V = Kn+1, allora indicheremo lo spazio proiettivo P(V ) anche con PnK(o semplicemente Pn, se K e sottinteso.


La definizione precedente e ben nota in Geometria. I punti dello spazio proiettivo

sono classi di equivalenza della relazione∼, quindi sono composti da un vettore v 6= 0

e da tutti i suoi multipli. In questo modo, si recupera il concetto di punto all’infinito.

Un punto di PnK e quindi rappresentato da una classe di equivalenza di (n + 1)-

uple di numeri in K. Le coordinate omogenee di un punto sono un qualunque

rappresentante della classe di equivalenza. Si noti come le coordinate non siano

univocamente determinate, ma possano variare per un fattore di proporzionalita

α 6= 0.

Osservazione 5.2.2. PnK contiene vari sottoinsiemi in naturale corrispondenza biu-

nivoca con lo spazio affine Kn.

Prendiamo infatti il sottoinsieme Ui formato dai punti (a0, . . . , an) in cui la coordia-

nata i-esima ai e diversa da 0. E’ facile vedere che si tratta di una condizione ben

posta, nella classe di equivalenza. Ui ha una corrispondenza biunivoca naturale con

Kn, ottenuta come segue:

(a0, . . . , an) 7→ (a0

ai,a1

ai, . . . ,

aiai, . . . ,

anai

)

Ui prende il nome di sottospazio affine i-esimo.

Si noti che se P = (a0, . . . , an) e un punto di Ui, quindi ai 6= 0, allora esiste un unico

rappresentante di P per cui ai = 1. Il procedimento precedente identifica P ∈ Uicon il punto di Kn le cui coordinate corrispondono proprio a tale rappresentante di

P (esclusa la coordinata i-esima).

Definizione 5.2.3. Un sottoinsieme C di uno spazio vettoriale W sul campo K e

un cono se per ogni v ∈ C e per ogni a ∈ K si ha av ∈ C.

Osservazione 5.2.4. Abbiamo un ovvia suriezione p : Kn+1\{0} → PnK che manda

ogni (n+ 1)-upla nella sua classe di equivalenza. Se W ⊂ PnK , allora p−1(W )(∪{0})e un cono. Viceversa tutti i coni di Kn+1 sono controimmagini di sottoinsiemi di

PnK in p (∪{0}).

Dato un punto P ∈ PnK , chiameremo coordinate omogenee di P una qualunque

(n+ 1)-upla di elementi di K che e un rappresentante della classe di equivalenza P .

Osservazione 5.2.5. Ogni sottoinsieme di Kn definito da equazioni polinomia-

li omogenee p1, . . . , ps e un cono. Infatti, se pi e omogeneo di grado di, allora


pi(ax1, . . . , axn) = adipi(x1, . . . , xn), quindi per a 6= 0 pi(ax1, . . . , axn) = 0 se e solo

se pi(x1, . . . , xn) = 0.

La precedente osservazione puo essere invertita quando il campo K e algebrica-

mente chiuso.

Lemma 5.2.6. Sia K un campo algebricamente chiuso e sia p = p(t) un polinomio

in K[t1, . . . , tn] di grado maggiore di 0.

Allora esistono un punto x = (x1, . . . , xn) ∈ Kn tale che p(x) = 0 e un punto

y = (y1, . . . , yn) ∈ Kn tale che p(y) 6= 0.

Dimostrazione. Facciamo induzione sul numero di variabili di p, osservando che

in ogni caso la seconda affermazione discende dalla prima, prendendo come y una

soluzione di p(t) + 1 = 0.

Quando p ha una sola variabile, l’esistenza di x e ovvia per definizione di campo

algebricamente chiuso.

Supponiamo di aver dimostrato il risultato per i polinomi con meno di n variabili e

prendiamo p con n variabili. Possiamo scrivere p sviluppandolo rispetto alla prima

variabile

p = pdxd1 + pd−1x

d−11 + · · ·+ p0

dove ogni pi e un polinomio in x2, . . . , xn e pd 6= 0 per qualche d > 0 (altrimenti p

avrebbe solo n− 1 variabili). Prendiamo un punto (z2, . . . , zn) che non e soluzione

di pd(t) = 0. Tale punto esiste ovviamente se pd e costante ed esiste per induzione se

il grado di pd e positivo. Il polinomio p′ = p(t1, z2, . . . , zn) e un polinomio nella sola

variabile t1 di grado > 0. Allora esiste z1 ∈ K tale che p′(z1) = p(z1, . . . , zn) = 0.

Lemma 5.2.7. Sia K un campo algebricamente chiuso e siano p1(t), . . . , pm(t)

polinomi in K[t1, . . . , tn], non nulli.

Allora esistono infiniti punti x = (x1, . . . , xn) ∈ Kn tali che pi(x) 6= 0 per ogni i.

Dimostrazione. Facciamo induzione sul numero di variabili massimo che compaiono

nei pi. Se tutti i pi sono polinomi in K[xn], allora ciascuno di loro ha al piu di radici,

dove di e il grado di pi. Siccome K e algebricamente chiuso, e anche infinito, quindi

esistono infiniti valori di xn per cui p1(xn), . . . , pm(xn) 6= 0.


Supponiamo l’asserto vero se tutti i polinomi stanno in K[x2, . . . , xn]; scriviamo

pi = pidixd1 + pidi−1x

d−11 + · · ·+ pi0

dove pidi 6= 0 e un polinomio in x2, . . . , xn per ogni i. Per induzione, esistono infiniti

punti (x2, . . . , xn) tali che pidi(x2, . . . , xn) 6= 0. Per ciascuno di tali punti, esistono,

sempre per induzione, infiniti valori di x1 tali che per ogni i

pidi(x2, . . . , xn)xd1 + pidi−1(x2, . . . , xn)xd−11 + · · ·+ pi0(x2, . . . , xn) 6= 0.

Proposizione 5.2.8. Sia K un campo algebricamente chiuso e sia p = p(t) un

polinomio in K[t1, . . . , tn] di grado d > 0.

Se p non e omogeneo, allora esiste un punto x = (x1, . . . , xn) ∈ Kn e un numero

α ∈ K tali che tale che p(x) = 0 ma p(αx) 6= 0.

Dimostrazione. Scriviamo p come somma di polinomi omogenei

p = pd + pd−1 + · · ·+ p0

dove ogni pi e omogeneo di grado i. Poiche p non e omogeneo, possiamo supporre

pd, pi 6= 0 per qualche i < d. Prendiamo tale i minimo.

Fissiamo y = (y1, . . . , yn) ∈ Kn in modo che pd(y) 6= 0. Allora p(ay) = adpd(y) +

ad−1pd−1(y) + · · · + aipi(y) e un polinomio di grado d nella variabile a, divisibile

per ai, p(ay) = aiq(ay) dove q(ay) e un polinomio di grado d − i > 0 in a, che ha

termine noto 6= 0. Per il Lemma 5.2.6, esistono a1, a2 ∈ K tali che q(a1y) = 0 e

q(a2y) 6= 0. Si osservi che a1 6= 0, visto che q(ay) ha termine noto non nullo. Allora

posto x = a1y e α = a2/a1, abbiamo la tesi.

La proposizione precedente ci fa capire che l’annullamento di un polinomio non

e definito su tutti i punti di una classe di equivalenza di P(Kn+1) = PnK , quando il

polinomio non e omogeneo.

Viceversa, se un polinomio e omogeneo, esso si annulla su un rappresentante di una

classe di equivalenza di PnK se e solo se si annulla su tutti i rappresentanti.

Resta pertanto giustificata la seguente


Definizione 5.2.9. Chiameremo varieta algebrica proiettiva ogni sottoinsieme di

PnK definito dall’annullarsi di una famiglia {pj} qualsiasi di polinomi omogenei.

In pratica, le varieta algebriche proiettive sono i sottoinsiemi di PnK le cui classi

di equivalenza hanno rappresentanti che sono soluzione di un sistema di equazioni

polinomiali omogenee.

Lo studio delle varieta algebriche proiettive e l’argomento proprio della Geometria

Algebrica Proiettiva. Si tratta di una teoria piuttosto avanzata, di cui richiameremo

i fatti fondamentali (alcuni senza dimostrazione) via via che si renderanno utili nella

nostra trattazione.

A tal proposito, cominciamo con una serie di osservazioni.

Osservazione 5.2.10. Se W e una varieta algebrica proiettiva, definita dall’annul-

larsi di un insieme J di polinomi omogenei, e J ′ ⊂ J e un altro insieme di polinomi

omogenei, allora la varieta W ′ definita da J ′ contiene W .

Si noti che si puo avere W = W ′ anche se J 6= J ′.

Osservazione 5.2.11. Le varieta algebriche proiettive formano un sistema di chiusi

per una topologia, detta la Topologia di Zariski.

Infatti ∅ e PnK sono entrambi varieta algebriche proiettive, in quanto definiti rispet-

tivamente dagli insiemi di polinomi omogenei {1} e {0}. Se {Wi} e un insieme di

chiusi, con Wi definito dall’annullarsi dell’insieme Ji di polinomi omogenei, allora⋂{Wi} e una varieta algebrica proiettiva, definita dall’annullarsi dei polinomi di

J =⋃{Ji}. Infine se W1,W2 sono varieta algebriche proiettive, definite dall’annul-

larsi dei polinomi di J1, J2 rispettivamente, allora W1 ∪W2 e definita dall’annullarsi

dell’insieme di polinomi omogenei

J1J2 = {pq : p ∈ J1, q ∈ J2}.

Esempio 5.2.12. Ogni singoletto rappresenta un chiuso nella topologia di Zariski,

che quindi soddisfa l’assioma di separazione T1.

Infatti se (a0, . . . , an) sono coordinate omogenee per un punto P , con ai 6= 0 allora

l’insieme di polinomi omogenei

I = {a0xi − aix0, . . . , anxi − aixn}

definisce il sottoinsieme {P} ⊂ Pn.


Definizione 5.2.13. Sia I un ideale dell’anello R = K[x1, . . . , xn]. Diremo che I e

generato da J ⊂ R, e scriveremo I =< J >, se

I = {f1p1 + · · ·+ fmpm : f1, . . . , fm ∈ R, p1, . . . , pm ∈ J}.

Diremo che I e un ideale omogeneo se esiste un insieme di elementi omogenei J ⊂ R

tale che I =< J >.

Non e vero che un ideale omogeneo contiene solo elementi omogenei. Per esempio

in K[x] l’ideale omogeneo I =< x > contiene l’elemento non omogeneo x+x2. Vale

pero la seguente:

Proposizione 5.2.14. Un ideale I e omogeneo se e solo se comunque preso un

polinomio p ∈ I, p = pd + · · · + p0 con pi = parte omogenea di gradi i, si ha pi ∈ Iper ogni i.

Dimostrazione. Se vale la proprieta dell’enunciato, allora I e generato dai polinomi

pi che sono parti omogenee dei p ∈ I, quindi I e omogeneo.

Viceversa, sia I generato da un insieme J di polinomi omogenei e sia p ∈ I. Allora

p = f1p1 + · · ·+ fmpm, con pi ∈ J omogeneo di grado di. Indichiamo con pi la parte

omogenea di grado i in p e con fij la parte omogenea di grado i in fj (fij = 0 se

i < 0). Allora per motivi di grado si ha per ogni i

pi = f1 i−d1p1 + · · ·+ fm i−dmpm

per cui pi ∈< J >= I.

Osservazione 5.2.15. Se W e una varieta algebrica proiettiva, definita dall’annul-

larsi di un insieme J di polinomi omogenei, allora W e anche definita dall’annullarsi

di tutti i polinomi omogenei contenuti nell’ideale I =< J >.

In pratica quindi ogni varieta algebrica proiettiva e definita dall’annullarsi di tutti i

polinomi omogenei contenuto in un ideale omogeneo.

Se I e un ideale, definiamo il suo radicale√I come l’insieme

√I = {p : pm ∈ I per qualche m}.

√I e ancora un ideale e quando I e omogeneo, anche

√I e omogeneo.

La seguente proprieta (Teorema degli zeri di Hilbert) e una pietra miliare nell’uso

dei campi algebricamente chiusi in Geometria Algebrica.


Teorema 5.2.16. (Nullstellensatz) Sia K un campo algebricamente chiuso. Due

ideali propri I1, I2 definiscono la stessa varieta algebrica se e solo se

√I1 =

√I2.

Dimostrazione. Una direzione discende dalla facile osservazione che per ogni ideale

omogeneo I, I e√I definiscono la stessa varieta algebrica.

L’altra direzione non e banale e richiede conoscenze sui campi algebricamente chiusi

che vanno oltre gli scopi di questa trattazione. Per essa si rimanda il lettore al testo

[ZariskiSamuel] di Algebra Commutativa.

Corollario 5.2.17. Se un insieme di polinomi p1, . . . , pk ∈ C[x0 . . . , xn] non hanno

soluzioni comuni in Cn+1, allora 1 ∈< p0, . . . , pk > .

Dimostrazione. Il radicale dell’ideale I =< p0, . . . , pk > definsce lo stesso insieme

algebrico dell’ideale generato da 1, quindi per qualche s, 1s ∈ I ma ovviamente

1s = 1.

Il Teorema degli zeri di Hilbert ha un corrispettivo omogeneo.

Se I e un ideale, definiamo il suo saturato sat(I) come l’insieme

sat(I) = {p : per ogni i = 0, . . . , n esistono si, ti > 0 tali che psixtii ∈ I}.

sat(I) e ancora un ideale e quando I e omogeneo, anche sat(I) e omogeneo.

Teorema 5.2.18. (Nullstellensatz omogeneo) Sia K un campo algebricamente

chiuso. Due ideali propri I1, I2 definiscono la stessa varieta algebrica proiettiva se e

solo se

sat(I1) = sat(I2).

Sempre nel testo [ZariskiSamuel] di Algebra Commutativa si trova la dimostra-

zione del seguente importante fatto.

Teorema 5.2.19. (Teorema della base) Sia J un ’insieme di polinomi e sia I

l’ideale generato da J . Allora esiste un sottoinsieme finito J ′ ⊂ J che genera I.

Il Teorema ci dice quindi che ogni varieta algebrica proiettiva coincide con le

soluzioni di un sistema finito di equazioni polinomiali omogenee.

Vediamo alcune conseguenze dei Teoremi precedenti.


Definizione 5.2.20. Una varieta algebrica proiettiva e una ipersuperficie se e

definita in PnK dall’annullarsi di un singolo polinomio omogeneo p 6= 0.

Se il singolo polinomio omogeneo e primo grado, l’ipersuperficie e detta iperpiano.

Corollario 5.2.21. Ogni varieta algebrica proiettiva e intersezione di un numero

finito di ipersuperfici.

Dimostrazione. Se W e definita dall’insieme J di polinomi omogenei, sia J ′ =

{p1, . . . , pm} (pi 6= 0 per ogni i) un sottoinsieme finito in J tale che < J >=< J ′ >.

Allora W e anche la varieta algebrica definita da J ′, quindi per l’Osservazione 5.2.11

coincide con l’intersezione

W = W1 ∩ · · · ∩Wm

dove Wi e l’ipersuperficie definita da pi.

Osservazione 5.2.22. Macaulay dimostro che non esiste limite al numero di iper-

superfici necessarie a definire una varieta proiettiva. Piu precisamente, per ogni m

esiste una varieta algebrica proiettiva V di PnK (K algebricamente chiuso) che non

puo essere definita da un insieme I contenente meno di m polinomi omogenei. V

non puo quindi essere ottenuta intersecando meno di m ipersuperfici.

Una varieta definita dall’annullarsi di tanti polinomi omogenei di primo grado (e

quindi intersezione di iperpiani) e detta varieta lineare.

Le varieta lineari corrispondono ovviamente a spazi proiettivi definiti da sottospazi

vettoriali di Kn.

Corollario 5.2.23. Se K e un campo algebricamente chiuso, la topologia di Zariski

su K e irriducibile, cioe l’intersezione di due aperti non vuoti A1, A2 e sempre non

vuota. In altri termini, ogni aperto non vuoto e denso nella topologia di Zariski.

In particolare, PnK e irriducibile.

Inoltre PnK e compatto.

Dimostrazione. Sia Wi la varieta algebrica proiettiva complementare di Ai. per

ipotesi W1,W2 6= PnK . Vogliamo provare che W1 ∪W2 6= PnK . Se J1, J2 sono insiemi

finiti di polinomi omogenei, tali che Ji definisce Wi, allora J1J2 e un insieme finito di

polinomi omogenei che definisce W1 ∪W2. Per ipotesi esistono polinomi pi ∈ Ji che

sono diversi da 0. Pertanto il loro prodotto p ∈ J1J2 e diverso da 0. Per il Lemma


5.2.7 esiste quindi un punto x = (x1, . . . xn+1) ∈ Kn+1 tale che p(x) 6= 0. Se P ∈ PnKe il punto di coordinate omogenee x, allora P /∈ W1 ∪W2 e la prima affermazione e

dimostrata.

La seconda affermazione discende facilmente dalla prima.

Per la terza, sia {Wi} una famiglia di varieta algebriche proiettive tali che⋂{Wi} =

∅. Allora se Ji e un insieme di polinomi omogenei che definisce Wi, la varieta definita

da J =⋃Ji corrisponde alla varieta definita da {1}. Sia I l’ideale generato da J .

Allora, per il Nullstellensatz,√I coincide con il radicale dell’ideale generato da 1

(che per inciso e tutto K[x1, . . . , xn+1]), quindi 1 ∈ √I. Questo significa che 1m ∈ Iper qualche m, quindi necessariamente 1 ∈ I. Allora esistono p1, . . . , ps ∈ J e

polinomi f1, . . . , fs tali che

1 = f1p1 + . . . fsps.

Posto pi ∈ Jai , si ha allora che 1 appartiene all’ideale generato da Ja1 ∪ · · · ∪ Jas .Pertanto i punti della varieta Wa1 ∩ · · · ∩Was devono annullare anche il polinomio

1: impossibile!

Ne segue che Wa1 ∩ · · · ∩Was = ∅, quindi PnK e compatto.

Poiche i chiusi di uno spazio compatto sono compatti, ne segue che tutte le varieta

proiettive sono compatte.

5.3 Prodotti di spazi proiettivi

Tutte le definizioni date precedentemente si possono estendere al caso di un prodotto

di spazi proiettivi.

Consideriamo in questa sezione un prodotto Pm1 × · · · × Pmn . Un punto di tale

prodotto corrisponde ad una classe di equivalenza in cui gli elementi sono n-uple di

(mi + 1)-uple

((a10, . . . , aim1), . . . , (an0, . . . , anmn))

in cui per ogni i si ha (ai1, . . . , aimi) 6= 0. Due tali elementi

a = ((a10, . . . , a1m1), . . . , (an0, . . . , anmn))

b = ((b10, . . . , bim1), . . . , bn0, . . . , bnmn))


stanno nella stessa classe se esistono costanti k1, . . . kn ∈ K (necessariamente tutte

non nulle) tali che per ogni i, j bij = kiaij.

La prima osservazione fondamentale e che un prodotto di spazi proiettivi non e

esso stesso uno spazio proiettivo.

Ad esempio, il prodotto P1 × P1 non e isomorfo a P2.

Osservazione 5.3.1. P1×P1 puo essere visto come l’insieme della coppie ((x0, x1), (y0, y1)) ∈(k2)2, in cui uno almeno fra x0, x1 e uno almeno fra y0, y1 sono diversi da 0, inoltre

due coppie ((x0, x1), (y0, y1)) e ((x′0, x′1), (y′0, y

′1)) sono identificate se esistono a, b ∈ C

tali che (x′0, x′1) = a(x0, x1) e (y′0, y

′1) = b(y0, y1).

Se consideriamo il sottoinsieme U00 di P1 × P1 formato da tutte le coppie per cui

x0 6= 0 e y0 6= 0, otteniamo una identificazione di U00 con K2, mandando P ∈ U00

nel punto (x1, y1) ∈ K2 che si ottiene prendendo il rappresentante di P in cui

x0 = y0 = 1. In questo senso, P1 × P1 contiene un sottoinsieme identificabile con il

sottoinsieme U0 ⊂ P2. Ma la compattificazione e differente: per P2, si aggiungono

a U0 i punti del tipo (0, x1, x2), in pratica i punti ottenuti mandando all’infinito la

seconda e la terza coordinata contemporaneamente (ma conservando memoria del

loro rapporto) mentre in P1 × P1 si aggiungono i punti del tipo ((0, x1), (y0, y1)) e

((x0, x1), (0, y1)), cioe si mandano all’infinito la x1 o la y1, in generale separatamente.

Detto ancora in altro modo, P2 fuori di U0 = K2 consiste in una retta, mentre

P1 × P1 fuori di U00 = K2 consiste in due rette (incidenti in ((0, 1), (0, 1))).

Definiamo le sottovarieta di un prodotto di spazi proiettivi, mediante l’annulla-

mento di polinomi multiomogenei.

Definizione 5.3.2. Diremo che un polinomio nelle variabili t10, . . . , t1m1 , . . . , tn0, . . . , tnmn

e multiomogeneo di multigrado d1, . . . , dn se e omogeneo di grado di rispetto alle

variabili ti0, . . . , timi , per ogni i.

E’ facile verificare che se p e un polinomio multiomogeneo di multigrado d1, . . . , dn,

dati due elementi a, b come sopra, che stanno nella stessa classe di equivalenza di

un punto del prodotto Pm1 × · · · × Pmn , allora p(b) = kd11 · · · kdnn p(a) e quindi

p(b) = 0 se e solo se p(a) = 0.

Resta pertanto definito il concetto di annullamento di un polinomio multiomoge-

neo su un punto di Pm1 × · · · × Pmn . E’ allora possibile la seguente


Definizione 5.3.3. Chiameremo varieta algebrica multiproiettiva ogni sottoinsie-

me di Pm1 × · · · × Pmn definito dall’annullarsi di una famiglia {pi} di polinomi

multiomogenei.

In pratica, le varieta algebriche multiproiettive sono le soluzioni di un sistema di

equazioni polinomiali multiomogenee.

Esempio 5.3.4. Dato un prodotto Pm1 × · · · × Pmn su K, sia, per ogni i, Yi una

varieta proiettiva in Pmi . Allora il prodotto Y1×· · ·×Yn e una varieta multiproiettiva.

Infatti, se per ogni i (fi1, . . . fisi) e un insieme di polinomi omogenei in ti0, . . . , tini che

definiscono Yi, allora il prodotto Y1×· · ·×Yn e definito dai polinomi multiomogenei

ottenuti eseguendo tutti i prodotti

fiiif2i2 · · · fnin .

Esempio 5.3.5. Ci sono esempi di varieta in Pm1 × · · · × Pmn che non sono il

prodotto di varieta sui singoli fattori.

Un esempio e dato dalla varieta proiettiva W definita da x1y2−x2y1 = 0 nel prodotto

P1 × P1.

Si noti infatti che la varieta non coincide con P1 × P1, mentre per ogni punto P di

coordinate (x1, x2) in P1 il punto (P, P ) sta in W , quindi W non e il prodotto di

due sottoinsiemi propri di P1.

Tutte le definizioni date per le varieta proiettive possono essere ripetuti per le

varieta multiproiettive. Le proprieta principali restano inalterate. ne mettiamo qui

di seguito un breve compendio.

Osservazione 5.3.6. Se W e una varieta algebrica multiproiettiva, definita dall’an-

nullarsi di un insieme J di polinomi multiomogenei, e J ′ ⊂ J e un altro insieme di

polinomi multiomogenei, allora la varieta W ′ definita da J ′ contiene W .

Si noti che si puo avere W = W ′ anche se J 6= J ′.

Osservazione 5.3.7. Le varieta algebriche multiproiettive in un prodotto X =

Pa1×· · ·×Pan formano un sistema di chiusi per una topologia, detta ancora Topologia

di Zariski su X.

X e irriducibile e compatto, in tale topologia. Le varieta multiproiettive sono

pertanto anch’esse compatte.


Osservazione 5.3.8. Se W e una varieta algebrica multiproiettiva, definita dal-

l’annullarsi di un insieme J di polinomi multiomogenei, allora W e anche definita

dall’annullarsi dei polinomi multiomogenei contenuti negli ideali I =< J > e√I.

Teorema 5.3.9. (Nullstellensatz multiomogeneo) Sia K un campo algebrica-

mente chiuso. Due ideali I1, I2 multiomogenei definiscono la stessa varieta algebrica

proiettiva se e solo se√I1 =

√I2.

Il Teorema 5.2.19 ci dice che ogni varieta algebrica multiproiettiva coincide con

le soluzioni di un sistema finito di equazioni polinomiali multiomogenee.

Definizione 5.3.10. Una varieta algebrica proiettiva e una ipersuperficie se e

definita in PnK dall’annullarsi di un singolo polinomio multiomogeneo p 6= 0.

Corollario 5.3.11. Ogni varieta algebrica multiproiettiva e intersezione di un nu-

mero finito di ipersuperfici.

5.4 Modelli algebrici proiettivi

Cosa ha a che fare tutto questo con la Statistica Algebrica?

Quando consideriamo una distribuzione D ∈ D(x), dove X e un sistema alea-

torio, stiamo in pratica registrando una serie di dati raccolti. Ai fini della nostra

interpretazione dei dati, e solitamente ininfluente (entro certi limiti ragionevoli) la

campionatura delle variabili.

Se ad esempio stiamo valutando l’efficacia di un farmaco, somministrare la medicina

a 100 malati ed avere 50 guariti, ci da la stessa informazione che somministrare la

medicina a 120 malati e registrare 60 guariti.

Nella nostra terminologia, normalmente una distribuzione ci da la stessa informa-

zione, sul fenomeno che vogliamo analizzare, di ogni sua scalatura.

In Statistica classica il problema viene risolto scegliendo fra tutte le diverse sca-

lature di una distribuzione, la distribuzione probabilistica associata, introdotta nella

Definizione 1.3.2. Tale distribuzione e univocamente determinata, a partire da una

distribuzione D, ma solo quando tutte le variabili hanno campionatura diversa da 0

in D.

CAPITOLO 5. STATISTICA ALGEBRICA PROIETTIVA COMPLESSA101

Le distribuzioni probabilistiche associate stanno tutte in un sottospazio lineare di

D(X) = Ks1×· · ·×Ksn , definito dai vettori v = ((a11, . . . , a1s1), . . . , (an1, . . . , ansn))

che soddisfano le equazioni

a11 + · · ·+ a1s1 = · · · = an1 + · · ·+ ansn = 1.

Nella nostra impostazione, invece, preferiremo considerare lo spazio (multi)proiettivo

delle distribuzioni.

Definizione 5.4.1. Dato un sistema aleatorio X, con variabili x1, . . . , xn, chiame-

remo spazio (multi)proiettivo delle distribuzioni lo spazio multiproiettivo

P(D(X)) = Pa1 × · · · × Pan

quando xi ha un numero di stati pari a ai + 1 (si noti l’aumento di 1!).

Gli elementi di P(D(X)) sono pertanto identificabili come classi di equivalenza,

ciascuna contenente una distribuzione D e tutte le sue scalature.

In tal modo raccorderemo piu facilmente la Geometria Algebrica (Proiettiva) con

lo studio di modelli statistici significativi.

In questa nuova visione, solo i modelli statistici indipendenti dalle scalature (mul-

ticoni) nello spazio delle distribuzioni hanno significato. Poiche la stragrande mag-

gioranza dei modelli importanti (se correttamente interpretati) sono indipendenti

dalla scalatura, quindi sono coni, la profondita di indagine della nostra teoria non

ne risentira.

Definizione 5.4.2. Chiameremo K-modello proiettivo su X ogni sottoinsieme di

P(DK(X)).

Chiameremo K-modello algebrico proiettivo su X ogni modello corrispondente ad

una sottovarieta (multi)proiettiva, definito quindi dall’annullarsi di polinomi mul-

tiomogenei.

C’e una naturale mappa suriettiva da D(X) \ 0 su P(D(X)). La controimmagine

di un modello proiettivo su X in tale proiezione e quindi un modello M su X, che

ha la seguente proprieta:

se D ∈M e D′ e una scalatura di D, con D′ 6= O, allora D′ ∈M .


Esempio 5.4.3. Il modello di indipendenza puo essere pensato come un modello

algebrico proiettivo, perche definito da tante equazioni multiomogenee (si veda il

Teorema 2.2.4).

Un modello lineare e algebrico proiettivo quando i polinomi lineari che lo definiscono

sono privi di termine noto.

Esempio 5.4.4. I modelli algebrici proiettivi su un sistema aleatorio X avente una

sola variabile (come una correlazione totale) sono strettamente legati ai coni dello

spazio vettoriale D(X).

Ogni cono definisce un modello proiettivo su X.

Viceversa, dato un modello proiettivo su X, la sua controimmagine nella proiezione

D(X)→ P(X) e un cono.

Esempio 5.4.5. Nel caso di un sistema formato da due dadi ordinari, lo spazio

proiettivo delle distribuzioni e P5 × P5. Lo spazio proiettivo delle distribuzioni di

ΠS e invece un P35, corrispondente allo spazio proiettivo delle matrici 5× 5.

Se S e un sistema aleatorio formato da un dado e da una moneta, lo spazio proiettivo

delle distribuzioni e P5 × P1. In questo caso si osservi che l’unica variabile della

correlazione totale ΠS ha 10 stati, quindi in questo caso lo spazio proiettivo delle

distribuzioni di ΠS e P9.

Se un sistema aleatorio S e formato da n variabili booleane, allora il suo spazio pro-

iettivo delle distribuzioni e un prodotto di n copie di P1, mentre lo spazio proiettivo

delle distribuzioni di ΠS e P2n−1.

5.5 Mappe proiettive

Per determinare l’analogo dei modelli parametrici nel caso proiettivo, abbiamo

bisogno di definire il concetto di mappa tra varieta proiettive.

Definizione 5.5.1. Sia W ⊂ Pa1 × · · · × Pan una varieta algebrica multiproiettiva.

Diremo che una funzione

f : W → PN

e una mappa proiettiva se e definita da polinomi multiomogenei, tutti dello stesso

multigrado. Cioe esistono polinomi multiomogeei p0, . . . , pN , dello stesso multigrado,


tali che ogni punto P ∈ W , P di coordinate ((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)), il

punto f(P ) ha coordinate

(p0((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)), . . .

. . . pN((x01, . . . , x0a1), . . . , (xn1, . . . , xnan))).

Una mappa proiettiva pertanto puo anche essere descritta da equazioni parame-

triche: y0 = p0((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)

... = ...

yN = pN((x01, . . . , x0a1), . . . , (xn1, . . . , xnan)

Definizione 5.5.2. Sia W una varieta algebrica multiproiettiva. Diremo che una

funzione

f : W → Pb1 × · · · × Pbm

e una mappa proiettiva se tutte le sue componenti lo sono.

Esempio 5.5.3. Un esempio di mappa proiettiva si ottiene considerando spazi pro-

iettivi Pn e Pm, con n ≤ m e la mappa f : Pn → Pm, f = (p0(x0, . . . , xn), . . . , pm(x0, . . . , xn))

dove

pi(x0, . . . , xn) =

{xi se i ≤ n

0 altrimenti.

Questo esempio e il prototipo di una serie di applicazioni (iniettive) di spazi proiet-

tivi, dette immersioni lineari.

L’immagine della mappa precedente e infatti essa stessa uno spazio proiettivo,

equivalente a un sottospazio lineare.

Attenzione che la mappa non esiste quando n > m!

Infatti in questo caso il punto P ∈ Pn di coordinate (0, . . . , 0, 1) avrebbe per

immagine il punto di coordinate (0, . . . , 0), ma non esiste un tale punto in Pm.

L’osservazione precedente ci fa capire che non basta prendere dei polinomi mul-

tiomogenei per definire una mappa proiettiva.

In altri termini, m + 1 polinomi multiomogenei p0, . . . , pm in n + 1 incognite non

necessariamente definiscono una mappa proiettiva f : X ⊂ Pn → Pm. E’ anche

necessario che in ogni punto P ∈ X, ci sia almeno un polinomio pi tale che pi(P ) 6= 0.

Il viceversa e contenuto nella seguente osservazione generale.


Proposizione 5.5.4. Polinomi multiomogenei

p10, . . . , p1,b1 , . . . , pm,0, . . . , pm,bm

nelle variabili x10, . . . , x1a1 , . . . , xn0, . . . , xnan definiscono una mappa proiettiva da

una varieta X ⊂ Pa1 × · · · × Pan a uno spazio Pb1 × · · · × Pbm quando per ogni

i = 1, . . . ,m:

- tutti i polinomi pij hanno grado fissato dj in ciascun gruppo di variabili xj0, . . . , xjaj ;

- per ogni P ∈ X e per ogni i esiste almeno un indice j tale che pij(P ) 6= 0.

Osservazione 5.5.5. Sia W ⊂ PnK una varieta algebrica proiettiva. Chiameremo

mappa lineare f : W → PmK una mappa proiettiva in cui tutti i polinomi sono

omogenei di grado uno in ogni variabile.

Una tale mappa e quindi associata ad una applicazione lineare F fra spazi vettoriali

Kn+1 → Km+1. Viceversa, ogni applicazione lineare F : Kn+1 → Km+1 definisce

una mappa lineare W → PmK , quando W non interseca il sottospazio proiettivo

associato a Ker(F ).

Presi polinomi p0, . . . , pm lineari omogenei nelle variabili x0, . . . , xn, questi defini-

scono una sottovarieta proiettiva lineare L di Pn (che puo essere vuota, se n ≤m.

I polinomi definiscono anche una mappa lineare f : X ⊂ Pn → Pm quando su ogni

punto di X uno almeno di loro non si annulla. Cio equivale a chiedere che L∩X = ∅.

Un esempio di mappe lineari e dato dalle immersioni lineari Pn → Pm, m ≥ n,

definite nell’esempio 5.5.3.

Esempio 5.5.6. Consideriamo un’applicazione lineare Kn+1 → Km+1 indotta dai

polinomi p0, . . . , pm e suriettiva.

Se m < n, tale applicazione non puo definire una mappa proiettiva f : Pn → Pm.

Infatti sicuramente esiste almeno un vettore non nullo Kn+1 in cui tutti i polinomi

pi si annullano.

Se pero indichiamo con L il sottospazio proiettivo di Pn definito da p0 = · · · = pm = 0

e X e una sottovarieta di Pn che non interseca L, allora i polinomi pi definiscono

una mappa proiettiva f : X → Pm.

Tale mappa, che schiaccia X in uno spazio proiettivo di dimensione inferiore, e detta

proiezione di X da L.


Esempio 5.5.7. Cambiamenti di coordinate. Nello spazio Kn+1 sia B una

base, definita dai vettori v0, . . . , vn. Se B′ = {w0, . . . , wn} e un’altra base di Kn, la

funzione lineare F : Kn+1 → Kn+1 che manda ogni vi in wi definisce una mappa

proiettiva lineare f : PnK → PnK che prende il nome di cambiamento proiettivo di

coordinate.

Se B e la base canonica e wi = (ui0, . . . , uin, allora f e definita dai polinomi lineari

p0, . . . , pn, dove pi = ui0x0 + · · ·+ uin. E’ chiaro che non puo esistere un punto che

annulla tutti i pi, altrimenti tale punto avrebbe tutte le coordinate nulle rispetto

alla base B′, quindi corrisponderebbe al vettore nullo.

La mappa f e ovviamente invertibile.

Si noti che i cambiamenti di coordinate possono essere visti come casi limite

di immersioni lineari, o anche di proiezioni, quando le dimensioni dei due spazi

coincidono.

Per i nostri studi, grande importanza hanno le versioni proiettive delle mappe di

Segre e di Veronese, che sono state introdotte rispettivamente in 2.1.21 e 2.3.14.

Esempio 5.5.8. Abbiamo visto in precedenza che un prodotto di spazi proiettivi

non e in generale uguale ad uno spazio proiettivo.

Vediamo che, tuttavia, ogni prodotto di spazi proiettivi puo essere immerso in uno

spazio proiettivo singolo.

Consideriamo il prodotto Pa1 × · · · × Pan . Posto N = −1 + Π(a1 + 1), definiamo

un’immersione f prendendo tutti i polinomi multiomogenei (di multigrado (1, . . . , 1))

della forma x1i1x2i2 · · · xnin con ij = 0, . . . , aj (e facile verificare che tali polinomi

sono esattamente Π(a1 + 1)). Preso un ordinamento di tali polinomi, definiamo

un’immersione ponendo, per ogni punto P del prodotto, di coordinate zij,

f(P ) = (p0(zij), . . . , pN(zij))

dove pi e l’i-esimo polinomio nell’ordinamento scelto.

In pratica, si manda P nella N -upla di tutti i prodotti fra n delle sue coordinate,

ottenuti prendendo un fattore fra le prime d1, un fattore fra le seconde d2, eccetera.

Si noti che in ogni punto di X esiste almeno una coordinata su ciascun fattore Pdi

che e non-nulla, quindi f(P ) e ben definito perche, in ogni componente, almeno uno

dei prodotti e diverso da 0.


Queste mappe, che sono tutte equivalenti a meno di un riordinamento delle coordi-

nate di PN , sono ben note in Geometria e corrispondono alla maniera piu semplice

per immergere un prodotto di spazi proiettivi in un unico spazio proiettivo.

Esse prendono il nome di mappe di Segre e le loro immagini prendono il nome di

varieta di Segre.

E’ facile vedere che le mappe di Segre soddisfano in effetti le condizioni della

Proposizione 5.5.4.

Verifichiamo che ogni mappa di Segre e effettivamente iniettiva.

Supponiamo di avere due punti P,Q, di coordinate rispettivamente zij, wij, tali che

f(P ) = f(Q). Supponendo per semplicita zj0 6= 0 per ogni j, si noti che si deve

avere, per ogni k

z10 · · · zjk · · · z0n = αj w10 · · ·wjk · · ·wn0

con αj costante che dipende solo da j. Pertanto le coordinate zj0, . . . , zj,aj so-

no proporzionali alle coordinate wj0, . . . , wj,aj . Dato che questo vale per ogni j,

l’assertoP = Q e dimostrato.

Esempio 5.5.9. Fissati interi positivi n, d, posto

M = −1 +

(n+ d

d

),

consideriamo le mappe iniettiva f : Pn → PM cosı definite: prendiamo tutti i mono-

mi monici di grado d nelle variabili x0, . . . , xn (e facile verificare che tali monomi sono

esattamente M + 1) e ordiniamoli, ottenendo una (M + 1)-upla (p0, . . . , pM). Defi-

niamo un’immersione ponendo, per ogni punto di Pn avente coordinate z0, . . . , zn,

f(P ) = (p0(z0, . . . , zn), dots, pM(z0, . . . , zn)

dove pi e l’i-esimo polinomio nell’ordinamento scelto. Questa mappe, che sono tutte

equivalenti a meno di un riordinamento delle coordinate di PM , prendono il nome

di mappe di Veronese e le loro immagini prendono il nome di varieta di Veronese di

grado d.

E’ facile vedere che le mappe di Veronese soddisfano in effetti le condizioni della

Proposizione 5.5.4.


Osservazione 5.5.10. Consideriamo il prodotto Pn × · · · × Pn (d copie). Dentro il

prodotto abbiamo una varieta proiettiva ∆, detta diagonale, definita da tutti i punti

della forma (P, . . . , P ). Chiaramente ∆ puo essere identificato con un’immersione

lineare di Pn in Pn × · · · × Pn.

Una mappa di Segre f manda ∆ in un sottoinsieme di PN , dove N = −1 + (n +

1)s. Si consideri un sottoinsieme J dei polinomi della forma x1i1x2i2 · · ·xnin , in cui

non vi siano due elementi x1i1x2i2 · · ·xnin e x1j1x2j2 · · ·xnjn che differiscono per una

permutazione sui secondi indici, e sia J massimale.

E’ facile verificare che J e formato da M = −1+(n+dd

)elementi. Se L e il sottospazio

in cui tali polinomi si annullano, si puo verificare facilmente che L ∩ f(∆) = ∅.Componendo f|∆ con la proiezione PN \L→ PM , si ottiene esattamente una mappa

di Veronese di grado d, Pn → PM .

Esempio 5.5.11. Nel caso di Y = P1 × P1 × P1, una mappa di Segre Y → P7 si

ottiene prendendo i polinomi

p0 = x00x10x20, p1 = x00x10x21, p2 = x00x11x20, p3 = x00x11x21,

p4 = x01x10x20, p5 = x01x10x21, p6 = x01x11x20, p7 = x01x11x21.

Scartando i polinomi p2, p4, p5, p6, che presentano permutazioni, e restringendo al-

la diagonale, si ottiene la mappa di Veronese P1 → P3 che manda (a0, a1) in

(a30, a

20a1, a0a

21, a

31).

Siamo ora in grado di definire i modelli parametrici proiettivi su X.

Definizione 5.5.12. Se X, Y sono sistemi aleatori, chiameremo connessione pro-

iettiva ogni mappa proiettiva Γ : P(D(Y )) → P(D(X)). Si noti in particolare che

se Γ e una connessione proiettiva, allora l’immagine di ogni scalatura D′ di una

distribuzione D e una scalatura di γ(D).

Diremo che un modello M e parametrico proiettivo se e immagine in P(D(X)) di

una connessione proiettiva Γ.

Molti modelli parametrici interessanti hanno un corrispettivo parametrico proiet-

tivo.

Esempio 5.5.13. Il modello di indipendenza e parametrico proiettivo. Sia infatti

X un sistema aleatorio con variabili x1, . . . , xn e sia ai + 1 il numero di stati della


variabile xi. Allora la correlazione totale ΠX ha un’unica variabile, con Π(ai + 1)

stati.

Il modello di indipendenza du X corrisponde alla mappa

P(D(X)) = Pa1 × · · · × Pan → P(D(ΠX)) = PM

(M = −1 + Π(ai + 1)) definita da:... = ...

ti1,...,in = a1i1a2i2 · · · anin... = ...

Dove abbiamo numerato le coordinate di un elemento di P(D(ΠX)), come al solito,

identificando tale elemento come tensore.

E’ evidente dalla stessa definizione che,il modello di indipendenza corrisponde ad

una varieta di Segre (si confronti con l’Esempio 2.1.21).

Si noti che in generale M e molto grande rispeto agli ai. Ad esempio se n = 3 e

a1 = a2 = a3 = 3, allora M = 63 e il modello corrisponde alla varieta di Segre di

P3 × P3 × P3 immersa in P63.

Ricordiamo che il prodotto P1 × P1 non e isomorfo a P2. Tramite la mappa di

Segre, P1 × P1 corrisponde ad una superficie in P3, immagine data da

((x1, x2), (y1, y2)) 7→ (x1y1, x1y2, x2y1, x2y2)

cioe, in termini parametrici: a11 = x1y1

a12 = x1y2

a21 = x2y1

a22 = x2y2

Tale superficie, che rappresenta il modello di indipendenza (proiettivo) di un sistema

booleano con due variabili, e definita da un’unica equazione (determinante della

corrispondente matrice 2× 2) a11a22 = a12a21.

Esempio 5.5.14. Su un sistema aleatorio con tre variabili x1, x2, x3, il modello sen-

za correlazione tripla dell’esempio 4.2.6 non e, strettamente parlando, parametrico

proiettivo.


Infatti, riprendendo la terminologia dell’esempio, tale modello e definito conside-

rando il modello S ′ dato dall’unione delle correlazioni totali dei tre sottosistemi

di S che si ottengono cancellando a turno una delle variabili. S ′ ha anch’esso tre

variabili, corrispondenti a (x1, x2), (x1, x3), (x2, x3). I modelli senza correlazione tri-

pla si ottengono dalla connessione da S ′ a S, che manda ogni terna di matrici

(A,B,C) ∈ D(S ′), con A ∈ Cd1,d2 , B ∈ Cd1,d3 , C ∈ Cd2,d3 , nel tensore D ∈ D(ΠS)

definito da

D(i, j, k) = A(i, j)B(i, k)C(j, k).

E’ chiaro che tutte le componenti di questa mappa sono multiomogenee dello stesso

grado, ma non definiscono una mappa

Pd1d2−1 × Pd1d3−1 × Pd2d3−1 → Pd1d2d3−1.

perche se A,B,C sono tutte e tre non nulle, non e tuttavia detto che la loro immagine

sia non nulla.

Se restringiamo tale modello ad un opportuno modello X di distribuzioni su S ′,

otteniamo tuttavia una ben definita mappa da una varieta X ⊂ P3 × P3 × P3 in P7.

Tale mappa si ottiene componendo la mappa di Segre P3 × P3 × P3 → P63 con una

opportuna proiezione P63 → P7.

Il fatto che l’immagine di una mappa di Segre possa essere interpretata come

modello (proiettivo) di indipendenza di un sistema aleatorio, tramite il Teorema

2.2.4, ci garantisce che le varieta di Segre sono tutte varieta proiettive.

Vediamo come, in tutta generalita, esistano modelli parametrici proiettivi che

non sono modelli algebrici.

Esempio 5.5.15. Consideriamo due sistemi aleatori X, X ′, ciascuno con una sola

variabile booleana.

Identifichiamo entrambi gli spazi di distribuzione proiettivi su R P(D(X)) e P(D(X ′))

con P1R. Si puo definire una connessione proiettiva Γ : P(D(X)) → P(D(X ′))

ponendo Γ(x0, x1) = (x20, x

21).

E’ facile verificare che l’immagine W di Γ contiene infiniti punti di P1R. Ma non

tutti: infatti il punto di coordinate omogenee (1,−1) non sta nell’immagine.

D’altra parte, ogni varieta proiettiva in P1R, essendo definita dall’annullarsi di un

polinomio omogeneo in due variabili, o coincide con P1R, oppure puo contenere solo

un numero finito di punti.


Quindi W non puo essere una varieta proiettiva.

Esempio 5.5.16. Riprendiamo la situazione rappresentata nell’Esempio 4.3.4.

Ricordiamo che la situazione iniziale corrisponde ad un sistema booleano X con una

variabile (di stati A,B) mentre la situazione finale corrispondeva a un sistema X ′

con una sola variabile che poteva assumere i 3 valori AA,AB,BB.

La connessione Γ, definita da Γ(a, b) = (a2, 2ab, b2), e chiaramente una mappa pro-

iettiva fra P(D(X)) = P1R e P(D(X ′)) = P2

R. L’immagine corrisponde al sottoinsieme

W ⊂ P2R definito dai punti che soddisfano l’equazione y2 = 4xz.

Si osservi pero che non tutte le coordinate omogenee di tali punti possono essere

ottenute nella mappa. Infatti il punto P di coordinate (1, 2, 1) sta nell’immagine (si

ottiene per (a, b) = (1, 1), ma nessuna coppia di R2 da (−1,−2,−1), che pure sono

coordinate di P .

5.6 Il Lemma di Chow

Il problema degli esempi precedenti consiste nel fatto che lavoriamo su un campo Rche non e algebricamente chiuso.

Quando lavoriamo su un campo K algebricamente chiuso, come C, i problemi

precedenti scompaiono. Cio e provato dal Teorema detto Lemma di Chow.

Dimostreremo tale Lemma, di importanza fondamentale in Statistica Algebrica,

con una serie di proposizioni.

Proposizione 5.6.1. Ogni mappa proiettiva e continua, nella topologia di Zariski.

Dimostrazione. Basta osservare che la controimmagine della varieta definita da I =

{Fi} ⊂ K[y0, . . . , ym] e la varieta definita dai polinomi

{Fi(p0, . . . , pm)} ⊂ C[x0, . . . , xn].

Dalla Proposizione precedente, segue che le mappe di Segre e di Veronese, cosı

come le immersioni lineari, sono funzioni continue, nelle topologie di Zariski.

E’ anche chiaro che i cambiamenti di coordinate sono omeomorfismi di PnK in se.


Dato un prodotto di spazi proiettivi Pd1 × · · · × Pdn , per ogni indice i possiamo

considerare la proiezione sul fattore i-esimo

πi : Pd1 × · · · × Pdn → Pdi .

Dalla proposizione precedente otteniamo che, in particolare, tutte le proiezioni su

fattori sono continue.

Osservazione 5.6.2. Ricordiamo che ogni applicazione lineare F : Ka → Kb, il cui

nucleo ha dimensione h ≥ 0, puo essere espressa come combinazione F = F2oF1 di

applicazioni lineari, dove

� F1 e una suriezione Ka → Ka−h e

� F2 e un’immersione Ka−h → Kb.

Proposizione 5.6.3. Ogni mappa f da una varieta proiettiva X ⊂ Pn in Pm puo

essere scritta come combinazione f = ιoπoν dove

� ι e una immersione proietiva;

� π e una proiezione;

� ν e una mappa di Veronese.

Dimostrazione. Sia f una tale mappa, definita dai polinomi omogenei di grado d

q0, . . . , qm. Cio significa che f manda un punto P = (a0, . . . , an) ∈ X nel punto di

Pm definito da

f(P ) = (q0(a0, . . . , an), . . . , qm(a0, . . . , an)).

Se indichiamo con p0, . . . , pM i monomi monici di grado d nelle variabili x0, . . . , xn,

avremo per ogni i

qi =∑j

uijpj

con uij elementi di K.

Sia F : Kn+1 → Km+1 l’applicazione lineare definita dalla matrice U = (uij). Scri-

viamo, come indicato nella osservazione precedente, F = F2oF1 dove F2 e iniettiva

e F1 e suriettiva. Allora F1 induce una proiezione π : X → Pn−h, dove h e la dimen-

sione del nucleo di F . Infatti nessun punto P = (a0, . . . , an) ∈ X puo appartenere


al nucleo di F , perche in tal caso f(P ) corrisponderebbe alla (m + 1)-upla nulla.

Inolte F2 induce un’immersione ι : Pn−h → Pm.

Non resta che verificare che f = ιoπoν, dove ν e la mappa di Veronese di grado d

su Pn.

Per ogni P = (a0, . . . , an) ∈ X, si ha che ιoπoν(P ) e uguale a F (ν(a0, . . . , an)), ma

ν(a0, . . . , an) = (p0(a0, . . . , an), . . . , pM((a0, . . . , an))

e quindi

ιoπoν(P ) = (∑j

u0jpj(a0, . . . , an), . . . ,∑m

umjpj(a0, . . . , an))

che e proprio uguale a (q0(a0, . . . , an), . . . , qm(a0, . . . , an)) = f(P ).

Possiamo generalizzare la proposizione precedente (ma complicando un po’ la

notazione!) al caso di varieta multiproiettive, utilizzando la mappa di Segre.

Proposizione 5.6.4. Ogni mappa multiproiettiva f da una varieta multiproiettiva

X ⊂ Pm0 ×Pmn in Pm puo essere scritta come combinazione f = ιoπoσo(ν0, . . . , νn)

dove

� ι e una immersione proietiva (eventualmente un cambiamento di coordinate);

� π e una proiezione (eventualmente un cambiamento di coordinate);

� σ e una mappa di Segre Pm0×Pmn → PM , con M = −1+(M0−1) · · · (Mn−1)

e Mi = −1 +(ni+didi

)per ogni i ;

� ciascun νi e una mappa di Veronese.

Dimostrazione. Sia f una tale mappa, definita dai polinomi multiomogenei q0, . . . , qm

di multigrado d1, . . . , dn. Cio significa che f manda un punto

P = ((a00, . . . , a0m0 , . . . , (an0, . . . , anmn)) ∈ X

nel punto (q0(P ), . . . , qm(P )) di Pm.

Indichiamo con pi0, . . . , piMii monomi monici di grado di nelle variabili xi0, . . . , ximi

e indichiamo con rj1,...,jn i prodotti di monomi

rj0,...,jn = p0j0 · · · pnjn


avremo per ogni i

qi =∑j0,...,jn

ui,(j0,...,jn)rj0,...,jn

con ui,(j0,...,jn) elementi di K.

Sia F : KM+1 → Km+1 l’applicazione lineare definita dalla matrice U = (ui,(j0,...,jn)).

Scriviamo F = F2oF1 dove F2 e iniettiva e F1 e suriettiva. Siano π e ι la proiezione e

l’immersione indotte rispettivamente da F2 e F1. Si puo verificare come sopra che su

X la mappa f coincide con ιoπoσo(ν0, . . . , νn), dove ciascun νi e la mappa di Veronese

di grado di, νi : Pmi → PM−i e σ e la mappa di Segre PM0 × · · · × PMn → PM .

Riassumendo quindi, se

f : X ⊂ Pm0 × · · · × Pmn → PM0 × · · · × PMk

e una mappa multiproiettiva, allora ogni componente fi di f puo essere scritta come

combinazione fi = ιioπioσio(νi0, . . . , νin come indicato nella proposizione precedente.

Per provare che i modelli parametrici proiettivi su un campo K algebricamen-

te chiuso sono modelli algebrici, e quindi sufficiente provare che le immersioni, le

proiezioni, le mappe di Segre e quelle di Veronese sono chiuse, nella topologia di

Zariski.

Proposizione 5.6.5. Ogni proiezione π : X ⊂ Pn → Pm, m ≤ n, e chiusa (nella

topologia di Zariski), cioe manda chiusi in chiusi.

In particolare, l’immagine di una proiezione e una varieta algebrica.

Dimostrazione. A patto di combinare π on un cambiamento di coordinate, che e un

omeomorfismo e quindi e chiuso, possiamo supporre che π sia definita da

π(y0, . . . , yn) = (y0, . . . , ym)

(proiezione sulle prime m+ 1 coordinate).

Sia W ⊂ X un chiuso nella topologia di Zariski di Pn, definito dall’ideale omo-

geneo radicale I ⊂ K[y0, . . . , yn]. Identificando K[y0, . . . , ym] come sottoanello di

K[y0, . . . , yn], poniamo J = I ∩ K[y0, . . . , ym]. Allora J e un ideale (omogeneo)

di K[y0, . . . , ym] che definisce esattamente l’insieme f(W ). Infatti e chiaro che se


P ∈ Pn sta in W , allora P annulla tutti i polinomi di I, quindi f(P ), le cui coordinate

coincidono con le prime m+1 coordinate di P , annulla tutti i polinomi di J . Vicever-

sa sia Q = (q0, . . . , qm) ∈ Pm un punto le cui coordinate annullano tutti i polinomi di

J . Facciamo vedere che esistono qm+1, . . . , qn tali che P = (q0, . . . , qm, qm+1, . . . , qn)

sta in W , il che vuol dire che Q = f(P ) ∈ f(W ).

Consideriamo l’insieme di polinomi U = {p(q0, . . . , qm, ym+1, . . . , yn) : p ∈ I} ottenu-

to sostituendo parzialmente le coordinate di Q nei polinomi di I. U puo essere consi-

derato come un ideale di K[ym+1, . . . , yn]. Se dimostriamo che esistono qm+1, . . . , qn,

che annullano tutti gli elementi di U , abbiamo trovato cio che cercavamo.

Verifichiamo la precedente affermazione. Innanzitutto operiamo per induzione sul

numero di variabili, cosı da poter supporre n = m + 1. Analogamente possiamo

intersecare X con gli spazi lineari di equazioni qix0 − q0xi, i ≥ 2, in modo da

ricondurci a m = 1. Infine, operando un cambio di variabili, possiamo supporre

(q0, q1) = (1, 0). In definitiva, ci siamo ricondotti a verificare che, nelle nostre

ipotesi, se (1, 0) annulla tutti i polinomi omogenei di J ∩ K[y0, y1], allora esiste

q2 ∈ K tale che la terna (1, 0, q2) annulla tutti i polinomi di J .

Ragioniamo per assurdo. Se q2 non c’e, per il Nullstellensatz esiste f ∈ J tale che

f(1, 0, y2) non si annulla. Quindi f e della forma

f = f0 + y2f1 + · · ·+ ya2fa

dove f0, . . . , fa sono polinomi di K[y0, y1] tali che f1(1, 0) = · · · = fa(1, 0) = 0

mentre f0(1, 0) 6= 0, quindi f0 = yd0 + y1f′0, per qualche d > 0 e f ′0 ∈ K[y0, y1].

D’altra parte, ricordiamo che X, quindi anche W , non devono intersecare il luogo

definito da y0, . . . , ym = 0, altrimenti la proiezione di X non e definita. Cio vuol

dire, nel nostro caso, che J contiene un polinomio g del tipo g = yb0 +y0h0 +y1h1 con

b ≥ 1. Allora, con l’algoritmo mcm di Gauss nell’anello dei polinomi (K[y0, y1])[y2],

applicato a f, g si arriva a determinare un elemento p ∈ J della forma p = ye0 + y1p′0

con e > 0 e p′0 ∈ K[y0, y1]. Tale p sta in J ∩ K[y0, y1] e non si annulla in (1, 0),

assurdo.

Proposizione 5.6.6. Ogni immersione ι : X ⊂ Pn → Pm, m ≥ n, e chiusa (nella

topologia di Zariski), cioe manda chiusi in chiusi.

In particolare, l’immagine di una immersione e una varieta algebrica.


Dimostrazione. A patto di combinare ι on un cambiamento di coordinate, possiamo

supporre che essa sia definita da

π(y0, . . . , yn) = (y0, . . . , yn, 0, . . . , 0)

(immersione sulle prime m+ 1 coordinate).

Sia W ⊂ X un chiuso nella topologia di Zariski di Pn, definito dall’ideale omo-

geneo radicale I ⊂ K[y0, . . . , yn]. Identificando K[y0, . . . , yn] come sottoanello di

K[y0, . . . , ym], poniamo J = I+ < yn+1, . . . , ym >. Allora J e un ideale (omo-

geneo) di K[y0, . . . , ym] che definisce esattamente l’insieme f(W ). Infatti e chiaro

che se P ∈ Pn sta in W , allora f(P ) annulla tutti i polinomi di I e i polinomi

yn+1, . . . , ym. Viceversa sia Q = (q0, . . . , qm) ∈ Pm un punto le cui coordinate an-

nullano tutti i polinomi di J . Allora qn+1 = · · · = qm = 0, quindi Q = f(P ) con

P = (q0, . . . , qn) ∈ Pn. Inoltre P deve annullare chiaramente tutti i polinomi di

J ∩ K[y0, . . . , yn] ⊃ I, quindi P ∈ W e Q ∈ f(W ). Facciamo vedere che esistono

qm+1, . . . , qn tali che P = (q0, . . . , qm, qm+1, . . . , qn) sta in W , il che vuol dire che

Q = f(P ) ∈ f(W ).

Le due proposizioni precedenti sistemano le mappe proiettive lineari, nel senso

che provano che tutte le mappe proiettive lineari sono chiuse.

Passiamo ora alla mappa di Veronese.

Proposizione 5.6.7. Le mappe di Veronese sono chiuse.

Dimostrazione. Sia ν : Pn → PN , con N = −1 +(n+dd

), la mappa di Verone-

se di grado d su Pn. Determiniamo equazioni algebriche per V = ν(Pn). Siano

M0, . . . ,MN i monomi monici di grado d nelle variabili y0, . . . , yn, numerati secondo

un ordinamento scelto. Fissiamo monomi

Ma = ys00 · · · ysnn Mb = yt00 · · · ytnn

e individuiamo due indici si, tj > 0. Fissiamo q ≤ min{si, tj} e scriviamo:

Mc = ys00 · · · ysi−qi · · · ysj+qj · · · ysnn

Md = yt00 · · · yti+qi · · · ytj−qj · · · ytnn .


E’ chiaro che MaMb = McMd e questo porta ad una equazione quadrica omogenea

xaxb − xcxd = 0 che e soddisfatta da tutti i punti dell’immagine V di ν.

Viceversa, l’insieme di tali equazioni algebriche definisce esattamente l’immagine,

cioe ogni punto che soddisfa tutte le equazioni sopra costruite deve stare in ν(Pn).

Infatti assumiamo M0 = yd0 e sia Q un punto che soddisfa tutte le equazioni sopra

costruite, Q = (q0, . . . , qm). Supponiamo per cominciare che q0 6= 0. Dato che i

tratta di coordinate proiettive, si puo assumere allora q0 = 1. Se assumiamo Mi =

ydi , i = 1, . . . , n poniamo pi = una radice d-esima di qi (si noti che esiste perche il

campo e algebricamente chiuso). Otteniamo allora un punto P = (1, k1, . . . , kn) ∈ Pn

che ha per immagine esattamente Q.

Per provare l’affermazione, procediamo per induzione sul numero di incognite n.

Se n = 0, l’affermazione e banale. Per n generico sia Mk il monomio ye00 · · · yenn e

proviamo che qk e proprio uguale a pe00 · · · penn . In effetti, si ha MkM0 = MrMs dove

Mr = yd−e10 ye11 Ms = yd−e2−···−en0 ye22 · · · yenn

(vale anche se n = 1: basta porre y2 = · · · = yn = 0) e poiche il numero di

variabili di Mr,Ms e minore di n, si ha per induzione qr = pd−e10 pe11 = pe11 e anche

qs = pe22 · · · pnen quindi

qk = MkM0(Q) = MrMs(Q) = pe00 · · · penn .

Qualora fosse q0 = 0, si cambia semplicamente y0 con un’alta incognita. Se infatti

qi = 0 per i = 0, . . . , n il ragionamento fatto sopra portebbe all’assurdo che qj = 0

per ogni j.

Rimane solo da provare che

Teorema 5.6.8. Ogni mappa di Segre e chiusa.

Dimostrazione. Per induzione, eseguendo un prodotto alla volta, sara sufficiente

dimostrare l’enunciato nel caso del prodotto di due spazi proiettivi, Pp × Pq.Cominciamo col provare che l’immagine di una mappa di Segre σ : Pp×Pq → PN =

Ps, s = pq + p+ q − 1 e chiusa.

Indichiamo con x0, . . . , xp le coordinate in Pp, con y0, . . . , yq le coordinate in Pq e

con z00, . . . , zpq le coordinate nello spazio Ps. Per ogni scelta di indici 0 ≤ i, j ≤ p,


0 ≤ k,m ≤ q, e chiaro che tutti i punti dell’immagine della mappa di Segre soddisfa-

no l’equazione quadratica omogenea zikzjm−zimzjk = 0. Verifichiamo che, viceversa,

se un punto Q ∈ PN soddisfa tutte queste equazioni quadratiche, allora Q sta nel-

l’immagine della mappa di Segre. Sia Q = (q00, . . . , qpq) e supponiamo per semplicita

che q00 6= 0, cosicche si possa assumere q00 = 1 (un conto analogo vale sostituendo

q00 con qualsivoglia coordinata non nulla). Poniamo P = (1, q10, . . . , qp0) ∈ Pp e

P ′ = (1, q01, . . . q0q) ∈ Pq e verifichiamo che σ(P ′, P ) = Q. In effetti, le equazioni di

cui sopra garantiscono che qij = qijq00 e uguale a q0jqi,0, come avviene per σ(P ′, P ).

Prendiamo ora chiusi W di Pp e U di Pq, definiti rispettivamente dall’annullarsi

dei polinomi di I ⊂ C[x0, . . . , xp] e J ⊂ C[y0 . . . , yq]. Verifichiamo che l’immagine

f(W × U) nella mappa di Segre e chiusa.

Sia φj : C[x0, . . . , xp] → C[z00, . . . , zpq] la mappa definita mandando un polinomio

omogeneo g(x0, . . . , xn) di grado d in

φ(g) = ydj g(x0, . . . , xp) = g(x0yj, . . . , xnyj) = g(z0j, . . . , znj).

In modo analogo definiamo ψj : C[y0, . . . , yq] ∈ C[z00, . . . , zpq]. Allora posto

I ⊕ I ′ =⋃

φj(I) ∪⋃

ψj(I′)

si ha che f(W ×U) e definito da I ⊕ I ′ e dalle equazioni zikzjm− zimzjk = 0. Infatti

ogni punto dell’immagine di X × Y soddisfa tutti i polinomi zikzjm − zimzjk = 0 e

tutti i polinomi di I ⊕ I ′. Viceversa, se un punto R di Ps soddisfa tutte le equazioni

zikzjm − zimzjk = 0, allora per quanto detto sopra R e uguale a σ(P, P ′) con P =

(a0, . . . , ap) ∈ Pp e P ′ = (b0, . . . , bq) ∈ Pq. Sia j un indice tale che bj 6= 0 per ogni

g ∈ I di grado d il punto (P, P ′) deve annullare gydj ∈ I⊕I ′, quindi P deve annullare

g. Ne segue che P ∈ W . In modo analogo si prova che P ′ ∈ U .

Corollario 5.6.9. (Lemma di Chow) Tutte le mappe multiproiettive sono chiuse.

Dal Lemma di Chow, segue immediatamente:

Teorema 5.6.10. Ogni modello parametrico proiettivo e un modello algebrico pro-

iettivo.

Questo teorema generalizza la situazione gia vista per il modello di indipendenza

e spiega come ogni modello parametrico proiettivo puo essere definito sulla base di

equazioni polinomiali omogenee.


La dimostrazione del Lemma di Chow e dei teoremi che lo precedono spiega anche

in teoria come si possono trovare le equazioni omogenee di un modello parametrico

proiettivo.

Come ci si rende conto facilmente, non e affatto agevole seguire le indicazioni per

trovare un insieme effettivo di equazioni, anche con l’ausilio dei mezzi di calcolo.

L’uso delle basi di Groebner, che vedremo in un capitolo successivo, permette di

ottimizzare questo procedimento.

Dovrebbe invece essere evidente il vantaggio di presentare un modello con delle

equazioni omogenee (equazioni implicite), invece che tramite equazioni parametri-

che, nella pratica quotidiana della statistica algebrica: per testare se un dato feno-

meno, cioe una data distribuzione, rientra nel modello immaginato da una teoria

(in parole piu fantasiose: se un esperimento conferma o meno una teoria), una volta

note le equazioni implicite, e sufficiente verificare se la distribuzione le soddisfa. Un

conto simile e elementare, per ogni singola equazione. Nella pratica quotidiana, la

complicazione deriva solo dal fatto che normalmente ogni modello e descritto da un

numero astronomico di equazioni, a volte con coefficienti approssimati. I problemi

pero possono essere gestiti con metodi di ricerca a campione e controllo degli errori.

Dovendo invece mostrare che una data distribuzione appartiene ad un modello di

cui si conoscono solo equazioni parametriche, il problema si sposta nel mostrare

l’esistenza di parametri per cui la funzione di parametrizzazione restituisce la distri-

buzione di partenza. Un problema di esistenza simile e estremamante difficile da

controllare, anche in presenza di poche, precise equazioni. Figuriamoci quando le

equazioni sono migliaia, a coefficienti approssimati!

5.7 Teoria della dimensione

Uno dei concetti di base per le varieta proiettive (o multiproiettive), che purtroppo

e anche uno dei piu difficili da introdurre in modo elementare, e il concetto di

dimensione.

Per quanto possa sembrare strano, non e facile definire in modo rigoroso la dimen-

sione di una varieta proiettiva. Vi sono molteplici definizioni, che pero fanno ricorso

a concetti non banali di Algebra, quali il grado di trascendenza di una estensione di

campi, o la dimensione di un modulo graduato. Alternativamente vi sono definizioni


che fanno ricorso a concetti non banali di Geometria Proiettiva, quali la definizione

di elemento generico di una famiglia.

Alla base di tutto, c’e la definizione di componente irriducibile di una varieta.

Siccome il concetto di dimensione e rilevante per alcune applicazioni della Geo-

metria Algebrica alla Statistica, in questo capitolo ripercorriamo brevemente alcuni

concetti chiave nello studio della dimensione di una varieta, senza approfondire le

dimostrazioni, per le quali rimandiamo a testi base di Algebra Commutativa quali

[ZariskiSamuel] o [AtiyahMacdonald].

Definizione 5.7.1. Data una varieta algebrica proiettiva X ⊂ Pn, definita dal-

l’ideale omogeneo radicale saturato I, chiameremo anello delle coordinate di X il

quoziente

A(X) = C[x0, . . . , xn]/I.

A e un anello graduato che contiene C.

Esempio 5.7.2. I punti diX, in cui ad esempio x0 6= 0, corrispondono ad ideali della

forma 〈x1 − a1x0, . . . , xn − anx0〉 che contengono I. Tali ideali sono omogenei, non

massimali in C[x0, . . . , xn] in quanto sono contenuti nell’ideale massimale generato

da x0, . . . , xn. Prendono il nome di ideali omogenei submassimali. Poiche contengono

I, possono essere facilmente identificati con ideali dell’anello delle coordinate A(X).

Definizione 5.7.3. Uno spazio topologico X e irriducible se comunque presi due

aperti non vuoti di X, la loro intersezione e non vuota.

Tutti gli spazi proiettivi, con la loro topologia di Zariski, sono irriducibili.

Una conica semplicemente degenere nel piano (con la topologia di Zariski) e invece

riducibile.

Proposizione 5.7.4. La varieta algebrica proiettiva X ⊂ Pn, definita dall’ideale

omogeneo radicale saturato I, e irriducibile se e solo se I e un ideale primo.

Dal Teorema di decomposizione primaria degli ideali (vedi [AtiyahMacdonald],

cap.4) si ottiene:

Proposizione 5.7.5. Ogni varieta algebrica proiettiva X ⊂ Pn, e decomponibile

nell’unione finita di varieta algebriche irriducibili. Gli elementi di una decomposi-

zione si chiamano componenti irriducibili di X. Se consideriamo solo le componenti


massimali, rispetto all’inclusione, la decomposizione di X in componenti irriducibili

e unica.

Esempio 5.7.6. Una conica semplicemente degenere nel piano puo essere decom-

posta nell’unione delle sue due rette componenti, che sono varieta irriducibili.

Si osservi che, a differenza delle componenti connesse,le componenti irriducibili

di una varieta possono avere intersezione non vuota.

Definizione 5.7.7. Sia X ⊂ Pn una varieta algebrica proiettiva irriducibile. L’i-

deale I che definisce X e pertanto primo, quindi l’anello delle coordinate A =

C[x0, . . . , xn]/I e un dominio di integrita.

Il campo dei quozienti K(A) di A e un’estensione di C.

Chiameremo dimensione di X il grado di trascendenza dell’estensione K(A)/C,

meno 1 (perche trattasi comunque di dimensione proiettiva).

Se X non e irriducibile, chiamremo dimensione di X la dimensione massima delle

sue componenti irriducibili.

Esempio 5.7.8. Lo spazio proiettivo Pn ha per anello delle coordinate C[x0, . . . , xn]

e il grado di trascendenza del campo dei quozienti e n+1. Pertanto Pn ha dimensione

n (e ci sarebbe stato da stupirsi del contrario!).

Esempio 5.7.9. Sia φ : Pm → Pn un’immersione proiettiva. Allora l’immagine X

di φ e una varieta algebrica irriducibile di dimensione m.

Infatti l’irriducibilita segue dal fatto che Pm e irriducibile. Se consideriamo X come

definita da equazioni parametriche associate a φx0 = p0(y0, . . . , ym)

. . . . . .

xn = pn(y0, . . . , ym)

allora si verifica che la funzione che manda xi in pi descrive un isomorfismo fra il

campo dei quozienti dell’anello delle coordinate di X e C[y0, . . . , ym].

Esempio 5.7.10. Se X ′ ⊂ X sono due varieta irriducibili, allora A(X ′) e un

quoziente di A(X), quindi dim(X ′) ≤ dim(X).

In realta, l’irriducibilita di X fa sı che l’uguaglianza fra le dimensioni implichi X =

X ′ (vedi [AtiyahMacdonald], XXX).


Esempio 5.7.11. L’esempio precedente si puo estendere per provare che data un’im-

mersione proiettiva φ : Pm1 × · · · × Pms → Pn, l’immagine X di φ e una varieta

algebrica irriducibile di dimensione (m1 + · · ·+ms).

Corollario 5.7.12. La dimensione della varieta di Veronese di Pn in PN , di qual-

sisasi grado d, e n.

La dimensione della varieta di Segre data sdall’immersione di Segre di Pm1×· · ·×Pms

in PN e (m1 + · · ·+ms).

Corollario 5.7.13. Data una varieta multiproiettiva X ⊂ Pm1 × · · · × Pms, di

dimensione ν, la sua immagine in una immersione φ di Pm1 × · · · × Pms in PN , ha

ancora dimensione ν, in quanto, quando X e irriducibile, i campi dei quozienti degli

anelli delle coordinate di X e della sua immagine coincidono.

Cio in particolare e vero quando φ e un’immersione di Segre o di Veronese.

Nel seguito, applicheremo lo studio della dimensione a modelli che provengono

da funzioni polinomiali. A tal proposito risulta fondamentale il seguente principio.

Teorema 5.7.14. Sia φ una mappa definita dall’annullarsi di polinomi, da un aperto

Y ⊂ Pm (nella topologia di Zariski) in Pn. Sia X ⊂ Pm una varieta algebrica di

dimensione s. Sia X ′ la chiusura, nella topologia di Zariski di Pn, dell’immagine

φ(X ∩ Y ). Allora dim(X ′) ≤ dim(X).

Dimostrazione. Ci possiamo limitare al caso in cui X,X ′ sono entrambe irriducibili.

La mappa φ corrisponde alla scelta di equazioni parametrichey0 = φ0(x0, . . . , xm)

. . . . . .

yn = φn(x0, . . . , xm)

dove i φi sono polinomi che si annullano mai contemporaneamente in un punto di Y .

Tale mappa definisce un omomorfismo di anelli A(X ′)→ A(X) ottenuto mandando

appunto ciascun yi in φ(x0, . . . , xn). Tale mappa induce un omomorfismo sui campi

dei quozionti K(X ′)→ K(X), che e ovviamente suriettivo.

Un enunciato analogo vale nel caso multiproiettivo:

.

Esistono altre caratterizzazioni della dimensione di una varieta.


Proposizione 5.7.15. Data una varieta proiettiva irriducibile X e un suo punto

P , associato all’ideale omogeneo mP = 〈x1 − a1x0, . . . , xn − anx0〉, (dove quindi

si suppone che la coordinata x0 del punto P sia non nulla), consideriamo l’anel-

lo A(X)P = (1/x0)(A(X)), che e un sottoanello del campo dei quozienti di X,

contenete A(X).

L’ideale mP e ancora primo in A(X)P . Si verifica che mP/m2P (in A(X)P ) e uno

spazio vettoriale di dimensione finita su C.

Lo spazio mP/m2P e deto spazio tangente di Zariski di X in P e la dimensione di

tale spazio vettoriale si chiama dimensione di immersione di X in P . Tale spazio

non dipende, a meno di isomorfismi, dalla scelta di una coordinata non nulla di P .

Se X e irriducibile, esiste un aperto di X nella topologia di Zariski formato di punti

P tali che la dimensione di immersione di X in P coincide con la dimensione di X.

I punti per cui la dimensione di immersione non e uguale alla dimensione di X si

chiamano punti singolari di X.

Esempio 5.7.16. Consideriamo la curva X definita dall’equazione x21x0 − x3

2 = 0

nel piano proiettivo P2.

Il campo dei quozienti dell’anello delle coordinate di X e un’estensione algebrica di

C(x0, x1), quindi ha grado di trascendenza 2 su C. Pertanto, come era facilmente

prevedibile, dim(X) = 1.

Consideriamo il punto P = (0, 1, 0) ∈ X. L’ideale submassimale di P e mP generato

da x0, x2 (e difatti x1x2 ∈ mP ). Consideriamo l’anello A(X)P = (1/x1)(A(X)). In

tale anello, x0 = (1/x21)(x3

2), quindi x0 ∈ m2P . Allora mP/m

2P e generato dal solo

elemento x2, quindi ha dimensione 1, come spazio vettoriale su C.

Se invece prendiamo il punto Q = (1, 0, 0), si ha A(X)Q = (1/x0)(A(X)). In tale

anello, non si ha x1 ∈ m2Q (mentre invece x2

1 = (1/x0)(x32) ∈ m3

Q, ma cio non ci

interessa). Anzi x1, x2 sono linearmente indipendenti in mQ/m2Q. Allora Q e un

punto singolare di X.

Altre caratterizzazioni della dimensione possono essere trovate nel capitolo delle

basi di Groebner.

Capitolo 6

Indipendenza condizionata

Un caso intermedio fra l’indipendenza totale e situazioni generiche di dipendenza

delle variabili aleatorie riguarda le cosiddette indipendenze condizionate.

Per comprendere il significato pratico dei modelli di indipendenza condizionata,

partiamo da due esempi

Esempio 6.0.17. Riprendiamo un esempio, presentato da B. Sturmfels in una

conferenza, e citato come leggenda metropolitana.

In Inghilterra, una rivista specializzata in statistiche curiose commissiono uno studio

sul seguente problema: essere tifosi di calcio incrementa la perdita di capelli?

Gli autori dello studio intervistarono molte persone, riportando le risposte a due

domande:

A) Sei tifoso di calcio? (riposte possibili 1=no, 2= un po, 3= tanto).

B) Perdi i capelli? (riposte possibili 1=no, 2= un po, 3= tanto).

I risultati vennero poi elencati nella seguente matrice 3× 3

M =

B \ A 1 2 3

1 72 41 152 60 55 453 40 70 82

Come si vede facilmente, la matrice non ha rango 1.

Interpretiamo il fatto in termini di Statistica Algebrica.

Il sistema aleatorio di partenza X comprendere due variabili (A = tifoso di calcio,

B = perdita di capelli), ciascuna con tre stati. M e la distribuzione su ΠX che

123


nasce dall’indagine. Poiche M non ha rango 1, cioe non appartiene al Modello di

Indipendenza su ΠX, le due variabili non sono indipendenti.

In altri termini, essere tifosi di calcio influisce sulla perdita di capelli.

Il risultato e sorprendente, ancorche inequivocabile conseguenza dei dati raccolti e

la rivista si lancio in una serie di interpretazioni sul caso.

In realta l’interpretazione vera era molto semplice. Un indizio sulla soluzione del

mistero era contenuto nel fatto che la matrice M ha rango 2.

La rivista infatti aveva mescolato, nel risultato dell’indagine, il dato relativo a due

gruppi distinti: Uomini e Donne. Il gruppo U e piu incline ad essere tifoso di calcio

e a perdere i capelli rispetto al gruppo D. La disomogeneita del campione portava

ad un risultato falsato, infatti dividendo i risultati dell’indagine rispetto ad una

ulteriore variabile booleana (il genere G del campione) si ottiene un tensore 3×3×2

la cui scansione lungo il terzo indice (alto - basso) e fatta di due matrici di rango 1

T =

20 − − 10 − − 2/ | / | / |

50 − + 25 − + 5 |/ | 6 | | 6 | | |

70 − + 35 + + 7 | | || | | 20 + + 60 + − 80| | 6 | | 6 | | /| 10 + − 30 + − 40| / | / | /2 − − 6 − − 8

La precedente matrice M rappresenta la marginalizzazione relativamente al primo

indice. Quindi M e somma di due matrici di rango 1, ed infatti ha rango 2.

Si noti che le due variabili di partenza A,B sono davvero dipendenti fra loro, nel

seguente modo: se una persona e soggetta a perdita di capelli, e piu probabile che

sia uomo, quindi e piu probabile che sia tifoso di calcio (nell’esempio citato, in effetti

un po’ datato, si prendeva come dato di fatto che gli uomini sono piu soggetti delle

donne alla perita di capelli, e sono anche piu inclini ad seguire il calcio).

Il fatto che M , pur non indicando una indipendenza delle due variabili, avesse rango

minore del massimo consentito doveva suggerire ai ricercatori una connessione fra le

due variabili, mediata da una variabile nascosta G.

Un esempio simile e il seguente

CAPITOLO 6. INDIPENDENZA CONDIZIONATA 125

Esempio 6.0.18. Questo esempio e un altro classico dello studio statistico algebrico:

l’esempio di una ricerca scientifica che porta ad un risultato solo apparentemente

significativo.

L’osteoporosi e una malattia delle ossa che colpisce principalmente persone anziane.

Poniamoci il problema: avere una patente di guida ha effetto sulla vulnerabilita

all’osteoporosi?

La domanda e apparentemente idiota: come puo la sensibilita ad una malattia

delle ossa essere influenzata dal possesso della patente? Eppure paradossalmente i

risultati sembrerebbero affermare il contrario.

Un ricercatore infatti, per studiare il fenomeno, costruisce un sistema aleatorio for-

mato da due variabili booleane: il possesso della patente e lo stato di malattia. Poi

considera una popolazione di persone anziane, diciamo 100 individui, li esamina ri-

spetto al possesso della patente e allo stato delle ossa, e costruisce una distribuzione

D sulla correlazione totale. Il risultato e espresso dalla matrice:(13 3722 28

)La matrice esprime il fatto che 13 persone hanno contemporaneamente patente e

osteoporosi, 37 hanno la patente ma non l’osteoporosi, eccetera.

Il risultato e incontrovertibile! La matrice di D ha determinante −450, quindi e ben

lontana dall’aver rango 1. Pertanto c’e correlazione fra l’avere la patente e contrarre

l’osteoporosi. Nel caso specifico e chiaro, dall’esame dei risultati, che avere la patente

rende meno probabile il manifestarsi dell’osteoporosi. Grande scoperta inattesa.

Una ricerca del genere rischia di finire su qualche giornale scientifico serio (speriamo

di no!) e di essere ripresa da telegiornali di mezzo mondo. Si potrebbero creare

attese infondate di guarigione, con schiere di vecchietti e vecchiette all’assalto delle

scuole-guida. Ci sarebbero magari dei clinici pronti a spiegare che la guida dei veicoli,

causa il movimento dei pedali e del volante, costituisce un allenamento benefico che

tonifica le ossa e le rende piu resistenti all’osteoporosi.

Purtroppo dobbiamo spengere facili entuasmi, perche la realta e un po’ diversa.

Il punto debole dell’esperimento statistico sta nel fatto che il campione scelto non

e omogeneo. Infatti fra gli individui selezionati vi sono mescolati uomini e donne

anziane. Se la scelta del campione e casuale, e probabile che si abbia una suddivisione

paritaria: 50 uomini e 50 donne. L’osteoporosi pero non colpisce i due sessi in modo


omogeneo. le donne sono molto piu sensibili alla malattia rispetto agli uomini.

D’altra parte, specie nella popolaione anziana, per un uomo e assai piu consueto

avere la patente rispetto ad una coetanea donna.

La situazione si chiarifica se il sistema aleatorio scelto ha 3 variabili: al possesso della

patente x1 e alla osteoporosi x2 aggiungiamo la variabile booleana x3 che indica il

sesso (0 = uomo, 1 = donna). Nella correlazione totale di tale sistema, che e un

tensore di dimensione 3 e tipo (2, 2, 2), la distribuzione reale e:

D′ =

20 − − 20� | � |

5 − + 5 || 2 + − 8| � | �8 − − 32

che non ha certo rango 1, in quanto vi sono sottomatrici di determinante diverso

da 0. Il tensore ci dice che (x1 t x2|{x3}), in quanto le matrici superiore e infe-

riore hanno entrambe rango 1, cioe fissando la popolazione maschile o femminile,

in entrambe si vede che il possesso della patente non influisce sulla probabilita di

contrarre l’osteoporosi, come era largamente prevedibile.

Si noti che D rappresenta la marginalizzazione di D′ lungo x3, quindi non e vero che

x1 t x2. In altre parole, x1 e x2 sono effettivamente dipendenti fra loro. Che senso

ha questa affermazione? La si deve leggere cosı. Pendiamo un soggetto z che ha la

patente di guida. Essendo maggiore la percentuale dei patentati che sono uomini

piuttosto che donne, e piu probabile che z sia un uomo. Come tale, e meno probabile

che sviluppi l’osteoporosi. Viceversa, se un soggetto ha l’osteoporosi, e piu probabile

che sia di sesso femminile, quindi e meno probabile che abbia la patente.

La nostra percezione resta ancora un po’ perplessa. Il motivo sta nel fatto psicolo-

gico che la proprieta di essere uomo o donna, per un individuo, e vista ovviamen-

te come assai piu fondamentale rispetto all’avere la patente o anche allo sviluppo

dell’osteoporosi.

Gli esempi sopra esposti spiegano l’utilita di introdurre concetti di indipendenza

condizionata di variabili aleatorie e anche il concetto di variabili nascoste.


6.1 Modelli di indipendenza condizionata

Introduciamo in questa sezione il concetto di indipendenza condizionata e mostriamo

le sue proprieta di base.

Per tali condizioni, faremo riferimento ai concetti di Algebra Tensoriale contenuti

nella sezione sulla marginalizzazione, che qui riportiamo.

Definizione 6.1.1. (Definizione 2.4.7) Per ogni tensore T ∈ Kd1,...,dn , e per ogni

R ⊂ Jn, chiameremo scansione di T lungo R l’insieme formato dagli elementi ERQ,

dove Q varia nell’insieme delle funzioni Q : R ∈ Z, coerenti con (d1, . . . , dn).

Chiameremo marginalizzazione di T lungo R il tensore T ′ dato dalla somma di tutti

gli elementi appartenenti alla scansione di T lungo R.

Definizione 6.1.2. Sia S un sistema aleatorio con variabili X = {x1, . . . , xn}.Sia A ⊂ Jn. Una distribuzione D sulla correlazione totale di S soddisfa la condizione

tA (o anche che A e indipendente) se la marginalizzazione di D lungo Jn \ A ha

rango 1.

Posto B = Jn \ A, diremo che D soddisfa la condizione tA|B (che si legge A e

indipendente, dato B) se tutti gli elementi della scansione di D lungo B hanno

rango 1.

Le definizioni precedenti possono essere generalizzate e cumulate nella seguente. Se

A,B sono sottoinsiemi disgiunti di Jn, diremo che D soddisfa la condizione tA|B(A e indipendente, dato B) se, posto C = Jn \ (A ∪ B), la marginalizzazione D′ di

D lungo C soddisfa la condizione tA|B, cioe tutti gli elementi della scansione di D′

lungo B hanno rango 1.

Quando A = {xi, xj} ha due elementi, scriveremo anche xi t xj e xi t xj|B al

posto di tA e tA|B rispettivamente.

E’ chiaro che tA e equivalente a tA|B con B = ∅.

Esempio 6.1.3. Il tensore

D =

1 − − 0� | � |

1 − + 3 || 0 + − 1| � | �1 − − −1


descrive una distribuzione sulla correlazione totale di un sistema booleano con tre

variabili x1, x2, x3.

In D, si ha x1 t x2, in quanto la marginalizzazione lungo x3 da(1 12 2

)Tuutavia, in D non si ha x1 t x3, perche la marginalizzazione lungo x2 da:(

4 10 1

)Esempio 6.1.4. Il tensore

6 − − 3� | � |

2 − + 1 || 2 + − 2| � | �1 − − 1

sulla correlazione totale di un sistema booleano con tre variabili x1, x2, x3, descrive

una distribuzione D per cui si ha (x1 t x2|{x3}), in quanto le due sottomatrici che

si ottengono prendendo x3 = 0 e x3 = 1 hanno entrambe rango 1.

Si noti che in D non si ha x1 t x2, in quanto la marginalizzazione lungo x3 da:(8 53 2

)che ha rango 2.

I due esempi precedenti 6.0.17 e 6.0.18 rappresentano situazioni in cui le due

variabili iniziali sono indipendenti, data la terza variabile (il genere).

Esempio 6.1.5. Prendiamo la catena di trasmissione di un segnale booleano, strut-

turata in una centrale A e due sedi B,C scollegate fra loro, rappresentate dal grafo

orientato in figura:� = A

↙ ↘B = � � = C

Ammettiamo che agli spigoli AB, AC siano associate rispettivamente le matrici


MAB =

23

13

13

23

MAC =

45

15

15

45

Tali matrici rappresentano la trasmissione del segnale, nel senso che se A trasmette

30 volte il segnale 0, B trascrive la distribuzione MAB · (30, 0) = (20, 10), cioe

trascrive 20 volte il segnale 0 e 10 volte il segnale 1. Analogamente C trascrive la

distribuzione MAC · (30, 0) = (24, 6).

Se la centrale A emette un segnale formato di 30 bit 0 e 30 bit 1, la distribuzione

risultante dal modello grafico, nel sistema boolenao con tre variabili A,B,C, e data

dal tensore:

D′ =

2 − − 16� | � |

4 − + 8 || 8 + − 4| � | �

16 − − 2

Si osservi che il tensore non ha rango 1, infatti le tre variabili non sono indipendenti.

D’altra parte, le due sottomatrici che si ottengono fissando A = 0 e A = 1 hanno

entrambe determinante nullo, quindi (B t C|A). Invece, la marginalizzazione del

tensore nella direzione di A da la matrice:(12 1818 12

)che ha rango 2, pertanto non e vero che B t C.

In effetti, se non si considera l’apporto della centrale A, il fatto che B riceva uno

0 rende probabile che il bit emesso fosse davvero 0, quindi rende piu probabile che

C riceva anche lui uno 0. Allora, se non conosciamo lo stato di A, B e C sono

effettivamente dipendenti. Se invece conosciamo positivamente anche lo stato di A,

allora B e C possono ricevere in modo corretto o erroneo, indipendentemente fra

loro.

Definizione 6.1.6. Le matrici utilizzate nell’esempio precedente sono di un tipo

molto utilizzato nelle applicazioni della Statistica Algebrica, specialmente per la

teoria delle stringhe di simboli (segnali digitali, DNA, eccetera). Esse prendono il

nome di matrici di Jukes-Cantor.


In generale, una matrice di Jukes-Cantor e una matrice quadrata n × n in cui gli

elementi sulla diagonale sono tutti uguali ad un valore a, mentre tutti gli altri

elementi sono uguali ad un valore b.

Tali matrici rappresentano il fatto che, ad esempio nella trasmissione di un segnale,

se la trasmittente A emette un valore xi, la probabilita che la stazione B riceva cor-

rettamente xi e proporzionale ad a, indipendentemente da xi, mentre la probabilita

di un errore di ricezione (proporzionale a (n−1)b) si distribuisce equamente su tutti

gli altri valori xj, j 6= i.

Proposizione 6.1.7. Sia M una matrice n × n di Jukes-Cantor a valori reali,

che sulla diagonale ha il valore a mentre fuori della diagonale ha il valore b, con

a > b > 1. Allra M ha rango n.

Dimostrazione. Facciamo induzione sul rango. I casi n = 1, 2 sono banali. Per n

generico, si noti che cancellando ultima riga e ultima colonna, si ottiene una matrice

di Jukes-Cantor di tipo (n− 1)× (n− 1). Possiamo allora supporre, per induzione,

che le prime n− 1 righe di M siano linearmente indipendenti.

Se l’ultima riga Rn e combinazione lineare delle precedenti, cioe esiste una rela-

zione

Rn = a1R1 + · · ·+ an−1Rn−1,

allora confrontando l’ultimo elemento, si ottiene a = (a1 + · · · + an−1)b, per cui

(a1 + · · · + an−1 > 1. Quindi almeno uno degli ai e positivo. per fissare le idee,

mettiamo che sia a1 > 0. Confrontando i primi elementi delle righe, si ha allora

b = a1a+ (a2 + · · ·+ an−1b > (a1 + a2 + · · ·+ an−1)b > b,

una evidente contraddizione.

Esempio 6.1.8. Torniamo all’esempio 3.4.19 della scuola con due sezioni A,B, in

cui vengono distribuite borse di studio. Mettiamo che la situazione dopo 25 anni sia

data da:

D =

(9 66 4

)La matrice definisce una distribuzione sulla correlazione totale del sistema booleano

che ha due variabili A,B, corrispondenti alle due sezioni. Poiche la matrice ha rango


1, questa distribuzione indica l’indipendenza fra le possibilita di A,B di avere una

borsa.

Introduciamo una terza variabile aleatoria N , che vale 0 se l’anno e normale, cioe

viene distribuita una sola borsa, e 1 se l’anno e eccezionale, cioe vengono distribuite

2 borse oppure non ne vengono distribuite affatto. Nella correlazione totale del

nuovo sistema, si ottiene necessariamente la distribuzione definita dal tensore:

D′ =

0 − − 4� | � |

9 − + 0 || 6 + − 0| � | �0 − − 6

in quanto negli anni normali solo una delle due sezioni ha la borsa, cosa che non

puo’ capitare negli anni eccezionali.

Il tensore D′ non ha chiaramente rango 1. Si noti inoltre che gli elementi della

scansione di D′ lungo N non hanno rango 1. In effetti, sia negli anni eccezionali

che in quelli normali, sapere se la sezione A ha avuto o meno la borsa addirittura

determina il fatto che B l’abbia avuta o meno.

D’altra parte A t B, perche la marginalizzazione di D′ lungo la variabile N da la

matrice D, che e di indipendenza.

Definizione 6.1.9. Fissato un insieme di condizioni (tAi|Bi) come sopra, le distri-

buzoni che le soddisfano tutte formano un modello in D(ΠS). A tali modelli si da

il nome di modelli di indipendenza condizionata.

Proposizione 6.1.10. I modelli di indipendenza condizionata sono tutti modelli

algebrici omogenei, definiti da equazioni di grado ≤ 2.

I modelli di indipendenza condizionata sono tutti modelli parametrici polinomiali.

Ogni modello definito da una singola condizione (tA|B) e un modello torico, a patto

di un cambiamento omogeneo di coordinate.

Dimostrazione. Grazie alla proposizione 2.2.4, sappiamo che imporre ad un tensore

di avere rango 1 corrisponde ad annullare certi determinanti 2×2. Le equazioni che si

ottengono sono polinomiali omogenee (di secondo grado). Pertanto ogni condizione


(tA|B) e definita dalla composizione di equazioni quadratiche e una marginalizza-

zione, quindi dalla composizione di equazioni quadratiche e lineari. Pertanto e il

risultante modello e algebrico.

Per dimostrare la seconda affermazione, notiamo che se D soddisfa una condizione

(tA|B) con A ∪ B = Jn (cioe non si ha marginalizzazione) per ogni elemento D′

della scansione di D lungo B devono esistene v1 . . . , va, con a = cardinalita di A, tali

che D′ = v1 ⊗ · · · ⊗ vn. E’ chiaro che tale condizione e parametrica polinomiale, di

fatto torica. Quando A∪B = Jn, la stessa cosa vale sui coefficienti che si ottengono

dalla marginalizzazione, i quali dipendono linearmente dai coefficienti di D.

Esempio 6.1.11. Consideriamo un sistema booleano S con tre variabili {x1, x2, x3},in modo che lo spazio delle distribuzioni D(ΠS) corrisponda allo spazio dei tensori

di tipo (2, 2, 2).

Il modello determinato da (x1 t x2|x3) contiene tutte le distribuzioni D che soddi-

sfano: {D(1, 1, 1)D(1, 2, 2)−D(1, 2, 1)D(1, 1, 2) = 0

D(2, 1, 1)D(2, 2, 2)−D(2, 2, 1)D(2, 1, 2) = 0

Lo stesso modello puo essere descritto parametricamente da:

D(1, 1, 1) = ac

D(1, 2, 1) = ad

D(1, 1, 2) = bc

D(1, 2, 2) = bd

D(2, 1, 1) = a′c′

D(2, 2, 1) = a′d′

D(2, 1, 2) = b′c′

D(2, 2, 2) = b′d′

e quindi e torico.

Il modello determinato da x1 t x2 contiene tutte le distribuzioni D che soddisfano:

(D(1, 1, 1) +D(2, 1, 1))(D(1, 2, 2) +D(2, 2, 2))−

− (D(1, 2, 1) +D(2, 2, 1))(D(1, 1, 2) +D(2, 1, 2)) = 0 (6.1.1)


oppure dalle distribuzioni definite da:(D(1, 1, 1) +D(2, 1, 1)) = ac

(D(1, 2, 2) +D(2, 2, 2)) = bd

(D(1, 2, 1) +D(2, 2, 1)) = ad

(D(1, 1, 2) +D(2, 1, 2)) = bc

che corrisponde al modello parametrico polinomiale:

D(1, 1, 1) = x

D(2, 1, 1) = ac− xD(1, 2, 2) = y

D(2, 2, 2) = bd− yD(1, 2, 1) = z

D(2, 2, 1) = ad− zD(1, 1, 2) = t

D(2, 1, 2) = bc− t

Questa ultima parametrizzazione, nelle nuove coordinate D′(i, j, k) con D′(1, j, k) =

D(1, j, k), D′(2, j, k) = D(1, j, k) +D(2, j, k), diviene

D′(1, 1, 1) = x

D′(2, 1, 1) = ac

D′(1, 2, 2) = y

D′(2, 2, 2) = bd

D′(1, 2, 1) = z

D′(2, 2, 1) = ad

D′(1, 1, 2) = t

D′(2, 1, 2) = bc

che rappresenta un modello torico.

6.2 Catene e alberi di Markov

Fra tutte le situazioni che riguardano l’indipendenza condizionata, un importante

caso a parte e rappresentato dalle catene di Markov.


Nella pratica comune, si chiama catena di Markov un sistema aleatorio in cui le

variabili sono strattamente ordinate e in cui lo stato in cui ai trova ciascuna variabile

e determinato esclusivamente dallo stato in cui si trova la variabile precedente.

Se l’esclusivita e intesa in senso stetto, alte condizioni quali il tempo o fattori

esterni al sistema non influenzano il passaggio da una variabile a quella onsecutiva.

Pertanto, se in una distribuzione D di campionatura c, in cui la variabile xi si

trova sempre nello stato ε, la variabile xi+1 si trova d volte nello stato csi, allora

in una distribuzione di campionatura 2c, in cui la variabile xi si trova sempre nello

stato ε, la variabile xi+1 si deve trovare 2d volte nello stato csi.

E se in un’altra distribuzione D′ di campionatura c′, in cui la variabile xi si trova

sempre nello stato ε′, la variabile xi+1 si trova d′ volte nello stato csi, allora in una

distribuzione di campionatura c+ c′, in cui la variabile xi si trova c volte nello stato

ε e c′ volte nello stato ε′, la variabile xi+1 si deve trovare d+ d′ volte nello stato csi.

Resta allora giustificata la seguente:

Definizione 6.2.1. Sia X un sistema aleatorio le cui variabili sono x1, . . . , xn

(che considereremo ordinate). Sia ni il numero di stati della variabile xi. Siano

M1, . . . ,Mn−1 matrici, dove ciascuna Mi ha ni colonne e ni+1 righe.

Chiameremo modello di Markov di matrici M1, . . . ,Mn−1 il modello sulla corre-

lazione totale di X, formato dalle distribuzioni D, la cui marginalizzazione totale

(v1, . . . , vn), vi ∈ Kni , soddisfa tutte le seguenti condizioni:

vi+1 = Mivi, i = 1, . . . , n− 1.

Chiameremo semplicemente modello di Markov il modello sulla correlazione to-

tale di X, formato dalle distribuzioni D che soddisfano un modello di Markov, per

qualche scelta delle matrici.

Esempio 6.2.2. Consideriamo un sistema formato da tre centrali A,B,C che si

trasmettono un segnale booleano. A trasmette il segnale a B, che a sua volta lo

ritrasmette a C. Il segnale e disturbato secondo le matrici di Jukes -Cantor

M =

34

14

14

34

N =

23

13

13

23


Se A trasmette 60 volte 0 e 120 volte 1, la distribuzione che si osserva sulla correla-

zione totale e:

D =

10 − − 60� | � |

15 − + 10 || 5 + − 30| � | �

30 − − 20

La marginalizzazione totale di D e data da (60, 120), (75, 105), (85, 95). Poiche si

ha:

M(60//120

)=(75//105

)N(75//105

)=(85//95

)allora D e una distribuzione del modello di Markov associato alle matrici M,N .

Come si vede bene nell’esempio precedente, quando ci sono te variabili il modello

di Markov di matrici M,N e formato da distribuzioni D = (Dijk) i cui Dijk =

djMijNjk, dove (d1, . . . , dn) rappredsenta la marginalizzazione di D sulle variabili

x2, x3.

Proposizione 6.2.3. Le distribuzioni del modello di Markov sono esattamente le

distribuzioni che soddisfano tutte le indipendenze condizionate

xi t xj|xk

per ogni scelta di i, j, k tali che i < j < k.

Dimostrazione. Diamo solo un cenno della dimostrazione.

Un verso lo dimostriamo per n = 3. Se D soddisfa un modello di Markov, relativa-

mente alle matrici M,N allora posta (v1, v2, v3) la marginalizzazione totale di D, si

consideri R = {2} e Q : R→ Jn2 , Q(2) = j. Per quanto detto in seguito all’esempio

6.2.2, l’elemento R,Q di D e dato da un multiplo di Cj ⊗ Rj, dove Cj e la j-esima

colonna di M mentre Rj e la j-esima colonna di N . Pertanto tutti questi elementi

hanno rango 1.

Il caso generale si risolve marginalizzando la distribuzione D in modo da restrin-

gerla alle sole variabili xi, xj, xk.

Per il viceversa, descriviamo cosa succede per un sistema di tre variabili booleane.

Data la distribuzione Dijk 6= 0 che soddisfa x1tx3|x2, a meno di rinumerazione degli


stati, si puo assumere D222 6= 0. Consideriamo le sottomatrici di D

M ′ =

(D112 D122

D212 D222

)N ′ =

(D211 D212

D221 D222

)Fissati due numeri h, k tali che hk = D212/D222, si moltiplica la seconda colonna di

M ′ per h e la seconda riga di N ′ per k.

Le due matrici cosı ottenute, opportunamente scalate, determinano matrici M,N

che descrivono il modello di Markov soddisfatto da D.

Nel caso generale, la procedura e simile ma piu complicata.

Per una trattazione piu completa, si rimanda il lettore all’articolo di Eriksson,

Ranestad, Sturmfels e Sullivant in [Siena].

Corollario 6.2.4. I modelli di catena di Markov sono modelli algebrici e anche mo-

delli parametrici polinomiali. (Poiche in generale sono coinvolte molte indipendenze

condizionate, questi modelli non sono in generale torici).

Osservazione 6.2.5. Consideriamo un sistema formato da tre variabili x1, x2, x3

aventi lo stesso numero di stati.

Nella pratica, quasi sempre il modello di catena di Markov viene associato a matrici

M,N che sono invertibili.

In questo caso, le distribuzioni che si ottengono sono le stesse che si hanno conside-

rando il modello di Markov sullo stesso sistema, ordinato in modo che x3 → x2 → x1,

con matrici N−1,M−1.

Quindi le catene di Markov, quando le matrici di passaggio sono invertibili, non

possono distinguere chi trasmette il segnale o lo riceve. Dal punto di vista delle

distribuzioni, le due catene

� = x1M→ � = x2

N→ � = x3 � = x3N−1

→ � = x2M−1

→ � = x1

sono di fatto indistinguibili.

Le catene di Markov possono essere generalizzate a modelli definiti su grafi ad

albero.

Definizione 6.2.6. Sia G un grafo ad albero, orientato.


Costruiamo un sistema aleatorio X le cui variabili sono i vertici di G, x1, . . . , xn (che

considereremo ordinate parzialmente dall’orientamento del grafo). Sia ni il numero

di stati della variabile xi. Per ogni spigolo (orientato) che unisce i vertici xi, xj, sia

data una matrice Mij con ni colonne e nj righe.

Chiameremo modello di albero di Markov su G, di matrici {Mij} il modello sulla

correlazione totale di X, formato dalle distribuzioni D, la cui marginalizzazione

totale (v1, . . . , vn), vi ∈ Kni , soddisfa tutte le seguenti condizioni:

vj = Mijvi.

Chiameremo semplicemente modello di Markov su G il modello sulla correlazione

totale di X, formato dalle distribuzioni D che soddisfano un modello di di albero di

Markov su G per qualche scelta delle matrici Mij.

Esempio 6.2.7. I modelli di catene di Markov sono ovviamente sempi di modelli

di alberi di Markov.

L’esempio piu semplice di modello di albero di Markov, oltre le catene, e quello

illustrato nell’esempio 6.1.5.

Restando all’esempio 6.1.5, e immediato comprendere che, per le stesse motivazio-

ni espresse nell’Osservazione 6.2.5, quando la matrice MAB e invertibile, il modello

associato allo schema

� = AMAB ↙ ↘MAC

B = � � = C

e indistiguibile dal modello di catena di Markov

� = BM−1AB−→ � = A

MAC−→ � = C

Il discorso precedente suggerisce che i modelli di alberi di Markov siano descritti

da modelli di indipendenza condizionata. In effetti il suggerimento e valido in quanto

in un albero, dati due vertici xi, xj, esiste al piu un cammino minimale che li unisce.

Teorema 6.2.8. Dato un grafo ad albero G e un sistema aleatorio X le cui variabili

sono i vertici x1, . . . , xn di G, una distribuzione D sulla correlazione totale di X sta


nel modello di albero di Markov associato a G, per una qualche scelta delle matrici

Mij, se e solo se D soddisfa tutte le indipendenze condizionate

xi t xj|xk

ogniqualvolta xk sta nel cammino minimale che unisce xi, xj.

Per la dimostrazione, si rimanda al lavoro [SturmfelsSullivant] oppure al gia citato

articolo di Eriksson, Ranestad, Sturmfels e Sullivant in [Siena].

Esempio 6.2.9. Sia il modello di albero di Markov associato al grafo

A↙ ↘

B C

che quello di catena di Markov

A→ B → C

sono equivalenti al modello di indipendenza condizionata

A t C|B.

Esempio 6.2.10. Un esempio interessante di applicazione dei modelli di albero di

Markov si ha nello studio della Filogenetica, dove si cerca di ricostruire l’albero ge-

nealogico di una evoluzione (che puo essere biologica, ma anche chimica o linguistica

ecc.).

Ad esempio, supponiamo di dover sistemare la situazione evolutiva di cinque specie,

A,B,C,D,E, a partire dal progenitore A. Possiamo ipotizzare due diverse situazioni

evolutive, rappresentate dai grafi G1, G2, dove

G1 =

A↙ �

B �↙ ↘ ↘

C D E

cioe da A discendono direttamente B,E mentre C,D discendono da B; oppure

G2 =

A� ↘

� B↙ ↙ ↘

C D E


cioe da A discendono direttamente B,C mentre E,D discendono da B.

Costruiamo un sistema aleatorio sulle variabili A,B,C,D,E, che possiamo anche

considerare booleane. Se la siuazione riguarda un’evoluzione biologica, i due stati

potrebbero rappresentare la presenza di basi puriniche o pirimidiniche nelle posizioni

della catena di DNA delle specie. In questo caso, una distribuzione e rappresentata

da un tensore di tipo 2× 2× 2× 2× 2.

I modelli associati ai due grafi G1, G2 possono essere distinguibili in quanto, ad

esempio, nel primo si ha A t C|B, cosa che non avviene nel secondo caso.

6.3 Variabili nascoste

Torniamo in questa sezione agli esempi iniziali del capitolo 6.0.17 e 6.0.18.

La situazione prospettata in quegli esempi prevede la presenza di variabili na-

scoste, cioe variabili la cui presenza non era nota all’inizio, ma che condizionano la

dipendenza fra le variabili osservabili.

Anche nell’esempio 6.2.10 si puo verificare una situazione simile. Se le specie

A,B dalle quali derivano le altre sono solo ipotizzate nel passato, e chiaro che non

si puo sperare di osservarne il DNA, quindi le distribuzioni sulle variabili A,B non

sono note, per cui cio che osserviamo non e il vero tensore originario, ma solo la sua

marginalizzazione lungo le variabili A,B.

Come si puo sperare di determinare la presenza di variabili nascoste?

Un modo e suggerito dall’esempio 6.0.17 e sfrutta il concetto di rango (si veda la

Definizione 2.1.17). In quella situazione, le distribuzioni sulle due variabili osservabili

(A = tifoso, B = perdita capelli) erano rappresentate da matrici 3× 3. L’esistenza

della variabile nascosta (G = genere) implicava che la matrice della distribuzione

M era la marginalizzazione di un tensore T di tipo 3 × 3 × 2, la cui scansione

lungo la variabile nascosta era formata da due matrici M1,M2 di rango 1. Pertanto

M = M1 +M2 aveva rango ≤ 2.

Osservazione 6.3.1. Sia X un sistema di variabili y, x1, . . . , xm, dove y ha r stati

mentre ogni xi ha ni stati. Una distribuzione D su ΠX che sta nel modello di

indipendenza condizionata t{x1, . . . , xm}|y e rappresentata da un tensore di tipo

r× n1 × · · · × nm la cui scansione lungo la prima variabile e formata da elementi di

rango 1. pertanto la marginalizzazione di D lungo la variabile y ha rango ≤ r.


Viceversa, consideriamo un sistema X ′ di variabili x1, . . . , xn come sopra e sia D′

una distribuzione di rango ≤ r su ΠX ′. Allora esiste una distrbuzione D su X (non

necessariamente una sola!) la cui marginalizzazione lungo y e D′. Infatti possiamo

scrivere

D′ = D1 + · · ·+Dr,

con ciascun Di di rango ≤ 1, quindi il tensore i cui elementi lungo la prima direzione

sono D1, . . . , Dr rappresenta la distribuzione D cercata.

L’osservazione precedente giustifica la definizione di modello di variabile nascosta

Definizione 6.3.2. Sulla correlazione totale di un sistema aleatorio X chiameremo

modello di variabile nascosta con r stati il sottoinsieme di ¶(D(ΠX)) formato da

punti corrispondenti a tensori di rango ≤ r.

Poiche il rango di un tensore T e invariante quando si moltiplica T per una

costante 6= 0, la definizione e ben posta nel mondo delle distribuzioni proiettive.

Il modello di indipendenza e un caso particolare (e degenere) di modelli di varia-

bile nascosta.

Esempio 6.3.3. Consideriamo un dipolo aleatorio X, formato dalle variabili A,B,

aventi rispettivamente a, b stati. Le distribuzioni su ΠX sono rappresentate da

matrici M di tipo a× b.Quando r < min{a, b}, il modello di variabile nascosta con r stati e uguale al

sottoinsieme delle matrici di rango ≤ r. E’ chiaro che tale modello e algebrico

(proiettivo), perche e descritto dall’annullarsi di tutti i sottodeterminanti (r + 1)×(r+ 1), che sono polinomi omogenei di grado r+ 1 nei coefficienti della matrice M .

Quando r ≥ min{a, b}, il modello di variabile nascosta con r stati puo essere ancora

definito, ma diventa banale: tutte le matrici a× b hanno rango ≤ r.

L’esempio precedente puo essere generalizzato. I modelli di variabile nascosta con

r stati diventano banali, cioe coincidono con l’intero spazio delle distribuzioni, per

r sufficientemente grande. Inoltre sono tutti modelli parametrici proiettivi, quindi

anche algebrici proiettivi, per il Lemma di Chow.

I modelli di variabile nascosta sono infatti legati al concetto geometrico di varieta

secante ad un sottoinsieme di uno spazio proiettivo.


Definizione 6.3.4. Sia Y un sottoinsieme di uno spazio proiettivo Pn. Diremo che

P ∈ Pn appartiene ad uno spazio r-secante Y se esistono punti P1, . . . , Pr ∈ Y (non

necessariamente distinti) tali che le coordinate omogenee di P sono combinazione

lineare delle coordinate omogenee di P1, . . . , Pn. E’ chiaro che la definizione e ben

posta, perche e invariante quando si moltiplicano le coordinate di P per una costante

non nulla.

Chiameremo varieta r-secante di Y , e indicheremo con S0r (Y ), il sottoinsieme di Pn

formato dai punti che appartengono ad uno spazio r-secante Y .

Osservazione 6.3.5. E’ evidente che si ha S01(Y ) = Y . Inoltre S0

i (Y ) ⊂ S0i+1(Y )

(puo anche valere l’uguaglianza).

Quando il cono su Y genera lo spazio vettoriale Kn+1, allora Y contiene n+ 1 punti

le cui coordinate sono linearmente indipendenti, quindi S0n+1(Y ) = Pn. In effetti e

chiaro che S0n+1(Y ) 6= Pn se e solo se il cono su Y e contenuto in un sottospazio

proprio di Kn+1, vale a dire se e solo se Y e contenuto in (almeno un) iperpiano di

Pn.

Si noti che si puo avere S0r (Y ) = Pn anche per r molto piu piccolo di n+ 1.

Proposizione 6.3.6. Nello spazio di tensori P = P(Kn1···nm), un tensore ha rango

≤ r se e solo se appartiene alla varieta r-secante della varieta di Segre S.

Ne segue che il modello di variabile nascosta con r stati corrisponde alla varieta

secante S0r (S) della varieta di Segre.

Dimostrazione. Per definizione (si veda l’Esempio 5.5.8) la varieta di Segre S e

proprio l’insieme dei tensori di rango 1.

In generale, se un tensore ha rango ≤ r, allora e somma di r tensori di rango 1,

quindi sta nella varieta r-secante di S.

Viceversa, se T appartiene alla varieta r-secante di S, allora esistono tensori T1, . . . , Tr

di S (quindi tensori di rango 1) tali che

T = a1T1 + · · ·+ arTr

quindi, dato che il rango di aiTi e 1, a meno che ai non sia 0, si ottiene che T e

somma di un numero ≤ r di tensori di rango 1.


Le varieta secanti sono state a lungo studiate in Geometria Proiettiva per le loro

applicazioni allo studio delle proiezioni di varieta algebriche. Il loro utilizzo nei

modelli di variabile nascosta rappresenta uno dei maggiori punti di contatto fra la

Statistica Algebrica e la Geometria Algebrica.

Un punto importante nello studio dei modelli di variabile nascosta e che (pur-

troppo) tali modelli non sono modelli algebrici (e quindi nemmeno parametrici

proiettivi).

Proposizione 6.3.7. Nello spazio proiettivo P = P7 dei tensori di tipo 2× 2× 2 su

C, il sottoinsieme Y dei tensori di rango ≤ 2 non e una varieta algebrica.

Dimostrazione. Utilizzeremo il tensore di rango 3 definito nell’esempio 2.4.10, che

fra l’altro prova che Y non coincide con P.

Consideriamo i tensori del tipo D = uT1 + tT2, dove

T1 =

2 − − 3� | � |

0 − + 3 || 0 + − 4| � | �0 − − 2

T2 =

0 − − 0� | � |

1 − + 0 || 0 + − 0| � | �0 − − 0

Tali tensori generano uno spazio di dimensione 2 nello spazio vettoriale dei tensori,

quindi corrispondono ad una retta L ⊂ P. Per (u, t) = (1, 1) si ottiene il tensore D

dell’esempio 2.4.10, che ha rango 3. Quindi L 6⊂ Y .

Verifichiamo che tutti gli altri punti di L diversi da D stanno in Y In effetti se

D′ ∈ L \ {D}, allora D′ = uT1 + tT2, dove (u, t) non e proporzionale a (1, 1), cioe

u 6= t. Allora D′ puo essere decomposto nella somma di due tensori di rango 1 come

segue:

D′ =

0 − − 6t−12u2t−2u

� | � |0 − + 3t−6u

2t−2u|

| 0 + − 4u| � | �0 − − 2u

+

2u − − 6u2t−2u

� | � |t − + 3t

2t−2u|

| 0 + − 0| � | �0 − − 0

Se Y fosse un modello algebrico, esisterebbe almeno un polinomio omogeneo che

si annulla su tutti i punti di L, tranne D. Ma restringendo tale polinomio a L,


si otterrebbe un polinomio omogeneo p ∈ C[u, t] che si annulla ovunque, tranne

che nelle coordinate di D, cioe nelle coppie (u, u). D’altra parte, ogni polinomio

omogeneo non nullo di C[u, t] si decompone nel prodotto di un numero finito di

fattori lineari omogenei, quindi p, che non puo essere nullo perche non si annulla in

D, puo annullarsi solo in un numero finito di punti della retta proiettiva di coordinate

u, t, cioe di L.

Per ovviare a tale problema, si definiscono la varieta secante algebrica e di

conseguenza il modello algebrico di variabile nascosta.

Definizione 6.3.8. Sia Y un sottoinsieme di uno spazio proiettivo Pn. Chiameremo

varieta r-secante algebrica di Y , e indicheremo con Sr(Y ), la chiusura, nella topologia

di Zariski, di S0r (Y ). Tale chiusura corrisponde alla piu piccola varieta algebrica che

contiene S0r (Y ).

Sulla correlazione totale di un sistema aleatorio X chiameremo modello algebrico

di variabile nascosta con r stati il sottoinsieme di ¶(D(ΠX)) formato dalla varieta

r-secante algebrica della varieta di Segre corrispondente ai tensori di rango 1.

Esempio 6.3.9. Nello spazio proiettivo P = P7 dei tensori di tipo 2 × 2 × 2 su C,

sia S la varieta di Segre data dall’immersione di P1 × P1 × P1.

La varieta 2-secante algebrica di S coincide con tutto P7. Si verifica infatti che ogni

tensore di rango > 2 e limite di tensori di rango 2.

Osservazione 6.3.10. Si puo cercare di caratterizzare i modelli di variabile nascosta

come modelli parametrici.

Si consideri infatti, ad esempio, il prodotto P1×P1×P1 e la sua immersione X in P7.

La varieta 2-secante puo, a prima vista, essere ottenuta come varieta parametrica

definita dalle equazioni

Q = αP1 + βP2 a, b ∈ C P1, P2 ∈ X

che combinate con le equazioni parametriche di X, porta alle equazioni parametriche

complessive x111 = αa1b1c1 + βa′1b

′1c′1

x112 = αa1b1c2 + βa′1b′1c′2

. . . . . .

x222 = αa2b2c2 + βa′2b′2c′2


laddove P1 = (a1, a2)⊗ (b1, b2)⊗ (c1, c2) e P1 = (a′1, a′2)⊗ (b′1, b

′2)⊗ (c′1, c

′2).

Purtroppo questa parametrizzazione non puo essere definita globalmente.

Infatti, facendo variare liberamente i parametri, dobbiamo considerare anche i casi

in cui P1 = P2. In questa situazione, per qualche scelta di α, β, l’immagine sarebbe

il punto (0, . . . , 0), che nel proiettivo non esiste. La parametrizzazione e pertanto

solo parziale.

Se escludiamo i valori dei parametri per cui l’immagine mi darebbe (0, . . . , 0), otte-

niamo una funzione ben definita su un aperto di Zariski di (P1)7. L’immagine Y di

tale aperto, pero, non e un chiuso di Zariski di p7. La chiusura di Zariski di Y in P7

coincide con tutto P7.

Parte dello studio delle varieta secanti e basato sul calcolo della dimensione. Da

quanto appena detto nell’osservazione precedente, una limitazione della dimensione

delle varieta secanti algebriche e sempre possibile.

Proposizione 6.3.11. La varieta r-secante algebrica della varieta di Segre X, im-

magine nella mappa di Segre del prodotto Pn1 × · · · × Pnm, ha dimensione limitata

da

dim(Sr(X)) ≤ min{N, nr + r − 1} (6.3.1)

dove N = (n1 + 1) · · · (nm + 1)− 1 e la dimensione dello spazio dove e immerso X

mentre n = n1 + · · ·+ nm e la dimensione di X.

Dimostrazione. Che la dimensione di X sia al massimo N dipende dal fatto che

la dimensione di una varieta algebrica in PN non puo superare la dimensione dello

spazio ambiente (vedi l’Esempio 5.7.10).

La seconda limitazione dim(Sr(X)) ≤ nr+ r− 1 discende dal Teorema 5.7.14, visto

che, generalizzando l’esempio precedente, su un aperto di Zariski, dim(Sr(X)) e

l’immagine di una mappa polinomiale da (Y )s × Pr−1 in PN .

Se al posto della mappa di Segre prendiamo la mappa di Veronese, si ottiene una

situazione analoga.

Proposizione 6.3.12. La varieta r-secante algebrica della varieta di Veronese X,

immagine nella mappa di Veronese di grado d su Pn, ha dimensione limitata da

dim(Sr(X)) ≤ min{N, nr + r − 1} (6.3.2)


dove N =(n+dd

)− 1 e la dimensione dello spazio dove e immerso X.

In entrambe le situazioni, chiameremo dimensione r-secante attesa della va-

rieta di Segre (rispettivamente, della varieta di Veronese) il secondo membro della

disequazione (6.3.1) (rispettivamente della disequazione (6.3.2)).

Definizione 6.3.13. Chiameremo rango generico dei tensori di tipo (n1 +1)×· · ·×(ns + 1) il minimo r per cui, detta X la varieta di Segre di Pn1 × · · · × Pnm in PN ,

si ha Sr(X) = PN .

Chiameremo rango simmetrico generico dei tensori simmetrici di tipo n× · · ·×n (d

volte) il minimo r per cui, detta X la varieta di Veronese di grado d di Pn in PN , si

ha Sr(X) = PN .

Esempio 6.3.14. Il rango generico delle matrici n× n e n.

Il rango generico dei tensori 2× 2× 2 e 2.

Il rango generico dei tensori 3× 3× 3 non puo essere 3. Infatti tali tensori di rangi

1 corrispondono alla immersione di Segre X di P2 × P2 × P2 in p26. La dimensione

della varieta 3-secante algebrica S3(X), per la proposizione 6.3.11 e limitata da

6 · 3 + 3− 1 = 20, quindi S3(X) 6= 26.

L’ultima parte dell’esempio precedente fornisce un principio generale

Proposizione 6.3.15. Posto n = n1 + · · ·+ nm e N = (n1 + 1) · · · (nm + 1)− 1, il

rango generico rg dei tensori di tipo (n1 + 1)× · · · × (ns + 1) soddisfa

rg ≥N + 1

n+ 1.

Posto N =(n+dd

)− 1, il rango simmetrico generico rsg dei tensori simmetrici di tipo

n× · · · × n (d volte) soddisfa

rsg ≥N + 1

n+ 1.

Si osservi che, in generale, ci sono tensori il cui rango e inferiore al rango generico,

ma ci possono anche essere tensori il cui rango e superiore al rango generico (cosa

che non puo avvenire nel caso di matrici). Si veda l’Esempio 2.4.10.

Esempio 6.3.16. In generale, potremmo aspettarci che il rango generico rg sia

esattamente uguale al piu piccolo intero ≥ (N + 1)/(n + 1). Cio non sempre si

verifica.


La cosa e gia ovvia, nel caso di spazi di matrici.

Per tensori di dimensione maggiore, si consideri il caso dei tensori 2 × 2 × 2, per i

quali N = 26 e n = 6. Il minimo intero ≥ (N + 1)/(n+ 1) e 4, ma il rango genrico

e 5.

I tensori per i quali il rango generico e piu grande del minimo intero maggiore o

uguale a (N + 1)/(n+ 1) vengono chiamati difettivi.

Si conoscono pochi esempi di tensori difettivi, ma una loro classificazione completa

non e nota. Una trattazione della difettivita (come una dimostrazione dell’enunciato

sui tensori 2× 2× 2) esula dagli scopi di questa Introduzione e per essa si rimanda

al testo di Landsberg [Landsberg], capitolo ???

L’importanza del rango generico nello studio delle variabili nascoste e evidente.

Dato un sistema aleatorio S con variabili x1, . . . , xs, dove xi ha ni+1 stati, il modello

algebrico di variabile nascosta con r stati, sulla correlazione totale di S, equivale alla

varieta secante algebrica Sr(X) dove X e la varieta di Segre di Pn1 × · · · × Pnm . Le

distribuzioni che stanno in questo modello dovrebber suggerire che il fenomeno sotto

osservazione e in realta guidato da una variebile (appunto: nascosta) con r-stati.

ma se r ≥ rg, tale suggerimento e nullo.

Infatti, in questo caso Sr(X) e uguale all’intero spazio delle distribuzioni, quindi

praticamente tutte le distribuzioni suggeriscono la presenza di una simile variabile.

Cio, dal lato pratico, significa semplicemente che l’informazione data dalla variabile

nascosta aggiuntiva e nulla. In pratica, quindi, l’esistenza o non esistenza della

variabile nascosta non aggiunge nessuna informazione utile alla comprensione del

fenomeno

Esempio 6.3.17. Consideriamo lo studio di stringhe di DNA. Se osserviamo la

distribuzione delle basi su 3 posizioni della stringa, otteniamo distribuzioni descritte

da tensori 4× 4× 4. tensori di questo tipo non sono difettivi, per cui essendo n = 9,

N = 63, il rango generico e 7.

L’osservazione di una distribuzione di rango 6 suggerisce allora la presenza di una

variabile nascosta con 6 stati (come la suddivisione del nostro campione in 6 specie

diverse).

L’osservazione di una distribuzione di rango 7 non ci da allora nessuna evidenza

pratica sulla reale esistenza di una variabile nascosta con 7 stati.


Se noi sospettiamo proprio l’esistenza di una variabile nascosta (la specie) con 7 o

piu stati, come possiamo verificarla?

La risposta e che non e possibile un’osservazione del genere considerando solo tre

posizioni del DNA. Se pero passiamo ad osservare quattro posizioni, otteniamo un

tensore 4 × 4 × 4 × 4. Tensori di questo tipo (che non sono neanche loro difettivi)

hanno rango generico uguale a d256/13e = 20. Se in questo caso otteniamo ancora

distribuzioni di rango 7, che e molto minore di 20, la nostra supposizione ha ricevuto

una formidabile evidenza sperimentale.

6.4 Modelli simmetrici

Capitolo 7

Basi di Groebner e Teoriadell’Eliminazione

7.1 Introduzione

Le basi di Groebner rappresentano indubbiamente lo strumento pi‘u potente per

l’algebra computazionale, in particolare per lo studio degli ideali polinomiali. A

breve introdurremo tali basi, le loro propriet‘a e e una serie di risultati e algoritmi

per il loro utilizzo. Prima, pero, soffermiamoci un attimo su tre esempi che rappre-

sentano tre argomenti classici nella manipolazione di polinomi in una variabile o di

equazioni lineari.

Esempio 7.1.1. Consideriamo l’anello dei polinomi k[x]. Tale anello e un dominio

a ideali principali, cioe, dato un ideale I ⊂ k[x] esiste g ∈ k[x] tale che I = 〈g〉([CoxLittleOShea], Capitolo 1, Corollario 4). Dato un polinomio f ∈ k[x], l’algo-

ritmo di divisione permette di determinare facilmente se f ∈ I: dividiamo f per g

ottenendo

f = g · q + r

dove q, r ∈ k[x] e r = 0 oppure deg(r) < deg(g). Questo prova che f ∈ I se e solo

se r = 0.

Esempio 7.1.2. Consideriamo il seguente sistema di equazioni

149


a11x1 + ·+ a1nxn = b1

a21x1 + ·+ a2nxn = b2...

am1x1 + ·+ amnxn = bm

,

di cui vogliamo calcolare le soluzioni. Il metodo generale consiste nel trasformare,

tramite operazioni sulle righe e sulle colonne, la seguente matricea11 · · · a1n −b1...

......

am1 · · · amn −bm

(7.1.1)

in una matrice di Gauss-Jordan. Alla fine sara possibile trovare tutte le soluzioni del

sistema originale, sostituendo dei valori alle variabili che restano libere. Puo succe-

dere ovviamente che il sistema abbia una sola soluzione (e quindi nessuna variabile

resta libera) o che non abbia soluzioni: questo succede, quando nella trasformazioni

si ottiene la riga (0 · · · 0 1).

Esempio 7.1.3. Consideriamo il sottoinsieme V di kn parametrizzato da

x1 = a11t1 + ·+ a1mtm + b1

x2 = a21t1 + ·+ a2mtm + b2...

xn = an1t1 + ·+ anmtm + bn

dove n > m. Tale parametrizzazione definisce una mappa

F : km −→ kn

(t1, . . . , tm) 7→ (x1, . . . , xn)

dalla quale V risulta essere un sottospazio lineare affine di kn. Associamo alla

precedente mappa la matricea11 · · · a1n −1 0 · · · 0 b1

a21 · · · a2n 0 −1 · · · 0 b2...

......

......

...an1 · · · anm 0 0 · · · −1 bn

(7.1.2)

che rappresenta anche il sistema lineare dato da

CAPITOLO 7. BASI DI GROEBNER E TEORIA DELL’ELIMINAZIONE151

a11t1 + ·+ a1mtn − x1 + b1 = 0a21t1 + ·+ a2mtn − x2 + b2 = 0

...an1t1 + ·+ anmtn − xn + bn = 0

Applicando Gauss-Jordan otteniamo una matrice della forma(Im Bm×n−m

0n−m B′n−m×n−m

)Le entrate della matrice B′ definiscono i coefficienti delle equazioni, nelle xi, che

definiscono V .

La generalizzazione naturale dell’Esempio 7.1.1 ad un numero maggiore di varia-

bili e degli Esempi 7.1.2 e 7.1.3 a polinomi di grado maggiore porta alla definizione

dei seguenti problemi

(1) Problema di appartenenza: dato f ∈ k[x1, . . . , xn] e dato un ideale I =

〈f1, . . . , fm〉, determinare se f ∈ I.

(2) Problema di risolvere equazioni polinomiali: trovare tutte le soluzioni, in kn

di un sistema di equazioni polinomiali

f1(x1, . . . , xn) = 0f2(x1, . . . , xn) = 0...fm(x1, . . . , xn) = 0.

(3) Problema di implicizzazione: Sia V un sottoinsieme di kn definito, in maniera

parametrica, da

x1 = g1(t1, . . . , ts)x2 = g2(t1, . . . , ts)...xn = gn(t1, . . . , ts).

Se gli gi sono polinomi (o funzioni razionali) nelle variabili tj, allora V e

una varieta affine. Trovare un sistema di equazioni polinomiali (nelle xi) che

definisce V .


Il secondo e terzo problema sono, in un certo senso, l’uno inverso dell’altro: nel

secondo cerchiamo l’insieme delle soluzioni dato un sistema di equazioni, nel terzo,

invece, cerchiamo un sistema di equazioni dato l’insieme delle soluzioni.

Nell’Esempio 7.1.1 abbiamo visto che esiste un test algoritmico per il problema

di appartenza nel caso n = 1. In 7.3 vedremo una possibile generalizzane per

un numero n qualsiasi di variabili. Tuttavia l’algoritmo non e estendibile al caso

generale, in maniera ottimale, senza aver introdotto prima le basi di Groebner. In

maniera simile abbiamo visto, grazie agli Esempi 7.1.2 e 7.1.3 che esistono metodi

algoritmici per risolvere il problema di risoluzione di sistemi di equazioni e per il

problema dell’implicizzazione, nel caso di polinomi lineari. Vedremo, nei prossimi

paragrafi, l’utilita delle basi di Groebner anche per questi due problemi.

7.2 Ordinamenti monomiali

Se analizziamo attentamente l’Esempio 7.1.1 possiamo notare che resta sottointeso

un ordinamento tra i monomi in funzione del grado del monomio: xα > xβ se α >

β. Per essere piu precisi possiamo dire che stiamo lavorando con un ordinamento,

tramite il grado, sui monomi in una variabile:

· · · > xm+1 > xm > · · · > x2 > x > 1

In maniera simile, nell’Esempio 7.1.2 abbiamo fissato un ordinamento tra le variabili

x1 > x2 > · · · > xn.

per poi poter collocare i loro coefficienti, delle varie equazioni, in modo preciso nella

matrice (7.1.1), mentre nell’Esempio 7.1.3, la matrice (7.1.2) e stata ottenuta dalla

scelta dell’ordinamento

t1 > t2 > · · · tm > x1 > x2 > · · · > xn.

Risulta chiaro, quindi, che, per poter affrontare i problemi (1)–(3) sara necessario

un ordinamento dei termini dei polinomi in k[x1, . . . , xn]. Ne definiremo adesso

alcuni, differenti tra loro, che saranno utili in contesti diversi. Per far cio osserviamo

innanzitutto che possiamo ricostruire il monomio xα = xα11 · · ·xαnn dalla sua n−upla


di esponenti (α1, . . . , αn) ∈ Zn≥0. Questo fatto stabilisce una corrispondenza iniettiva

tra i monomi in k[x1, . . . , xn] e Zn≥0. Inoltre, ogni ordinamento tra i vettori di Zn≥0

definisce un ordinamento tra i monomi: se α > β, dove > e un dato ordinamento

su Zn≥0, allora diremo che xα > xβ.

Dato che un polinomio e una somma di monomi, vogliamo essere in grado di

scrivere i suoi termini ordinandoli in modo ascendente o discendente (e, ovviamente,

in maniera non ambigua). Per far questo bisogna

i) che sia possibile confrontare due qualsiasi monomi. Questo vuol dire richiedere

che l’ordinamento sia un ordinamento totale: dati i monomi xα e xβ, solo una

delle seguenti affermazioni deve essere vera

xα > xβ, xα = xβ, xβ > xα.

ii) tenere in considerazioni gli effetti delle operazioni di somma e prodotto sui

monomi. Quando sommiamo polinomi, dopo aver raccolto i termini, possiamo

semplicemente riarrangiare i termini. E’ la moltiplicazione, quindi che po-

trebbe dare problemi se moltiplicando un polinomio per un monomio (perche

basta analizzare il prodotto polinomio-monomio ?), l’ordinamento dei termini

cambiasse. Affinche questo non accada richiediamo che se xα > xβ e xγ sono

monomi, allora xαxγ > xβxγ.

Osservazione 7.2.1. Considerando gli ordinamenti su Zn≥0, la proprieta ii) significa

che se α > β allora, per ogni γ ∈ Zn≥0, α + γ > β + γ.

Definizione 7.2.2. Un ordinamento monomiale su k[x1, . . . , xn] e una qualsiasi rela-

zione > su Zn≥0 o, equivalentemente, una qualsiasi relazione sull’insieme dei monomi

xα, α ∈ Zn≥0 che soddisfa

(i) > e un ordinamento totale su Zn≥0.

(ii) Se α > β e γ ∈ Zn≥0, allora α + γ > β + γ.

(iii) > e un buon ordinamento su Zn≥0, cioe ogni sottoinsieme non vuoto di Zn≥0 ha

un elemento minimale rispetto a >.


Osservazione 7.2.3. Non e difficile dimostrare che essere un buon ordinamento

equivale al fatto che ogni sequenza, in Zn≥0, strettamente descrescente, ad un certo

punto termina. Questo fatto sara di fondamentale importanza per dimostrare che

alcuni algoritmi si arrestano in un numero finito di passi in quanto alcuni termini

decrescono strettamente.

Introduciamo adesso gli ordinamenti piu utilizzati

Definizione 7.2.4. Siano α = (α1, . . . , αn) e β = (β1, . . . , βn) elementi di Zn≥0.

(lex) Diremo che α >lex β se, nel vettore differenza α − β ∈ Zn≥0 la prima entrata

diversa da zero, partendo da sinistra, e positiva. Scriveremo xα >lex xβ se

α >lex β.

(grlex) Diremo che α >grlex β se,

|α| =n∑i=1

αi > |β| =n∑i=1

βi o |α| = |β| e α >lex β.

Scriveremo xα >grlex xβ se α >grlex β.

(grevlex) Diremo che α >grevlex β se,

|α| =n∑i=1

αi > |β| =n∑i=1

βi o |α| = |β|

e la prima entrata diversa da zero, partendo da destra, e negativa. Scriveremo

xα >grevlex xβ se α >grevlex β.

L’ordinamento >lex prende il nome di ordinamento lessicografico, >grlex prende il

nome di ordinamento graduato lessicografico e >grevlex prende il nome di ordinamen-

to graduato lessicografico inverso. Lasciamo al lettore la verifica che gli ordinamenti

definiti nella precedente proposizione verificano le condizioni della Definizione 7.2.2.

Esempio 7.2.5.

1) (1, 2, 3, 4) >lex (0, 1, 4, 6) perche (1, 2, 3, 4)− (0, 1, 4, 5) = (1, 1,−1,−2);

2) (3, 3, 3, 4) >lex (3, 3, 3, 3) perche (3, 3, 3, 4)− (3, 3, 3, 3) = (0, 0, 0, 1);


3) (1, 3, 3, 4) <lex (2, 3, 2, 4) perche la prima entrata, da sinistra, di (1, 3, 3, 4) −(2, 3, 2, 4) = (−1, 0, 1, 0) e negativa;

4) (1, 2, 3, 4) <grlex (0, 1, 4, 6) perche |(1, 2, 3, 4)| = 10 < 11 = |(0, 1, 4, 6)|;

5) (3, 1, 2, 4) >grlex (3, 1, 1, 5) perche |(3, 1, 2, 4)| = |(3, 1, 1, 5)| = 10 e (3, 1, 2, 4) >lex

(3, 1, 1, 5) (infatti (3, 1, 2, 4)− (3, 1, 1, 5) = (0, 0, 1,−1);

6) (1, 2, 3, 4) <grevlex (0, 1, 4, 6) perche |(1, 2, 3, 4)| = 10 < 11 = |(0, 1, 4, 6)|;

7) (1, 3, 4, 4) >grevlex (2, 3, 2, 5) perche |(3, 1, 2, 4)| = |(3, 1, 1, 5)| = 12 e la prima

entrata, da destra, di (1, 3, 4, 4)− (2, 3, 2, 5) = (−1, 0, 2,−1) e negativa;

Ad ogni variabile xi e associato il vettore di Zn≥0 con entrate tutte nulle tranne

un 1 nella i−esima posizione. Si verifica facilmente che

(1, 0, . . . , 0) >lex (0, 1, . . . , 0) >lex · · · >lex (0, 0, . . . , 0, 1)

da cui segue x1 >lex x2 >lex · · · >lex xn. Nella pratica, lavorando, ad esempio, con

tre variabili, si preferisce chiamare le variabili x, y, z piuttosto che x1, x2, x3. In tal

caso assumiamo che l’ordine alfabetico tra le variabili x > y > z venga utilizzato per

definire l’ordinamento lessicografico tra i monomi. Si nota quindi che l’ordinamento

lessicografico funziona come l’usuale ordinamento di un vocabolario (da cui il nome).

Nell’ordinamento lessicografico ogni variabile domina qualsiasi monomio compo-

sto solo da variabili piu piccole. Ad esempio x1 >lex x52x

43 in quanto (1, 0, 0) −

(0, 5, 4) = (1,−5,−4). In definitiva, l’ordinamento lessicografico non tiene conto

del grado totale del monomio e, per questo motivo, si introducono l’ordinamento

graduato lessicografico e l’ordinamento graduato lessicografico inverso. Per capire le

differenze tra i due ordinamenti, notiamo innanzitutto che entrambi usano il grado

totale dei monomi nello stesso modo. Pero grlex usa l’ordinamento lex e quindi

“favorisce” la potenza maggiore della prima variabile, mentre grevlex, guardando

alla prima entrata positiva da destra, “favorisce” la piu piccola potenza dell’ultima

variabile. Per fare un esempio:

x4yz2 >grlex x3y3z e x3y3z >grevlex x

4yz2.

Conviene puntualizzare che esistono molti ordinamenti lessicografici, graduati e

graduati inversi, a seconda di come sono ordinate le variabili x1, . . . , xn. Ad esempio,


per due variabili x, y possiamo considerare l’ordinamento dato da x > y, ma anche

quello dato da y > x. Quindi, date n variabili x1, . . . , xn, e possibile definire n!

ordinamenti di ciascun tipo.

Esempio 7.2.6. Mostriamo come gli ordinamenti monomiali si applicano ai poli-

nomi. Se f ∈ k[x1, . . . , xn] e abbiamo scelto un ordinamento monomiale >, allora

possiamo ordinare i termini di f in una maniera non ambigua rispetto a >. Consi-

deriamo, per esempio, f = 2x4yz3−3xyz5 + 5x3yz2 + 2x7. Rispetto all’ordinamento

lessicografico f si scrive come

f = 2x7 + 2x4yz3 + 5x3yz2 − 3xyz5.

Rispetto all’ordinamento graduato lessicografico f si scrive come

f = 2x4yz3 + 2x7 − 3xyz5 + 5x3yz2.

Rispetto all’ordinamento graduato lessicografico inverso f si scrive come

f = 2x4yz3 + 2x7 − 3xyz5 + 5x3yz2.

Definizione 7.2.7. Sia f =∑

α aαxα un polinomio non nullo in k[x1, . . . , xn] e sia

> un ordinamento monomiale

(i) il multigrado di f e

multideg(f) = max{α ∈ Zn≥0 : aα 6= 0}.

(ii) Il coefficiente principale di f e

LC(f) = amultideg(f)∈ k.

(iii) Il monomio principale di f e

LM(f) = xmultideg(f).

(iv) Il termine principale di f e

LT (f) = LC(f) · LM(f).


Vediamo le precedenti definizione all’opera sul polinomio f = 2x4yz3 − 3xyz5 +

5x3yz2 + 2x7 dell’Esempio 7.2.6, fissato l’ordinamento lessicografico:

multideg(f) = (7, 0, 0)LC(f) = 2LM(f) = x7

LT (f) = 2x7

Lemma 7.2.8. Siano f, g ∈ k[x1, . . . , xn] polinomi non nulli. Allora

(i) multideg(fg) = multideg(f) + multideg(g)

(iv) Se f + g 6= 0 allora multideg(f + g) ≤ max{multideg(f),multideg(g)}. Se,

inoltre, multideg(f) 6= multideg(g), allora vale l’uguaglianza.

D’ora in avanti assumeremo sempre che un particolare ordinamento monomiale

sia stato scelto e quindi che coefficiente, monomio e termine principale siano calcolati

relativamente a quell’ordinamento solamente.

7.3 Un algoritmo di divisione in k[x1, . . . , xn]

L’algoritmo di divisione visto nell’Esempio 7.1.1 permette di stabilire se un dato

polinomio f ∈ k[x] sta in un ideale I. Per studiare questo problema nel caso di anelli

in piu variabili e necessario riformulare un algoritmo di divisione in k[x1, . . . , xn] che

estenda quello in k[x]. Nel caso generale, questo significa dividere f ∈ k[x1, . . . , xn]

per f1, . . . , ft ∈ k[x1, . . . , xn] che equivale a esprimere f come espressione

f = a1f1 + · · ·+ atft + r

dove gli ai ed r sono elementi in k[x1, . . . , xn]. L’idea e la stessa del caso di una sola

variabile: moltiplichiamo un certo fi per un opportuno ai in modo da cancellare il

monomio principale di f .

Teorema 7.3.1. Sia > un fissato ordinamento monomiale su Zn≥0 e F = (f1, . . . , ft)

una t−upla ordinata di polinomi in k[x1, . . . , xn]. Allora ogni f ∈ k[x1, . . . , xn] puo

essere scritto come

f = a1f1 + · · ·+ atft + r


dove ai, r ∈ k[x1, . . . , xn] e r = 0 oppure e una combinazione lineare, a coefficienti

in k, di monomi, nessuno dei quali e divisibile da nessuno dei termini principali

LT(f1), . . . ,LT(fs). Diremo che r e il resto della divisione di f per F . Inoltre, se

aifi 6= 0, allora

multideg(f) ≥ multideg(aifi).

Esempio 7.3.2. Dividiamo f = x2y−2y2+3x per f1 = xy+1 e f2 = y+x utilizzando

l’ordinamento lessicografico. I termini principali LT (f1) = xy e LT (f2) = x dividono

entrambi il termine principale di f , LT (f) = x2y. Quindi, avendo scritto prima f1

iniziamo a dividere per questo polinomio, ottenendo:

a1 =LT (f)

LT (f1)= x.

Sottraiamo poi a1f1 ad f

g = f − a1f1 = x2y − 2y2 + 3x− x2y + x = 2x− 2y2.

Il termine principale di questo polinomio, LT (g) = x, e divisibile per quello di f2 e

quindi calcoliamo

a2 =LT (g)

LT (f2

= 2, r = g − a2f2 = 2x− 2y2 − 2(x+ y) = −2y2 − 2y

In definitiva abbiamo

f = x · (xy + 1) + 2 · (x+ y)− 2y2 − 2.

Purtroppo, l’algoritmo di divisione sottointeso dal Teorema 7.3.1 non si comporta

bene come nel caso di una sola variabile, come evidenziano i seguenti esempi.

Esempio 7.3.3. Dividiamo f = x2y − xy2 + x2 + y2 per f1 = xy − 1 e f2 = x2 + 1,

usando come ordinamento monomiale sempre quello lessicografico. Procedendo come

per l’esempio precedente otteniamo

a1 =LT (f)

LT (f1)=x2y

xy= x, g = f − a1f1 = −xy2 + x2 + y2 + x

a2 =LT (g)

LT (f2

=x2

x2= 1, r = g − a2f2 = −xy2 + y2 + x− 1.


Si nota che il il termine principale del resto, LT (r) = −xy2, e ancora divisibile per

il termine principale di f1. Quindi possiamo nuovamente dividere per f1 ottenendo

a′1 =LT (r)

LT (f1)=−xy2

xy= −y, r′ = r − a′1f1 = x+ y2 +−y − 1.

In definitiva abbiamo

f = x · (xy − 1) + (x2 + 1)− y · (xy − 1) + x+ y2 − y − 1 =

= (x− y) · (xy − 1) + (x2 + 1) + x+ y2 − y − 1.

Esempio 7.3.4. Un altro problema dell’algoritmo di divisione in k[x1, . . . , xn] ri-

guarda il fatto che, riarrangiando l’ordine degli fi, i valori degli ai e di r possono

cambiare. In particolare il resto r non e univocamente determinato. Consideriamo

ad esempio il polinomio f = x2y− xy2 + x2 + y2 dell’esempio precedente, dividendo

prima per f2 = x2 + 1 e poi per f1 = xy − 1.

a2 =LT (f)

LT (f2)=x2y

x2= y, g = f − a2f2 = x2 − xy2 + y2 − y

Il termine principale di g, LT (g) = x2, non e divisibile per quello di f1, ma lo e

uno dei suoi monomi successivi: xy2. Mettiamo “da parte” x2 e consideriamo come

nuovo polinomio g = f − a2f2 − x2 = −xy2 + y2 − y.

a1 =LT (g)

LT (f1)=−xy2

xy= −y, g − a1f1 = y2 − 2y.

E per quanto detto prima, aggiungendo x2 al resto, avremo r = x2 + y2 − 2y, che

risulta essere diverso dal resto ottenuto nell’esempio precedente.

Esempio 7.3.5. L’algoritmo di divisione in k[x1, . . . , xn] non funziona bene neanche

per quanto riguarda il problema di appartenza ad un ideale. Nell’Esempio 7.1.1

avevamo visto che dati polinomi f, g, a, r ∈ k[x] con f = ag + r, allora f ∈ I = 〈g〉se e solo se r = 0. Nel caso di polinomi in piu variabili, r = 0 e una condizione

sufficiente in quanto, dato f , se otteniamo

f = a1f1 + · · ·+ atft

allora, chiaramente f ∈ 〈f1. . . . , fr〉. Tuttavia la condizione non e necessaria.


Consideriamo ad esempio f = xy2 − x, f1 = xy + 1, f2 = y2 − 1 ∈ k[x, y] con

ordinamento lessicografico. Se dividiamo f per F = (f1, f2) otteniamo

xy2 − x = y · (xy + 1) + 0 · (y2 − 1) + (−x− y).

Invece, se dividiamo per F = (f2, f1) otteniamo

xy2 − x = x · (y2 − 1) + 0 · (xy + 1) + 0

che ci mostra che f ∈ 〈f1, f2〉. I calcoli precedenti ci mostrano che, sebbene f ∈〈f1, f2〉, possiamo tuttavia avere un resto nella divisione per F = (f1, f2).

Dai precedenti esempi possiamo concludere che l’algoritmo in k[x1, . . . , xn] e una

generalizzazione troppo imperfetta del caso di una sola variabile. Per ovviare a

questi problemi sara necessario introdurre le basi di Groebner. L’idea di fondo si

basa sul fatto che, quando lavoriamo con un insieme di polinomi f1, . . . , ft, questo

porta a lavorare anche con l’ideale da essi generato I = 〈f1, . . . , ft〉. Questo ci da la

possibilita di passare da f1, . . . , ft, ad un diverso insieme di generatori di I, ma con

proprieta migliori rispetto all’algoritmo di divisione. Prima di introdurre le basi di

Groebner richiamiamo alcuni concetti e risultati che ci saranno utili.

7.4 Ideali Monomiali

Definizione 7.4.1. Un ideale I ⊂ k[x1, . . . , xn] e un ideale monomiale se esiste un

sottoinsieme A ⊂ Zn≥0 (eventualmente infinito) tale che I consiste di tutti i polinomi

che sono somme finite della forma∑

α∈A hαxα, dove hα ∈ k[x1, . . . , xn]. In tal caso,

scriveremo I = 〈xα : α ∈ A〉.

Un esempio di ideale monomiale e dato da I = 〈x5y2, x4y3, x2y4〉. E’ possibile

caratterizzare tutti i monomi che stanno in un dato ideale monomiale.

Lemma 7.4.2. Sia I = 〈xα : α ∈ A〉 un ideale monomiale. Allora un monomio xβ

giace in I se e solo se xβ e divisibile per xα per qualche α ∈ A.

Dimostrazione. Se xβ e un multiplo di xα per qualche α ∈ A, allora xβ ∈ I per

definizione di ideale. Viceversa, se xβ ∈ I allora

xβ =t∑i=1

hixαi (7.4.1)


dove hi ∈ k[x1, . . . , xn] e αi ∈ A. Sviluppando ciascun hi come combinazione di

monomi, possiamo osservare che ogni termine a destra in (7.4.1) e divisibile per

qualche αi. Quindi anche il lato sinistro xβ in (7.4.1) deve avere la stessa proprieta.

Osserviamo che xβ e divisibile per xα quando xβ = xα · xγ per qualche γ ∈ Zn≥0

che equivale a chiedere β = α + γ. Quindi, l’insieme

α + Zn≥0 = {α + γ : γ ∈ Zn≥0}

consiste degli esponenti dei monomi che sono divisibili per xα. Questo fatto, insieme

al lemma precedente, ci permette di dare una descrizione grafica dei monomi in un

dato ideale monomiale. Ad esempio, se I = 〈x5y2, x4y3, x2y4〉, allora gli esponenti

dei monomi in I formano l’insieme((5, 2) + Zn≥0

)∪((4, 3) + Zn≥0

)∪((2, 4) + Zn≥0

).

Possiamo visualiizare questo insieme come l’unione dei punti interi in tre copie

traslate del primo quadrante del piano:

m

n

(5, 2)

(4, 3)

(2, 4)

Il seguente lemma permette di dire se un polinomio f sta in un ideale monomiale

I, guardando ai monomi di f (dimostrazione lasciata per esercizio).

Lemma 7.4.3. Sia I un ideale monomiale e f ∈ k[x1, . . . , xn]. Allora le seguenti

condizioni sono equivalenti


(i) f ∈ I.

(ii) ogni termine di f sta in I.

(iii) f e una k−combinazione lineare di monomi in I.

Uno dei risultati principali sugli ideali monomiali e il cosiddetto Lemma di Dick-

son che ci assicura che ogni ideale monomiale e generato da un numero finito di mo-

nomi. Per la dimostrazione il lettore interessato puo consultare [CoxLittleOShea],

Teorema 5, Capitolo 2.4.

Lemma 7.4.4 (Lemma di Dickson). Un ideale monomiale I = 〈xα : α ∈ A〉 ⊂k[x1, . . . , xn] puo essere scritto nella forma I = 〈xα1 , xα2 , . . . , xαt〉 dove α1, α2, . . . , αt ∈A. In particolare I ha una base finita.

In realta, esiste un teorema piu generale che garantisce che ogni ideale I ⊂k[x1, . . . , xn] e finitamente generato. Tale teorema e noto come Teorema della Base

di Hilbert.

Teorema 7.4.5 (della base di Hilbert). Ogni ideale I ⊂ k[x1, . . . , xn] ammette una

base finita, cioe I = 〈g1, . . . , gt〉 per qualche g1, . . . , gt ∈ I.

Prima di dimostrare il Teorema della Base di Hilbert introduciamo alcuni concetti.

Definizione 7.4.6. Sia I ⊂ k[x1, . . . , xn] un ideale diverso dall’ideale nullo {0}.

(i) indichiamo con LT (I) l’insieme dei termini principali di I

LT (I) = {cxα : esiste f ∈ I con LT (f) = cxα}

(ii) indichiamo con 〈LT (I)〉 l’ideale generato dagli elementi in LT (I).

Dato I = 〈f1, . . . , ft〉, osserviamo che 〈LT (f1), . . . , LT (ft)〉 non e necessaria-

mente uguale a 〈LT (I)〉. E’ vero che LT (fi) ∈ LT (I) ⊂ 〈LT (I)〉 da cui se-

gue 〈LT (f1), . . . , LT (ft)〉 ⊂ 〈LT (I)〉, tuttavia 〈LT (I)〉 puo contenere strettamente

〈LT (f1), . . . , LT (ft)〉.


Esempio 7.4.7. Sia I = 〈f1, f2〉 con f1 = x2y − x2 + x e f2 = xy2 − xy. Usiamo

l’ordinamento grlex. Poiche

y · (x2y − x2 + x)− x · (xy2 − xy) = xy.

si ha xy ∈ I, da cui xy = LT (xy) ∈ 〈LT (I)〉. Comunque xy non e divisibi-

le per LT (f1) = x2y e per LT (f1) = xy2, e quindi, per il Lemma 7.4.2 xy 6∈〈LT (f1), LT (f2)〉.

Proposizione 7.4.8. Sia I ⊂ k[x1, . . . , xn] un ideale.

(i) LT (I) e un ideale monomiale

(ii) esistono g1, . . . , gt tale che 〈LT (I)〉 = 〈LT (g1), . . . , LT (gt)〉.

Dimostrazione. (i) I monomi principali LM(g) degli elementi g ∈ I \ {0} generano

l’ideale monomiale J := 〈LM(g) : g ∈ I \ {0}〉. Poiche LM(g) e LT (g) differiscono

per una costante diversa da zero, si ha che J = 〈LT (g) : g ∈ I \ {0}〉 = 〈LT (I)〉.Quindi 〈LT (I)〉 e un ideale monomiale.

(ii) Poiche 〈LT (I)〉 e generato dai monomi LM(g) con g ∈ I \ {0}, per il Lemma

di Dickson sappiamo che 〈LT (I)〉 = 〈LM(g1), LM(g2), . . . , LM(gt)〉 per un numero

finito di polinomi g1, g2, . . . , gt ∈ I. Poiche LM(gi) e LT (gi) differiscono per una co-

stante diversa da zero, per i = 1, . . . , t, si ha che 〈LT (I)〉 = 〈LT (g1), LT (g2), . . . , LT (gt)〉.

Usando la Proposizione precedente e l’algoritmo di divisione introdotto in 7.3

possiamo dimostrare il Teorema 7.4.5.

Dimostrazione del Teorema della Base di Hilbert. Se I = {0} prendiamo come in-

sieme dei generatori {0} che e indubbiamente finito. Se I contiene alcuni polinomi

diversi da zero, allora un insieme di generatori g1, . . . , gt per I puo essere costruito

nella maniera seguente. Per la Proposizione 7.4.8 esistono g1, . . . , gt ∈ I tali che

〈LT (I)〉 = 〈LT (g1), LT (g2), . . . , LT (gt)〉. Dimostriamo che I = 〈g1, . . . , gt〉.Chiaramente 〈g1, . . . , gt〉 ⊂ I poiche, per ogni i = 1, . . . , t, gi ∈ I. Viceversa,

sia f ∈ I un qualsiasi polinomio. Applichiamo l’algoritmo di divisione in 7.3 per

dividere f per 〈g1, . . . , gt〉. Otterremo un’espressione della forma

f = a1g1 + · · ·+ atgt + r


dove i termini in r non sono divisibili per nessuno dei termini principali LT (gi).

Facciamo vedere che r = 0. Per fare questo, osserviamo innanzitutto che

r = f − a1g1 − · · · − atgt ∈ I.

Se r 6= 0 allora LT (r) ∈ 〈LT (I)〉 = 〈LT (g1), LT (g2), . . . , LT (gt)〉 e, per il Lemma

7.4.2 segue che LT (r) deve essere divisibile per almeno un termine principale LT (gi).

Questo contraddice la definizione di resto della divisione e quindi r deve essere uguale

a zero, da cui

f = a1g1 + · · ·+ atgt + 0 ∈ 〈g1, . . . , gt〉

che dimostra I ⊂ 〈g1, . . . , gt〉.

7.5 Basi di Groebner

Introduciamo adesso delle basi “buone” per l’algoritmo di divisione presentato in

7.3, buone nel senso che non si verificheranno i problemi descritti negli Esempi

7.3.3, 7.3.4 e 7.3.5. L’idea di base sta nel fatto che, una volta scelto un ordinamento

monomiale, ciascun f ∈ k[x1, . . . , xn] ha un unico termine principale LT (f).

Torniamo al Teorema 7.4.5: la base utilizzata nella dimostrazione la proprieta

particolare che 〈LT (g1), . . . , LT (gt)〉 = 〈LT (I)〉. Non e detto che ogni base di I

abbia tale proprieta e quindi diamo a tali basi un nome particolare.

Definizione 7.5.1. Sia fissato un ordinamento monomiale. Un sottoinsieme finito

G = {g1, . . . , gt} di un ideale I prende il nome di base di Groebner (o base standard)

se

〈LT (g1), . . . , LT (gt)〉 = 〈LT (I)〉

Il seguente risultato ci assicura che ogni ideale ha una base di Groebner.

Corollario 7.5.2. Sia fissato un ordinamento monomiale. Allora ogni ideale I ⊂k[x1, . . . , xn], diverso da {0}, ammette una base di Groebner. Inoltre, ogni base di

Groebner per un ideale I e una base di I.

Dimostrazione. Dato un ideale I, diverso da zero, l’insieme G = {g1, . . . , gt} costrui-

to nella dimostrazione del Teorema 7.4.5 e una base di Groebner per definizione.

Per la seconda parte dell’enunciato, basta osservare che sempre la dimostrazione del

Teorema 7.4.5 prova che I = 〈g1, . . . , gt〉, cioe G e una base per I.


Consideriamo l’ideale I = 〈f1, f2〉 dell’Esempio 7.4.7. Per quanto detto in tale

esempio, {f1, f2} = {x2y − x2 + x, xy2 − xy} non e una base di Groebner.

Nel prossimo paragrafo mostreremo come trovare basi di Groebner, ma prima

soffermiamoci su alcune loro proprieta che ci mostrano perche siano “buone” rispetto

all’algoritmo di divisione presentato in 7.3.

Proposizione 7.5.3. Sia G = {g1, . . . , gt} una base di Groebner per un ideale

I ⊂ k[x1, . . . , xn] e sia f ∈ k[x1, . . . , xn]. Allora esiste un unico r ∈ k[x1, . . . , xn]

tale che

(i) nessun monomio di r e divisibile per i termini principali LT (g1), . . . , LT (gt);

(ii) esiste g ∈ I tale che f = g + r;

In particolare, r e il resto della divisione di f per G, usando l’algoritmo di divisione,

indipendentemente da come gli elementi di G sono elencati.

Dimostrazione. L’algoritmo di divisione applicato ad f e G fornisce f = a1g1 +

· · ·+ atgt + r dove r soddisfa (i). Affinche (ii) sia soddisfatta e sufficiente prendere

g = a1g1 + · · · + atgt ∈ I. Questo prova l’esistenza di r. Per provare l’unicita,

supponiamo che f = g + r = g + r soddisfi (i) e (ii). Allora r − r = g − g ∈ I e

quindi, se r 6= r, allora LT (r− r) ∈ 〈LT (I)〉 = 〈LT (g1), . . . , LT (gt)〉. Per il Lemma

7.4.2 segue che LT (r − r) e divisibile per qualche LT (gi). Questo e impossibile in

quanto nessun termine di r, r e divisibile per nessuno tra LT (g1), . . . , LT (gt). Quindi

r − r deve essere zero e l’unicita resta provata.

Osservazione 7.5.4. Il resto r prende di solito il nome di forma normale di f . La

Proposizione precedente ci dice che le basi di Groebner possono essere caratteriz-

zate tramite l’unicita del resto. Osserviamo pero che, sebbene il resto sia unico,

indipendentemente dall’ordine con cui si divide f per i vari LT (gi), i coefficienti ai,

in f = a1g1 + · · ·+ atgt + r, non sono unici.

Come corollario della proposizione precedente otteniamo il seguente criterio per

stabilire se un polinomio appartiene a un ideale dato.

Corollario 7.5.5. Sia G = {g1, . . . , gt} una base di Groebner per un ideale I ⊂k[x1, . . . , xn] e sia f ∈ k[x1, . . . , xn]. Allora f ∈ I se e solo se il resto della divisione

di f per G e zero.


Definizione 7.5.6. Scriviamo fF

per il resto della divisione di f per una t−upla

ordinata F = (f1, . . . , ft). Se F e una base di Groebner per 〈f1, . . . , ft〉, allora

possiamo guardare ad F come ad un insieme senza un particolare ordine grazie alla

Proposizione 7.5.3.

Esempio 7.5.7. Consideriamo il polinomio f = x2y− xy2 + x2 + y2 e F = {f1, f2}con f1 = xy − 1 e f2 = x2 + 1. Dall’Esempio 7.3.3 sappiamo che

fF

= x+ y2 − y − 1.

Se consideriamo invece F ′ = {f2, f1}, allora, dai conti fatti nell’Esempio 7.3.4,

otteniamo

fF ′

= x2 + y2 − 2y.

Iniziamo adesso a capire come sia possibile costruire una base di Groebner per

un ideale I a partire da un suo insieme di generatori f1, . . . , ft. Come abbiamo visto

prima, uno dei fatti per cui {f1, . . . , ft} non e detto che sia una base di Groebner

riguarda la possibilita che esista una combinazione polinomiale degli fi il cui termine

principale non sta nell’ideale generato dagli LT (fi). Questo ad esempio succede

quando i termini principali di una data combinazione axαfi − bxβfj si cancellano

lasciando solo termini di grado minore. D’altro canto axαfi − bxβfj ∈ I e quindi

il suo termine principale appartiene a 〈LT (I)〉. Per studiare questo fenomeno di

cancellazione introduciamo il concetto di S−polinomio.

Definizione 7.5.8. Siano f, g ∈ k[x1, . . . , xn] due polinomi non nulli.

(i) Se multideg(f) = α e multideg(g) = β, allora, posto γ = (γ1, . . . , γn) dove γi =

max{αi, βi}, chiamiamo xγ il minimo comune multiplo di LM(f) e LM(g),

scrivendo xγ =MCM(LM(f), LM(g)).

(ii) L’S−polinomio di f e g e la combinazione

S(f, g) =xγ

LT (f)· f − xγ

LT (g)· g.

Esempio 7.5.9. Consideriamo i polinomi f = 3x3z+x2y+xyz e g = x2y3 +y3 +z2

in k[x, y, z] con ordinamento lessicografico. Allora


multideg(f) = (3, 0, 1)multideg(g) = (2, 3, 0)

quindi γ = (3, 3, 1) e

S(f, g) =x3y3z

3x3z· f − x3y3z

x2y3· g =

1

3x2y4 +

1

3xy4x− xy3z − xz3.

Un S−polinomio S(f, g) serve a produrre la cancellazione dei termini principali.

Infatti ogni cancellazione di termini principali tra polinomi dello stesso multigrado

e ottenuta da questo tipo di combinazioni polinomiali, come garantito dal seguente

risultato.

Lemma 7.5.10. Supponiamo di avere una somma∑t

i=1 cifi dove ci ∈ k e multideg(fi) =

δ ∈ Zn≥0 per ogni i. Se multideg(∑t

i=1 cifi) < δ, allora∑t

i=1 cifi e una combinazione

lineare, con coefficienti in k, degli S−polinomi S(fi, fj), per 1 ≤ i, j ≤ t. Inoltre,

ciascun S(fi, fj) ha multigrado < δ.

Usando il concetto di S−polinomio e il lemma precedente possiamo dimostrare il

seguente criterio di Buchberger per stabilire se una base di un ideale e una base di

Groebner.

Teorema 7.5.11 (Burghberger S−pair criterion). Sia I un ideale in k[x1, . . . , xn].

Allora una base G = {g1, . . . , gt} per I e una base di Groebner per I se e solo se,

per ogni coppia di indici i 6= j, il resto della divisione di S(gi, gj) per G e zero.

Dimostrazione. Un verso del se e solo se e semplice in quanto, se G e una base di

Groebner, allora, dato che S(gi, gj) ∈ I, il loro resto per la divisione per G e zero,

per il Corollario 7.5.5. Dimostriamo quindi l’implicazione nell’altro verso.

Sia f ∈ I = 〈g1, . . . , gt〉 un polinomio non nullo. Esistono quindi polinomi hi ∈k[x1, . . . , xn] tali che

f =t∑i=1

higi. (7.5.1)

Per il Lemma 7.2.8 sappiamo che

multideg(f) ≤ max (multideg(higi)) (7.5.2)

Sia mi =multideg(higi) e definiamo δ = max(m1, . . . ,mt). Quindi la precedente

disuguaglianza puo essere scritta come multideg(f) ≤ δ. Se cambiamo la forma in


(7.5.1) di come f puo essere scritta in termini di G, otterremo un differente valore per

δ. Dato che un ordinamento monomiale e un buon ordinamento, possiamo scegliere

un espressione per f della forma (7.5.1) per cui δ sia minimale.

Facciamo vedere adesso che, se δ e minimale, allora multideg(f) = δ. Dimostria-

molo per assurdo supponendo che multideg(f) < δ. Scriviamo f in modo da isolare

i termini di multigrado δ:

f =∑mi=δ

higi +∑mi<δ

higi

=∑mi=δ

LT (hi)gi +∑mi=δ

(hi − LT (hi))gi +∑mi<δ

higi(7.5.3)

I monomi che appaiono nella seconda e terza somma, della seconda riga, hanno tutti

multigrado < δ. Quindi, la nostra ipotesi multideg(f) < δ ci dice che anche la prima

somma ha multigrado < δ.

Siano LT (hi) = cixαi , allora la prima somma∑

mi=δ

LT (hi)gi =∑mi=δ

cixαigi

ha esattamente la forma descritta nel Lemma 7.5.10 con fi = xαigi. Quindi, sempre

per il Lemma 7.5.10 questa somma e una combinazione lineare degli S−polinomi

S(xαjgj, xαkgk). Inoltre si ha

S(xαjgj, xαkgk) =

xδ

xαjLT (gj)xαjgj −

xδ

xαkLT (gk)xαkgk

= xδ−γjkS(gjgk)

dove xγjk e il minimo comune multiplo tra LM(gj) e LM(gk)). Quindi esistono

costanti cjk ∈ k tali che∑mi=δ

LT (hi)gi =∑j,k

cjkxδ−γjkS(gj, gk). (7.5.4)

Le nostre ipotesi ci dicono che il resto di S(gj, gk) e zero nella divisione per g1, . . . , gt.

Tramite l’algoritmo di divisione, questo significa che ciascuno S−polinomio puo

essere scritto nella forma

S(gj, gk) =t∑i=1

aijkgi (7.5.5)


dove aijk ∈ k[x1, . . . , xn]. L’algoritmo di divisione ci dice anche che

multideg(aijkgi) ≤ multideg(S(gj, gk)) (7.5.6)

per ogni scelta di i, j e k. Questo ci dice che quando il resto e zero, possiamo trovare

un’espressione per S(gj, gk) in termini di G dove non tutti i termini principali si

cancellano. Infatti, multiplichiamo l’espressione di S(gj, gk) per xδ−γjk ottenendo

xδ−γjkS(gj, gk) =t∑i=1

bijkgi,

dove bijk = xδ−γjkaijk. Quindi, dalla (7.5.6) e dal Lemma 7.5.10 otteniamo

multideg(bijkgi) ≤ multideg(xδ−γjkS(gj, gk)) < δ. (7.5.7)

Se sostituiamo la precedente espressione di xδ−γjkS(gj, gk) in (7.5.4) otteniamo la

seguente equazione

∑mi=δ

LT (hi)gi =∑j,k

cjkxδ−γjkS(gj, gk) =

∑j,k

cjk

(∑t

bijkgi

)=∑i

higi

che, per la (7.5.7), ha la proprieta che, per ogni i,

multideg(higi) < δ.

Infine, sostituiamo∑

mi=δLT (hi)gi =

∑i higi nella (7.5.3) ottenendo un’espres-

sione per f che e una combinazione lineare degli gi dove tutti i termini hanno mul-

tigrado strettamente minore di δ. Questo contraddice la minimalita di δ e quindi si

deve avere multideg(f) = δ.

Quindi multideg(f) =multideg(higi), per qualche i, da cui segue che LT (f) e

divisibile per LT (gi). Quindi LT (f) ∈ 〈LT (g1), . . . , LT (gt)〉 e il teorema e dimo-

strato.

Esempio 7.5.12. Consideriamo l’ideale della cubica gobba I = 〈y−x2, z−x3〉 in R3.

Proviamo che G = {y − x2, z − x3} e una base di Groebner per I. Supponiamo che

sia fissato l’ordinamento lessicografico con y > z > x. Consideriamo S−polinomio

S(y − x2, z − x3) =yz

y(y − x2)− yz

z(z − x3) = −zx2 + yx3.


Tramite l’algoritmo di divisione otteniamo

−zx2 + yx3. = x3 · (y − x2) + (−x2) · (z − x3) + 0.

e quindi S(y − x2, z − x3)G = 0 e G e una base di Groebner per I, per il Teorema

7.5.11. Il lettore verifichi che, per l’ordinamento x > y > z, G non e una base di

Groebner per I.

7.6 Algoritmo di Buchberger

Abbiamo visto, grazie al Corollario 7.5.2 che ogni ideale ammette una base di Groeb-

ner, ma purtroppo non ci dice come costruirla. Vediamo quindi adesso come sia

possibile ovviare a questo problema tramite l’algoritmo di Buchberger.

Teorema 7.6.1. Sia I = 〈f1, . . . , fs〉 6= {0]} un ideale in k[x1, . . . , xn]. Una base

di Groebner per I puo essere costruita, in un numero finito di passi, con il seguente

algoritmo.

Input: F = (f1, . . . , fs)

Output: una base di Groebner G = (g1, . . . , gt) per I, con F ⊂ G.

G := F

RIPETERE

G′ := G

PER ogni coppia {p, q}, p 6= q in G′ FAI

S := S(p, q)G′

SE S 6= 0 ALLORA G := G ∪ {S}FINO A QUANDO G = G′

Esempio 7.6.2. Consideriamo ancora l’ideale I = 〈f1, f2〉 dell’Esempio 7.4.7. Sap-

piamo gia che {f1, f2} = {x2y − x2 + x, xy2 − xy} non e una base di Groebner. in

quanto y · (x2y− x2 + x)− x · (xy2− xy) = xy = LT (xy) 6∈ 〈LT (f1), LT (f2)〉. Posto

G′ = G = {f1, f2} calcoliamo

S(f1, f2) :=x2y2

x2yf − x2y2

(xy2g = xy.


Poiche S(f1, f2)G′

= xy, ggiungiamo quindi f3 = xy a G. Ripercorriamo il ciclo con

il nuovo insieme di polinomi ottenendo

S(f1, f2) = xy, S(f1, f3) = −x2 + x, S(f2, f3) = −xy

da cui otteniamo

S(f1, f2)G′

= 0, S(f1, f3)G′

= −x2 + x, S(f2, f3)G′

= 0.

Aggiungiamo quindi f4 = x2 − x a G. Iterando nuovamente il ciclo ottiene

S(f1, f2) = xy, S(f1, f3) = −x2 + x, S(f1, f4) = −x2 + xy + xS(f2, f3) = −xy, S(f2, f4) = −x2y + xy2, S(f3, f4) = xy

da cui calcoliamo

S(f1, f2)G′

= 0, S(f1, f3)G′

= 0, S(f1, f4)G′

= 0

S(f2, f3)G′

= 0, S(f2, f4)G′

= 0, S(f3, f4)G′

= 0

Quindi possiamo uscire dal ciclo e la base di Groebner ottenuta e G = {x2y − x2 +

x, xy2 − xy, xy, x2 − x}.

Osservazione 7.6.3. L’algoritmo del Teorema 7.6.1 e solo una versione rudimen-

tale dell’algoritmo di Buchberger, in quanto non e molto pratico dl punto di vista

computazionale. Infatti, una volta che un resto S(p, q)G′

e uguale a zero, questo

rimarra zero anche se aggiungiamo ulteriori generatori a G′. Quindi non c’e ragione

di calcolare nuovamente quei resti che sono gia stati analizzati nel loop principale.

Infatti, se aggiungiamo i nuovi generatori fj, uno alla volta, gli unici resti da control-

lare sono quelli del tipo S(fi, fj)G′

, dove i ≤ j− 1. Il lettore interessato puo trovare

una versione rifinita dell’algoritmo di Buchberger in [CoxLittleOShea], Capitolo 2.9.

Le basi di Groebner ottenute tramite il Teorema 7.6.1 sono spesso troppo gros-

se rispetto al necessario. Possiamo eliminare alcuni generatori usando il seguente

risultato.

Lemma 7.6.4. Sia G una base di Groebner per un ideale I ⊂ k[x1, . . . , xn]. Sia

p ∈ G un polinomio tale che LT (p) ∈ 〈LT (G \ {p}〉. Allora G \ {p} e ancora una

base di Groebner per I.


Dimostrazione. Sappiamo che 〈LT (G)〉 = 〈LT (I)〉. Se 〈LT (p)〉 ∈〉LT (G \ {p}〉,allora LT (G \ {p} = LT (G). Per definizione si ha che G \ {p} e ancora una base di

Groebner per I.

Modificando le costanti in mod che tutti i coefficienti principali siano pari a 1 e

rimuovendo, da G, ogni p per cui LT (p) ∈ 〈LT (G \ {p}〉, arriviamo alla cosiddetta

base di Groebner minimale.

Definizione 7.6.5. Una base di Groebner minimale per un ideale I e una base di

Groebner G per I tale che

(i) LC(p) = 1 per ogni p ∈ G.

(ii) Per ogni p ∈ G, LT (p) 6∈ 〈LT (G \ {p}〉.

Esempio 7.6.6. Consideriamo la base di Groebner G = {x2y − x2 + x, xy2 −xy, xy, x2 − x} dell’Esempio 7.6.2 (con ordinamento grlex). I coefficienti princi-

pali sono tutti pari a 1, quindi la condizione i) e verificata, altrimenti avremmo

moltiplicato i polinomi della base per opportune costanti. Osserviamo che

LT (x2y − x2 + x) = x2yLT (xy2 − xy) = xy2

LT (xy) = xyLT (x2 − x) = x2

Quindi i termini principali di x2y − x2 + x e xy2 − xy sono contenuti nell’ideale

〈xy, x2〉 = 〈LT (xy), LT (x2−x)〉 e quindi una base minimale per l’ideale I = 〈x2y−x2 + x, xy2 − xy〉 e data da {xy, x2 − x}.

Un ideale puo avere molte basi di Groebner minimali. Tuttavia possiamo trovarne

una che e meglio delle altre.

Definizione 7.6.7. Una base di Groebner ridotta per un ideale I ⊂ k[x1, . . . , xn] e

una base di Groebner G per I tale che

(i) LC(p) = 1 per ogni p ∈ G.

(ii) Per ogni p ∈ G, nessun monomio di p sta in 〈LT (G \ {p}〉.

Le basi di Groebner ridotte hanno la seguente importante proprieta.

Proposizione 7.6.8. Sia I ⊂ k[x1, . . . , xn] un ideale diverso da {0}. Allora, fissato

un ordinamento monomiale, I ha un’unica base di Groebner ridotta.


7.7 Teoria dell’eliminazione

La Teoria dell’Eliminazione rappresenta uno metodo sistematico per eliminare va-

riabili da un sistema di equazioni polinomiali. La parte centrale di questo metodo

si basa sul Teorema di Eliminazione e sul Teorema di Estensione. Definiamo adesso

in un modo formale il concetto di “eliminare le variabili”, in termini di ideali.

Definizione 7.7.1. Dato I = 〈f1, . . . , ft〉 ⊂ k[x1, . . . , xn], l−esimo ideale di elimi-

nazione Il e l’ideale di k[xl+1, . . . , xn] definito da

Il = I ∩ k[xl+1, . . . , xn].

Si dimostra facilmente che Il e un ideale di k[xl+1, . . . , xn]. Ovviamente l’ideale

I0 coincide con I stesso. Va osservato anche che ordinamenti diversi danno ideali di

eliminazione diversi.

E’ chiaro, a questo punto, che eliminare x1, . . . , xl significa trovare i polinomi

non nulli contenuti nell’l−esimo ideale di eliminazione. Questo puo essere fatto

facilmente tramite le basi di Groebner (una volta fissato un opportuno ordinamento

monomiale !).

Teorema 7.7.2 (di eliminazione). Sia I ⊂ k[x1, . . . , xn] un ideale e sia G una base

di Groebner per I rispetto all’ordinamento lessicografico con x1 > x2 > · · · > xn.

Allora, per ogni 0 ≤ l ≤ n, l’insieme

Gl = G ∩ k[xl+1, . . . , xn]

e una base di Groebner per l’l−esimo ideale di eliminazione Il.

Dimostrazione. Fissiamo l con 0 ≤ l ≤ n. Per costruzione Gl ⊂ Il e quindi e

sufficiente dimostrare che 〈LT (Il)〉 = 〈LT (Gl)〉. L’inclusione 〈LT (Gl)〉 ⊂ 〈LT (Il)〉e ovvia. Per dimostrare l’altra inclusione osserviamo che se f ∈ Il allora f ∈ I.

Quindi LT (f) e divisibile per LT (g) per qualche g ∈ G. Poiche f ∈ Il, allora LT (g)

e formato solo delle variabili xl+1, . . . , xn. Siccome stiamo usando l’ordinamento

lessicografico con x1 > x2 > · · · > xn ogni monomio formato da x1, . . . , xl e piu

grande di tutti i monomi in k[xl+1, . . . , xn] e quindi LT (g) ∈ k[xl+1, . . . , xn] implica

g ∈ k[xl+1, . . . , xn]. Questo mostra che g ∈ Gl, da cui segue 〈LT (Il)〉 ⊂ 〈LT (Gl)〉.


Il Teorema di Eliminazione mostra che una base di Groebner, nell’ordinamento

lessicografico, non elimina solo la prima variabile, ma anche le prime due, e le prime

tre e cosı via. Spesso, pero, vogliamo eliminare solo certe variabili, mentre non

ci interessa delle altre. In questi casi, puo essere difficoltoso calcolare una base di

Groebner con l’ordinamento lessicografico, soprattutto perche tale ordinamento puo

dare alcune basi di Grobener non particolarmente buone. Per versioni del Teorema

di Eliminazione che si basano su altri ordinamenti si rimanda a [CoxLittleOShea].

Passiamo adesso a introdurre il Teorema di Estensione. Supponiamo di avere un

ideale I ⊂ k[x1, . . . , xn] che definisce la vareta affine

V (I) = {(a1, . . . , an) ∈ kn : f(a1, . . . , an) = 0 per ogni f ∈ I}.

Consideriamo l’l−esimo ideale di eliminazione. Chiameremo (al+1, . . . , an) ∈ V (Il)

una soluzione parziale del sistema di equazioni di partenza. Per estendere (al+1, . . . , an)

ad una soluzione completa di V (I) dobbiamo innanzitutto aggiungere una coordina-

ta: questo significa trovare al in modo che (al, al+1 . . . , an) ∈ V (Il−1), cioe stia nella

varieta definita dal precedente ideale di eliminazione. Piu precisamente, suppoi-

niamo che Il−1 = 〈g1, . . . , gs〉 ⊂ k[xl, . . . , xn]. Quindi vogliamo trovare le soluzioni

xl = al delle equazioni

g1(xl, al+1, . . . an) = 0, . . . , gs(xl, al+1, . . . an) = 0.

Gli gi(xl, al+1, . . . an) sono polinomi in una variabili e quindi le loro soluzioni comuni

sono le soluzioni del massimo comune divisore dei precedenti s polinomi.

Ovviamente puo succedere che gli gi(xl, al+1, . . . an) non abbiamo soluzioni comu-

ni, a seconda della scelta delgi al+1, . . . an. Quindi, il nostro obiettivo, al momento, e

cercare di determinare, a priori, quali soluzioni parziali si estendono a soluzioni com-

plete. Restringiamo la nostra attenzione al caso dove abbiamo eliminato la prima

variabile x1 e quindi vogliamo sapere se una soluzione parziale (a2, . . . , an) ∈ V (I1)

si estende a una soluzione (a1, . . . , an) ∈ V (I). Il sequente teorema ci dice quando

cio e possibile.

Teorema 7.7.3 (dell’estensione). Sia I = 〈f1, . . . , ft〉 ⊂ C[x1, . . . , xn] e sia I il

primo ideale di eliinazione di I. Per ciascun 1 ≤ i ≤ t scriviamo fi nella forma

fi = gi(x2, . . . , xn)xNi1 + termini in x1 di grado < Ni


dove Ni ≥ 0 e gi ∈ C[x2, . . . , xn] e diverso da zero. Supponiamo esista una soluzione

parziale (a2, . . . , an) ∈ V (I1). Se (a2, . . . , an) 6∈ V (g1, . . . gt), allora esiste a1 ∈ Ctale che (a1, . . . , an) ∈ V (I).

Si nota subito che il Teorema dell’Estensione richiede il campo dei complessi.

Infatti, supponiamo che k = R e consideriamo le equazioni

x2 = y, x2 = z.

Se eliminiamo x otteniamo y = z e quindi tutte le soluzioni parziali (a, a) per ogni

a ∈ R. Poiche i coefficienti principali di x in x2 = y e x2 = z non si annullano mai,

il Teorema dell’Estensione ci garantisce che (a, a) si puo estendere, ammesso che si

lavori su C. Su R infatti x2 = a non ha soluzioni reali se a e negativo, quindi le

uniche soluzioni parziali (a, a) che si estendono sono quelle per per ogni a ∈ R≥0.

Osservazione 7.7.4. Sebbene il Teorema dell’estensione da un’enunciato solo nel

caso in cui si elimini la prima variabile, puo essere tuttavia utilizzato per eliminare

ogni numero di variabili. L’idea e quella di estendere le soluzioni una variabile alla

volta: prima a xl−1, poi a xl−2 e cosı via fino a x1.

Il Teorema dell’Estensione e particolarmente utile quando uno dei coefficienti

principali e costante.

Corollario 7.7.5. Sia I = 〈f1, . . . , ft〉 ⊂ C[x1, . . . , xn] e assumiano che per qualche

i, fi si puo scrivere nella forma

fi = cixN1 + termini in x1 di grado < N

dove c ∈ C e diverso da zero e N > 0. Se I1 e il primo ideale di eliminazione di I

e (a2, . . . , an) ∈ V (I1), allora esiste a1 ∈ C tale che (a1, . . . , an) ∈ V (I).

7.8 La geometria dell’eliminazione

Come vedremo adesso, il processo di eliminazione corrisponde a proiettare varieta

in sottospazi di dimensione piu bassa. Per il resto della sezione lavoriamo su C.


Sia V = V (f1, . . . , ft) ⊂ Cn una varieta affine. Per eliminare le prime l variabili

x1, . . . , xl consideriamo la mappa di proiezione

πl : Cn → Cn−l(a1, . . . , an) 7→ (al+1, . . . an)

.

Il seguente lemma ci spiega il legame tra πl(V ) e l−esimo ideale di eliminazione.

Lemma 7.8.1. Sia Il = 〈f1, . . . , ft〉∩C[xl+1, . . . , xn], l−esimo ideale di eliminazione

di I. Allora, in Cn−l, si ha

πl(V ) ⊂ V (Il).

Osserviamo che possiamo scrivere πl(V ) come

πl(V ) =

{(al+1, . . . , an) ∈ V (Il) : ∃a1, . . . al ∈ Ccon (a1, . . . , al, al+1, . . . , an) ∈ V

}.

Quindi πl(V ) consiste esattamente delle soluzioni parziali che si estendono a soluzioni

complete. Possiamo quindi dare una versione geometrica del Teorema di estensione.

Teorema 7.8.2. Data V = V (f1, . . . , ft) ⊂ Cn, sia gi come nel Teorema 7.7.3. Se

I1 e il primo ideale di eliminazione di 〈f1, . . . , ft〉, allora vale l’uguaglianza, in Cn−l

V (I1) = π1(V ) ∪ (V (g1, . . . , gt) ∩ V (I1))

dove π1 : Cn → Cn−1 e la proiezione sulle ultime n− 1 componenti.

Il precedente Teorema ci dice, quindi, che π1(V ) copre la varieta affine V (I1), ad

eccezione, eventualmente, di una parte che giace in V (g1, . . . , gt). Sfortunatamente

non sappiamo quanto questa parte sia grande e, esistono casi, in cui V (g1, . . . , gt)

e letteralmente enorme. Tuttavia, il seguente risultato ci permette di capire ancora

meglio il rapporto tra π1(V ) e V (I1).

Teorema 7.8.3 (Teorema della chiusura). Sia V = V (f1, . . . , ft) ⊂ Cn e sia Il

l−esimo ideale di eliminazione di I = 〈f1, . . . , ft〉, allora:

(i) V (Il) e la piu piccola varieta affine contenente πl(V ) ⊂ Cn−l.

(ii) Quando V 6= ∅, esiste una varieta affine W $ V (Il) tale che V (Il)\W ⊂ πl(V ).


Il Teorema di chiusura da una descrizione parziale di πl(V ) che ricopre V (Il)

eccetto per i punti che giacciono in una varieta strettamente piu piccola di V (Il).

Concludiamo la sezione con la versione geometrica del Corollario 7.7.5 che rap-

presentava una situazione molto favorevole all’eliminazione.

Corollario 7.8.4. Sia V = V (f1, . . . , ft) ⊂ Cn e assumiano che per qualche i, fi si

puo scrivere nella forma

fi = cixN1 + termini in x1 di grado < N

dove c ∈ C e diverso da zero e N > 0. Se I1 e il primo ideale di eliminazione di I,

allora, in Cn−1,

π1(V ) = V (I1),

dove π1 e la proiezione sulle ultime n− 1 componenti.

7.9 Implicizzazione

L’idea che sta alla base dell’implicizzazione riguarda la ricerca delle equazioni che

definiscono una varieta V , inizialmente data in forma parametrica, in Spesso la rap-

presentazione parametrica non definisce tutta la varieta V e, con il problema di im-

plicizzazione, si cercano le equazioni che definiscono la piu piccola varieta contenente

la parametrizzazione.

esempio cubica gobba

Risolviamo il problema di implicizzazione nel caso di una parametrizzazione

polinomialex1 = f1(t1, . . . , tm)

...xn = fn(t1, . . . , tm)

(7.9.1)

dove f1, . . . , fm ∈ k[t1, . . . , tm]. Questi, geometricamente, rappresentano la funzione

F : km → kn

che associa allam−upla (t1, . . . , tm) l’n−upla (f1(t1, . . . , tm), . . . , fn(t1, . . . , tm)). Quin-

di F (km) ⊂ kn e il sottoinsieme parametrizzato dalle equazioni in (7.9.1). Tutta-

via non e detto che F (km) sia una varieta affine ed una soluzione al problema di

implicizzazione sara la piu piccola varieta affine che contiene F (km).


Possiamo collegare implicizzazione ed eliminazione nel modo seguente. Le equa-

zioni in (7.9.1) definiscono una varieta

V = V (x1 − f1, . . . , xn − fn) ⊂ km+n

dove xi − fi e un polinomio in k[t1, . . . , tm, x1, . . . , xn]. I punti di V possono essere

scritti nella forma

(t1, . . . , tm, f1(t1, . . . , tm), . . . , fn(t1, . . . , tm)).

Quindi V e il grafo della funzione F . Consideriamo le funzioni

i : km → km+n

πm : km+n → km

definite da

i(t1, . . . , tm) = (t1, . . . , tm, f1(t1, . . . , tm), . . . , fn(t1, . . . , tm))πm(t1, . . . , tm, x1, . . . , xn) = (x1, . . . , xn)

.

Abbiamo quindi un diagramma commutativo

DIAGRAMMA

dove F = πm ◦ i e i(km) = V . Quindi otteniamo che l’immagine della parame-

trizzazione e la proiezione del suo grafo, cioe

F (km) = πm(i(km)) = πm(V ).

Teorema 7.9.1 (implicizzazione polinomiale). Se k ‘e un campo infinito, sia F :

km → kn la funzione definita dalla parametrizzazione polinomiale il (7.9.1). Sia

I l’ideale I = 〈x1 − f1, . . . , xn − fn〉 ⊂ k[t1, . . . , tm, x1, . . . , xn] e sia Im = I ∩k[x1, . . . , xn] m−esimo ideale di eliminazione. Allora V (Im) e la piu piccola varieta

in kn che contiene F (km).

Il precedente teorema ci fornisce quindi un algoritmo per il problema dell’impli-

cizzaizone polinomiale:

Input: x1 = fi(t1, . . . , tm) i = 1, . . . , n.

Output: equazioni in k[x1, . . . , xn] per la piu piccola varieta contenente

F (km).


DEFINIRE I = 〈x1 − f1, . . . , xn − fn〉

CALCOLARE una base di Groebner G di I rispetto all’ordinamento

lessicografico dove ogni ti e piu grande di ogni xj

Per il Teorema di Eliminazione, i polinomi in G che non contengono monomi nelle

ti definiscono l’ideale della piu piccola varieta contenente la parametrizzazione.

7.10 Applicazioni delle basi di Groebner e della

teoria dell’eliminazione

Presi insieme, l’S−pair criterion e il Teorema 7.6.1 forniscono le basi algoritmiche

per la teoria delle basi di Groebner. Vediamo adesso alcune applicazioni di questi

due risultati.

7.10.1 Problema di appartenenza all’ideale

Utilizzando le basi di Groebner insieme all’algoritmo di divisione otteniamo un algo-

ritmo per il problema di appartenenza. Infatti, dato un polinomio f ∈ k[x1, . . . , xn]

e un ideale I ⊂ k[x1, . . . , xn], con I = 〈f1, . . . , fs〉, possiamo stabilire se f ∈ I nel-

la maniera seguente. Innanzitutto, grazie al Teorema 7.6.1 troviamo una base di

Groebner G = {g1, . . . , gt} per I. Successivamente, dal Corollario 7.5.5 otteniamo

f ∈ I se e solo se fG

= 0.

Esempio 7.10.1. Consideriamo l’ideale I =< xy+z2, 3xyz−y2 > con ordinamento

grlex. Usiamo il software Singular per controllare se il polinomio f = x4y+x2y2−yz sta in I. Definiamo inizialmente l’anello, l’idealee il polinomio f .

>ring r=0,(x,y,z),Dp;

>ideal I=xy+z^2, 3xyz-y^2;

> poly f=x4y+x2y2-yz;

dove DP indica che stiamo usando grlex. Per calcolare una base di Grobner di I

basta scrivere

> std(I);


_[1]=xy+z2

_[2]=3z3+y2

Per controllare se f ∈ I potremmo digitare

> reduce(f,I);

// ** I is no standard basis

-x3z2+z4-yz

Tuttavia si nota che Singular fornisce un avviso sul fatto che i generatori di I non

sono una base di Groebner (come si vede dal calcolo della base sopra). Possiamo

quindi calcolare l’appartenenza di f ad I richiedendo di calcolare reduce rispetto

alla base di Groebner:

> reduce(f,std(I));

-x3z2-1/3y2z-yz

Il fatto che il risultato sia diverso da zero, ci dice che f /∈ I.

7.10.2 Risolvere equazioni polinomiali

L’aiuto delle basi di Groebner per risolvere equazioni polinomiali sta nel fatto che

ci permettono di passare a nuove equazioni in cui la forma e semplificata: infatti

le variabili risultano eliminate dalle equazioni in maniera successiva (e l’ordine di

eliminazione sembra corrispondere all’ordinamento monomiale scelto). Un sistema

di equazioni in questa forma e piu semplice da risolvere: partendo dalle soluzioni

dell’ultima equazione, si torna indietro sostituendo le soluzioni ottenute e risolven-

do per le nuove variabili. Osserviamo che il procedimento diventa particolarmente

vantaggioso quando l’ultima equazione contiene una sola variabile. Possiamo quin-

di affermare che le basi di Groebner, applicate a questo problema, generalizzano il

metodo di Gauss-Jordan, per sole equazioni lineari. C’e da dire, tuttavia, che non

tutti gli ordinamenti daranno basi di Groebner in cui le variabili si eliminano suc-

cessivamente nelle varie equazioni. L’ordinamento che assicura questa eliminazione

e quello lessicografico.

Esempio 7.10.2. Consideriamo le equazioni

x2 + x+ y = 0, x− z = 0, z2 + x2− y2 = 0


che definiscono l’ideale I = 〈x2+x+y, x−z, z2+x2−y2〉. Calcoliamo, in Singular,

una sua base di Groebner per l’ordinamento lex.

> ring r=0,(x,y,z),lp;

> ideal I=x2+x+y,x-z,z2+x2-y2;

> std(I);

_[1]=z4+2z3-z2

_[2]=y+z2+z

_[3]=x-z

Il primo elemento della base contiene solo la variabile Z e ha soluzioni

z = 0, −1−√

2− 1, −1 +√

2.

A questo punto, sostituendo semplicemente tali valori per z negli altri due polinomi

della base di Groebner e determinare cosı le soluzioni delle equazioni di partenza.

7.10.3 Problema di implicizzazione

Consideriamo le equazioni parametrichex1 = f1(t1, . . . , tm)...

xn = fn(t1, . . . , tm)

(7.10.1)

dove gli fi sono funzioni polinomi (ma in generale possono essere funzioni ra-

zionali) e supponiamo che definiscano una varieta algebrica V ⊂ kn; siamo quindi

interessati a trovare le equazioni di V .

Consideriamo la varieta affine in kn+m definita, in k[t1, . . . , tm, x1, . . . , xn], dalle

equazionix1 − f1(t1, . . . , tm) = 0

...xn − fn(t1, . . . , tm) = 0

L’idea e quella di eliminare le variabili ti dalle precedenti equazioni.

Senza utilizzare la teoria dell’eliminazione, possiamo utilizzare le sole basi di

Groebner per risolvere il problema di implicizzazione. Consideriamo, infatti, in

k[t1, . . . , tm, x1, . . . , xn], l’ordinamento lessicografico definito sulle variabili come

t1 > · · · > tm > x1 > · · · > xn


e calcoliamo una base di Groebner per l’ideale I = 〈xi − fi(t1, . . . , tm)〉. Siccome

stiamo usando un ordinamento lessicografico, ci aspettiamo che la base di Groebner

abbia polinomi che eliminano variabili e t1, . . . , tm saranno eliminate prima in quan-

to “piu grandi” nell’ordinamento dato. Quindi la base di Groebner di I conterra

equazioni nelle sole xi: queste sono i candidati per le equazioni di V .

Esempio 7.10.3. Consideriamo la cubica gobba C in P3 parametrizzata dax0 = t3

x1 = t2s

x2 = ts2

x3 = s3

Per trovare le sue equazioni implicite possiamo definire inizialmente l’ideale I =

〈x0 − t3, x1 − t2s, x2 − ts2, x3 − s3〉 e calcolare una sua base di Groebner tramite

l’ordinamento lex con t > s > x > y > z.

> ring r=0,(t,s,x(0..3)),lp;

> ideal I=x(0)-t3,x(1)-t2s,x(2)-ts2,x(3)-s3;

> std(I);

_[1]=x(1)*x(3)-x(2)^2

_[2]=x(0)*x(3)-x(1)*x(2)

_[3]=x(0)*x(2)-x(1)^2

_[4]=s^3-x(3)

_[5]=t*x(3)-s*x(2)

_[6]=t*x(2)-s*x(1)

_[7]=t*x(1)-s*x(0)

_[8]=t*s^2-x(2)

_[9]=t^2*s-x(1)

_[10]=t^3-x(0)

Si nota che, nei 10 generatori della base di Groebner per I, solo i primi 3 conten-

gono solo le variabili xi. Quindi questi danno le equazioni che rappresentano C in

forma implicita:

x1x3 − x22 = 0, x0x3 − x1x2 = 0, x0x2 − x2

1 = 0.


Esempio 7.10.4. Consideriamo nuovamente la cubica gobba dell’esempio prece-

dente, ma calcoliamo le sue equazioni implicite tramite la teoria dell’eliminazione.

In Singular carichiamo inizialmente la libreria opportuna

> LIB "elim.lib";

// ** loaded /usr/local/Singular/3-1-6/LIB/elim.lib (14661,2012-03-05)

// ** loaded /usr/local/Singular/3-1-6/LIB/ring.lib (15322,2012-10-12)

// ** loaded /usr/local/Singular/3-1-6/LIB/primdec.lib (14732,2012-03-30)

// ** loaded /usr/local/Singular/3-1-6/LIB/absfact.lib (14191,2011-05-04)

// ** loaded /usr/local/Singular/3-1-6/LIB/triang.lib (13499,2010-10-15)

// ** loaded /usr/local/Singular/3-1-6/LIB/matrix.lib (13658,2010-11-16)

// ** loaded /usr/local/Singular/3-1-6/LIB/nctools.lib (14246,2011-05-26)

// ** loaded /usr/local/Singular/3-1-6/LIB/random.lib (14661,2012-03-05)

// ** loaded /usr/local/Singular/3-1-6/LIB/poly.lib (14852,2012-04-30)

// ** loaded /usr/local/Singular/3-1-6/LIB/general.lib (14191,2011-05-04)

// ** loaded /usr/local/Singular/3-1-6/LIB/inout.lib (13499,2010-10-15)

>

Successivamente calcoliamo l’ideale di eliminazione di I dell’esempio precedente:

> elim(I,ts);

_[1]=-x(1)*x(3)+x(2)^2

_[2]=-x(0)*x(3)+x(1)*x(2)

_[3]=-x(0)*x(2)+x(1)^2

ottenendo nuovamente le equazioni che rappresentano C in forma implicita:

x1x3 − x22 = 0, x0x3 − x1x2 = 0, x0x2 − x2

1 = 0.

7.11 Polinomi omogenei e funzione di Hilbert

Appendice A

Nozioni di combinatorica

Sia A un insieme con n elementi {a1, . . . , an}.

1) Le m-uple di elementi di A, cioe gli elementi di Am, sono nm.

Infatti per ottenere una m-upla abbiamo n scelte per il primo elemento, n

scelte per il secondo, e cosı via.

2) Le m-uple di elementi distinti di A sono invece:

n · (n− 1) · · · · · (n−m+ 1) =n!

(n−m)!.

Infatti stavolta abbiamo n scelte per il primo elemento, ma solo n − 1 scelte

per il secondo, n− 2 scelte per il terzo, e cosı via.

E’ chiaro che, perche la cosa abbia senso, si deve avere n ≥ m. In particolare,

ponendo n = m, si ottiene il numero di n-uple di elementi distinti di A,

solitamente note come permutazioni di A: esse sono n!.

3) Le m-uple non ordinate di elementi distinti di A, cioe i sottoinsiemi di cardi-

nalita m di A, sono: (n

m

)=

n!

m!(n−m)!.

Infatti esiste una funzione suriettiva (di dimenticanza) dall’insieme delle m-

uple di elementi distinti e l’insieme delle m-uple non ordinate di elementi

185

distinti, in cui la controimmagine di ogni m-upla non ordinata e data dalle sue

permutazioni, che sono m! (per quanto detto prima). In particolare, l’unione

di tutti gli insiemi di m-uple distinte e non ordinate, al variare di m, determina

tutti i sottoinsiemi di A. Visto che i sottoinsiemi di A sono 2n, si ha

2n =∑

m=1,...,n

(n

m

)=

∑m=1,...,n

n!

m!(n−m)!.

Si noti che, avendo per definizione 0! = 1, si deve porre(n0

)= 1.

Si ottiene poi la formula, per n > m > 0,(n

m

)=

(n− 1

m− 1

)+

(n− 1

m

)(A.0.1)

Infatti le m-uple non ordinate e con elementi distinti si dividono in quelle

che non contengono a1 e quelle che lo contengono. Le prime sono le m-uple

non ordinate a elementi distinti su un insieme di n − 1 elementi: ce ne sono

esattamente(n−1m

). Le seconde si ottengono aggiungendo a1 ad una (m − 1)-

upla dello stesso tipo su un insieme di n − 1 elementi, quindi sono(n−1m−1

).

4) Calcoliamo il numero di m-uple non ordinate di elementi non necessariamente

distinti di A. Esse sono: (n+m− 1

n− 1

)Per dimostrare questa formula, usiamo induzione rettangolare su n,m. Quan-

do m = 1, ci sono esattamente n tali oggetti. E infatti in questo caso(n+m−1n−1

)=(nn−1

)= n.

Analogamente se n = 1, c’e una sola tale m-upla: a1, a1, . . . , a1. E infatti qui(n+m−1n−1

)=(m0

)= 1.

Sia la formula valida per ogni n′ < n e m′ < m. Le m-uple non ordinate

si possono nuovamente dividere in quelle che contengono a1 e quelle che non

lo contengono. Le prime, per induzione su n, sono(n+m−2n−2

). Le seconde si

ottengono aggiungendo a1 ad una (m − 1)-upla non ordinata qualsiasi. Per

induzione su m, le seconde sono(n+m−2n−1

). Per terminare il calcolo, basta ora

usare la formula A.0.1.

186

5) Si noti che ogni m-upla non ordinata, con possibili ripetizioni, puo essere

scritta sotto forma di termine, cioe di monomio con coefficiente 1. Ad esempio

a1, a1, a2, a3, a3, a3 si puo scrivere come a21a2a

33. E viceversa. Pertanto il numero

dei termini di grado m in n variabili e(n+m− 1

n− 1

). (A.0.2)

Poiche i termini formano una base dello spazio dei polinomi omogenei di gra-

do fissato, si ottiene che il sottospazio di K[a1, . . . , an] formato dai polinomi

omogenei di grado m ha dimensione(n+m−1n−1

).

6) Il numero di m-uple ordinate in cui l’elemento ai e ripetuto ji volte, e ovvia-

mente uguale al numero di permutazioni di un insieme di m elementi, diviso

per le permutazioni dei sottoinsiemi formati da indici uguali. Pertanto tale

numero e uguale am!

j1! · · · jn!. (A.0.3)

Tale numero e uguale al coefficiente del monomio xj11 · · ·xjnn nello sviluppo

della potenza (x1 + · · ·+ xn)m. Infatti il coefficiente e ottenuto scegliendo un

addendo da m fattori uguali a (x1 + · · · + xn) in modo da prendere il primo

fattore j1 volte, il secondo fattore j2 volte, e cosı via.

187

Bibliografia

[AtiyahMacdonald] Atiyah M.F., Macdonald I.G., Introduction to Commuta-

tive Algebra, Addison-Wesley, Reading (1969).

[CoxLittleOShea] Cox D., Little J., O’Shea D., Ideals, Varieties, and Algori-

thms: An Introduction to Computational Algebraic Geometry and

Commutative Algebra, Graduate Texts in Mathematics, Springer, New York

(2007).

[Landsberg] Landsberg J.M., Tensors: Geometry and Applications, Gra-

duate Studies in Mathematics, American Mathematical Society, Providence

(2012).

[PachterSturmfels] Pachter L. and Sturmfels B., Algebraic Statistics for

Computational Biology, Cambridge University Press, Cambridge (2005).

[SturmfelsSullivant] Sturmfels B., Sullivant S., Toric ideals of phylogenetic

invariants, J. Comput. Biol. 12 (2005), 204–228.

[Siena] AA.VV., Projective varieties with unexpected properties, Pro-

ceedings della conferenza internazionale in onore di G.Veronese, Siena 2004.,

Walter DeGruyter, Berlin (2005).

[ZariskiSamuel] Zariski O. and Samuel P., Commutative Algebra, Graduate

Texts in Mathematics, Springer, New York (1958).

189

Introduzione alla Statistica Algebrica (versione preliminare)chiantini/did/00libro.pdf ·...

Documents

Transcript of Introduzione alla Statistica Algebrica (versione preliminare)chiantini/did/00libro.pdf ·...