Teoria dei Segnali

7/21/2019 Teoria dei Segnali

http://slidepdf.com/reader/full/teoria-dei-segnali 1/152

Politecnico di Bari

Corso di Laurea in Ingegneria delle Telecomunicazioni

Appunti del corso di

TEORIA DEI SEGNALI

Pietro Guccione

Anno Accademico 2007-2008

Indice

Capitolo 1. Richiami principali ai segnali 51.1. Introduzione 51.2. Tipi di segnale 61.3. Segnali elementari 91.4. La Correlazione 15

Capitolo 2. La teoria delle probabilità 21

2.1. Esperimenti Aleatori 212.2. Le Basi della Teoria delle Probabilità 222.3. Variabili Aleatorie 282.4. Densita’ di Probabilita’ 302.5. Operazioni sulla Variabile Aleatoria 322.6. Parametri Statistici di una Variabile Aleatoria 332.7. Esempi di Variabili Aleatorie 362.8. Variabili Aleatorie Condizionate 452.9. Applicazioni notevoli 462.10. Sistemi di Variabili Aleatorie 502.11. Convergenza ed approssimazione 62

Capitolo 3. I Processi Stocastici 673.1. Definizione di Processi Stocastici 673.2. Parametri Statistici del 1o e 2o Ordine 703.3. Processi Stazionari 793.4. Filtraggio di un Processo Aleatorio 883.5. Analisi Spettrale di un Processo Aleatorio 923.6. Processi Aleatori Gaussiani 1003.7. Processi Ergodici 1043.8. Cenni sulle Catene di Markov 110

Capitolo 4. La trasmissione dei segnali 1174.1. Introduzione 1174.2. Generalita’ sui Sistemi di Trasmissione 1174.3. Trasmissione Analogica e Numerica 1224.4. Il Campionamento 1234.5. La Quantizzazione 1294.6. Il Canale Binario 134

INDICE 4

4.7. Teoria dell’Informazione 140

Capitolo 5. Il rumore 1535.1. Introduzione 153

5.2. Caratteristiche Generali del Rumore 1545.3. Fattore e Temperatura Equivalente di Rumore 160

Capitolo 6. La modulazione analogica 1676.1. Introduzione 1676.2. Rappresentazione complessa dei segnali 1696.3. Sistemi di trasmissione con modulazione 176

CAPITOLO 1

Richiami principali ai segnali

1.1. Introduzione

La definizione di segnale parte dall’esperienza comune. Esempi di segnale nellavita quotidiana sono il segnale acustico che viene prodotto da uno strumento musicale,il segnale radio captato dall’antenna di un ricevitore, la rappresentazione del battitocardiaco attraverso un elettrocardiografo e così via.

Tutti gli esempi che si possono fare hanno una matrice comune: il segnale è una

grandezza fisica variabile a cui è associata una qualche forma di informazione. Lo stu-dio dei segnali quindi passa necessariamente attraverso lo studio delle funzioni matem-atiche di una o più variabili. Le grandezze fisiche rappresentate da un segnale sono lepiù svariate: l’intensità luminosa e il colore su uno schermo nel caso di un segnale tele-visivo, la variazione della pressione dell’aria nel caso di un segnale musicale, la ten-sione elettrica o la corrente nel caso di un segnale misurato su di un circuito elettrico,un’onda elettromagnetica nel caso di un segnale radio captato dallo spazio.

L’evoluzione di molti segnali monodimensionali (cioè dipendenti da una sola grandez-za) avviene nel tempo: esempi sono il segnale musicale, la misura della tensione suun condensatore, la variazione dell’intensità luminosa del sole durante il giorno, ec-cetera. Tuttavia è possibile considerare dipendenze diverse di un segnale: ad esempio

la sua variazione nello spazio. La misura dell’intensità dell’oscillazione di un terre-moto ad uno stesso istante nelle varie località rappresenta un segnale di cui interessala cui estensione spaziale e non la sua evoluzione temporale. Naturalmente è semprepossibile immaginare lo stesso tipo di informazione (l’intensità di un terremoto) in unadata località e seguirne la sua evoluzione nel tempo.

Quest’ultimo esempio porta alla rappresentazione di segnali bidimensionali o an-che multidimensionali, segnali cioè che variano in dipendenza della variazione di dueo più grandezze. Il segnale televisivo bianco e nero è un esempio di segnale tridi-mensionale, dato che esso è dipendente da due coordinate spaziali (larghezza ed al-tezza dello schermo) e da una coordinata temporale (il susseguirsi delle scene sulloschermo).

Se consideriamo invece un segnale televisivo a colori esso è in realtà la sovrap-posizione di tre segnali tridimensionali, dato che separatamente in ogni punto delloschermo è rappresentata la sovrapposizione dei tre colori fondamentali: rosso, verde,blu. Quindi un segnale televisivo a colori si puè pensare come un segnale vettoriale(costituito cioè da tre componenti) a tre dimensioni, dipendente cioè da tre grandezzefisiche: c(x,y,t) = [red(x,y,t), green(x,y,t), blue(x,y,t)].

1.2. TIPI DI SEGNALE 6

1.2. Tipi di segnale

Una prima classificazione di segnale è stata già fatta differenziando i segnali monodi-mensionali da quelli multidimensionali, come anche quelli scalari da quelli vettoriali,

costituiti cioè da più componenti.Si possono inoltre differenziare i segnali in base ai valori assunti dalla variabileindipendente:

• segnali a tempo continuo: sono quelli per i quali il dominio della funzioneha la cardinalità dei numeri reali. La variabile indipendente (ad esempio iltempo) assume valori in modo continuo (ad esempio un segnale musicaleemesso da uno strumento).

• segnali a tempo discreto: sono quelli per i quali il dominio della funzioneha la cardinalità dei numeri naturali. Per questi segnali la variabile indipen-dente assume valori in un insieme discreto. In tal caso la dipendenza delsegnale dalla variabile indipendente è rappresentata mediante la successione

dei valori assunti: x(n) per indicare il valore del segnale x dall’n−simo val-ore della variabile indipendente. Esempio di un segnale tempo discreto è ilsegnale televisivo, dato che esso è rappresentato sullo schermo mediante lasuccessione di 25 fotogrammi al secondo.

I segnali stessi possono assumere valori in un insieme non numerabile di valori (seg-

nali ad ampiezza continua) o in un insieme numerabile di valori (segnali ad ampiezza

discreta). Esempio di un segnale ad ampiezza continua è la misura della tensione su uncondensatore così come essa è rappresentata su un oscilloscopio analogico; esempio diun segnale ad ampiezza discreta è invece lo stato di un semaforo: ad ogni istante essopuò assumere solo due possibili valori: acceso o spento. I segnali ad ampiezza contin-

ua sono detti anche segnali analogici, quelli ad ampiezza discreta sono detti numerici.In figura (1.2.1) sono rappresentati i due tipi di segnale sinora visti.

FIGURA 1.2.1. Differenza tra segnale ad ampiezza continua e segnalead ampiezza discreta

Un’altra distinzione può essere fatta tra i segnali periodici e segnali non periodici

(o aperiodici). Detto T un numero reale > 0, un segnale s(t) si dice periodico se∀n ∈ Z : s(t) = s(t + nT ). Un segnale periodico è quindi definito su tutto l’assereale e per una sua descrizione completa è sufficiente la conoscenza all’interno di un

periodo. Un segnale di durata finita è, quindi, aperiodico. Una combinazione linearedi segnali periodici di stesso periodo T o di periodo che è un sottomultiplo di T , cioèT /n è, a sua volta, periodica di periodo T .

I segnali inoltre possono essere suddivisi in base al loro comportamento energeti-co. Si dicono ad energia finita i segnali che verificano la seguente proprietà:

(1.2.1)Z +∞−∞

| s(t) |2 dt < +∞

dove la quantità a primo membro dell’espressione è detta energia del segnale. I segnaliperiodici non sono segnali ad energia finita, dato che, se

R +T/2

−T/2 | s(t) |2 dt è una quan-

tità finita, l’integrale su tutto < risulterà sicuramente infinito. Tali segnali sono allorasegnali a potenza finita, per i quali cioè risulta:

(1.2.2) limT →+∞

Z +T/2

−T/2

| s(t) |2 dt < +∞

La quantità a primo membro è detta potenza del segnale. Per i segnali ad energia finitala potenza è nulla.

Per i segnali tempo discreti la definizione di energia e potenza è rispettivamente:

(1.2.3)+∞X

n=−∞|s(n)|2

(1.2.4) limN

2N + 1

Xn=−N

|s(n)|2

Infine altre distinzioni tra segnali possono essere fatte sulla base delle loro proprietàpuramente matematiche: ad esempio si distinguono i segnali reali da quelli complessi,composti cioè di una parte reale e di una parte immaginaria: sc(t) = sR(t) + jsI (t).Particolari simmetrie dei segnali possono permettere di distinguere i segnali pari, per i

quali risulta: s(t) = s(−t), da quelli dispari, per i quali vale invece: s(t) = −s(−t).Per un segnale che non gode di simmetria pari, nè dispari, si può sempre pensare diestrarne la sua parte pari:

(1.2.5) se(t) = 1

2[s(t) + s(−t)]

e la sua parte dispari

(1.2.6) so(t) = 1

−t)]

1.2.1. Operazioni sui segnali. Vengono qui richiamate le principali operazioniche è possibile compiere sui segnali. Particolare interesse assumono le operazionisulla variabile indipendente

1.2.1.1. Traslazione. La traslazione di un segnale è il suo spostamento sull’assedella variabile indipendente (o nel piano delle sue variabili indipendenti se dipende dadue variabili): s(t − to) è il segnale s(t) spostato temporalmente nella posizione to.Se la variabile indipendente è il tempo, si dice anche che il segnale è ritardato di tosecondi se to > 0 altrimenti è anticipato di to secondi, se risulta to < 0.

1.2.1.2. Ribaltamento. Il ribaltamento di un segnale corrisponde all’operazione:s(t) → s(−t), esso cioè viene descritto con l’asse della variabile indipendente riflessorispetto all’asse delle ordinate. Questa operazione è utile per esaminare le proprietà disimmetria di un segnale (segnale pari o dispari).

1.2.1.3. Scalatura dell’asse. Considerato un numero reale a > 0, un segnale sidice che ha subito un cambiamento di scala se risulta la seguente trasformazione:s(t) → s(at). In particolare se a > 1 il segnale ha subito un restringimento, altri-menti, con 0 < a < 1 il segnale subisce un’espansione. E’ sempre possibile estendereil cambiamento di scala dell’asse della variabile indipendente ai casi in cui risultaa < 0, basta applicare separatamente le due operazioni di ribaltamento e di scalaturadel segnale: s(t) → s(−t) → s(− |a| t). Si ricordi che l’operazione di cambiamentodi scala, come quella di ribaltamento – che si può considerare come un caso particolarecon a = −1 – non commuta con quella di traslazione.

1.2.1.4. Convoluzione tra segnali. Dati due segnali x(t) ed h(t), si definisce ilprodotto di convoluzione tra i due segnali come:

1.3. SEGNALI ELEMENTARI 9

(1.2.7) y(t) = x(t) ? h(t) =

Z +∞−∞

x(τ )h(t − τ )dτ

La convoluzione gode delle seguenti proprietà:

(1) La convoluzione è un’operazione commutativa: x(t) ? h(t) = h(t) ? x(t)(2) La convoluzione gode della proprietà associativa: x(t) ? y(t) ? h(t) = (x(t) ?

y(t)) ? h(t) = x(t) ? (y(t) ? h(t))(3) La convoluzione è distributiva rispetto alla somma: (x(t) + y(t)) ? h(t) =

x(t) ? h(t) + y(t) ? h(t)

1.3. Segnali elementari

Esiste una classe di segnali che, per la loro particolare semplicità, viene spesso uti-lizzata per schematizzare il comportamento dei segnali che si incontrano nei casi reali.A questi segnali si dà il nome di segnali elementari. Le proprietà viste precedentementesi applicano ovviamente anche ai segnali elementari.

1.3.1. Gradino unitario. Il gradino unitario è la funzione così definita:

(1.3.1) u(t) =

1, t > 00, t < 0

Per t = 0 si assume che s(0) = 0.5.1.3.2. Rampa. E’ un segnale nullo per t < 0 e che, per t > 0, cresce pro-

porzionalmente a t:

(1.3.2) r(t) =

t, t > 00, t < 0

FIGURA 1.3.1. Rampa unitaria

Tale segnale può considerarsi come il risultato del passaggio dello scalino unitarioattraverso un integratore:

(1.3.3) r(t) =Z t−∞

u(τ ) dτ

1.3.3. Parabola. La parabola (o rampa parabolica) è il segnale che si ottiene ri-applicando l’operatore di integrazione alla rampa:

(1.3.4) p(t) =

−∞

r(τ ) dτ = 1

FIGURA 1.3.2. Rampa parabolica

1.3.4. Segnale rettangolare, onda quadra. Si chiama rettangolare un segnaleche mantenga valore costante per tutta la sua durata limitata:

(1.3.5) rectt

τ = 1, |t| < τ

20, |t| > τ

E’, chiaramente, un segnale di energia finita e la sua energia vale τ . La somma disegnali rettangolari ripetuti a distanza T dà luogo ad un segnale periodico, di periodoT :

(1.3.6) sq (t) =+∞

Xn=−∞rect

t − nT

che viene detto onda quadra.

2−Τ−

− τ

FIGURA 1.3.3 . Rettagolo ed onda quadra

Se τ = T /2 l’onda quadra si dice a duty cycle 50%. L’onda quadra (1.3.6) oscillatra 0 e 1 ed ha valor medio τ /T . Un’onda quadra con duty cycle 50% che oscilla tra+1 e −1 ha valor medio nullo.

Si osservi infine che, a rigore, il segnale rettangolare (1.3.5) è discontinuo in±τ /2 ed il suo valore in tali punti sarebbe indefinito. In un punto di discontinuitàassumeremo che il segnale assuma il valore s(to) = 1

2[s(t−o ) + s(t+o )]

1.3.5. Delta di Dirac. Il Delta di Dirac non è in realtà una vera e propria fun-

zione, ma una distribuzione. Essa, a rigore, dovrebbe essere definita solo all’interno diun integrale. La sua definizione parte dalla osservazione che la funzione:

(1.3.7) 1

T rect(

ha sempre area pari ad 1, qualunque sia il valore di T . Al tendere però di T a zero, ilrettangolo diventa infinitamente stretto ed alto. Una definizione della funzione delta èallora la seguente:

(1.3.8) δ (t) = limT →0

T rect(

La funzione così definita ha valori sempre nulli tranne in t = 0 dove assume valorenominalmente infinito. La sua rappresentazione su di un grafico è quindi a rigoreimpossibile. La schematizzazione che si usa è quella riportata in fig. 1.3.4

FIGURA 1. 3.4. Rappresentazione grafica dell’impulso o delta di Dirac.

In base a quanto detto:

(1.3.9)Z +∞−∞

δ (t)dt = 1

inoltre la funzione delta è pari: δ (−t) = δ (t). La principale proprietà della funzionedelta è la seguente:

(1.3.10)

Z +∞

−∞

s(t)δ (t − to)dt = s(to)

essa cioè applicata ad una funzione all’interno di un integrale permette di estrarre ilvalore di quella funzione nel punto in cui il delta è applicato (sempre che la funziones(t) sia continua in t = to). Questa notazione è utilizzata per indicare l’estrazionedi un campione da un segnale nella posizione in cui è posto l’impulso. La proprietàin (1.3.10) può essere vista anche nel modo seguente: l’impulso piazzato ad un datoistante τ e moltiplicato per una funzione s(t) risulta pari all’impulso stesso ma conarea uguale al valore che il segnale assume in quella posizione τ : s(t) δ (t − τ ) =s(τ ) δ (t − τ ).

Un segnale può essere rappresentato mediante una successione infinita di impulsi

delta infinitamente vicini tra loro e di valore pari al valore che il segnale assume inquel punto:

(1.3.11)Z +∞−∞

s(τ )δ (t − τ )dτ = s(t)

Il significato di ques’ultimo integrale è anche quello di una convoluzione tra il segnales(t) e la funzione delta.

Un cambiamento di scala della variabile indipendente influisce sul risultato:

(1.3.12)Z +∞−∞

x(t) δ (at + b) dt =

Z +∞−∞

ς − b

δ (ς )

|a|x(− b

Per l’impulso quindi un cambiamento di scala ed una traslazione comporta la vari-azione dell’area dell’impulso stesso:

(1.3.13) δ (at + b) = 1

|a|δ (t +

Ultima considerazione è quella relativa alle derivate dell’impulso. La derivata del-l’impulso, indicata con δ 0(t) è detta doppietto:

(1.3.14)

Z +∞

−∞

x(t) δ 0(t − τ ) dt = −x0(τ )

sempre che x(t) sia dotata di derivata in t = τ . La (1.3.14) si può ricavare dal-la definizione dell’impulso (1.3.8) mediante integrazione per parti (ricordando cheD(AB) = AD(B) + BD(A), dove D(·) rappresenta l’operatore di derivazione):

(1.3.15)Z +∞−∞

x(t) δ 0(t−τ ) dt = x(t)δ (t − τ )|+∞−∞−Z +∞−∞

x0(t) δ (t−τ ) dt = −x0(τ )

Si osservi infine che l’intergale dell’impulso è lo scalino di ampiezza unitaria:

(1.3.16) u(t) =

Z t−∞

δ (τ ) dτ

infatti tale integrale vale zero finchè t < 0, ed 1 non appena t > 0. Dualmente, laderivata dello scalino unitario è l’impulso unitario: d

dtu(t) = δ (t)

1.3.6. Funzioni sinusoidali. Una classe di funzioni molto utilizzate, soprattut-to nell’ambito dell’analisi di funzioni periodiche sono le funzioni sinusoidali. Per ladefinizione di una funzione sinusoidale sono sufficienti tre elementi: ampiezza A, pul-sazione ωo e fase iniziale ϕ (cioè l’argomento della sinusoide per t = 0). L’ampiezzarappresenta l’escursione massima che la funzione assume, la frequenza il numero dicicli per unità di tempo che esegue:

(1.3.17) A sin(2πf t + ϕ)

La sinusoide si ripete uguale a se stessa ad una distanza temporale T tale cheωoT = 2π. Il periodo di una sinusoide di pulsazione ωo è, perciò:

(1.3.18) T = 2π

f = 1/T è la frequenza. Va da sé che una sinusoide di frequenza f è periodica di peri-odo T = 1/f ma, anche, di periodo 2T , 3T , . . . , N T . Una sinusoide con fase inizialeπ/2 è chiamata cosinusoide e vale la relazione sin(ωt + π/2) = cos(ωt). La potenza

media di una sinusoide di ampiezza unitaria vale:

(1.3.19) P m = ω

Z 2π/ω

sin2(ωt) dt = 1

La sua potenza di picco è

(1.3.20) P p = maxt

sin2(ωt) = 1

Il rapporto tra potenza di picco e potenza media è detto fattore di picco e, per unasinusoide vale 2.

1.4. LA CORRELAZIONE 15

1.3.7. Seno cardinale. Un’ultima funzione molto utilizzata è la funzione senocardinale, così definita:

(1.3.21) sinc(t) = sin(π t

e che assume valore pari ad 1 al limite per t → 0. E’ una funzione pari, in quantorapporto di due funzioni dispari.

1.4. La Correlazione

Dato un segnale deterministico e non periodico, s(t), di esso si può definire, comegià visto l’energia:

(1.4.1) E s =

Z +∞−∞

| s(t) |2 dt =

Z +∞−∞

| S (f ) |2 df

dove l’ultima uguaglianza discende dal teorema di Parseval, il quale afferma chel’energia del segnale, calcolabile nei due domini tempo e frequenza, non cambia.

Se il segnale passa attraverso un sistema lineare tempo invariante con funzione ditrasferimento: H (f ):

Y (f ) = S (f ) · H (f )

(1.4.2) E y =

Z +∞−∞

| S (f ) |2 · | H (f ) |2 df

L’energia si può quindi ottenere conoscendo lo spettro del segnale (e | S (f ) |2 è dettospettro di energia del segnale) e la funzione di trasferimento del sistema.

1.4.1. Autocorrelazione per segnali ad energia finita. Sia ora x(t) un segnalereale ad energia finita. Si definisce autocorrelazione di x(t) la funzione che si ottienedal seguente integrale:

(1.4.3) Rx(τ ) =

Z +∞−∞

x(t)x(t − τ )dt

Dalla definizione si osserva subito che: Rx(τ ) = x(τ ) ? x(−τ ) (per dimostrarlo si

provi a porre x(−τ ) = y(τ ) e ad eseguire l’integrale di convoluzione: Rx(τ ) =R +∞−∞ x(t)y(τ − t)dt) e quindi che:

(1.4.4) Rx(τ ) =Z +∞−∞

| X (f ) |2 ·e j2πf τ df

cioè l’autocorrelazione di un segnale è anche l’antitrasformata del suo spettro di en-ergia. Si ricordi che per un segnale reale, se ad x(t) → X (f ), allora ad x(−t) →X (−f ) = X ∗(f ), mentre per un segnale complesso si ha che se ad x(t) → X (f ),allora ad x(−t) → X (−f ), e ad x∗(t) → X ∗(−f ), infine ad x∗(−t) → X ∗(f ).

Poichè quest’ultima definizione vale sempre, allora se il segnale è complesso ladefinizione di autocorrelazione deve essere adeguatamente modificata:

(1.4.5) Rx(τ ) =

Z +∞−∞

x(t)x∗(t − τ )dt = x(τ ) ? x∗(−τ )

Proprietà della funzione di autocorrelazione:

(1) Rx(0) = E x, cioè la funzione di autocorrelazione calcolata per τ = 0 rappre-senta l’energia del segnale

(2) Rx(τ ) = Rx(−τ ), cioè la funzione di autocorrelazione è una funzione pari(Rx(τ ) = R∗

x(−τ ) per i segnali complessi)(3) | Rx(τ ) |

≤ Rx(0), cioè il massimo della funzione di autocorrelazione è lo-

calizzato in τ = 0:

[x(t − τ ) − x(t)]2 ≥ 0 ⇔

x(t − τ )2 + x(t)2 − 2x(t − τ )x(t) ≥ 0

ed integrando da −∞ a +∞ si ha: 2E x ≥ 2Rx(τ ).

L’autocorrelazione di un segnale ha un’interessante interpretazione fisica. Essa rapp-resenta una misura del grado di somiglianza del segnale con sè stesso. Infatti quantopiù un segnale somiglia a sè stesso tanto più è alto il valore dell’integrale in 1.4.3.Ecco quindi il motivo per cui la funzione di autocorrelazione assume valore massimoper τ = 0: quando infatti il segnale è perfettamente sovrapposto a sè stesso il gradodi somiglianza è massimo. Per valori di τ crescenti i segnali generalmente tendono

1Su alcuni testi è riportata la relazione: Rx(τ ) =R +∞−∞

x∗(t)(t− τ )dt = x∗(τ ) ? x(−τ ).

a non somigliare più a sè stessi e quindi il valore dell’autocorrelazione diminuisce.Eccezione notevole a questa regola sono, come si vedrà più avanti, i segnali periodici.

1.4.2. Cross correlazione di due segnali. Dati due segnali x(t) ed y(t), si definiscela crosscorrelazione tra i due segnali come:

(1.4.6) Rxy(τ ) =

Z +∞−∞

x(t)y(t − τ )dt = x(τ ) ? y(−τ )

ed anche:

(1.4.7) Ryx(τ ) =

Z +∞

−∞y(t)x(t − τ )dt = y(τ ) ? x(−τ )

Per i segnali complessi la definizione è invece:

(1.4.8) Rxy(τ ) =

Z +∞−∞

x∗(t)y(t − τ )dt = x∗(τ ) ? y(−τ )

(1.4.9) Ryx(τ ) =

Z +∞−∞

y∗(t)x(t − τ )dt = y∗(τ ) ? x(−τ )

Si può facilmente dimostrare che: Rxy(τ ) = R∗yx(−τ ):

Rxy(τ ) =

Z +∞−∞

x∗(t)y(t − τ )dt =

Z +∞−∞

x∗(z + τ )y(z )dz =

Z +∞−∞

y(z )x∗(z + τ )dz

∗∗=

Z +∞−∞

y∗(z )x(z − (−τ ))dz

= R∗yx(−τ )

Due segnali si dicono ortogonali se risulta che Rxy(τ ) = 0, ∀τ . La cross corre-lazione dà una misura del grado di somiglianza tra due segnali, analogamente all’au-tocorrelazione di un segnale.

1.4.3. Segnali a potenza finita. Per i segnali a potenza finita

(1.4.10) P = limT →+∞ 1T Z +T/2

−T/2| s(t) |2 dt

si può ancora definire una quantità che nel dominio delle frequenze ci dice come sonodistribuite le potenze del segnale: la densità spettrale di potenza del segnale. Siainfatti: sT (t) la limitazione di s(t) nell’intervallo: [−T, T ] :

(1.4.11) sT (t) =

s(t) |t| ≤ T

0 altrove

Poichè quest’ultimo segnale è sicuramente ad energia finita, per esso si può dare la

definizione di trasformata di Fourier e quindi la densità spettrale di energia: sT (t) →S T (f ):

(1.4.12) E T =

Z +∞−∞

| sT (t) |2 dt =

Z +∞−∞

| S T (f ) |2 df

Poichè la potenza di s(t) è definita come limite dell’energia della sua limitazione,sT (t), al tendere dell’intervallo di limitazione all’infinito (e rapportando per l’interval-lo di tempo stesso), la densità spettrale di potenza si può scrivere come:

P = Z +∞−∞ limT →+∞1

2T | S T (f ) |2

df ⇒

(1.4.13) S p(f ) = limT →+∞

2T | S T (f ) |2

La densità spettrale di potenza gode di proprietà simili a quelle della densità spettraledi energia: cioè è una funzione pari (per i segnali reali), è sempre non negativa e il suointergale su tutto l’asse delle frequenze dà luogo alla potenza del segnale.

Analogamente a ciò che accade per i segnali ad energia finita, il passaggio di unsegnale a potenza finita attraverso un sistema lineare tempo invariante dà luogo ad unsegnale a potenza finita in uscita, la cui densità spettrale di potenza è pari a: S

y(f ) =

S x(f ) · |H (f )|2.Troviamo ora la funzione del tempo che corrisponde alla funzione densità spettrale

di potenza:

S p(f ) = limT →+∞

2T | S T (f ) |2= lim

T →+∞1

2T S T (f ) · S ∗T (f ) ⇒

antitrasformando:

⇒ limT →+∞

sT (τ ) ? sT (−τ ) =

= limT →+∞

sT (t)sT (t + τ )dt

A tale quantità diamo il nome di funzione di autocorrelazione:

(1.4.14) Rg(τ ) = limT

2T Z +T

sT (t)sT (t + τ )dt

La funzione di autocorrelazione per i segnali a potenza finita è l’antitrasformata diFourier della densità spettrale di potenza, nello stesso modo con cui nel caso di segnaliad energia finità essa è l’antitrasformata di Fourier della densità spettrale di energia.

La funzione di autocorrelazione dei segnali a potenza finita gode delle stesse pro-prietà della corrispondente funzione definita per i segnali ad energia finita. Inoltreè possibile dare una definizione analoga anche per la cross correlazione di segnali apotenza finita.

1.4.4. Segnali periodici. Sia dato un segnale periodico e la sua rappresentazionein serie di Fourier:

s(t) = s(t + n · T )

(1.4.15) s(t) =+∞X

n=−∞cn · exp( j2π

Lo spettro d’ampiezza di un segnale periodico è uno spettro a righe:

(1.4.16) S (f ) =+∞X

n=−∞cn · δ (f − n

dove i cn si possono calcolare in base alla trasformata di Fourier di una singola ripe-tizione del segnale:

(1.4.17) cn = 1

Z +T/2

−T/2

s(t) · e− j2πnT tdt =

T S T (f )|f = n

I segnali periodici sono ovviamente segnali a potenza finita. La loro densità spettraledi potenza è anch’essa a righe e si può ricavare facilmente :

Z +T/2

−T/2

s(t)s∗(t)dt =

Z +T/2

−T/2

cn · e j2πnT t

cm · e j2πmT t

#∗dt =

T Xn Xm cnc∗m Z

−T/2

e j2πnT te− j2π

mT tdt = Xn

(1.4.18) S p(f ) ==+∞X

n=−∞|cn|2 · δ (f − n

La corrispondente funzione di autocorrelazione, essendo un intergale di funzione peri-odica, è anch’essa periodica di periodo T e la sua definizione si può restringere ad unsingolo periodo:

Rg(τ ) = limT →+∞

2T Z +∞

−∞

sT (t)sT (t + τ )dτ =

(1.4.19) = 1

Z +T/2

−T/2

s(t)s(t + τ )dτ

CAPITOLO 2

La teoria delle probabilità

2.1. Esperimenti Aleatori

Nelle scienze sperimentali la verifica di una ipotesi di lavoro è affidata all’esperi-mento. L’esperimento quindi consiste nel controllare che, sotto alcune ipotesi, la teo-ria e la realtà sono equivalenti, cioè la teoria è descrittiva di un certo fenomeno dellanatura.

Esempio classico può essere la descrizione della caduta di un grave. Poichè esso

segue la legge: s = 12gt2, si può facilmente determinare quanto tempo il grave impiegaa cadere per terra a partire da una certa altezza s con velocità iniziale nulla. I dati

raccolti in molte prove ripetute permetteranno di ridurre l’incertezza legata alla misurasperimentale, affetta sempre da una certa dose di errore. Un esperimento di questotipo, oltre a verificare le ipotesi, ci dice anche un’altra cosa e cioè che se ci poniamo incerte condizioni (un grave cade da una altezza fissa, si riduce al minimo l’effetto dellaresistenza dell’aria in modo da ridurre l’incertezza della misura, e così via), la realtànon può fare a meno di comportarsi seguendo determinate leggi. L’esperimento con-dotto è cioè di tipo deterministico, segue una legge ben precisa e verificabile ogni voltache si desidera, a meno delle inevitabili incertezze dovute alle non perfette condizionipratiche.

Si supponga ora di voler condurre un altro tipo di esperimento. Si vogliono mis-urare il numero di autovetture che attraversano un casello autostradale durante unagiornata. In questo tipo di esperimento, come si capisce bene, una determinata ipote-si di lavoro come ad esempio che i giorni feriali sono più trafficati di quelli festivi,non permette di prevedere l’esito dell’esperimento stesso. La prova che si effettuainoltre darà un risultato diverso giorno per giorno. La prova si dice di tipo aleato-

rio. Per questa classe di esperimenti non è possibile quindi trovare una legge chepermetta di predire l’esito dell’esperimento stesso. Tuttavia è possibile trovare una de-scrizione globale dell’esperimento che permetta cioè di predire, dopo numerose prove,che queste seguono comunque una certa regolarità statistica. Il risultato dell’esperi-mento singolo non è quindi mai prevedibile a priori, ma esso può essere inglobato in

una teoria che, entro certi limiti, ne dà una previsione grossolana.Si supponga, per maggiore chiarezza, di volere osservare i risultati del lancio di un

dado. Questo tipo di esperimento appartiene alla classe ora vista, cioè dà luogo ad unrisultato che non può essere previsto. Tuttavia dopo il lancio dello stesso dado millevolte, può essere abbastanza ragionevole supporre che la faccia con il numero 6 si saràpresentata all’incirca 167 volte (∼1000/6). Quindi se il risultato dell’esperimento dà

2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 22

un valore che è ragionevolmente vicino a questo numero possiamo dire che questorisultato è prevedibile, e possiamo dire anche che il dado si è comportato seguendo leipotesi iniziali, cioè che non fosse truccato e che tutte e sei le facce avessero la stessaprobabilità di presentarsi.

La teoria alla base dei fenomeni della natura che seguono leggi aleatorie è la teoriadelle probabilità. Questa teoria è stata sviluppata da fisici e matematici come Bernoul-li, Pascal e Laplace, durante il XVII e il XVIII secolo e inizialmente fu utilizzata perquantificare le vincite ai tavoli da gioco da gestori di casinò e giocatori d’azzardo.

2.2. Le Basi della Teoria delle Probabilità

Vediamo ora come la teoria delle probabilità permette di modellare un esperimen-to aleatorio, in modo che si possano ricavare delle leggi applicabili all’esperimentostesso.

Un elemento fondamentale della teoria è quello di ricavare tutti i possibili risul-

tati che l’esperimento stesso è in grado di produrre. Per il lancio di un dado questoè piusttosto facile, dato che lo spazio campione dell’esperimento è costituito dainumeri 1, 2, 3, 4, 5, 6. In altre situazioni lo spazio campione è più difficile da ot-tenere. Nell’esperimento descritto precedentemente, delle automobili che transitanoda un casello autostradale durante una giornata, si può dire che il risultato è sicura-mente un numero intero, zero compreso. Tuttavia è piuttosto difficile indicare il limitesuperiore di questo intervallo se non intervengono altre ipotesi di lavoro (come ad es-empio potrebbero essere il tempo medio di transito, la velocità media delle autovetturesull’autostrada, e così via).

PROPOSITION 2.2.1. Lo spazio campione Ω rappresenta l’insieme dei possibili

risultati di un esperimento aleatorio.Dato inoltre un certo esperimento, come quello delle auto al casello, possono inter-

essare anche determinati gruppi di risultati. Ad esempio potrebbe essere interessantevalutare il numero di automobili che transitano al casello in un’ora, oppure il numerodi automobili che transita dalle 8.30 alle 11.30 e così via. Questi possibili risultatisono nient’altro che possibili sottoinsiemi dello spazio campione e sono detti eventi.Gli eventi devono però soddisfare determinate condizioni per potere essere definiti tali:

• se A è un evento, anche il suo complemento rispetto allo spazio campione, A,è un evento;

• se A e B sono eventi, anche A

SB è un evento.

Utilizzando queste due condizioni si può dimostrare anche che:• l’intersezione A

TB di due eventi arbitrari, A e B è un evento (infatti si ha

che AT

B = (AS

B));• dato un evento A, anche A

S A e A

TA sono eventi. Il primo rappresenta

tutto lo spazio campione Ω, il secondo rappresenta l’evento nullo detto ancheevento impossibile.

Gli eventi di uno spazio campione costituiscono quindi una classe S cioè un insiemechiuso rispetto alle operazioni di unione e di intersezione.

Un esperimento aleatorio è completamente caratterizzato se sono dati i seguenti treelementi: i) la descrizione del suo spazio campione Ω, ii) l’individuazione della classe

degli eventi S , ed infine iii) la descrizione della legge di probabilità P (•), la leggeche associa ad ogni evento di S la sua probabilità di presentarsi. La terna Ω, S , P (•)è detta lo spazio delle probabilità. A volte l’esperimento aleatorio viene identificatocon il suo spazio delle probabilità, cioè con la sua descrizione matematica astratta.

2.2.1. La probabilità. Varie definizioni ed interpretazioni sono state date allaprobabilità. Secondo la teoria assiomatica moderna, dovuta al matematico Kolmogorov,dato un esperimento aleatorio con il suo spazio campione, la legge di probabilità è unacorrispondenza che permette di associare ad ogni evento di S un numero reale chesoddisfa i seguenti tre assiomi:

• la probabilità di un evento arbitrario è sempre non negativa: P (A)

• La probabilità dell’evento certo è pari ad 1: P (Ω) = 1;• Dati due eventi mutuamente esclusivi, la probabilità dell’evento unione è pari

alla somma delle probabilità dei singoli eventi:AT

B = ∅ ⇒ P (AS

B) =P (A) + P (B)

Da questi assiomi si ricavano alcune proprietà (quindi teoremi che si possono di-mostrare a partire dagli assiomi):

THEOREM 2.2.2. Dato un evento A la probabilità dell’evento complementare A è

pari al complemento ad uno della probabilità di A: P (A) = 1 − P (A).

THEOREM 2.2.3. L’evento nullo ha probabilità zero di verificarsi: P (∅) = 0.

THEOREM 2.2.4. La probabilità di un evento A è sempre un numero reale com-

preso tra zero ed 1: 0 ≤ P (A) ≤ 1.

THEOREM 2.2.5. Dati due eventi, A e B , la probabilità dell’evento unione è

espressa da: P (AS

B) = P (A) + P (B) − P (AT

DIMOSTRAZIONE. A

SB = (A

TΩ = (A

SA) = (A

S(ATA)S(BTA)S(BTA) = AS(BTA)P (ASB) = P (AS(BTA). Tuttavia, essendo B = B TΩ = B T(ASA) =

A). Quindi: P (B) = P (BT

A) + P (BT

A), da cui la tesi.

La probabilità intersezione di due eventi è anche detta probabilità congiunta, mentre leprobabilità dei due eventi, prese separatamente, sono dette probabilità marginali. Data

una coppia di eventi, A e B con P (B) 6= 0, la probabilità di A condizionata all’evento

B, indicata con P (A/B) è definita dalla relazione:

(2.2.1) P (A/B) = P (ATB)

La probabilità di A, presa separatamente, è detta probabilità a priori, mentre la prob-abilità di A noto anche l’evento B, cioè P (A/B) è detta probabilità a posteriori.L’evento B condiziona l’evento A e quindi ne modifica la sua probabilità, una voltache esso si sia verificato. Da questa osservazione nasce la definizione stessa nella qualel’evento congiunto è rinormalizzato per la probabilità di B che funge quindi da nuovospazio campione (da definizione infatti: P (B/B) = 1).

EXAMPLE 2.2.6. Supponiamo di voler studiare l’esperimento aleatorio che mod-elli il lancio di un dado non truccato. Lo spazio campione, costituito dall’insieme deipossibili risultati, è dato da: Ω = ω1,ω2,ω3,ω4,ω5,ω6 dove ωi rapresenta il risul-tato della faccia i − sima al termine dell’esperimento. La classe S di tutti i possibilieventi è costituita da 26 possibili valori, compresi Ω e ∅. La legge di probabilità restaassegnata non appena si assegna una probabilità a ciascuno dei risultati dello spaziodei campioni ωi. Poichè abbiamo ritenuto il dado non truccato e quindi è ragionevolesupporre che in un lancio tutte le facce di un dado abbiano uguale possibilità di pre-sentarsi, si può ritenere che:

(2.2.2) P (ωi) = 1

A questo punto è possibile definire un qualsiasi evento e trovare la sua probabilità dioccorrenza. Si voglia ad esempio determinare la probabilità che lanciando il dado,appaiano numeri inferiori a 3. Questa probabilità è la probabilità che accada: P (A) =P (ω1

Sω2). Poichè questi eventi sono disgiunti, la probabilità della loro unione è

anche pari alla somma delle loro probabilità: P (A) = P (ω1) + P (ω2) = 16

In casi semplici come questo, dove lo spazio dei campioni è finito ed è simmet-rico (cioè vi è equiprobabilità di tutti i possibili risultati dello spazio campione Ω),è possibile utilizzare la definizione classica di probabilità dovuta a Laplace. Questadefinizione parte dall’osservazione dei casi favorevoli nell’insieme di tutti i casi pos-sibili che si possono verificare. Detta allora N il numero di tutti i casi possibili ed N Aquelli favorevoli all’evento A, la probabilità cercata è data dal rapporto:

(2.2.3) P (A) = N A

L’ipotesi cruciale alla base di questa definizione sta nel fatto che tutti i risultati dellospazio campione hanno pari probabilità di verificarsi. Nell’ipotesi in cui non vi siaequiprobabilità dei risultati dello spazio campione la definizione precedente non è piùadeguata e si ricorre allora ad un approccio di tipo sperimentale. Si supponga di effet-tuare un numero molto alto di lanci N e di collezionare il numero di volte che l’eventoA si verifica, N A. All’aumentare di N si comincia a notare una certa regolarità nellarelazione che esiste tra il numero di lanci e il numero di volte che A si verifica. Lafrequenza relativa con cui si verifica A, cioè: N A/N tende allora, per un numero dilanci molto elevato, alla probabilità, secondo la definizione di Von Mises:

(2.2.4) P (A) = limN →∞

Questa definizione, seppure non corrispondente alla visione moderna ( assiomatica)della teoria delle probabilità, ha il vantaggio di prescindere dalla simmetria (e quindiequiprobabilità) del problema in esame.

Si osservi che la definizione di Von Mises non è in contrasto con quella assiomaticadi Kolmogorov, dato che il rapporto tra due numeri positivi è sempre positivo. Se in-

oltre A è un sottinsieme di Ω, accade sempre che N A ≤ N , e quindi che 0 ≤ P (A) ≤1. Inoltre si può osservare che, detti A e B due eventi disgiunti, e dette N A ed N B leloro occorrenze su un numero totale di esperimenti pari ad N , la probabilità dell’even-to unione:

(2.2.5) P (A[

B) = limN →∞

N = lim

N →∞N A + N B

N = P (A) + P (B)

e quindi gli assiomi di Kolmogorov sono verificati.

PROPOSITION 2.2.7. Due eventi A e B sono detti indipendenti se la probabilità

marginale di A e la probabilità di A condizionata a B sono uguali, cioè se:

(2.2.6) P (A) = P (A/B)

Partendo dalla definizione della probabilità condizionata, questo significa che:

(2.2.7) P (A) = P (A/B) = P (A

P (B) ⇒ P (A) · P (B) = P (A

I due eventi sono detti indipendenti quando la probabilità congiunta è pari al prodot-to delle singole probabilità. L’indipendenza tra i due eventi è esplicata nel fatto che laprobabilità dell’evento A è uguale a priori ed a posteriori dell’evento B . L’evento Bquindi non ha alcuna influenza su A, cioè i due eventi sono tra loro indipendenti.

Dalla definizione di probabilità condizionata nasce anche la seguente osservazione:

(2.2.8) P (A/B) · P (B) = P (B/A) · P (A) ⇒ P (A/B) = P (B/A) · P (A)

nota anche con il nome di teorema (o formula) di Bayes. IL teorema di Bayes è notoanche con il nome di teorema delle probabilità totali.

Si consideri infatti una certa partizione dello spazio dei campioni Ω, fatto da N eventi disgiunti tra loro: B1, B2,...,BN , con Bi

TB j = ∅ e

Si Bi = Ω. La probabilità

di un dato evento A si può allora calcolare in base alla conoscenza delle probabilità

condizionate di A con le Bi:

(2.2.9)

P (A) = P (A\

Ω) = P (A\ N [

Bi) = P (N [

Bi)) =N X

da cui si ricava, ricordando la relazione che esiste tra la probabilità congiunta e quellacondizionata:

(2.2.10) P (A) =N X

P (A/Bi) · P (Bi)

2.2.2. Esperimento composto. Si considerino ora due esperimenti aleatori dif-ferenti tra loro e caratterizzati dagli spazi campione Ω1 ed Ω2. Si può pensare unesperimento composto come la contemporanea osservazione dei due esperimenti. Lospazio campione sarà allora il prodotto cartesiano dei due spazi campione: Ω1

×Ω2 e gli

elementi di questo spazio sono le coppie ordinate che si ottengono dalla combinazionedi tutti i possibili risultati di Ω1 con quelli di Ω2. I due esperimenti naturalmente pos-sono fare riferimento a due esperienze uguali (ad esempio due lanci di dadi) o a duecompletamente differenti, come ad esempio il lancio di un dado e l’estrazione di unacarta da un mazzo di 52 carte francesi.

Sia ora A1 un evento del primo spazio campione ed A2 un evento del secondo. Sivoglia studiare la probabilità dell’evento composizione dei due eventi A1 ed A2, cioè:A = A1 × A2. Se i due eventi fossero indipendenti è evidente che la probabilita del-l’evento A è pari al prodotto delle due probabilità: P (A) = P (A1) · P (A2). Se invecei due esperimenti sono tra loro in qualche modo legati è necessario valutare il gradodi correlazione dei due eventi e quindi la probabilità non è più pari al prodotto delle

due probabilità. E’ ad esempio evidente che se si vuole stabilire la probabilità di unevento come l’estrazione di un numero dispari da un lancio di un dado e di un asso daun mazzo di carte, avremo:P (Adisp

TAasso) = P (Adisp) · P (Aasso) = 1

2 · 4

52 = 1

Le considerazioni fatte per la composizione di due esperimenti si possono fare perla composizione di N qualunque esperimenti, ricordando però che in generale, dallaconoscenza delle leggi di probabilità dei singoli esperimenti non è possibile deter-minare la legge di probabilità dell’esperimento composto. In tale ambito ricade ilproblema delle prove ripetute ed indipendenti. Caso notevole è quello delle provebinarie ripetute ed indipendenti o prove di Bernoulli.

EXAMPLE 2.2.8. Formula di Bernoulli. Si supponga di voler indagare sull’es-

perimento composto da n esperimenti uguali tra loro ed indipendenti. Ciascuno degliesperimenti dà luogo ad uno spazio dei campioni con due soli possibili risultati: ωo edω1, con P (ωo) = p e P (ω1) = 1 − p. Un classico esempio è il lancio di n monete, oanche il lancio di una stessa moneta, purchè il risultato sia la composizione dei singolilanci. Si costruisca ora l’evento A = ωo si presenta k volte negli n esperimenti (oprove ripetute). La formula di Bernoulli (o binomiale) dice che:

(2.2.11) P (A) = ( nk

) · pk · (1 − p)n−k

ove il coefficiente binomiale vale: ( nk

) = n!k!(n−k)!

1Si ricordi che il modo con cui possono essere disposti k oggetti in n differenti posizioni, dis-tinguendo i gruppi anche per l’ordine, è dato dal numero Dn,k = n · (n− 1) · ... · (n− k + 1), chiamato

2.3. VARIABILI ALEATORIE 28

2.3. Variabili Aleatorie

Si consideri l’esperimento aleatorio costituito dal lancio di un dado. Sappiamo giàche il suo spazio campione è costituito da tutti i possibili valori che possono essere

ottenuti, e cioè i numeri da 1 a 6. Questi stessi numeri li potremmo ottenere anche conaltri esperimenti aleatori (ad esempio un qualche esperimento che consideri i giornidella settimana lavorativi).

Quello che si può osservare da un insieme di esperimenti di questo tipo è la co-mune cardinalità dello spazio campione, sebbene gli elementi dello spazio campionesiano differenti. Se allora astraiamo i casi particolari che abbiamo ottenuto, è possibilenumerare gli elementi (od i risultati) dello spazio campione, sino ad ottenere il valoreassociato a ciascuno dei possibili risultati. Quindi in questo modo l’esito del lancio diun dado diventa l’insieme dei numeri da 1 a 6, mentre l’esito di un qualche esperimen-to che coinvolga i giorni della settimana lavorativi diventa, ancora una volta, l’insiemedei numeri da 1 a 6.

Abbiamo costruito quindi una quantità variabile a seconda del risultato dell’esper-imento. A questa quantità è dato il nome di variabile aleatoria.Formalmente si può definire la variabile aleatoria come segue.

PROPOSITION 2.3.1. Dato un esperimento aleatorio avente come spazio campi-

one Ω , come classe degli eventi S e come legge di probabilità P (•) , si definisce una

corrispondenza che associ a ciascun risultato dello spazio Ω un unico numero reale.

Tale corrispondenza tra l’asse reale e lo spazio Ω è detta variabile aleatoria se l’in-

sieme dei risultati per i quali è verificata la disuguaglianza X (ωi) ≤ a è un evento,

comunque si scelga il numero reale a.

La variabile aleatoria si introduce ogni volta che il risultato di un esperimento

aleatorio è un valore numerico, come ad esempio una misura. Per quanto preciso edaccurato possa essere lo strumento, ripetendo più volte un esperimento (anche de-terministico!) si otterranno di volta in volta valori differenti, dovuti agli errori dimisura. L’insieme delle misure ottenute rappresenta proprio una variabile aleatoria,per l’effetto di incertezza dovuto all’errore di misura.

Rimane ora il problema di come trasferire la legge di probabilità alle variabilialeatorie. Vogliamo cioè essere in grado di stabilire qual è la probabilità di un evento,quando questo sia definito sull’asse dei numeri reali e non nella classe degli eventi S .In particolare, dati due numeri reali a e b, con a < b, ha interesse determinare qual è

disposizioni di n oggetti in classe k.Le disposizioni di n oggetti in classe n, cioè il modo con cui possono essere disposti n oggetti

distinguendoli solo per l’ordine che assumono nelle n posizioni è detto permutazioni in classe n evale: P n = n!.

Infine si dicono combinazioni di n oggetti in classe k il modo con cui è disporre k oggetti in ndifferenti posizioni, non distinguendoli per l’ordine. E’ quindi il numero di disposizioni Dn,k diviso il

numero delle permutazioni di k oggetti: C n,k = Dn,k/P k = n!k!(n−k)! =

. Il numero

detto anche coefficiente binomiale.

2.3. VARIABILI ALEATORIE 29

la probabilità che la variabile aleatoria sia compresa tra a e b, cioè P (a < X ≤ b).Estendendo il linguaggio usato solo nell’ambito degli esperimenti aleatori, si definiràevento anche l’intervallo di valori sull’asse reale compreso tra a e b, dato che, per ladefinizione di variabile aleatoria, l’intervallo ]a, b] è associabile ad un dato evento diS .

Questa operazione di “determinazione” della legge di probabilità di un dato eventodefinito direttamente sull’asse reale diventa immediato se si introduce una funzione, lafunzione distribuzione di probabilità: F X (x), definita come segue:

(2.3.1) F X (x) = P (X ≤ x)

dove x è un numero reale ben definito. La funzione di distribuzione di probabilità èuna funzione che associa ad ogni numero reale il valore della probabilità dell’eventoidentificato dall’intervallo X ≤ x. Per F X (x) valgono le seguenti proprietà:

(1) 0 ≤ F X (x) ≤ 1(2) Il suo valore limite, per x → +∞ vale 1: limx→+∞ F X (x) = F X (+∞) =

P (X ≤ +∞) = 1(3) Il suo valore limite per x → −∞ vale 0: limx→−∞ F X (x) = F X (−∞) =

P (X ≤ −∞) = 0(4) La funzione è monotona non decrescente, cioè se x1 < x2 ⇒ F X (x1) ≤

F X (x2)(5) La funzione è continua da destra, cioè F X (x) = limh→0+ F X (x + h)

(6) Se la funzione di distribuzione presenta una discontinuità di prima specie nelpunto x, allora la differenza tra il limite a destra e quello a sinistra è proprio ilvalore della probablità dell’evento in X = x: P (X = x) = limh→0+ F X (x +h) − limh→0− F X (x + h)

(7) La probabilità dell’evento a < X ≤ b può essere calcolata tramite la re-lazione: F X (b) − F X (a).

Le variabili aleatorie possono essere suddivise in tre classi: variabili aleatorie continue,variabili aleatorie discrete e variabili aleatorie miste. Una variabile aleatoria è dettadiscreta se la sua funzione di distribuzione è continua a tratti: F X (x) =

Pk P (X =

xk)·u(x−xk). Tenendo conto delle ultime due proprietà viste precedentemente questosignifica che la variabile aleatoria assume valore solo in un numero discreto (cioè concardinalità pari a quella dei numeri naturali) di valori, e non continuo. Le posizioniin cui questo accade sono proprio le xk. In queste posizioni la probabilità dell’eventoè “concentrata” nel valore xk: pk = P (X = xk). Le pk sono dette anche masse diprobabilità.

Se invece abbiamo a che fare con una distribuzione di probabilità continua, alloral’insieme dei valori che può assumere la funzione F X (x) si distribuisce con continuità

2.4. DENSITA’ DI PROBABILITA’ 30

sull’asse dei numeri reali. L’insieme degli eventi a cui è associata tale v.a. è un in-finito di cardinalità pari a quello dei numeri reali, quindi la probabilità che la variabilealeatoria assuma un certo valore x è un infinitesimo, tende cioè a zero.

Una variabile aleatoria mista è una variabile aleatoria continua quasi ovunque,

tranne che per un numero finito (o un’infinità numerabile) di punti per i quali presentadiscontinuità.

2.4. Densita’ di Probabilita’

Una descrizione alternativa di una variabile aleatoria è data anche della funzionedensità di probabilità, f X (x), definita dalla relazione:

(2.4.1) f X (x) = dF X (x)

La relazione inversa è invece:

(2.4.2) F X (x) =

Z x−∞

f X (x)dx

La funzione densità di probabilità è ovviamente non negativa, discendendo dalla derivazionedi una funzione monotona non descrescente, inoltre la sua area vale sempre 1:

(2.4.3)Z +∞−∞

f X (x)dx = 1

Il nome di densità di probabilità discende dalla sua stessa definizione. Infatti sisupponga di considerare un intervallino molto piccolo: [x, x +∆x] e di voler calcolarela probabilità che X capiti in quell’intervallo: P (x < X ≤ x + ∆x). Per definizionesi ha:

P (x < X ≤ x + ∆x) = Z x+∆x

xf X (x)dx ≈ f X (x) · ∆x ⇒

(2.4.4) f X (x) = P (x < X ≤ x + ∆x)

2.4. DENSITA’ DI PROBABILITA’ 31

cioè la funzione densità di probabilità in un punto rappresenta il valore della probabilitàche si può calcolare in un intervallino nell’intorno di quel punto diviso l’ampiezza diquell’intervallino. La sua misura è quindi una misura di densità, cioè di come laprobabilità si addensa attorno ai vari valori che la variabile aleatoria può assumere

sull’asse reale.Poichè la funzione distribuzione di probabilità può essere continua, discreta o

mista, anche per la densità di probabilità dovremmo distinguere i vari casi. Quando lafunzione di distribuzione è discreta o mista, essa è costituita da un insieme (anche in-finito) di discontinuità di prima specie. Conseguentemente in questi punti la funzionenon è, a rigore, derivabile e quindi non si potrebbe definire la densità di probabilità.

Tuttavia di una variabile aleatoria discreta è stata data una descrizione in terminidi distribuzione di probabilità che introduceva l’uso dei gradini. Difatti il gradino dàinformazione del “salto” di probabiltà che è avvenuto in un certo punto a causa dellapresenza di una certa massa di probabilità. Una funzione di distribuzione di probabilitàdiscreta è rappresentata in figura (2.4.1)

FIGURA 2.4.1. Distribuzione di probabilità di una variabile aleatoria discreta

Se allora si considera la descrizione per gradini è possibile introdurre, come densitàdi probabilità, una densità che sia costituita da impulsi nelle posizioni delle discontinu-ità e sia uguale a zero altrove. Gli impulsi infatti rappresentano, nella descrizione delladensità di probabilità, un valore “concentrato” e non distribuito della probabilità, unvalore cioè che assume una densità infinita, dovendo essere definita in un solo puntomatematico (vedi figura (2.4.2)).

Da un punto di vista della rappresentazione matematica si ha:

(2.4.5) F X (x) =X

P (X = xk) · u(x−xk) ⇒ f X (x) =X

P (X = xk) ·δ (x−xk)

2.5. OPERAZIONI SULLA VARIABILE ALEATORIA 32

FIGURA 2.4.2. Densità di probabilità di una variabile aleatoria discreta

2.5. Operazioni sulla Variabile Aleatoria

Nei problemi che coinvolgono una variabile aleatoria può essere comune l’esigen-za di dover effettuare alcune operazioni su di essa. In particolare, data una variabilealeatoria X , si pone il problema di come determinare le caratteristiche della variabilealeatoria ottenuta come Y = g(X ), dove g(•) è una funzione deterministica definitasull’asse reale (e dotata di determinate proprietà). Un esempio può essere dato dallatensione di rumore ai capi di una resistenza. Questa quantità può essere descritta medi-ante una variabile aleatoria, X , dato che il fenomeno che sta alla base della tensione dirumore è un fenomeno di tipo statistico. Se ora si vuole misurare la potenza di rumoredissipata sul resistore, poichè la potenza su un resistore è sempre pari a P R = x2/R,sarà anch’essa una variabile aleatoria, ottenuta come prodotto di una costante (il valoredella resistenza) per il quadrato di una quantità aleatoria. Se dunque X varia in modoimprevedibile, ma con una certa legge di probabilità, ci si può chiedere come varia lapotenza P R. Questa nuova variabile aleatoria si può ottenere trasformando la variabilealeatoria originaria.

Sia y = g(x). Si vuole determinare: F Y (y) = P (Y ≤ y) = P (g(X ) ≤ y). Sidevono allora prendere tutti i valori di x, per i quali risulta g(x) ≤ y. Detto DY questoinsieme: DY = x 3 g(x) ≤ y, si ha che: F Y (y) =

f X (x)dx. Da questa si

ricava poi la densità di probabilità: f Y (y) = dF Y (y)dy

.Si supponga in particolare che la funzione g(•) sia monotona strettamente cres-

cente. In tal caso è possibile definire la sua inversa: g−1

(•) ed è immediata la relazioneper determinare la densità di probabilità di Y :

F Y (y) = P (Y ≤ y) = P (g(X ) ≤ y) = P (X ≤ g−1(y)) = F X (g−1(y)) ⇒

2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA 33

(2.5.1) f Y (y) = f X (g−1(y)) · dg−1(y)

f X (g−1(y))

g0(g−1(y))

se la funzione è monotona strettamente decrescente invece si ha:

(2.5.2) f Y (y) = −f X (g−1(y)) · dg−1(y)

dy = −f X (g−1(y))

g0(g−1(y))

La relazione generale si può quindi riassumere nella seguente formula:

(2.5.3) f Y (y) = Z dY f X (x)

|g0(x)|dx

dove dY è l’insieme di tutti i valori x che sono soluzioni dell’equazione g(x) = y.Naturalmente l’insieme delle soluzioni di g(x) = y può anche essere l’insieme vuoto,nel qual caso si ha ovviamente: f Y (y) = 0. Il caso in cui invece risulta: g0(x) = 0è trattato differentemente a seconda che anche f X (x) sia nullo oppure no. Nel primocaso sono costanti sia F X (x) che g(x) quindi risulterà: P (Y = y) = P (X ∈ I ) con I intervallo delle x in cui g(x) assume valore costante. Nel secondo caso f Y (y) tenderàad un valore infinito (cioè ad un impulso).

2.6. Parametri Statistici di una Variabile Aleatoria

Nelle situazioni reali non è sempre possibile avere a disposizione tutte le conoscen-ze necessarie per caratterizzare una variabile aleatoria. Il massimo di informazioneche si può trarre da un esperimento aleatorio è la determinazione della sua funzionedensità di probabilità. Quando questa funzione non si conosce è comunque possibiledeterminare alcuni parametri statistici che, seppure non permettono una conoscenzacompleta della variabile aleatoria, permettono di estrarne qualche proprietà.

Il più importante di questi parametri statistici è il valore atteso o media, µx, definitodalla seguente relazione:

(2.6.1) µX = Z +∞−∞ x f X (x)dx

e rappresenta una sorta di “baricentro” della funzione densità di probabilità (si con-fronti a tale proposito la media con le definizioni, meno note di moda e mediana). Sela variabile aleatoria è discreta la relazione precedente, a causa della presenza degli

impulsi, diventa una sommatoria:

(2.6.2) µX = Z +∞−∞ x f X (x)dx = Xk

pk · Z +∞−∞ x δ (x − xk)dx = Xk

L’operazione precedente di media può essere scritta molto più facilmente introducen-do l’operatore di aspettazione (o di valor medio):

(2.6.3) E [g(X )] =

Z +∞−∞

g(x) f X (x)dx

che nel caso della media assume la semplice relazione: µX = E [X ]. L’operatore divalor medio gode della proprietà di linearità, dato che è definito attraverso un’oper-azione di integrazione: E [a · g(X ) + b · h(X )] = a · E [g(X )] + b · E [h(X )]. Inoltre,si supponga di avere una variabile aleatoria Y ottenuta tramite trasformazione dellav.a. X attraverso la funzione y = g(x). Senza passare attraverso il calcolo (a voltedifficoltoso) della densità di probabilità di Y nota quella di X è possibile determinareil valor medio di Y :

(2.6.4) µY = E [Y ] = E [g(X )] = Z +∞

−∞ g(x) f X (x)dx

Questo risultato è noto con il nome di teorema del valor medio.Due v.a. possono possedere lo stesso valor medio ed essere molto differenti tra

loro. In particolare è possibile che le v.a. abbiano una densità di probabilità che sia inun caso molto “stretta”, nell’altro molto “larga”. Si confrontino le due densità in figura(2.6.1).Questo fatto suggerisce che, seppure con una media uguale, le due v.a. hanno compor-tamenti molto differenti tra loro. Nel caso della v.a. con densità di probabilità moltolarga è più probabile che capitino valori della v.a. lontani dal valor medio, cosa invece

meno probabile nel secondo caso. E’ possibile allora quantificare questo fatto statisti-co introducendo un nuovo parametro, la varianza, che è definita come segue:

(2.6.5) σ2X = E [(X − µX )

Z +∞−∞

(x − µX )2 f X (x)dx

−6 −4 −2 0 2 40

FIGURA 2.6.1. Confronto tra due densità di probabilità con la stessa media

La radice quadrata della varianza è detta deviazione standard e rappresenta una misuradi quanto “dispersa” sia la densità di probabilità attorno alla media (più grande è ladeviazione standard, maggiore la dispersione). Una v.a. che non presenti affatto dis-persione attorno alla media (cioè con σX = 0) sarebbe tutta concentrata sulla media,cioè avrebbe una densità di probabilità pari ad un impulso di area unitaria posto sul-la posizione della media (ovviamente in questo caso non si può parlare di densità diprobabilità vera e propria, dato che i possibili valori collassano su unico valore certo).

Il valore quadratico medio (chiamato a volte anche potenza) è definito come segue:

(2.6.6) m2X = E [X 2] =

Z +∞−∞

x2 f X (x)dx

L’operatore E [•] è un operatore lineare, quindi è possibile trovare la relazione che legatra loro varianza e potenza:

σ2X = E [(X

−µX )

2] = E [X 2

−2XµX + µ2

X ] = E [X 2]

−2E [X ] · µX + µ2

(2.6.7) = m2X − 2µ2

X + µ2X = m2

X − µ2X

2.7. ESEMPI DI VARIABILI ALEATORIE 36

2.7. Esempi di Variabili Aleatorie

2.7.1. Variabile aleatoria uniforme. Una variabile aleatoria uniforme presentauna densità di probabilità costante in tutto l’intervallo in cui è definita, [a, b] e valore

nullo al di fuori di questo. Conseguentemente, dato che l’area sottesa dalla densitàdi probabilità deve essere unitaria, l’altezza di tale valore costante è: 1/(b − a). Ladensità di probabilità si può quindi scrivere come:

(2.7.1) f X (x) = 1

b − arect(

x − b+a2

b − a )

La v.a. non può assumere mai valori al di fuori dell’intervallo [a, b], ma dentro diquesto intervallo la probabilità di occorrenza di tutti i possibili valori è uguale (è come

se fosse un dado “continuo”, dotato cioè di infinite facce).La funzione di distribuzione, essendo la funzione integrale della densità di proba-

bilità avrà comportamento a “rampa” nell’intervallo in cui la funzione di densità è nonnulla:

(2.7.2) F X (x) =

0 x < ax−ab−a a ≤ x ≤ b1 x > b

Gli andamenti della funzione di densità e di quella di distribuzione sono mostrati infigura (2.7.1).

1/(b−a)

FIGURA 2.7.1. Densità e distribuzione della v.a. uniforme

Si possono calcolare facilmente i suoi parametri statistici:

(2.7.3) µX =

x · 1

b − adx =

σ2X =

(x − b + a2

)2 · 1b − a

(2.7.4) 1

b − a(

b3 − a3

3 − (b + a) · (b2 − a2)

(b2 + a2 + 2ab)(b − a)

(b − a)2

(2.7.5) m2X =

x2 · 1

b − adx =

b3 − a3

3(b − a) =

a2 + ab + b2

2.7.2. Variabile aleatoria esponenziale. Una variabile aleatoria molto utilizza-ta è la cosiddetta variabile aleatoria continua esponenziale unilatera o semplicementeesponenziale, così definita:

(2.7.6) f X (x) = 1

η · exp(−x

η) · u(x)

dove u(x) è il gradino unitario con discontinuità in x = 0. Il significato del parametroreale e positivo η sarà chiaro in seguito, quando si vedrà uno dei più comuni utilizzi

della v.a. esponenziale, cioè nei problemi di affidabilità e calcolo del rischio.La distribuzione di probabilità esponenziale vale:

(2.7.7) F X (x) =

η · exp(−x

η)dx = [1 − exp(−x

η)] · u(x)

ed entrambe sono illustrate in figura (2.7.2).I suoi parametri statistici valgono:

(2.7.8) µX =

Z +∞0

x · 1

η · exp(−x

η)dx = η

(2.7.9) m2X =

Z +∞0

x2 · 1

η · exp(−x

η)dx = 2η2

0 0.5 1 1.50

FIGURA 2.7.2. Densità e distribuzione della v.a. esponenziale

(2.7.10) σ2X = Z +∞

(x − η)2 · 1η

· exp(−xη

)dx = η2

La v.a. esponenziale è spesso utilizzata (in ambito telecomunicazionistico) nellaseguente forma:

(2.7.11) f X (x) = λ · exp(−λx) · u(x)

dove λ = 1/η assume il significato di rate della v.a. esponenziale.

2.7.3. Variabile aleatoria di Poisson. La variabile aleatoria di Poisson è una v.a.

discreta con densità di probabilità:

(2.7.12) f Z (z ) =+∞Xn=0

e−ΛΛn

n! δ (z − n)

dove il parametro Λ caratterizza la v.a. discreta. La v.a. di Poisson assume valoridi probabilità (di massa) differenti da zero solo per valori interi e non negativi. Lavariabile aleatoria di Poisson e quella esponenziale sono in realtà legate tra loro, comesi vedrà in seguito. Esse modellano bene fenomeni come il conteggio del numero diclienti che paga ad una cassa di un supermercato nell’unità di tempo o il numero diautomobili che transita ad un casello autostradale o il numero di elettroni che transitaattraverso una giunzione np.

La funzione di distribuzione essendo l’integrale della f Z (z ) precedente, è moltosemplice:

(2.7.13) F Z (z ) =+∞

e−ΛΛn

n! u(z − n)

dovendo integrare solo la variabile z . Un andamento della massa di probabilità perΛ = 3 è mostrato in figura (2.7.3).

0 2 4 6 8 100

FIGURA 2. 7.3. Densità e distribuzione della v.a. di Poisson

I suoi parametri statistici sono:

(2.7.14) µZ = Z +∞

0 z ·

Xn=0 e−ΛΛ

n! δ (z −n)dz =

Xn=0 e−ΛΛ

n! n = e−Λ

n! n =Λ

Z +∞0

z 2 ·+∞Xn=0

e−ΛΛn

n! δ (z − n)dz = e−Λ ·

+∞Xn=0

n! n2 =

(2.7.15)

e−Λ·+∞

(n − 1)!(n−1+1) = Λe−Λ·

Λn−1

(n − 1)!(n−1)+e−ΛΛ·

Λn−1

(n − 1)! = Λ

(2.7.16) σ2Z = m2

Z − µ2Z = Λ

Quindi per la v.a. di Poisson il parametro caratteristico Λ rappresenta sia il valor mediosia la varianza.

2.7.4. Variabile aleatoria di binomiale. Considerato un esperimento che con-duce a due soli possibili risultati (successo, con probabilità p e insuccesso, con proba-bilità 1− p), la variabile aleatoria binomiale (o di Bernoulli) conta il numero di successiaccaduti in n esperimenti aleatori di questo tipo indipendenti tra loro:

P (X = k) =

pk(1 − p)n−k k = 0,...,n

Questa v.a. è discreta, quindi hanno ovvia formulazione sia la distribuzione sia ladensità di probabilità. La media vale:

µX =nX

pk(1 − p)n−k =

k n(n − 1)!

k(k − 1)!(n − k)! ppk−1(1 − p)n−k = np

la varianza vale invece:

σ2X =

(k − np)2 nk pk(1 − p)n−k = np(1 − p)

2.7.5. Variabile aleatoria geometrica. Considerati n esperimenti aleatori indipen-denti di Bernoulli la v.a. geometrica conta qual è il numero di successi da osservareprima di registrare il primo insuccesso:

P (X = k) = pk(1 − p) k = 0, ...,∞La media vale:

µX =∞X

kpk(1 − p) = p

1 − p

la varianza vale invece:

σ2X =

∞Xk=0

k − p

1 − p

pk(1 − p) = p

(1 − p)2

sebbene la determinazione attraverso la formula riportata risulti alquanto diffi-coltosa.

2.7.6. Variabile aleatoria binomiale negativa e ipergeometrica. La variabilealeatoria binomiale negativa o di Pascal conta il numero di successi che si devonocollezionare in una serie di prove ripetute ed indipendeti di Bernoulli prima di osser-vare un numero di insuccessi complessivamente pari ad m, con m intero positivo, zerocompreso:

P (X = n) =

n + m − 1

m − 1

pn(1 − p)m−1(1 − p)

Il valore medio è pari a: µX = m p1− p .

Infine la variabile aleatoria ipergeometrica si introduce in una particolare classe diesperimenti detti senza rimessa (o senza rimescolamento). Si supponga, per rendere

chiara l’idea con un esempio, di avere un lotto di N oggetti di cui D difettosi. Sisupponga ora di pescare da questo lotto un numero di oggetti n senza rimessa (cioèsenza rimetterli dentro dopo aver osservato di quale oggetto si tratti). Detti k gli oggettidifettosi tra gli n pescati, la v.a. ipergeometrica permette di valutare la probabilità di k

(numero compreso tra 0,...,n):

P (X = k) =

N − D

n − k

2.7.7. Derivazione e significato delle v.a. esponenziale e di Poisson. La v.a.

esponenziale e quella di Poisson sono legate allo stesso significato fisico che è quellodell’attesa di un evento. In un processo di Poisson la casualità è affidata al tempo di

arrivo di un certo evento. In generale nei processi di Poisson siamo interessati da varifenomeni:

(1) osservare il numero di eventi in un certo intervallo di tempo fissato;(2) il tempo di interarrivo, cioè il tempo che intercorre tra l’arrivo di due eventi

successivi;(3) il tempo di attesa, cioè il tempo che occorre affinchè arrivi il primo evento a

partire da un istante iniziale di osservazione.

I tre tipi di fenomeni sono riassunti nella figura (2.7.4), dove le crocette rappresentanogli arrivi di un certo evento sull’asse temporale.

x x x x x x

FIGURA 2. 7.4. Rappresentazione grafica dei tre fenomeni descritti

Per poter ricavare la distribuzione di un processo poissoniano si fanno alcune ipotesisemplificative:

(1) fissato un intervallo T e suddividendo questo intervallo in n (con n grande)intervallini piccoli di durata δ T , T = n · δ T , la probabilità che un evento

capiti in un intervallino è pari ad una v.a. di Bernoulli:

P (N (δ T ) = 1) = pP (N (δ T ) = 0) = 1

si esclude la probabilità che in un singolo intervallino capiti più di un evento(2) Gli arrivi in intervallini diversi sono indipendenti tra loro.

Calcoliamo ora qual è la probabilità che in un dato intervallo finito T capitino keventi: P n(N (T ) = k). In base alle formule viste per la v.a. di Bernoulli si ha:

P (N (T ) = k) = ( nk

) pk(1 − p)n−k con n numero totale di intervallini in cui si può

pensare suddiviso l’intervallo T . Sia ora Λ un parametro costante, tale che si possascrivere: ΛT = np = α, così che, quando il numero di intervallini tende ad infinito, laprobabilità che un evento capiti in un dato intervallino vada a zero: n → ∞ ⇒ p → 0.La probabilità diventa allora:

P (N (T ) = k) = limn→∞

P n(N (T ) = k) = limn→∞

) pk(1 − p)n−k =

= limn→∞

n)k(1−α

n)n−k =

k! · lim

n→∞n · (n − 1) · ... · (n − k)!

nk · (n − k)! ·(1−α

n)n·(1−α

n)−k =

(2.7.17) = αk

k! · lim

n→∞(1 − α

k! · exp(−α)

Si osservi che se si pone T = 1 allora la P (N (1) = k) coincide con la distribuzionedi Poisson trovata nel par. 2.7.3, che a questo punto rappresenta la probabilità che nel-l’unità di tempo capitino k eventi. La probabilità che nell’unità di tempo non capitinoaffatto eventi vale: P (N (1) = 0) = exp(−Λ).

Calcoliamo ora il tempo di attesa, cioè il tempo che bisogna attendere affinchècapiti il primo evento a partire da un instante iniziale di osservazione. Se è x l’istantein cui si vuole valutare la v.a., distribuzione di probabilità della v.a. tempo di attesa puòessere espressa anche come: F τ (x) = P (τ ≤ x) = 1 − P (τ > x). Ma P (τ > x) è an-che la probabilità che sino ad x non sia capitato alcun evento: P (τ > x) = exp(−Λx).Quindi:

(2.7.18) F τ (x) = 1 − e−Λx

f τ (x) = Λe−Λx

che, confrontata con le (2.7.6) e (2.7.7) dà significato alla v.a. esponenziale, purchè siponga: Λ = 1

Si supponga ora che, a partire da un certo istante in cui è capitato un evento, sivoglia determinare quale sarà la probabilità che sia τ il tempo di arrivo dell’evento

successivo. Questa probabilità di arrivo, detta tempo di interarrivo si può calcolarefacilmente a partire dalle considerazioni fatte precedentemente. Infatti, poichè glieventi sono indipendenti tra loro, l’occorrere di un evento ad un certo istante (quel-lo nel quale noi poniamo t = 0) non genera alcuna dipendenza futura sull’eventosuccessivo. Ne consegue che la distribuzione e la densità di probabilità del tempo diinterarrivo sono uguali a quelle calcolate per il tempo di attesa. La variabile aleatoriaesponenziale esprime cioè la mancanza di memoria di un sistema.

2.7.8. Variabie aleatoria gaussiana. La variabile aleatoria di Gauss detta anchev.a. normale, o a campana, emerge nell’esperienza dell’umanità come una delle più

ampie generalizzazioni della filosofia naturale. Essa serve come strumento guida in

ricerche della scienza, della medicina e dell’ingegneria. E’ uno strumento indispens-abile per l’analisi e l’interpretazione dei dati fondamentali ottenuti dall’osservazione

e dall’esperimento.2

Moltissimi fenomeni naturali si modellano statisticamente, in mancanza di altreinformazioni, come se seguissero una variabile aleatoria gaussiana. Inoltre, come verràdimostrato più avanti con il teorema del limite centrale, la v.a. gaussiana si può sempreconsiderare una generalizzazione di altre v.a. quando il numero di elementi presentidiventa molto grande.

La densità di probabilità della v.a. gaussiana è:

(2.7.19) f X (x) = 1

2πexp(−(x − µ)2

2σ2 )

dove, come si può dimostrare, i parametri µ e σ2 sono rispettivamente il valor medio ela varianza della v.a. La densità di probabilità gaussiana si estende su tutto l’asse deinumeri reali, ed è simmetrica rispetto al suo valor medio µ. La v.a. gaussiana è indicataanche con ℵ(µ,σ2), dato che la media e la varianza sono sufficienti per caratterizzarlacompletamente. La gaussiana standard è quella con densità di probabilità ℵ(0, 1), cioè:

(2.7.20) f X N (x) = 1√

2πexp(−x2

2J. Gleick: “Caos: la nascita di una nuova scienza”, ed. Bur.

Essa è particolarmente importante poichè si può facilmente vedere che una gaussianaqualunque ℵ(µ,σ2) può essere ottenuta come trasformazione lineare della gaussianastandard: X = σ · X N + µ. Infatti:

f X (x) = 1

σ · f X N (

x − µ

σ ) =

2πexp(−(x − µ)2

2σ2 )

La funzione di distribuzione della gaussiana non può essere espressa in forma chiusa.A tale proposito si introduce la funzione di distribuzione della gaussiana standard:

(2.7.21) ΦX N (x) =

−∞

1√ 2π

exp(−z 2

Questa funzione è calcolata con metodi numerici e spesso si danno anche valori tab-ulati. Talvolta si usa anche la funzione Q(x) = 1 − Φ(x). Nota la funzione di dis-tribuzione standard è possibile calcolare la funzione di distribuzione per una normalequalunque ℵ(µ,σ2): ΦX (x) = P (X ≤ x) = P (σX N + µ ≤ x) = ΦX N (

x−µσ

). Quin-di, ad esempio, se si vuole conoscere la probabilità che la variabile gaussiana assumavalori in un intervallo [a, b], si ottiene:

(2.7.22) P (a < x ≤ b) = F X (b) − F X (a) = ΦN (b − µ

σ ) − ΦN (

a − µ

Molte volte nei calcolatori si ha a disposizione, direttamente implementata, la fun-zione di distribuzione standard. Quando questa non è presente, si hanno le funzionierrore ed errore complementare (error function e complementary error function):

(2.7.23) erf (x) = 2√ π

e−z2dz

(2.7.24) erfc(x) = 1 − erf (x) =

√ π Z +∞

x e−z2

Quando si hanno a disposizione solo la funzione errore o la sua complementare si puòricavare la funzione di distribuzione standard da quest’ultima: Φ(x) = 1

2(1+erf ( x√

e la funzione Q(x) = 12erfc( x√

2). Da questa relazione si può ricavare facilmente la

2.8. VARIABILI ALEATORIE CONDIZIONATE 45

probabilità che una gaussiana assuma valori nell’intervallo [a, b]: P (a < x ≤ b) =12 [erf ( b−µ√

2σ) − erf (a−µ√

2σ)] = 1

2 [erfc(a−µ√ 2σ

) − erfc( b−µ√ 2σ

)]. Nelle figura (2.7.5) sonoriportate la densità di probabilità gaussiana con la funzione di distribuzione e la Q(x),in figura (2.7.6) è riportata invece la funzione errore e la sua complementare.

−4 −3 −2 −1 0 1 2 3 4

FIGURA 2.7.5. Densità, distribuzione e funzione Q(x) per la v.a. gaussiana

erfc(x)

erf(x)

−4 −3 −2 −1 0 1 2 3 4

−0.5

FIGURA 2.7.6. Funzione errore e funzione errore complementare

2.8. Variabili Aleatorie Condizionate

La funzione di distribuzione della probabilità, F X (x) passa attraverso la definizionedi un evento, di cui la funzione ne rappresenta la probabilità: F X (x) = P (X ≤ x) =P (A), dove l’evento A è l’evento che la v.a. assuma valori minori od uguali ad X . Ilverificarsi di un evento però può essere anche influenzato dal verificarsi o meno di unaltro evento B avente probabilità non nulla di accadere, P (B). Ha quindi senso porsiil problema del calcolo di una funzione di distribuzione condizionata dall’occorreredell’evento B . Tale funzione di distribuzione della v.a. X , indicata con F X/B(x/B),

2.9. APPLICAZIONI NOTEVOLI 46

vale ovviamente:

(2.8.1) F X/B(x/B) = P (A, B)

P (B) = P (X

≤x, B)

da cui si può definire anche la densità di probabilità:

(2.8.2) f X/B(x/B) = dF X/B(x/B)

Le funzioni di distribuzione e di densità di probabilità godono di tutte le proprietà vistefinora e valide per le funzioni e distribuzioni non condizionate.

2.9. Applicazioni notevoli

2.9.1. Trasformazione di una variabile aleatoria. Schematizzazione del guas-

to di un circuito elettrico. Si supponga di avere il semplice circuito elettrico riportatoin figura (2.9.1). Il generatore di tensione sia collegato alla serie RC all’istante t = 0.Il resistore R abbia un tempo di guasto aleatorio X , in corrispondenza del quale essointerrompe il circuito. Questo tipo di fenomeno, cioè l’istante in cui interrompe il cir-cuito, si può modellare (per quanto detto in par. 2.7.7) come una v.a. esponenziale conparametro (scelto arbitrariamente) pari a 2α = 2RC :

(2.9.1) f X (x) = 1

2α exp(− x

2α) · u(x)

FIGURA 2.9.1 . Schema del circuito RC con un guasto in t = X .

Si vuole determinare la densità di probabilità f V (v) della v.a. V che rappresenta latensione ai capi del condensatore dopo che è avvenuto il guasto al resistore R. Il guas-to al resistore si può schematizzare come l’interruzione del circuito e il conseguentemantenimento della tensione sul condensatore (qui supposto ideale). Poichè non si

conosce l’istante in cui il guasto avverrà, anche la tensione che verrà mantenuta ai capidel condensatore è una quantità statistica, cioè ignota a priori, di cui però è possibiledeterminare la probabilità che assuma un certo valore. E’ sufficiente a tale propositodeterminare la legge che lega il tempo alla tensione ai capi del condensatore: v(t) =V o[1−exp(−t/α)] · u(t). Ponendo t = X , segue: v(X ) = V o[1−exp(−X/α)] · u(X ).Conosciamo quindi la legge di trasformazione e la densità di probabilità di X . Si devequindi applicare quanto riportato nel par. 2.5:

(2.9.2) f V (v) = f X (x)

dove x è la quantità che soddisfa l’equazione v = v(x). Poichè la legge v(t) è perfet-tamente invertibile nell’intervallo [0, V o], solo in questo intervallo avrà senso definirela densità di probabilità di f V (v). L’inversione della legge porta a:

(2.9.3) v = v(x) ⇒ x = −α ln(1 − v

poichè inoltre:

(2.9.4) v0(x) = V oα

exp(−t/α)

si ha infine:

(2.9.5) f V (v) = 1

2V o·

1p 1 − v

2.9.2. Tempo di guasto dopo il rodaggio. Un altro problema interessante è quel-lo del tempo di guasto dopo il rodaggio. Si abbia una serie di resistenze, tutte nomi-nalmente uguali tra loro. Se queste resistenze si pongono sotto tensione, presto o tardiesse tenderanno a rompersi. La rottura di una singola resistenza è ovviamente un even-

to casuale, che è ben modellato da una variabile aleatoria esponenziale, con densità diprobabilità data dalla (2.7.6). Il parametro η, che nella densità di probabilità esponen-ziale rappresenta il valor medio, è detto tempo medio di guasto o MTTF (Mean TimeTo Failure).

Effettuiamo ora un’operazione di rodaggio. Dato cioè un tempo prefissato a pi-acere, to, scartiamo le resistenze che si sono guastate sino a quell’istante. Quindicominciamo, per istanti t ≥ to, ad osservare le resistenze che non si sono ancora guas-tate. In base alla proprietà di mancanza di memoria della variabile aleatoria esponen-ziale, ci si aspetta che la densità di probabilità condizionata da questo evento non siamutata. Verifichiamolo. Quello che vogliamo determinare è la densità di probabilitàcondizionata dall’evento B, con B = t

≥to.

Si calcola prima la distribuzione di probabilità F X/B(x/B). La probabilità del-l’evento B è: P (B) = P (X ≥ to) = 1 − P (X < to) = 1 − F X (to), dove F X (x)è la funzione di distribuzione della v.a. X . La probabilità congiunta dell’eventoP (X ≤ x, B) si può determinare invece a partire dai due casi in cui x > to op-pure x ≤ to:

P (X ≤ x, B) = P (X ≤ x, X ≥ to) =

F X (x) − F X (to) x > to

0 altrimenti =

(2.9.6) = [F X (x) − F X (to)] · u(x − to)

Sostituendo nella definizione di distribuzione di probabilità condizionata da unevento:

F X/B(x/B) = P (X ≤ x, B)

P (B) =

[F X (x) − F X (to)] · u(x − to)

1 − F X (to) =

(2.9.7) = [F X (x) − F X (to)]1 − F X (to)

· u(x − to)

da cui si ricava facilmente la densità di probabilità condizionata:

(2.9.8) f X/B(x/B) = dF X/B(x/B)

f X (x)

1 − F X (to) · u(x − to)

Questa densità di probabilità spiega il comportamento delle resistenze quando si in-troduce il tempo di rodaggio: la probabilità che se ne guasti qualcuna per x < to èovviamente nulla, dato che si stanno considerando solo le resistenze sopravvisute al-l’istante t = to; inoltre la densità di probabilità è la stessa del caso in cui si cominci adosservare il fenomeno per t = 0 (e quindi è verificato che il sistema è privo di memo-ria), tranne per il fattore di scala 1

1−F X(to) che ha lo scopo di rinormalizzare la densità

di probabilità in modo che la sua area sia sempre pari ad 1.

2.9.3. Generatori aleatori. Nei problemi di simulazione capita talvolta di richiedere,

ai computer, di produrre dei numeri casuali, generati con una legge assegnata. La rou-tine di sistema di un computer, basata sulle complesse relazioni esistenti tra i registridella macchina e il clock, è in grado spesso di fornire un numero casuale, ad aritmeticafinita, compreso tra 0 ed 1 e distribuito in modo uniforme.

Il primo problema da risolvere per produrre numeri a caso con distribuzione as-segnata, consiste nel costruire una funzione φ tale che se X è uniforme nell’intervallo[0, 1], allora φ(X ) abbia la distribuzione assegnata nell’intervallo assegnato. Il proble-ma si formalizza così: data una v.a. X uniforme in [0, 1], ed assegnata una densità diprobabilità (continua) f , si deve trovare un’applicazione φ, tale che Y = φ(X ) abbiadensità di probabilità f .

Supponiamo che si voglia f non nulla all’interno di un intervallo assegnato [a, b]

e nulla al di fuori di esso. In tal caso la F , funzione cumulativa, sarà strettamentecrescente e quindi invertibile in questo intervallo. Mostriamo che la scelta φ = F −1

risolve il nostro problema.Anzitutto osserviamo che la F di una v.a. uniforme vale:

F (x) = x 0 ≤ x ≤ 1

vale 0 per x < 0 e 1 per x > 1. Si ha allora che ∀t, 0 ≤ F (t) ≤ 1 e quindi che:

P (F −1(X ) ≤ t) = P (X ≤ F (t)) = F (t)

La v.a. Y = φ(X ) = F −1(X ) risolve il problema, dato che avrà una funzione

cumulativa pari ad F .Supponiamo, ad esempio, di voler ottenere una legge esponenziale con parametroλ. Siccome la funzione cumulativa vale:

F (t) = 1 − exp(−λt), t ≥ 0

essa è invertibile su <+ e la sua inversa vale:

2.10. SISTEMI DI VARIABILI ALEATORIE 50

F −1(x) = − 1

λ log(1 − x)

Quindi se X è uniforme su [0, 1], allora la funzione trasformata Y =

−1λ

−X )

è esponenziale con parametro λ.In altri casi esistono tecniche più raffinate (o più semplici, quando la funzione da

invertire non è semplice) che, pur sfruttando il principio sopra esposto, permettono diaggirare le difficoltà del problema in esame.

2.10. Sistemi di Variabili Aleatorie

2.10.1. Sistemi di due variabili aleatorie. Nello studio di un esperimento aleato-rio può avere senso associare due grandezze fisiche differenti a due risultati differen-ti dell’esperimento. Tuttavia le corrispondenti v.a. associate a queste grandezze, X ed Y , difficilmente forniranno risultati significativi all’esperimento stesso, se prese

singolarmente.Ad esempio si supponga di considerare un esperimento statistico in cui si misura

l’altezza e il peso di una certa popolazione di persone. Sarà molto difficile trovareuna persona molto alta e molto magra, sebbene la variabilità di peso e di altezza,prese singolarmente permettono escursioni ampie. Questo significa che, nell’esperi-mento aleatorio, le due grandezze forniscono informazione utile solo se prese insieme(informazione congiunta).

Data allora una coppia di variabili aleatorie (X, Y ) si definisce la funzione di dis-

tribuzione di probabilità congiunta:

(2.10.1) F XY (x, y) = P (X ≤ x, Y ≤ y)

che descrive in modo completo il comportamento statistico delle due v.a. In partico-lare, conoscendo F XY (x, y) è possibile avere informazioni sul comportamento statis-tico delle due v.a. prese separatamente (probabilità marginali). Le proprietà dellafunzione di distribuzione di probabilità congiunta sono molto simili a quelle viste perla funzione di distribuzione di una sola variabile:

(1) la funzione F XY (x, y) assume valori compresi tra 0 ed 1;(2) Dato un valore fisso di y , y = yo, la funzione F XY (x, yo) è monotona non

decrescente in x e continua da destra; analoga proprietà vale per l’altra vari-abile;

(3) la funzione soddisfa le seguenti uguaglianze:F XY (−∞, y) = P (X ≤ −∞, Y ≤ y) = 0F XY (x, −∞) = P (X ≤ x, Y ≤ −∞) = 0F XY (−∞, −∞) = P (X ≤ −∞, Y ≤ −∞) = 0

(4) Le funzioni di distribuzione marginale si ricavano come:F X (x) = F XY (x, +∞)F Y (y) = F XY (+∞, y)

(5) limx,y

→∞F XY (x, y) = 1

(6) La probabilità dell’evento rettangolare R = x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2 sicalcola con la relazione:

(2.10.2)P (x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2) = F XY (x2, y2)−F XY (x1, y2)−F XY (x2, y1)+F XY (x1, y1)

In particolare l’ultima proprietà permette di determinare la funzione densità di proba-bilità congiunta quando l’ampiezza degli intervalli in x ed in y tende a diventare moltopiccola:

P (x ≤ X ≤ x + ∆x, y ≤ Y ≤ y + ∆y) =

[F XY (x + ∆x, y + ∆y) − F XY (x, y + ∆y)] − [F XY (x + ∆x, y) − F XY (x, y)] =

= ∂ F XY (x, y + ∆y)

∂ x ∆x − ∂ F XY (x, y)

∂ x ∆x =

∂ 2F XY (x, y)

∂ x∂ y ∆x∆y

Se allora si definisce la funzione: f XY

(x, y) = ∂ 2F XY (x,y)

∂ x∂ y , si ha:

(2.10.3) P (x ≤ X ≤ x + ∆x, y ≤ Y ≤ y + ∆y) ∼= f XY (x, y) · ∆x∆y

La funzione definita è detta densità di probabilità congiunta. Essa è sempre nonnegativa ed integra ad 1 su tutto il piano:

(2.10.4) Z Z <2 f XY (x, y)dxdy = 1

Le densità di probabilità marginali si ricavano in base a quanto già visto per la dis-tribuzione di probabilità congiunta:

(2.10.5) f X (x) =

Z +∞−∞

f XY (x, y)dy

(2.10.6) f Y (y) =Z +∞−∞

f XY (x, y)dx

Dato un evento A, identificabile con un dominio sul piano <2 : (x, y) ∈ A, la proba-bilità di quell’evento è:

(2.10.7)Z Z

f XY (x, y)dxdy

Infine la funzione di distribuzione può essere ricavata dalla densità di probabilità me-diante la relazione:

(2.10.8) F XY (x, y) =

Z x−∞

Z y−∞

f XY (s, t)dsdt

Anche in questo caso si può definire la funzione di distribuzione e la densità diprobabilità condizionata. Si supponga infatti che la v.a. X abbia assunto un certovalore X = x. In tal caso la probabilità marginale di Y sarà condizionata da questo

cambiamento. Si definisce allora la funzione di distribuzione condizionata:

(2.10.9) F Y/X (y/x) =

R y−∞ f XY (x, t)dt

f X (x)

Da questa si ricava poi la densità di probabilità condizionata derivando rispetto ad y:

(2.10.10) f Y/X (y/x) = ∂ F Y/X (y/x)

= f XY (x, y)

f X (x)Se il comportamento della variabile aleatoria Y è uguale sia sotto condizionamentoper X = x, ∀x sia senza condizionamento, cioè se f Y (y) = f Y/X (y/x) allora questosignifica che le v.a. sono indipendenti tra loro. In questo caso la densità di probabilitàcongiunta è pari al prodotto delle due densità di probabilità: f XY (x, y) = f X (x) ·f Y (y).

Come già visto nel caso di una sola v.a., anche nel caso di due v.a. si può ef-fettuare una trasformazione: Z = g(X, Y ), dove g(•, •) è una funzione reale di duevariabili reali. La funzione definisce una nuova v.a. con funzione di distribuzione:F Z (z ) = P (g(X, Y )

≤ z ). Il calcolo della F Z (z ) può essere facilmente effettuato

tramite:

(2.10.11) F Z (z ) =

Z Z R(Z )

f XY (x, y)dxdy

dove il dominio R(Z ) indica la regione di piano in cui vale la relazione g(X, Y ) ≤ z .Nota la funzione di distribuzione, la densità di probabilità si ricava mediante semplicederivazione rispetto all’unica variabile z .

EXAMPLE 2.10.1. Somma di due variabili aleatorie. Questo esempio dà luogoad un risultato notevole. Detta infatti D la regione di piano individuata dalla relazionex + y ≤ z , si ha che D = x, y ≤ z − x , ∀x. Quindi si ha:

F Z (z ) =

Z +∞−∞

Z z−x

−∞f XY (x, y)dxdy =

Z +∞−∞

Z z−x

−∞f XY (x, y)dy

f Z (z ) = dF Z (z )

= Z +∞

−∞

dz Z z−x

−∞f XY (x, y)dy dx = Z

−∞f XY (x, z

−x)dx

Se poi le v.a. sono indipendenti si ottiene:

(2.10.12)

f Z (z ) =

Z +∞−∞

f XY (x, z − x)dx =

Z +∞−∞

f X (x) · f Y (z − x)dx = f X (z ) ? f Y (z )

cioè date due v.a. sommate tra loro ed indipendenti, la densità di probabilità della v.a.somma è pari alla convoluzione delle densità di probabilità delle due v.a. di partenza.

Il risultato è facilmente generalizzabile alla somma di n variabili aleatorie indipen-denti tra loro.

2.10.2. Correlazione e covarianza. Il comportamento statistico di una coppia div.a. può essere descritto da alcuni parametri che le descrivono in modo congiunto. Traquesti parametri vi sono la correlazione:

(2.10.13) rXY = E [XY ] =

Z +∞−∞

xy f XY (x, y)dxdy

e la covarianza:

(2.10.14)

cXY = E [(X − µX )(Y − µY )] =

Z +∞−∞

(x − µX )(y − µY ) f XY (x, y)dxdy

Si fa vedere facilmente che cXY = rXY

−µX µY .

La covarianza è un parametro statistico molto importante. Essa stabilisce se esisteun qualche tipo di dipendenza lineare tra le v.a. Cerca in ogni caso di misurare unadispersione congiunta intorno ai rispettivi valori medi. Se ad esempio la covarian-za è positiva questo significa che, prevalentemente, le v.a. tendono a muoversi nellastessa direzione, cioè è più probabile che se una di esse è sopra la media lo sia an-che l’altra (come ad esempio peso ed altezza di una persona). Una covarianza neg-ativa indica invece il fenomeno contrario, cioè che prevalentemente le due v.a. simuovono statisticamente in direzioni opposte, come ad esempio età ed acuità visiva diuna popolazione.

Supponiamo che tra le due v.a. X e Y esista una certa dipendenza lineare:

Y = aX + b

µY = aµX + b

Y − µY = a(X − µX )(2.10.15)

La covarianza vale allora:

cXY = E [(X − µX )(Y − µY )] = E [(X − µX )a(X − µX )] = aσ2X

cXY = E [(X − µX )(Y − µY )] = E [(Y − µY )(Y − µY )/a] = σ2Y /a

da cui si ricava che:

(2.10.16) c2XY = σ2X σ

In questo caso il rapporto cXY σXσY

= ±1.E’ possibile generalizzare il discorso precedente e porre, per una data coppia di

v.a. X e Y , la seguente definizione:

(2.10.17) ρ = E

X − µX

σX · Y − µY

σX σY

che dà una misura del grado di correlazione o di dipendenza lineare tra le due v.a.Si ponga ora il caso generale: Y = aX + b + Z , in cui la quantità Z è una v.a.Con questo modello abbiamo supposto che la dipendenza lineare tra X e Y sia dubbiao comunque non nota. Il problema che ci poniamo è quello di determinare la rettamigliore possibile (cioè i coefficienti a e b) che permettano di formulare la migliorepredizione lineare di Y in funzione di X .

La soluzione considerata ottima è quella che si ottiene imponendo che la media diZ sia nulla e che la sua varianza sia minima:

µZ = µY − aµX − b = 0

Z = σ

X − 2acXY = min(2.10.18)la seconda equazione va derivata e posta = 0:

(2.10.19) ∂σ2

∂ a = 2aσ2

X − 2cXY = 0

da cui si ricava abbastanza facilmente:

(2.10.20) a = cXY

Sostituendo il valore determinato di a nella seconda equazione della (2.10.18) siricava la varianza minima che deve assumere la v.a. Z :

(2.10.21) σ2Z min

= σ2Y +

σ2X − 2

cXY = σ2Y (1 − ρ2)

Dalla precedente equazione si ricavano le seguenti osservazioni:

(1) il valore del coefficiente di correlazione ρ è un numero in valore assolutosempre minore di 1: 0 ≤ |ρ| ≤ 1;

(2) Tanto più |ρ| → 1 tanto più sono linearmente dipendenti le v.a. X e Y . Se|ρ| = 1, X e Y dipendono linearmente tra loro.

(3) Se |ρ| = 0 allora cXY = 0, cioè le due v.a. sono incorrelate.

Il coefficiente di correlazione serve a normalizzare la covarianza che altrimenti

potrebbe assumere valori anche molto differenti per diverse coppie di v.a. Esso perme-tte quindi di confrontare diversi risultati tra loro, dato che l’intervallo in cui è definitoè sempre [−1, 1]. Il coefficiente di correlazione si può anche vedere come una corre-lazione definita per la nuova coppia di v.a. normalizzate ( X −µX

σX, Y −µY

σY ). Quanto più

vicino è questo coefficiente ad 1 in modulo, tanto più le v.a. tendono a seguire unalegge di variazione lineare.

Se poi le v.a. sono indipendenti tra loro la loro correlazione vale:

rXY = E [XY ] = Z +∞−∞ Z +∞−∞ xy f XY (x, y)dxdy =

(2.10.22) =

Z +∞−∞

xf X (x)dx ·

Z +∞−∞

y f Y (y)dy = µX µY

cioè due v.a. indipendenti sono anche incorrelate. L’inverso di questa relazione nonè sempre vera tuttavia: cioè due v.a. incorrelate possono anche essere dipendenti traloro. L’indipendenza è una condizione più restrittiva della incorrelazione.

2.10.3. Metodo dei minimi quadrati. Questo metodo, strettamente correlato conil concetto di dipendenza lineare tra due v.a. è in realtà oggetto di studio della statisticae non della teoria delle probabilità. Infatti il metodo si introduce in un contesto incui l’eventuale dipendenza lineare tra due v.a. è ignota ma si suppone esistente peripotesi di lavoro; si suppone inoltre che le statistiche delle due v.a. non siano note.Si suppongono invece note una serie di misure delle due v.a., che in un esperimentoaleatorio, si possono considerare due grandezze fisiche in qualche modo dipendenti traloro (per esempio si potrebbe pensare ad un esperimento aleatorio che coinvolga spaziopercorso da un oggetto che si muove di moto rettilineo uniforme e tempo trascorso. E’ragionevole supporre dipendenza lineare tra le due grandezze fisiche).

Siano xi e yi, con i = 1, 2,...,N la serie di misure ottenute. La retta ottima consistenel considerare la soluzione che minimizza la somma dei quadrati della relazione didipendenza lineare:

z i = yi − axi − b

z 2i =X

(yi − axi − b)2

∂ a = −

xiyi + aX

x2i + b

xi = 0

∂ b = −Xi

yi + aXi

xi + N b = 0(2.10.23)

Le relazioni precedenti possono essere riarrangiate in un sistema di due equazioniin due incognite: a e b, dato che le restanti quantità sono note, essendo ricavabili dallecoppie di misure (xi, yi).

Se si pongono le seguenti stime:

cµX =

cµY = 1N X

cσ2X =

(xi − cµX )2

cσ2Y =

(yi − cµY )2

dcXY = 1

(xi − cµX ) (yi − cµY )

I valori ottimali di a e b nel senso dei minimi quadrati si possono riscrivere nelseguente modo:

a = dcXY cσ2

b = cµY − a cµX

ρ = dcXY cσX cσY

(2.10.24)

2.10.4. Sistemi di n variabili aleatorie. Quanto visto per due v.a. può esserefacilmente generalizzato per n variabili aleatorie. La funzione di distribuzione di prob-

abilità congiunta è definita come:

(2.10.25) F X 1,X 2,...,X n(x1, x2,...,xn) = P (X 1 ≤ x1, X 2 ≤ x2,...,X n ≤ xn)

e la relativa densità di probabilità è:

(2.10.26) f X 1,X 2,...,X n(x1, x2,...,xn) = ∂ nF X 1,X 2,...,X n(x1, x2,...,xn)

∂ x1∂ x2...∂ xn

Dalla densità di probabilità congiunta è possibile ricavare la densità di probabilitàmarginale rispetto a ciascuna delle variabili: è sufficiente integrare su tutto il dominio< per tutte le altre. Inoltre è possibile ricavare la densità di probabilità marginaledi un qualunque sottoinsieme di v.a., sempre integrando in < rispetto a quelle che

devono mancare (se ad esempio si vuole la densità di probabilità marginale rispetto adx3, x4,...,xn si deve integrare f X 1,X 2,...,X n(x1, x2,...,xn) rispetto ad x1, x2.

In modo analogo si ricavano le densità di probabilità condizionate. Se si vuole de-terminare la densità di probabilità condizionata ad un qualunque sottoinsieme di v.a. è

sufficiente dividere la densità di probabilità congiunta per la marginale ristretta a quelsottoinsieme. Se ad esempio si vuole determinare

(2.10.27) f X 1,X 4,...,X n/X 2,X 3(x1, x4,...,xn/x2, x3) = f X 1,X 2,...,X n(x1, x2,...,xn)

f X 2,X 3(x2, x3)

Le v.a. si dicono indipendenti tra loro se, preso un qualunque sottoinsieme diesse, condizionato da un qualunque altro sottoinsieme (distinto dal primo), la densità

di probabilità condizionata è pari alla densità del primo sottoinsieme considerato noncondizionato.Per lo studio dei sistemi di v.a. si utilizza normalmente la notazione matriciale:

X = X 1, X 2,...,X n dove X è un vettore aleatorio:

(2.10.28) X =

X 1X 2

...X n

= [X 1, X 2,...,X n]T

La funzione di distribuzione di probabilità congiunta e la funzione di densità di prob-abilità congiunta possono essere quindi indicate con notazione vettoriale: F X (X ) edf X (X ). Anche i parametri statistici possono essere indicati con notazione vettoriale:

(2.10.29) µX = E [X ] = [µX 1, µX 2 ,...,µX n]T

Poichè la correlazione e la covarianza sono state definite per coppie di v.a. quandosi hanno più di due v.a., ha senso definire la correlazione e la covarianza per tutte lepossibili coppie di v.a. In tal caso tutte le correlazioni, come pure tutte le covarianzepossono essere riunite in una matrice di dimensione n×n dette matrici di correlazionee di covarianza:

(2.10.30) RX = E [XX T ] =

rX 1X 1 rX 1X 2 ... rX 1X n

rX 2X 1 rX 2X 2 ... rX 2X n...

...rX nX 1 rX nX 2 ... rX nX n

(2.10.31) C X = E [(X − µX )(X − µX )T ] =

cX 1X 1 cX 1X 2 ... cX 1X n

cX 2X 1 cX 2X 2 ... cX 2X n...

... . . .

...cX nX 1 cX nX 2 ... cX nX n

Le matrici di correlazione e di covarianza sono simmetriche, essendo

(2.10.32) rX iX j = rX jX i cX iX j = cX jX i

dalle loro stesse definizioni. I valori sulla diagonale di RX sono i valori quadraticimedi delle singole v.a. X i: rX iX i = E [X iX i] = m2

X i. I valori sulla diagonale della

matrice di covarianza sono le varianze delle singole v.a. X i:

(2.10.33) cX iX i = E [(X i − µX i)(X i − µX i)] = σ2X i

La relazione tra la matrice di correlazione e quella di covarianza è pari alla relazioneche esiste tra la correlazione e la covarianza per una coppia di v.a.: C X = RX −µX µ

Anche per la trasformazione si possono fare considerazioni analoghe. Si consideriuna funzione vettoriale di n variabili in n valori g(•, •,..., •) = g1(•), g2(•),...,gn(•),e si applichi tale funzione al vettore aleatorio X ottenendo un nuovo vettore aleatoriodi n v.a.: Y = g(X ). Per determinare la densità di probabilità congiunta del nuovovettore f Y (y) a partire da quella di X si può utilizzare la generalizzazione di quantovisto in par. 2.5:

(2.10.34) f Y (y) = Xi

f X (xi)|det(J (xi))|

dove xi è il sottoinsieme di Rn soluzione della relazione: g(xi) = y e dove J (xi) è lamatrice jacobiana calcolata per tali valori.

Nell’ipotesi in cui il vettore aleatorio sia trasformato in un altro vettore di dimen-sioni differenti, m, è necessario passare prima attraverso il calcolo della funzione didistribuzione di probabilità congiunta, estesa al dominio che soddisfa la disuguaglian-za data dalla trasformazione:

(2.10.35) F Z (z ) =

f X (x)dx

dove RD è l’insieme che soddisfa la relazione:

(X 1, X 2,...,X n) 3 g1(X 1, X 2,...,X n) ≤ Z 1\

(2.10.36) \ g2(X 1, X 2,...,X n) ≤ Z 2...\ gm(X 1, X 2,...,X n) ≤ Z moNota poi la funzione di distribuzione, si può determinare la funzione di densità diprobabilità congiunta mediante derivazione.

Particolare interesse ha il caso in cui m = 1, cioè si voglia trasformare il vettorealeatorio in una sola variabile aleatoria. Facciamo il caso in cui la v.a. che si vuoleottenere è somma delle n v.a. di partenza: Z =

Pi X i.

Poichè si può scrivere: Z = 1T X con 1T = [11 ... 1], si ha che il valore attesovale:

(2.10.37) µZ = E [Z ] = E [1T X ] = 1T E [X ] = 1T µX =X

Per la varianza si ha:

σ2Z = E [(Z − µZ )

2] = E [(Z − µZ )T (Z − µZ )] =

= E [(1

X − 1

µX )] = E [(X − µX )

(X − µX )] =

(2.10.38) =X

Se allora le v.a. componenti il vettore aleatorio X sono a due a due incorrelate (oaddirittura indipendenti), cioe se cxixj = 0 ∀i, j = 1,...,n ed i 6= j allora la varianzadella v.a. somma è pari alla somma delle varianze delle singole v.a. X i.

2.10.5. Variabili aleatorie congiuntamente gaussiane. Particolare interesse as-sume la composizione di v.a. gaussiane. Si supponga di avere n v.a. gaussiane checostituiscono un vettore aleatorio X = [X 1, X 2,...,X n]T . Se le v.a. sono tutte in-dipendenti tra loro la densità di probabilità congiunta è pari al prodotto delle densitàdi probabilità di tutte le componenti del vettore:

(2.10.39) f X (x) =nY

f xi(xi)

Inoltre, poichè si è supposta la gaussianità delle singole X i, ℵ(µi,σ2i ), la f X (x) diven-

(2.10.40)

f X (x) =nY

√ 2π

exp(−(x − µi)2

) = 1p

(2π)n ·Q

i σ2i

· exp(−1

(x − µi)2

dove si è posto, con notazione abbreviata, σ2

i = σ

X i e µi = µX i . La densità di proba-bilità può essere riscritta sfruttando il vettore dei valori medi µ = [µ1, µ2,...,µn]T e lamatrice di covarianza, che è peraltro diagonale data l’indipendenza delle n variabili:

(2.10.41) C X =

σ21 0 ... 0

0 σ22 ... 0

... ...

. . . ...

0 0 · · · σ2n

(2.10.42) det C X =nY

La densità di probabilità congiunta diventa:

2.11. CONVERGENZA ED APPROSSIMAZIONE 62

(2.10.43) f X (x) = 1

p (2π)n |det C X |

· exp(−1

2(x − µX )

T C −1X (x − µX ))

La densità di probabilità congiunta, nel caso di n v.a. congiuntamente gaussiane enon indipendenti può essere ancora scritta come risportato nella equazione precedente,purchè si tenga in conto in fatto che, in tal caso, la matrice di covarianza non è piùdiagonale ma ha i valori tutti genericamente differenti da zero.

Un vettore gaussiano gode delle seguenti proprietà:(1) il suo comportamento statistico è univocamente determinato dal vettore dei

valori medi µ e dalla matrice di covarianza C X ;(2) se le v.a. gaussiane sono incorrelate a due a due allora la densità di proba-

bilità congiunta si può esprimere come prodotto delle densità di probabilitàmarginali (poichè gli elementi fuori diagonale di C X sono nulli). Cioè per lev.a. gaussiane la incorrelazione implica la indipendenza.

(3) Un qualunque sottoinsieme di v.a. gaussiane è ancora un insieme di v.a.congiuntamente gaussiane.

(4) Data una qualunque trasformazione di tipo lineare: Y = aX + b il vettorealeatorio Y è ancora congiuntamente gaussiano, con vettore dei valori medipari a µY = aµX + b e matrice di covarianza C Y = AC X A

(5) Un qualunque sottogruppo di v.a. preso tra le n del vettore X , condizionatoad un qualunque altro sottogruppo (purchè formato da v.a. distinte da quelleconsiderate nel primo sottogruppo) è ancora congiuntamente gaussiano.

2.11. Convergenza ed approssimazione

Si è già accennato al fatto che la deviazione standard (radice quadrata della vari-anza) è in grado di dare una misura della dispersione di una v.a. attorno al suo valormedio. Valori di varianza grandi sono indice del fatto che c’è una significativa prob-abilità che valori casuali estratti dalla v.a. siano abbastanza lontani dal valor medio;viceversa per valori piccoli della varianza.

E’ evidente, tuttavia, che la varianza non è in grado di dire quanto questa disper-sione sia significativa, dato che differenti v.a. possono avere anche varianze uguali,pur essendo disperse attorno al valor medio in modi differenti.

Esiste tuttavia un teorema che è in grado di dare una misura quantitativa delladispersione in termini di probabilità e che utilizza proprio la varianza.

THEOREM 2.11.1. Disuguaglianza di Chebyshev. Data una v.a. X , ∀η > 0 risulta che:

(2.11.1) P (|X − E [X ]| > η) ≤ V ar (X )

DIMOSTRAZIONE. Si consideri la v.a. Y che vale:

η2 , |X − E [X ]| > η0 , |X

−E [X ]|

E’ allora chiaro che

(|X − E [X ]|)2 ≥ Y

sempre, dato che se accade l’evento |X − E [X ]| > η , si ha Y = η2 < (|X − E [X ]|)2.Se invece accade l’evento |X − E [X ]| ≤ η, la v.a. Y vale 0, ma |X − E [X ]| ècomunque un numero ≥ 0.

Se ora si fa l’aspettazione di ambo i membri della relazione precedente si ha:

V ar (X ) = E (|X

−E [X ]|)2 ≥

E [Y ] = η2P (|X

−E [X ]| > η)

che dà il risultato cercato.

La disuguaglianza di Chebyshev rende rigorosa l’interpretazione intuitiva di vari-anza come misura della dispersione: più V ar(X ) è piccola più piccola è la probabilitàche X prenda valori lontani dalla media.

Tuttavia la disuguaglianza di Chebyshev è spesso una maggiorazione grossolanadella probabilità di P (|X − E [X ]| > η). Ad esempio si consideri la v.a. che assume ivalori −1, 1 con probabilità rispettivamente di 1/2, 1/2. Per questa v.a. la media è 0 ela varianza vale V ar(X ) = 1. Se si sceglie η = 2 si ha che P (|X − E [X ]| > η) = 0mentre V ar(X )/η2 = 1/4, ma se addirittura si prende un η < 1 si ha una mag-giorazione con il valore V ar(X )/η2 > 1, cosa ovvia dato che una probabilità èsicuramente maggiorata da un numero maggiore di 1.

In molte circostanza tuttavia la disuguaglianza di Chebyshev si dimostra preziosa.E’ infatti fondamentale per dimostrare e giustificare la cosiddetta Legge dei grandi

numeri.Partiamo prima con un esempio. Si supponga di lanciare n volte una moneta e sia

k il numero di lanci in cui si ottiene testa. La quantità k/n è quindi la proporzionedi teste ottenute in n lanci. Se la moneta è equilibrata l’intuizione suggerisce che taleproporzione non debba discostarsi troppo dal valore 1/2. Tuttavia sarà difficile che laquantità k/n dia esattamente 1/2, come anche è poco probabile (ma non impossibile)che il numero di teste sia molto piccolo (o addirittura nullo) o molto grande. Tuttaviaempiricamente si può verificare che al crescere del numero di lanci, il fenomeno didiscostamento dal valore 1/2 dovrebbe sparire: cioè il numero di teste e croci tendea compensarsi sempre più man mano che cresce il valore di n. Formalizziamo alloraquanto l’intuizione ci suggerisce. Il lancio di una moneta è rappresentabile da una v.a.di Bernoulli con n = 1 e p = 1/2; a tale v.a. facciamo assumere valore 1 quando sipresenta una testa: X i = 1, altrimenti 0. Il numero totale di teste ottenute negli n lanci

può essere dunque rappresentato dalla quantità

S n = X 1 + X 2 + ... + X n

e la proporzione di teste negli n lanci dalla quantità

X n = 1n

(X 1 + X 2 + ... + X n)

Quanto osservato prima può essere quindi schematizzato dall’osservazione che,all’aumentare di n la quantità X n tende a discostarsi sempre meno da 1/2. Quan-to trovato corrisponde al vero, anzi tale risultato è formalizzato e generalizzato dallacosiddetta Legge dei Grandi Numeri:

THEOREM 2.11.2. Sia (X n)n una successione di v.a. indipendenti ed aventi tutte

la stessa legge, la stessa media µ e varianza σ2. Posto allora

X n = 1

n (X 1 + X 2 + ... + X n)

si ha che, ∀η > 0limn→∞

P X n − µ

≥ η

DIMOSTRAZIONE. La v.a. X n ha anch’essa media µ:

nE [X 1 + X 2 + ... + X n] =

n(µ + µ + ... + µ) = µ

e varianza pari a:

n2V ar (X 1 + X 2 + ... + X n) =

(V ar(X 1) + V ar(X 2) + ... + V ar(X n)) = 1n2

· n · V ar(X 1) = σ2

nOra, applicando la disuguaglianza di Chebyshev si ha la dimostrazione:

0 ≤ P X n − µ

> η ≤ V ar

nη2 −→n→∞ 0

Riprendiamo l’esempio introduttivo sul lancio della moneta. Supponiamo di nonsapere a priori se la moneta sia equilibrata o no ( p = 1/2). la legge dei grandi numerifornisce uno strumento per stimare tale probabilità. Lanciamo la moneta n volte estimiamo p tramite la quantità:

# teste in n lancin

Se infatti poniamo

1 lancio i-simo dà testa0 altrimenti

allora X n = 1n

(X 1 + X 2 + ... + X n) e, per la Legge dei Grandi Numeri X n → p =E [X i] per n → ∞. Tuttavia, nella pratica, noi possiamo fare soltanto un numero finitodi lanci e quindi occorre valutare l’errore che si commette stimando p con il valore diX n che verrà fuori da tale esperimento composto. Si può procedere allora in questo

modo. Si fissi un numero η > 0 e si stimi la probabilità di commettere un errore nelvalutare p maggiore di η. Si tratta di valutare quindi la quantità:

P X n − p

Naturalmente, siccome tale valutazione richiederebbe il calcolo della funzione di dis-tribuzione (cumulativa) di una binomiale con n molto grande (quantità per la quale ilcalcolo è spesso lungo e non vi sono formule chiuse), è meglio limitarci a maggiorarequella probabiltà con la disuguaglianza di Chebyshev:

− p > η ≤

V ar(X n)

p(1 − p)

Questa disuguaglianza dipende ancora dalla incognita p (che è la quantità chevogliamo stimare), ma un semplice studio di funzione permette di stabilire che p(1 −

p) ≤ 1/4, con 0 ≤ p ≤ 1. Allora si ha:

P X n − p

> η ≤ 1

Per n = 100 la probabilità che p disti da X n più di 0.1 è una quantità minoredi 0.25. Tale valutazione, come si può vedere, è spesso grossolana, soprattutto peresperimenti semplici e per un numero n di prove piccolo. Esiste tuttavia un Teo-rema che permette di migliorare tale stima, ed è il Teorema del Limite Centrale,

dovuto al matematico russo Lyapunov. Questo teorema vale sotto condizioni non par-ticolarmente restrittive, sebbene la sua dimostrazione risulti difficoltosa nel caso piùgenerale.

Si considerino n v.a. X i indipendenti tra loro e tutte dotate della stessa densità diprobabilità f X i(x) = f X (x) e quindi con stesso valor medio µ e stessa varianza σ2.Sappiamo che, se si considera la somma delle v.a. S n =

Pi X i questa avrà media pari

alla somma dei valori medi e varianza pari alla somma delle varianze: µn = n · µ eσ2

n = n · σ2. Ovviamente, al crescere di n, sia il valor medio, sia la varianza tendono adivergere. Si può considerare in tal caso una v.a. normalizzata (nello stesso modo concui si fa per la gaussiana):

(2.11.2) Z n = S n − µn

S n − n · µ√ n · σ

che, per qualunque valore di n, ha sempre valor medio nullo e varianza pari ad 1.

THEOREM 2.11.3. Date n v.a. indipendenti e con la stessa densità di probabilità,

al limite per n che tende ad infinito la variabile aleatoria somma normalizzata, Z n ,

tende ad una gaussiana standard, cioè a media 0 e varianza 1:

(2.11.3) limn→∞

f Z n(x) = f N (x) = 1√

2πexp(−x2

A prescindere dalla particolare distribuzione che possiedono le v.a. X i la lorosomma tende comunque a diventare gaussiana. Questo risultato è particolarmente utileper modellare numerosi fenomeni fisici quali il rumore termico.

Riprendiamo ora l’esempio del lancio ripetuto di una moneta. Si vuole stimare

meglio la quantità P X n − p > η

avendo posto η = 0.1 ed n = 100. Siccome la somma di n = 100 v.a. di Bernoullisi può ritenere con ottima approssimazione una gaussiana, allora si ha:

X n − p ≤ √

σ · η

S n − np√ nσ

≤ √ n

σ · η

'P |Z N |

· η = Φ(

−Φ(

η) = 2Φ(

avendo indicato con Z N una v.a. gaussiana a media 0 e varianza 1. Per η = 0.1,n = 100 e σ2 ≤ 1/4 si ha:

|Z N | ≤

σ · η

' 2Φ(2) − 1

la quantità che volevamo stimare si determina facilmente dal risultato precedente:

P X n − p

> η ' 1 − (2Φ(2) − 1) = 0.0455

stima migliore della quantità 0.25 trovata precedentemente.

CAPITOLO 3

I Processi Stocastici

3.1. Definizione di Processi Stocastici

Una distinzione importante tra i segnali è quella che si fa tra segnali predicibili,

di cui si può conoscere a priori l’evoluzione nel tempo (come ad esempio un’onda

quadra) e segnali non predicibili, di cui si possono al più supporre alcune caratter-

istiche principali (ad esempio le escursioni massime, la velocità di variazione e così

Si supponga di registrare l’evoluzione della pressione atmosferica in un certo lu-ogo della Terra durante l’anno. Questa grandezza fisica non è predicibile a priori, e

l’unico modo per conoscerla è quello di osservarla a posteriori. Dopo l’acquisizione

si potranno fare alcune osservazioni, come ad esempio il fatto che essa difficilmente

supera i 1030 mB e altrettanto difficilmente va al di sotto di 950 mB. Una cosa impor-

tante a proposito di questo segnale è che non solo non si può prevedere, ma che esso

cambia a seconda del periodo in cui è stato registrato (cioè la sua osservazione nel

mese di marzo è sicuramente diversa da quella nel mese di agosto) ed inoltre cambia

a seconda del luogo della Terra in cui viene registrato, anche se la registrazione è fatta

nello stesso periodo (vedi in figura 3.1.1 tre differenti misurazioni).

0 10 20 30 40 50 60 70 80 90−50

FIGURA 3. 1.1. Rappresentazione delle pressioni atmosferiche in vari

luoghi della Terra.

La variabilità del processo è quindi di due tipi: una variabilità tra i vari segnali ed

una variabilità dell’evoluzione temporale del singolo segnale. Il modellamento di un

segnale aleatorio viene fatto attraverso la teoria dei processi stocastici.

3.1. DEFINIZIONE DI PROCESSI STOCASTICI 68

Come nella teoria delle probabilità, dovremmo, per un segnale aleatorio, individ-

uare lo spazio delle probabilità, cioè l’insieme di tutti i possibili segnali che costitu-

iscono il processo (ammesso che questo si possa fare): Ω = ωi. Quindi riferendosi

al processo si può pensare una corrispondenza che associ ad ogni campione ωi di Ω

un dato segnale. Questa corrispondenza costituisce il processo aleatorio. Una datamisurazione della pressione atmosferica in un punto della Terra costituisce un risultato

dello spazio campione e viene chiamato realizzazione del processo xi(t) = X (t,ωi).

Il processo stocastico è comunemente indicato con X (t), omettendo la relazione

di dipendenza dallo spazio campione con cui è associato Ω.

Una volta fissato quale tra i vari segnali del processo va estratto, si ha una funzione

del tempo che rappresenta la realizzazione. Una realizzazione del processo stocastico

non è più aleatoria, a posteriori, nel senso che dopo l’osservazione essa è una funzione

deterministica del tempo. Viceversa, si può fissare un arbitrario istante di tempo ed

osservare il valore che tutte le realizzazioni del processo assumono a quell’istante:

X (to) (vedi in figura 3.1.2)

0 10 20 30 40 50 60 70 80 90 100

FIGURA 3. 1.2. Estrazione di una variabile aleatoria dal processo stocastico.

I valori che sono assunti sulle varie realizzazioni del processo non sono predicibili

a priori e quindi rappresentano i risultati di una variabile aleatoria.

3.1.1. Processi parametrici. Un primo esempio di processi stocastici è dato dai

processi parametrici, cioè processi in cui per le funzioni del tempo esiste una forma

chiusa che permetta di rappresentarle, sebbene uno o più parametri di queste funzioni

siano variabili aleatorie.

Si supponga di considerare il seguente processo:

(3.1.1) X (t;ω) = e−A(ω)tu(t)

3.1. DEFINIZIONE DI PROCESSI STOCASTICI 69

dove A(ω) rappresenta una variabile aleatoria con distribuzione uniforme nell’inter-

vallo [0, 1/T ]. Se omettiamo la dipendenza dal risultato ω, si può scrivere: X (t) =e−Atu(t). In questo processo parametrico è quindi definita una classe di funzioni il cui

andamento dipende dal valore estratto di una v.a.

Un altro esempio notevole (che avremo modo di riprendere più avanti) è quellodell’oscillazione sinusoidale prodotta da un oscillatore reale. In un oscillatore reale,

mentre si possono controllare abbastanza bene l’ampiezza e la frequenza dell’oscil-

lazione, è molte volte difficile determinare la fase iniziale. Ne consegue che accen-

dendo in tempi differenti l’oscillatore la funzione sinusoidale che viene generata può

essere modellata come un processo stocastico parametrico:

(3.1.2) X (t) = A · sin(2πf ot + Θ)

dove Θ è una variabile aleatoria uniforme nell’intervallo [0, 2π[.

3.1.2. Caratterizzazione di un processo stocastico. Al contrario di quanto si può

fare per un segnale deterministico, per un processo stocastico non è possibile una sua

caratterizzazione in termini di andamento temporale. Si devono quindi introdurre gli

strumenti della teoria delle probabilità per poter caratterizzare il processo in modo

statistico.

Si cominci ad osservare che, se si considera un istante di tempo ben determinato

to, il valore che tutte le realizzazioni assumono in quell’istante rappresenta una v.a.

Quindi è possibile, per quella v.a. definire una funzione di distribuzione di probabilità

(dipendente da to):

(3.1.3) F (x; to) = P (X (to) ≤ x)

La funzione di distribuzione cambierà al variare di to, dato che al variare dell’istante

di osservazione la v.a. è differente. Questo modellamento non è tuttavia sufficiente a

caratterizzare il processo. Se così fosse dovremmo essere in grado di prevedere l’an-

damento della singola realizzazione a partire da tutte le funzioni di distribuzione di

probabilità estratte ad ogni istante, e così non è. Si pensi ad esempio alla possibil-

ità che abbiamo di prevedere l’andamento di un titolo in borsa nel tempo. Si vuole

cioè cercare di determinare quando il valore del titolo supera il valore attuale. Per

fare questo la caratterizzazione del primo ordine che abbiamo dato non è sufficiente.

E’ necessaria una caratterizzazione che permetta di correlare, congiuntamente, le due

variabili aleatorie nei due istanti differenti to e t1 nei quali conduciamo l’osservazione.

3.2. PARAMETRI STATISTICI DEL 1o E 2

o ORDINE 70

E’ necessaria quindi una caratterizzazione del secondo ordine. Questa relazione è de-

scritta dalla funzione di distribuzione di probabilità congiunta per una coppia di v.a.:

(3.1.4) F (x1, x2; t1, t2) = P (X (t1) ≤ x1; X (t2) ≤ t2)

La conoscenza completa della statistica del secondo ordine richiede che queste fun-

zioni di distribuzione siano note per ogni coppia possibile di istanti di tempo.

Iterando questo ragionamento, si capisce che la caratterizzazione di un processo

stocastico si può considerare completa solo quando, fissati n istanti di tempo (con narbitrariamente grande), si è in grado di determinare la funzione di distribuzione con-

giunta di ordine n per le n variabili aleatorie che si hanno estraendo i valori dalle

realizzazioni agli istanti t1, t2,...,tn:

(3.1.5)

F (x1, x2,...,xn; t1, t2,...,tn) = P (X (t1) ≤ x1, X (t2) ≤ x2,...,X (tn) ≤ xn)

Da questa si può ricavare la funzione densità di probabilità di ordine n:

(3.1.6) f (x1, x2,...,xn; t1, t2,...,tn) = ∂ nF (x1, x2,...,xn; t1, t2,...,tn)

∂ x1∂ x2...∂ xn

La conoscenza della classe di funzioni f (x1, x2,...,xn; t1, t2,...,tn) per qualunque val-

ore n e qualunque n − pla di istanti di tempo caratterizza completamente il processo

aleatorio.

Si capisce bene che la conoscenza completa di un processo aleatorio è impresa

quali sempre impossibile. Nella maggior parte dei casi si cerca di determinare la dis-

tribuzione (e densità) del primo o al più secondo ordine. Altre volte ci si accontenta di

determinare alcuni parametri statistici.

3.2. Parametri Statistici del 1o

Ordine

3.2.1. Valor medio, potenza e varianza. Alcuni parametri statistici permettono

di determinare le caratteristiche principali di un processo statistico, pur senza la conoscen-

za completa di esso.

Tra questi parametri particolarmente significativa è la funzione valor medio: µX (t).

Per definizione questa funzione è il valor medio della v.a. che si ottiene estraendo i

o ORDINE 71

valori delle realizzazioni all’istante assegnato:

(3.2.1) µ(t) = E [X (t)] = Z +∞−∞

xf X (x, t)dx

al variare di t si generano una serie di valori medi che costituiscono la funzione. La

funzione valor medio rappresenta una statistica del primo ordine, dato che per il suo

calcolo è sufficiente la conoscenza della statistica di primo ordine del processo. La

funzione valor medio rappresenta una specie di compendio di tutte le realizzazioni del

processo stocastico, ma non rappresenta necessariamente essa stessa una realizzazione

del processo.

EXAMPLE 3.2.1. Si supponga di considerare il processo aleatorio parametrico

X (t) = a cos(2πf ot + Θ

), dove Θ

è una v.a. con densità di probabilità uniformenell’intervallo [0, π[. La funzione valor medio si può determinare osservando che, per

ogni istante t fissato, il processo X (t) si può pensare come la trasformazione della v.a.

Θ in un’altra v.a. X = X (Θ). Il suo valor medio quindi si può determinare con il

teorema del valor medio: µ(t) = E [X (t)] = E [a cos(2πf ot + Θ)]:

(3.2.2)

µ(t) =

Z +∞−∞

a cos(2πf ot + θ)f θ(θ)dθ = a

cos(2πf ot + θ)dθ = −2a

π sin(2πf ot)

Analogamente si potrebbe ricavare la funzione valor medio nel caso visto nella eq.

3.1.2, in cui cioè: X (t) = a sin(2πf ot +Θ), con Θ = U (0, 2π).

Un’altra grandezza statistica del primo ordine utile per caratterizzare il processo, è

la potenza media statistica istantanea (brevemente detta potenza media):

(3.2.3) P x(t) = E [X 2(t)] =

Z +∞−∞

x2 · f X (x, t)dx

analoga alla potenza istantanea per i segnali deterministici.Si può inoltre definire la funzione varianza del processo:

(3.2.4) σ2x(t) = E [(X (t) − µ(t))2] =

Z +∞−∞

(x − µ(t))2 · f X (x, t)dx

o ORDINE 72

Si ricava, abbastanza facilmente:

(3.2.5) σ2x(t) = P x(t) − µ2(t)

la relazione che esprime la dipendenza tra varianza, funzione valor medio e potenza

istantanea.

3.2.2. Autocorrelazione e autocovarianza. Due parametri statistici del secondo

ordine, fondamentali per lo studio dei processi stocastici, sono la funzione di autocor-

relazione e la funzione di autocovarianza. Il loro significato è rimandato più avanti,

quando si introdurranno i processi stazionari.Si supponga di considerare due istanti di tempo arbitrari, t1 e t2. Dato il processo

stocastico, è possibile estrarre le due v.a. Y = X (t1) e Z = X (t2). Ha senso allora ef-

fettuare il calcolo della correlazione tra Y e Z . Generalmente questa correlazione sarà

funzione dei due istanti di tempo, e quindi si può ritenere una funzione di due variabili:

(3.2.6)

Rx(t1, t2) = E [X (t1)X (t2)] =

Z +∞x1=−∞

Z +∞x2=−∞

x1x2f x(x1, x2; t1, t2)dx1dx2

La funzione che così si ottiene è detta funzione di autocorrelazione, poichè le due

variabili aleatorie sono state ottenute estraendole dallo stesso processo.

In modo del tutto analogo è possibile determinare la funzione di autocovarianza:

C x(t1, t2) = E [(X (t1) − µ(t1)) · (X (t2) − µ(t2))] =

(3.2.7) =

Z +∞x1=−∞

Z +∞x2=−∞

(x1 − µ(t1)) · (x2 − µ(t2)) · f x(x1, x2; t1, t2)dx1dx2

Dalla definizione è facile ricavare che: C x(t1, t2) = Rx(t1, t2) − µ(t1)µ(t2).

EXAMPLE 3.2.2. Si calcoli la funzione di autocorrelazione del processo X (t) =a · cos(2πf ot + Θ), con Θ = U [0,π[. Estraendo il processo negli istanti t1 e t2 si

ottengono le v.a.: X (t1) = a · cos(2πf ot1 + Θ) e X (t2) = a · cos(2πf ot2 + Θ), che si

o ORDINE 73

possono ritenere entrambe trasformazioni della stessa v.a.. Quindi, mediante il teore-

ma del valor medio si ottiene:

Rx(t1, t2) = E [X (t1)X (t2)] = E [a · cos(2πf ot1 + θ) · a · cos(2πf ot2 + θ)] =

(3.2.8) = a2 ·

π cos(2πf ot1 + θ) cos(2πf ot2 + θ)dθ =

2 cos(2πf o(t1 − t2))

In questo esempio la funzione di autocorrelazione è sinusoidale, come i segnali che

costituiscono le singole realizzazioni del processo, inoltre dipende dalle due vari-

abili attraverso la loro differenza. La funzione di autocorrelazione è quindi, in realtà,

funzione di una sola variabile.

Si supponga ora di avere lo stesso processo precedente: X (t) = a · cos(2πf ot+Θ),ma con Θ = U [0, 2π[. Si voglia calcolare la funzione valor medio, la funzione di

autocorrelazione e la funzione di autocovarianza.

Si osservi che, se per la funzione valor medio si ha:

(3.2.9) µ(t) = E [X (t)] =

Z 2π0

2π · a · cos(2πf ot + θ)dθ = 0

allora: C x(t1, t2) = Rx(t1, t2). Entrambe valgono:

Rx(t1, t2) = E [X (t1)X (t2)] =

(3.2.10) =

Z 2π0

2π·a·cos(2πf ot1+θ)·a·cos(2πf ot2+θ)dθ =

2 cos(2πf o(t1−t2))

pari al risultato ottenuto precedentemente (vedi 3.2.8).

Vediamo infine il caso in cui nel processo X (t) = A · cos(2πf ot) a variare sia

l’ampiezza dell’oscillazione sinusoidale. Tale ampiezza vari come una v.a. uniforme

nell’intervallo [0, 1]. La funzione valor medio si ottiene fissando un dato istante di

tempo t:

(3.2.11) µ(t) = E [X (t)] = E [A · cos(2πf ot)] = E [A] · cos(2πf ot) = 1

2 · cos(2πf ot)

o ORDINE 74

La funzione di autocorrelazione vale:

Rx(t1, t2) = E [A · cos(2πf ot1) ·A · cos(2πf ot2)] = cos(2πf ot1) ·cos(2πf ot2) · E [A2] =

(3.2.12) = 1

3 cos(2πf ot1) · cos(2πf ot2)

e in questo caso non si può esprimere come funzione di una sola variabile. La funzione

di autocovarianza vale infine:

C x(t1, t2) = 1

3 cos(2πf ot1) · cos(2πf ot2) − 1

2 · cos(2πf ot1) ·

2 · cos(2πf ot2) =

(3.2.13) = 1

12 cos(2πf ot1) · cos(2πf ot2)

Un altro esempio notevole è il seguente:

EXAMPLE 3.2.3. Processo di Bernoulli e processi derivati.

Si consideri il seguente processo tempo discreto: I n = 0, 1 che può assumere

valori solo in istanti discreti indicati con indici interi n ∈ N. I valori assunti dalle

singole realizzazioni possono essere soltanto 0 o 1. In particolare il valore 0 è assunto

con probabilità p, il valore 1 con probabilità 1 − p:

(3.2.14) I n =

0 p1 1 − p

Le singole realizzazioni, come pure le estrazioni in una singola realizzazione sono

indipendenti tra loro (vedi figura 3.2.1).

La funzione valor medio vale:

(3.2.15) mI (n) = p · 0 + (1 − p) · 1 = 1 − p

o ORDINE 75

0 1 1 1 0 0 1 ....

i i+1 i+2 i+3 ............

1 1 0 1 0 1 1 ...

i i+1 i+2 i+3 ...............

FIGURA 3. 2.1. Rappresentazione grafica del processo di Bernoulli.

ed è indipendente dal tempo (cioè l’indice n). La varianza vale:

(3.2.16) σ2I = E [I 2n] − E 2[I n] = p · 02 + (1 − p) · 12 − (1 − p)2 = p(1 − p)

Infine la funzione di autocorrelazione vale:

(3.2.17) RI (n, m) = E [I nI m] = E [I n]E [I m]

essendo le estrazioni indipendenti. Quindi si ha: RI (n, m) = (1 − p)2.

Un processo derivato da quello di Bernoulli è il seguente:

(3.2.18) Dn = 2I n − 1 =

−1 p1 1 − p

Il suo valor medio vale:

(3.2.19) mD(n) = E [2I n − 1] = 2(1 − p) − 1 = 1 − 2 p

la sua varianza vale

(3.2.20) σ2D = E [D2

n] − E 2[Dn] = E

4I 2n − 4I n + 1− (1 − 2 p)2 = 4 p(1 − p)

Infine la funzione di autocorrelazione vale:

o ORDINE 76

RD(n, m) = E [DnDm] = E [4I nI m − 2I n − 2I m + 1] =

(3.2.21) = 4(1 − p)2 − 4(1 − p) + 1 = (1 − 2 p)2

che è lo stesso risultato che avremmo ottenuto semplicemente osservando che: E [DnDm] =E [Dn]E [Dm].

L’ultima applicazione del processo di Bernoulli è la passeggiata a caso unidimen-

sionale, cioè il processo:

(3.2.22) S n = D1 + D2 + ... + Dn

Il suo valor medio vale:

(3.2.23) E [S n] = E [D1+D2+ ...+Dn] = E [D1]+E [D2]+ ...+E [Dn] = n(1−2 p)

e questa volta è una quantità dipendente da n. Inoltre, essendo i processi indipendenti

tra loro la varianza è somma delle varianze

(3.2.24) σ2S n =

σ2D = 4np(1 − p)

La sua funzione di autocorrelazione vale:

(3.2.25)

RS (n.m) = E [S nS m] = E

" nXk=1

Dk ·mXl=1

E [Dk · Dl] = n·m·(1−2 p)2

Il range di valori che può assumere questo processo è variabile con n. Per un certo

n fissato, S n può assumere tutti i valori compresi tra [−n, n]. La probabilità che tra i

D1, D2,...,Dn vi siano k valori pari ad 1 ed n−k valori pari a −1 (quindi la probabilità

che S n valga: k − (n − k) = 2k − n) è:

(3.2.26) P (S n = 2k − n) = ( nk

)(1 − p)k pn−k

Una variazione sul tema dei processi stocastici di Bernoulli è il segnale telegrafico

casuale. Il processo consiste di realizzazioni che possono assumere solo valori discreti

o ORDINE 77

pari a −1 od a 1. Le funzioni sono continue nel tempo:

(3.2.27) X (t) = −11

Per ipotesi si suppone inoltre che

(3.2.28) P (X (0) = 1) = P (X (0) = −1) = 1/2

Le realizzazioni del processo assumono valori differenti cambiando di “stato” nello

stesso modo con cui arrivano gli eventi negli esperimenti aleatori alla Poisson. Una

possibile realizzazione è riportata in figura (3.2.2).

FIGURA 3. 2.2. Realizzazione di un processo telegrafico casuale

Sia α l’intensità della legge di Poisson che governa il processo. Ogni singola real-

izzazione, x(t), permane ad un dato valore sino a che non c’è un arrivo che gli facambiare stato. Il numero di arrivi nell’unità di tempo è regolato da una v.a. discreta

di Poisson con intensità α. Calcoliamo la probabilità che ad un dato istante t la singola

realizzazione abbia uno dei due valori:

P (X (t) = 1) = P (X (t) = 1/X (0) = 1) · P (X (0) = 1)

(3.2.29) +P (X (t) = 1/X (0) = −1) · P (X (0) = −1)

la prima delle due somme a secondo membro ha il termine P (X (t) = 1/X (0) = 1)che si può verficare solo se il numero di cambiamenti (eventi di Poisson) verificatosi è

pari, per il secondo termine il numero di cambiamenti da verificarsi è dispari:

o ORDINE 78

(3.2.30) P(N camb = pari) =∞

(αt)2 j

(2 j)! e−αt = e−αt ·

2(eαt + e−αt) =

2(1 + e−2αt)

(3.2.31)

P (N camb = dispari) =∞X

(αt)2 j+1

(2 j + 1)!e−αt = e−αt ·

2(eαt − e−αt) =

2(1 − e−2αt)

Da cui si ha in conclusione:

(3.2.32) P (X (t) = 1) = 1

(1 + e−2αt) + 1

−e−2αt)] =

ed analogamente: P (X (t) = −1) = 12

Calcoliamo la funzione valor medio e la funzione varianza del processo:

(3.2.33) mX (t) = E [X (t)] = 1

2 · (−1) +

2 · (+1) = 0

(3.2.34) σ2

(t) = P x(t) = E [X (t)2] = 1

2 · (

−1)2 +

2 · (+1)2 = 1

Calcoliamo infine la funzione di autocorrelazione e la funzione di autocovarianza:

Rx(t1, t2) = C x(t1, t2).

(3.2.35) Rx(t1, t2) = E [X (t1)X (t2)]

tuttavia il prodotto di X (t1)X (t2) può essere solo o −1 oppure +1. In particolare èpari a −1 quando il numero di cambiamenti (eventi di Poisson) avvenuti tra t1 e t2 è

dispari, altrimenti il prodotto X (t1)X (t2) è pari a +1. Quindi:

P (X (t1)X (t2) = 1) = P (N camb = pari) = P (N (t2 − t1) = pari) =

3.3. PROCESSI STAZIONARI 79

(3.2.36) = 1

2(1 + e−2α(t2−t1))

Analogamente per un numero dispari di arrivi:

P (X (t1)X (t2) = −1) = P (N camb = dispari) = P (N (t2 − t1) = dispari) =

(3.2.37) = 1

2(1 − e−2α(t2−t1))

Si ha in conclusione:

E [X (t1)X (t2)] = (+1) · 1

2(1 + e−2α(t2−t1)) + (−1) ·

2(1 − e−2α(t2−t1)) =

(3.2.38) = e−2α|t2−t1|

ed, ancora una volta, abbiamo trovato un processo la cui funzione di autocorrelazione

(e di autocovarianza) dipende solo dalla differenza dei due istanti generici, e non

separatamente dai due.

3.3. Processi Stazionari

Una notevole proprietà dei processi stocastici è la stazionarietà. Si è visto che

i parametri statistici del primo e secondo ordine dipendono dalla scelta degli istanti

di tempo. Anche la funzione densità di probabilità congiunta di ordine n dipende

generalmente dalla scelta degli istanti di tempo in corrispondenza dei quali si valuta il

processo.

Si supponga ora di considerare n istanti di tempo t1, t2,...,tn, in corrispondenza

dei quali si ottiene la funzione di densità di probabilità congiunta:

f x(x1, x2,...,xn; t1, t2,...,tn).Se si spostano rigidamente tutti gli istanti di tempo di una stessa quantità ∆t, gen-

eralmente otterremo una differente funzione di densità di probabilità congiunta:

(3.3.1) f x(x1, x2,...,xn; t1 + ∆t, t2 + ∆t,...,tn + ∆t)

PROPOSITION 3.3.1. Un processo si dice stazionario in senso stretto, se risulta

che, per ogni scelta di n , t1, t2,...,tn e di∆

(3.3.2) f x(x1, x2,...,xn; t1, t2,...,tn) = f x(x1, x2,...,xn; t1+∆t, t2+∆t,...,tn+∆t)

La stazionarietà forte (in senso stretto) richiede l’uguaglianza della funzione di

densità di probabilità congiunta per qualunque ordine, scelta degli istanti di tempo e

di traslazione. Cioè richiede che rispetto a tutte queste variabili la funzione f x sia

invariante. I processi X (t) e X (t + ∆t) devono quindi avere le stesse statistiche.

Questo non significa che le due variabili aleatorie che estrarremo nei due istanti ditempo sono identiche (poichè questo non può mai accadere per il significato stesso di

grandezza statistica) ma significa che le due quantità non possono essere distinte tra

loro con misure statistiche.

Conseguenza di questa definizione è che: f x(x; t) = f x(x; t +∆t) cioè la funzione

densità di probabilità del primo ordine non è funzione del tempo e anche i parametri

statistici del primo ordine (funzione valor medio, funzione potenza e funzione varian-

za) non dipendono dalla variabile tempo (stazionarietà del primo ordine).

Inoltre per quel che riguarda la stazionarietà del secondo ordine, si ha:

(3.3.3) f x(x1, x2; t1, t2) = f x(x1, x2; t1 + ∆t, t2 + ∆t)

e questo può accadere solo se la funzione di densità di probabilità dipende dalla

differenza tra gli istanti di tempo, e non separatamente dai due: f x(x1, x2; t1, t2) =f x(x1, x2; t1 − t2). Allora tutte le statistiche del secondo ordine (funzione di autocor-

relazione e funzione di autocovarianza) dipenderanno dalla differenza degli istanti di

tempo e non separatamente dai due. Questo è il caso del processo visto in (3.1.2) o del

segnale telegrafico casuale.

Salendo di ordine (sebbene statistiche di ordine superiore non siano state introdotte)

si ottiene che la funzione densità di probabilità congiunta di ordine n e tutte le statis-tiche di ordine correlato non dipenderanno dagli istanti di tempo separatamente, ma

dalle n − 1 differenze t1 − t2, t2 − t3, ..., tn−1 − tn, dato che solo queste differenze

restano invariate rispetto ad una traslazione rigida dei tempi.

COROLLARY 3.3.2. Una stazionarietà di ordine n implica la stazionarietà di tutti

gli ordini più bassi (il contrario generalmente non è vero).

3.3.1. Stazionarietà in senso lato. La verifica della stazionarietà in senso stret-

to, anche per ordini bassi, è in genere un compito arduo (salvo casi particolari). Di

solito allora ci si accontenta di una definizione di stazionarietà meno restrittiva: la

stazionarietà in senso lato (o debole).

PROPOSITION 3.3.3. Un processo aleatorio è stazionario in senso lato se la sua

funzione valor medio è costante µx(t) = µx e la sua funzione di autocorrelazione

dipende solo dalla differenza degli istanti di tempo Rx(t1, t2) = Rx(t1 − t2).

La definizione di stazionarietà in senso lato coinvolge solo due statistiche e quindi

non richiede alcuna paricolare proprietà alla funzione densità di probabilità congiunta.

COROLLARY 3.3.4. Un processo stazionario in senso stretto è stazionario anche

in senso lato. Non è vero il viceversa

Se il processo è stazionario in senso lato la funzione di autocovarianza vale:

(3.3.4) C x(t1, t2) = Rx(t1 − t2) − µ2x = C x(t1 − t2)

cioè anche la funzione di autocovarianza dipende dalla differenza degli istanti di

tempo. Anche nel caso di stazionarietà in senso lato rimane comunque difficile ver-

ificare la proprietà. Infatti la verifica di una proprietà statistica come la stazionarietà

richiede che si riescano a manipolare (per effettuare misure statistiche) tutte le possi-

bili realizzazioni del primo e secondo ordine del processo, o che si conosca in qualche

modo una forma chiusa della funzione di densità di probabilità del processo stesso alvariare di t (cosa normalmente non vera).

La funzione di autocorrelazione, nell’ipotesi di stazionarietà in senso lato può es-

sere riscritta mettendo in evidenza proprio la dipendenza dalla differenza degli istanti

di tempo:

(3.3.5) Rx(t1, t2) = Rx(t, t − τ ) = E [X (t)X (t − τ )]

EXAMPLE 3.3.5. Riprediamo l’esempio visto più volte: X (t) = a·cos(2πf ot+Θ),con Θ = U [0, π[. Si è ottenuto che µ(t) = −2a

π sin(2πf ot), quindi il processo non si

può considerare stazionario in senso lato, dato che la funzione valor medio dipende dal

tempo.

Il processo X (t) = a · cos(2πf ot + Θ), con Θ = U [0, 2π[, ha invece: µ(t) = 0

e Rx(t1, t2) = a2

2 cos(2πf o(t1 − t2)), e quindi si può ritenere un processo stazionario

in senso lato, dato che la funzione valor medio è costante e la funzione di autocorre-

lazione dipende solo dalla differenza dei tempi.

Un caso particolare del processo telegrafico casuale è il seguente

EXAMPLE 3.3.6. Segnale dati.

Si supponga di avere un processo stocastico le cui realizzazioni sono funzioni del

tempo V (t) che possono assumere solo due valori discreti: +1 e −1 con probabilità

1/2. Si supponga inoltre che la funzione cambi di stato solo ad istanti prefissati, che

verranno indicati con degli indici interi: V (nT ) = V n. I valori inoltre sono assunti in

modo indipendente l’uno dall’altro. Quindi la funzione assume valore costante per tutti

gli istanti di tempo t compresi tra due transizioni: V (t) = V n per nT ≤ t < (n + 1)T .La forma generica della funzione è quindi la seguente:

(3.3.6) V (t) =+∞

Xn=−∞

V nrect(t − nT − T /2

Il precedente processo modella molto bene un segnale dati binario con velocità di clock

pari a 1/T . Esso è utile a schematizzare tutte le situazioni in cui si ha il trasferimento di

bit tra due sistemi (ad esempio un computer ed una sua periferica). Poichè infatti non

è nota a priori l’informazione che si sta trasmettendo, il processo si può considerare a

tutti gli effetti aleatorio.

Determiniamo ora i parametri statistici rilevanti e verifichiamo l’eventuale staziona-

rietà. Ad un certo istante fissato t, l’osservazione di tutte le realizzazioni porta a dire

che i valori che queste possono assumere sono soltanto +1 o

−1. Inoltre, poichè si è

supposto che tali valori sono assunti con probabilità pari ad 1/2, la funzione di densitàdi probabilità del primo ordine non può che valere:

(3.3.7) f v(v; t) = 1

2δ (v + 1) +

2δ (v − 1)

Questa funzione non dipende dalla variabile tempo. Quindi il processo è stazionario

in senso stretto per il primo ordine. Ci aspettiamo allora che la funzione valor medio

sia costante:

(3.3.8) µv(t) =

Z +∞−∞

vf v(v; t)dv =

Z +∞−∞

v · [1

2δ (v + 1) +

2δ (v − 1)]dv = 0

Il calcolo della funzione di autocorrelazione è un po’ più complesso. Tuttavia

si può facilmente dimostrare che il processo non è stazionario nè in senso stretto,

nè in senso lato per quel che riguarda il secondo ordine, dato che la funzione di

autocorrelazione non può dipendere dalla sola differenza dei tempi.

Si consideri infatti, nella figura 3.3.1, i due istanti di tempo t1 e t2. Nel graficoin alto i due istanti di tempo capitano all’interno dell’intervallo [nT, (n + 1)T ], quin-

di la realizzazione assume valore uguale: V (t1) = V (t2) = V n. Si ha allora che

Rv(t1, t2) = E [V (t1)V (t2)] = E [V 2n ] = 1. Se ora spostiamo rigidamente i due istanti

di tempo sino a farli capitare a cavallo di due intervalli, come indicato nella figura in

basso, si avrà che V (t1) 6= V (t2) e quindi

(3.3.9) Rv(t1, t2) = E [V (t1)V (t2)] = E [V (t1)]E [V (t2)] = E [V n]E [V n+1] = 0

Se il processo fosse stazionario in senso lato la funzione di autocorrelazione dovrebbe

dipendere solo dalla differenza dei due istanti di tempo e quindi la Rv(t1, t2) nei due

casi avrebbe dovuto mantenere lo stesso valore.

FIGURA 3.3.1. Realizzazione di un processo dati binario

Si può concludere quindi che il processo in esame non è stazionario in senso lato,

pur essendo stazionario in senso stretto per il primo ordine.

Un caso molto frequente è quello in cui si conosce la forma di un segnale (cioè il

suo andamento) ma non si riesce a piazzare il segnale rispetto ad un preciso riferimento

temporale. In tal caso il segnale può essere modellato come un processo stocastico di

questo tipo:

EXAMPLE 3.3.7. X (t) = p(t − Θ), con Θ variabile aleatoria che modella l’in-

certezza sulla posizione temporale del segnale. Un esempio classico è l’eco del segnaleradar.

Se supponiamo per semplicità che il segnale sia periodico di periodo T : p(t) = p(t + T ), Θ si può ipotizzare distribuita in modo uniforme tra 0 e T : Θ ∈ U (0, T ).

Troviamo le proprietà del processo descritto.

La funzione valor medio:

(3.3.10) µ(t) = E [ p(t −Θ)] =

p(t − θ) 1

T dθ =

Z tt−T

p(α)dα

Poichè la funzione p(α) è periodica di periodo T , il suo integrale in un periodo non può

dipendere dagli estremi di integrazione, quindi dal valore t. Quindi la funzione valor

medio è indipendente dalla variabile tempo. In particolare il valore che la funzione

valor medio assume è pari al valor medio della funzione p(α).

Per la funzione di autocorrelazione si ha invece:

Rx(t1, t2) = E [X (t1)X (t2)] = E [ p(t1 −Θ) p(t2 −Θ)] =

(3.3.11) = Z T 0

p(t1 − θ) · p(t2 − θ) 1T

dθ = 1T Z t1t1−T

p(α) · p(t2 − t1 + α)dα

Anche in questo caso la funzione integranda, essendo il prodotto di due segnali peri-

odici di periodo T, è ancora periodica di periodo T , quindi il suo integrale non dipende

dal particolare posizionamento degli estremi di integrazione. La funzione di autocorre-

lazione quindi non dipende separatamente da t1 o da t2, ma solo dalla loro differenza:

Rx(t1, t2) = Rx(t1−t2). Se si pone allora: t1−t2 = τ nella equazione precedente si ha:

(3.3.12) Rx(τ ) = 1T

Z T/2−T/2

p(α) · p(α − τ )dα

avendo posto t1 = T /2. La funzione di autocorrelazione statistica del processo X (t) è

pari alla funzione di autocorrelazione del segnale deterministico e periodico p(t).

3.3.2. Proprietà della funzione di autocorrelazione di un processo stazionario

in senso lato. Vediamo ora alcune proprietà della funzione di autocorrelazione di un

processo stazionario in senso lato.

(1) La funzione di autocorrelazione Rx(τ ) è pari: Rx(τ ) = Rx(−τ ).

Per dimostrare questa proprietà si osservi che, per la stazionarietà del proces-

so, la funzione di autocorrelazione rimane invariata se la si calcola relativa-

mente a due istanti di tempo t e t − τ oppure ai due istanti t e t + τ , dato che

questi ultimi sono ottenuti semplicemente mediante traslazione rigida. Si ha

allora

(3.3.13) Rx(τ ) = E [X (t)X (t − τ )] = E [X (t + τ )X (t)] = Rx(−τ )

(2) Il valore assunto da Rx(τ ) nell’origine è pari alla potenza statisica del pro-

cesso:

(3.3.14) Rx(τ )|τ =0 = Rx(0) = E [X (t)X (t)] = E [X 2(t)]

(3) La funzione di autocorrelazione è massima in modulo nell’origine: Rx(0) ≥|Rx(τ )|.

Se si considera infatti la disuguaglianza: E [(X (t) ± X (t − τ ))2] ≥ 0, si

osserva che essa è sempre vera, dato che rappresenta la aspettazione di una

quantità sempre positiva. Sviluppando la relazione precedente si ha però:

E [(X (t) ± X (t

−τ ))2] =

(3.3.15) = E [X 2(t) + X 2(t − τ ) ± 2X (t)X (t − τ )] = 2Rx(0) ± 2Rx(τ )

che prova la disuguaglianza.

(4) Se Rx(τ ) non è periodica il suo valore limite per τ → ∞ è il quadrato del

valor medio:

(3.3.16) limτ →∞

Rx(τ ) = µ2x

Per giustificare qualitativamente questa proprietà si ricordi innanzitutto che:

Rx(τ ) = C x(τ ) + µ2x. Al crescere della distanza τ tra gli istanti di tempo, te t − τ , i valori delle variabili aleatorie tendono sempre più ad “allontanarsi”

tra loro, ad assumere cioè comportamenti statistici sempre più indipendenti,

finchè, al limite per τ → ∞, il loro comportamento è completamente indipen-

dente e quindi la loro autocovarianza è nulla. La funzione di autocorrelazione

quindi diventa pari al quadrato del valor medio.

EXAMPLE 3.3.8. Si riconsideri il processo dati binario già visto precedentemente.

Se il riferimento temporale non è noto, il modello più appropriato per questo processo

(3.3.17) V (t) =+∞X

n=−∞

V nrect(t −Θ− T /2 − nT

FIGURA 3.3.2. Realizzazioni di un processo dati binario con

riferimento temporale non noto

dove la variabile aleatoria Θ contiene l’incertezza relativa al riferimento temporale,

ed è distribuita nell’intervallo [0, T ] in modo uniforme. Tale v.a. è indipendente dalla

generazione dei dati binari, ed è modellata da una v.a. uniforme nell’intervallo [0, T [.Indipendentemente dall’istante di inizio del processo, il ragionamento fatto per deter-

minare la funzione di densità di probabilità del primo ordine vale ancora. Quindi il

processo si può ancora definire stazionario in senso stretto per il primo ordine, e il

calcolo della funzione valor medio è uguale a quanto già fatto in (3.3.8). Si ha allora

che: µv(t) = µv = 0. Per il calcolo della funzione di autocorrelazione si ha invece:

Rv(t1, t2) = E [+∞X

n=−∞

V nrect(t1 −Θ− T /2 − nT

·+∞X

m=−∞

V mrect(t2 −Θ− T /2 − mT

T )] =

(3.3.18)

Xn=−∞+∞

Xm=−∞

E [V nV mrect(t1 −Θ− T /2 − nT

) · rect(t2 −Θ− T /2 − mT

ottenibile sfruttando la linearità dell’operatore aspettazione. Ora si osservi che rispetto

alla statistica dei dati binari, E [V nV m] è diversa da zero solo quando gli indici n ed

m sono uguali (vedi il ragionamento e l’eq. (3.3.9)). Quindi della doppia sommatoria

sopravvive solo un indice:

Rx(t1, t2) =+∞

Xn=−∞E Θ[rect(t1 −Θ− T /2 − nT

T ) · rect(

t2 −Θ− T /2 − nT

T )] =

=+∞X

n=−∞

E Θ[rect(t −Θ− T /2 − nT

T ) · rect(

t − τ −Θ− T /2 − nT

T )] =

+∞Xn=−∞

rect(t − θ − T /2 − nT

T ) · rect(

t − τ − θ − T /2 − nT

T )dθ =

se ora si pone: α = t

−nT , si ha:

(3.3.19) = 1

+∞Xn=−∞

Z t−nT t−nT −T

rect(α − T /2

T )rect(

α − τ − T /2

T )dα

Si osservi ora che la funzione integranda non contiene la dipendenza da n, quindi i

valori dell’integrale saranno tutti uguali al variare di n e saranno funzioni dipendenti

solo da τ . Inoltre, poichè tali integrali sono calcolati in intervalli disgiunti del tipo:

−T,nT ], la funzione di autocorrelazione si può anche scrivere come:

(3.3.20) Rx(τ ) = 1

Z +∞−∞

rect(α − T /2

T )rect(

α − τ − T /2

T )dα

3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO 88

che rappresenta la nota correlazione deterministica tra due funzioni rettangolo. Il risul-

tato è pari alla funzione triangolo di base 2T :

(3.3.21) Rx(τ ) = (1 − |τ |

T )rect(

Quindi, in questo secondo caso, il segnali dati binario è stazionario in senso lato, dato

che la funzione valor medio è costante e la funzione di autocorrelazione dipende solo

dalla variabile τ .

3.3.2.1. Significato della funzione di autocorrelazione. Si supponga di avere due

processi stocastici e stazionari in senso lato X (t) e Y (t), dotati degli stessi parametri

statistici del primo ordine (funzione valor medio, funzione potenza e funzione varian-

za). In tal caso, rinunciando all’idea di riuscire a determinare la funzione di densitàdi probabilità congiunta di qualunque ordine per i due processi, ci si deve affidare, per

poterli distinguere, ai parametri statistici. I parametri statistici del primo ordine però

sono tra loro uguali e quindi non permettono una distinzione statistica dei due processi

in esame.

In tal caso vengono in aiuto i parametri statistici del secondo ordine ed in par-

ticolare la funzione di autocorrelazione, il cui significato ed utilità sono molto bene

evidenziati proprio per i processi stazionari. Infatti se si suppone che i due proces-

si X (t) ed Y (t) hanno funzioni di autocorrelazione differenti tra loro, qusto significa

che, in uno stesso istante di tempo τ , Rx(τ ) ed Ry(τ ) saranno differenti. Cioè se si

osservano i processi in due istanti di tempo distaccati di un intervallo τ , la loro ve-

locità di variazione è differente, dato che uno dei due processi assomiglia molto di più a se stesso rispetto all’altro processo (quello con autocorrelazione maggiore ha

un’autosomiglianza maggiore).

In conclusione la funzione di autocorrelazione decresce tanto più velocemente a

zero quanto più rapida è la variazione delle realizzazioni del processo. Essa misura

cioè la rapidità di variazione del segnale aleatorio.

3.4. Filtraggio di un Processo Aleatorio

Si è già detto che il motivo principale nell’introduzione della teoria dei processi

stocastici sta nel modellamento di fenomeni reali che sono descrivibili da grandezze

fisiche che variano nel tempo e il cui comportamento non è predicibile a priori. Poichè

le grandezze fisiche con cui ha a che fare l’ingegnere sono anche grandezze fisiche

manipolabili, ha senso porsi il problema di cosa succede al processo (e quindi anche

alle sue statistiche) se lo si fa passare per un sistema. Uno dei sistemi più semplici da

studiare è il filtro, cioè un sistema lineare e tempo-invariante, che può essere descritto

completamente dalla sua risposta all’impulso, o dalla sua funzione di trasferimento.

Un tipico esempio è quello in cui il processo in ingresso è costituito da un segnale

deterministico noto a cui è sovrapposto un processo aleatorio a valor medio nullo (det-

to disturbo o rumore): X (t) = s(t) + n(t), come riportato nell’esempio in figura 3.4.1.

−0.5

0 5 10 15 20 25−1.5

FIGURA 3. 4.1. Esempio di un segnale deterministico rumoroso

Quello che si fa è normalmente di cercare, almeno in parte, di elaborare s(t) elim-

inando la componente rumorosa. Questa operazione può essere effettuata da un filtro.

L’operazione imposta da un filtro è un’operazione di convoluzione con un segnale noto

(la risposta all’impulso del filtro), quindi il comportamento sui segnali deterministici è

noto. Resta da vedere come si comporta sui processi stocastici.

X(t) Y(t)h(t)

FIGURA 3. 4.2 . Filtraggio del processo X (t)

Ogni realizzazione del processo di partenza X (t) è ottenuta mediante estrazione di

un risultato dallo spazio campione Ω: x(t;ω). Questa realizzazione è un segnale che

ammette un’uscita dal sistema filtro: y(t) = x(t;ω) ? h(t), dove l’operazione ? denota

la convoluzione. Per ogni risultato dello spazio campione Ω si ha una realizzazionedifferente e quindi un segnale di uscita differente. L’insieme dei segnali di uscita cos-

tituiscono un nuovo processo, Y (t), che può complessivamente denotarsi con:

(3.4.1) Y (t) = X (t) ? h(t)

Generalmente il problema di determinare la funzione densità di probabilità congiunta

di qualunque ordine del processo di uscita, ammesso che sia nota quella del processo

di partenza, è insolubile.Quello che si fa allora è di determinare la relazione che esiste tra i parametri stastiti-

ci del primo e secondo ordine (si suppone di essere riusciti a determinare per lo meno

la funzione valor medio e la funzione di autocorrelazione di X (t)). La funzione valor

medio vale:

µy(t) = E [Y (t)] = E [X (t) ? h(t)] =

Z +∞−∞

h(τ )E [X (t − τ )]dτ =

(3.4.2) Z +∞−∞

h(τ )µx(t − τ )dτ = µx(t) ? h(t)

La funzione valor medio in uscita si ottiene effettuando la convoluzione tra la funzione

valor medio in ingresso con la risposta all’impulso del sistema. Il processo in ingresso

si può sempre pensare, ai fini del filtraggio, come la somma di una funzione determin-

istica, µx(t) e di un processo a valor medio nullo: X (t) = X o(t) + µx(t). Il filtraggio

del processo X (t), per la linearità del sistema, dà in uscita un processo somma di due

componenti: quella deterministica è ottenuta filtrando il segnale deterministico µx(t),

la componente statistica ha valor medio nullo.

Vediamo adesso la funzione di autocorrelazione del segnale di uscita:

Ry(t1, t2) = E [Y (t1)Y (t2)] = E [(X (t1) ? h(t1))(X (t2) ? h(t2))] =

Z +∞−∞

X (α)h(t1 − α)dα

Z +∞−∞

X (β )h(t2 − β )dβ ] =

Z +∞−∞

E [X (α)h(t1 − α)X (β )h(t2 − β )]dαdβ =

= Z +∞−∞

Z +∞−∞

h(t1 − α)h(t2 − β )E [X (α)X (β )]dαdβ =

(3.4.3) =

Z +∞−∞

h(t1 −α)h(t2 − β )Rx(α,β )dαdβ = Rx(t1, t2) ? h(t1) ?h(t2)

La doppia convoluzione va intesa nel senso che, nella prima la variabile t2 è consider-

ata costante, nella seconda convoluzione è t1 ad essere considerata costante.

3.4.1. Filtraggio di un processo stazionario in senso lato. Particolare interesse

assume il caso in cui il processo in ingresso al filtro sia stazionario in senso lato. Perla funzione valor medio sia ha infatti la seguente relazione ingresso-uscita:

(3.4.4) µy(t) = µy =

Z +∞−∞

h(τ )µx(t − τ )dτ = µx

Z +∞−∞

h(τ )dτ = H (0) · µx

dove H (0) è il valore che la trasformata di Fourier della risposta all’impulso del

sistema (la sua funzione di trasferimento H (f )) assume in f = 0.

La funzione di autocorrelazione vale:

Ry(t, t − τ ) = E [Y (t)Y (t − τ )] = E [(X (t) ? h(t))(X (t − τ ) ? h(t − τ ))] =

Z +∞−∞

h(α)X (t − α)dα

Z +∞−∞

h(β )X (t − τ − β )dβ ] =

Z +∞−∞

h(α)h(β )X (t − α)X (t − τ − β )dαdβ ] =

= Z +∞−∞

Z +∞−∞

h(α)h(β )E [X (t − α)X (t − τ − β )]dαdβ =

Z +∞−∞

h(α)h(β )Rx(τ + β − α)dαdβ =

(3.4.5) =

Z +∞−∞

h(β ) · [

Z +∞−∞

h(α)Rx(τ + β − α)dα]dβ

Si osservi subito che la funzione di autocorrelazione non dipende da t, ma solo da τ .

Inoltre:

(3.4.6)

Z +∞−∞

h(α)Rx(τ + β − α)dα = Rx(τ + β ) ? h(τ + β )

3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 92

Quindi la funzione di autocorrelazione in uscita diventa:

(3.4.7) Ry(τ ) = Z +∞−∞

h(β ) · [Rx(τ + β ) ? h(τ + β )]dβ = Rx(τ ) ? h(τ ) ? h(−τ )

Se poi si osserva che la convoluzione di un segnale con se stesso ribaltato rispetto

all’asse dei tempi è la autocorrelazione deterministica, si ha che: h(τ )?h(−τ ) = rh(τ ).

Quindi: Ry(τ ) = Rx(τ ) ? rh(τ ).

In conclusione:

THEOREM 3.4.1. Se un processo in ingresso ad un sistema lineare tempo invari-

ante è stazionario in senso lato, lo è anche in uscita dal sistema. Il valore medio e la

funzione di autocorrelazione del processo in uscita sono legate a quelle del processo

in ingresso tramite, rispettivamente, le (3.4.4) e (3.4.7).

3.5. Analisi Spettrale di un Processo Aleatorio

Poichè si è introdotto il problema del filtraggio di un processo aleatorio, può avere

senso la descrizione dello stesso problema in termini spettrali, dato che per il sistema la

funzione di trasferimento è facilmente calcolabile. Si deve tuttavia introdurre l’analisi

frequenziale per i processi aleatori. Si supporrà di studiare le proprietà in frequenza per

i soli processi aleatori stazionari in senso lato, anche se, concettualmente, è possibile

analizzare nel dominio delle frequenze un qualunque processo aleatorio.

La caratterizzazione di un processo aleatorio in frequenza, in termini di spettro di

ampiezza e fase è normalmente inusuale. E’ infatti sempre concepibile l’estrazione

di una realizzazione x(t) dal processo X (t) e la sua trasformazione secondo Fourier.

Tuttavia l’analisi dell’intero processo richiederebbe lo studio in frequenza di ogni real-

izzazione del processo. Conseguentemente le ampiezze e le fasi dello spettro sarebbero

caratterizzate in maniera aleatoria, con relazione tra aleatorietà nel tempo e aleatorietà

in frequenza non banale.

E’ allora più comune limitarsi alla descrizione degli spettri di potenza del segnale

aleatorio. Le realizzazioni di un processo stazionario in senso lato non possono essere

segnali ad energia finita. Infatti tutti i segnali ad energia finita prima o poi, al tendere

di t → ∞ tendono a zero. Se così fosse anche la funzione valor medio, calcolata per

valori di t → ∞

tenderebbe a zero, e quindi, a meno che non è sempre pari a zero,

essa non sarebbe più un valore costante. Quindi generalmente le realizzazioni di un

processo stazionario in senso lato sono segnali a potenza finita e perciò il processo

aleatorio ammette spettro di potenza.

La funzione densità spettrale di potenza di un processo aleatorio è la media delle

funzioni densità spettrale di potenza ottenute per le singole realizzazioni:

(3.5.1) S x(f ) = E [S x(f ;ω)] = E [ limT →∞

|= xT (t;ω)|2

dove l’operazione di media va fatta tra tutti i segnali aleatori S x(f ;ω) che si otten-

gono prendendo i pezzi delle realizzazioni del processo X (t) che sono compresi tra

[−T /2, T /2], e cioè:

xT (t;ω) = x(t;ω) · rect( t

e facendone il modulo quadro della loro trasformata di Fourier. La definizione di spet-

tro di potenza ricalca quindi quella che si potrebbe fare per un segnale deterministicodi potenza. L’unica differenza è dovuta alla presenza di una collezione (anche infinita)

di realizzazioni sulla quali non possiamo fare altro che effettuare una media. Questa

definizione è del tutto generale, cioè è valida anche per processi non stazionari.

Normalmente essa è molto difficile da utilizzare, anche per processi stazionari in

senso lato. Si utilizza allora nella pratica la definizione dovuta a Wiener-Kintchine. In

base a questa definizione

PROPOSITION 3.5.1. la densità spettrale di potenza dei processi stazionari è cal-

colabile come trasformata di Fourier della funzione di autocorrelazione:

(3.5.2) S x(f ) =

Z +∞−∞

Rx(τ )e− j2πf τ dτ

Vediamo alcune proprietà.

(1) La densità spettrale di potenza di un processo aleatorio e stazionario in senso

lato è una funzione reale e pari, dato che è la trasformata di Fourier di un

segnale reale e pari

(2) La potenza statistica media del processo (che si ricordi è una costante, data

la stazionarietà del processo) è pari all’integrale della densità spettrale di fre-

quenza su tutto l’asse delle frequenze:

(3.5.3) P x = E [X 2(t)] =

Z +∞−∞

S x(f )df

(3) la densità spettrale di potenza è una funzione non negativa: S x(f ) ≥ 0.

Quest’ultima proprietà discende direttamente dalla definizione diretta, e non

dalla definizione di Wiener-Kintchine.

3.5.1. Filtraggio di un processo stazionario. Riprendiamo allora il problema delfiltraggio visto in fig. 3.4.2 di un processo stazionario e vediamo come ora si può

caratterizzare la densità spettrale del processo in uscita, nota la densità spettrale del

processo in ingresso. Sappiamo infatti che, se il processo in ingresso è stazionario in

senso lato, lo è anche quello in uscita.

La densità spettrale del processo in uscita vale:

(3.5.4) S y(f ) = F Rx(τ ) ? h(τ ) ? h(−τ ) = S x(f )H (f )H (−f )

Inoltre, poichè il sistema si suppone reale, H (−f ) = H ∗(f ), si ha:

(3.5.5) S y(f ) = S x(f ) · |H (f )|2

che è la stessa relazione che vale per gli spettri di potenza dei segnali deterministici.

La risposta in fase del sistema non influenza la densità spettrale del processo in uscita.

Nella densità spettrale di potenza sono quindi contenute tutte le informazioni spet-

trali del processo e cioè come si distribuisce la potenza sulle varie componenti ar-moniche, dato che S x(f ) si comporta come la densità spettrale di potenza di un segnale

deterministico.

Conseguentemente il significato di densità spettrale di potenza è lo stesso per i seg-

nali deterministici e per i processi aleatori: una fettina spettrale alla frequenza f rapp-

resenta il contenuto in potenza del processo sulla sinusoide a frequenza f moltiplicato

per la banda passante infinitesima intorno a f , df : dP x(f ) = S x(f )df .

EXAMPLE 3.5.2. Calcoliamo la densità spettrale di potenza del processo visto

in (3.1.2): X (t) = A · sin(2πf ot + Θ), con Θ = U [0, 2π[. Poichè il processo

è stazionario in senso lato, la sua densità spettrale di potenza può essere calcolata

secondo la definizione di Wiener-Kintchine. Poichè si è già trovato che: Rx(τ ) =a2

2 cos(2πf oτ ), la densità spettrale di potenza vale:

(3.5.6) S x(f ) = F

2 cos(2πf oτ )

4 [δ (f − f o) + δ (f + f o)]

La potenza dell’intero processo è quindi concentrata sulla frequenza f o.

La funzione di autocorrelazione misura, come già detto, la velocità di variazione e

l’autosomiglianza di un processo con sè stesso. Poichè la densità spettrale di potenza è

la trasformata di Fourier della funzione di autocorrelazione (per i processi stazionari),

allora anche la densità spettrale di potenza può caratterizzare un processo. In parti-

colare, quanto più rapidamente variano le singole realizzazioni di un processo, tanto

più larga è la banda passante della densità spettrale di potenza, dato che ad una banda

larga corrisponde una funzione di autocorrelazione piccola. Quindi a variazioni rapide

corrispondono termini spettrali a potenza non nulla sempre più in alta frequenza. Nella

figura 3.5.1 è riportata una singola realizzazione di tre processi, ciascuno dei quali pre-

senta una densità spettrale di potenza a banda crescente. Si osservi come, al crescere

della banda aumenta non solo la rapidità di variazione della realizzazione, ma anche

l’ampiezza delle escursioni, e cioè la potenza complessiva del segnale

−0.5

0 1000 2000 3000 4000 5000 6000 7000−1.5

−0.5

0 1000 2000 3000 4000 5000 6000 7000−1.5

−0.5

0 1000 2000 3000 4000 5000 6000 7000−1.5

FIGURA 3. 5.1. Esempio di tre processi a banda crescente nello spettro

di potenza

3.5.2. Processo aleatorio bianco. Si supponga ora di considerare un processo la

cui densità spettrale di potenza ha una banda che cresce illimitatamente, pur mantenen-

do lo stesso valore per f = 0. La funzione di autocorrelazione di tale processo tenderà

ad un valore piccolissimo (la funzione non assomiglia quasi per niente a sè stessa e

varia sempre più rapidamente). Al limite per f → ∞ la funzione di autocorrelazione

diventa impulsiva e quindi la densità spettrale di potenza diventa costante su tutto lo

spettro di frequenze:

(3.5.7) Rx(τ ) = n · δ (τ ) ⇔ S x(f ) = n

A tale tipo di processo, astrazione matematica di molti fenomeni reali, si dà il nome

di processo di rumore bianco. Il nome rumore bianco deriva dal fatto che tutte le com-

ponenti spettrali sono ugualmente rappresentate, così come tutti i colori sono ugual-

mente rappresentati nel processo di composizione della luce bianca. Il valor medio di

questo processo è nullo, dato che il valor medio è pari al limτ →∞ Rx(τ ) = 0. Inoltre

si capisce bene che tale processo è solo una idealizzazione, dato che esso dovrebbe

possedere potenza infinita, condizione impossibile per un qualunque processo che

modelli un segnale fisico.

Una delle applicazioni più comuni di questa idealizzazione consiste nel modella-

mento del rumore termico. Un comune resistore, oltre a presentare una certa resistenza

R, presenta anche una debole tensione di rumore, dovuta alla casuale agitazione ter-

mica degli elettroni nel materiale che compone il resistore. Questa agitazione termica

è tanto più elevata quanto più alta è la temperatura assoluta alla quale si trova il resis-

tore. Il modello che normalmente si utilizza è allora quello di considerare il resististore

ideale e di porre in serie ad esso un generatore di tensione con tensione pari a n(t) V ,dove n(t) è un processo casuale, responsabile della produzione di rumore termico.

L’espressione che assume la densità spettrale di potenza del rumore termico deriva da

considerazioni di carattere quantistico (e quindi non verrà effettuata in questa sede) ed

assume la forma:

(3.5.8) S n(f ) = kT R|f | /f o

e|f |/f o − 1

dove il valore di f o è: f o = kT R/h, con k = 1.38 · 10−23J/K costante di Boltzmann,

h = 6.62 · 10−34J · s costante di Plank e T R temperatura assoluta del resistore. Alla

temperatura ambiente il valore di f o è estremamente alto (∼ 6T Hz ). Poichè i valori

di frequenza che normalmente si utilizzano nelle applicazioni pratiche sono molto più

bassi, l’espressione precedente si può approssimare come segue:

(3.5.9) S n(f ) = kT R|f | /f o

e|f |/f o − 1 ≈ kT R

cioè come una costante. Il processo di rumore bianco è quindi, in questo caso, un utile

idealizzazione di una situazione reale. Un circuito elettrico infatti che sia composto

da un filtro con banda passante B f o, “vedrà” la densità spettrale del processo

praticamente come piatta.EXAMPLE 3.5.3. Si voglia determinare la densità spettrale di potenza del processo

in uscita dal sistema riportato in figura 3.5.2, con N (t) un processo stazionario in senso

lato e densità spettrale di potenza costante e pari ad n.

Il primo blocco effettua una media pesata del segnale in ingresso su un intervallo

[t − T, T ]:

(3.5.10) 1

Z tt−T

(•)dτ

La sua risposta all’impulso vale allora: g(t) = 1T rect( t−T/2T ). Il secondo blocco è un

filtro passa banda ideale, con banda pari a 2/T intorno ad f 0, con f 0T 1. Infine il

moltiplicatore moltiplica per un oscillatore locale la cui espressione è del tipo: p(t) =2 cos(2πf 0t +Θ), quindi è in realtà un processo, con Θ variabile aleatoria con densità

di probabilità uniforme in [0, 2π[.

N(t) X(t) Y(t) Z(t)

H(f)g(t)

−f f 0

| H(f) |

FIGURA

3.5. 2. Sistema dell’esempio e filtro passa banda H (f )

Poichè il processo in ingresso è stazionario in senso lato e il blocco g(t) è lineare

e tempo invariante, anche il processo in uscita X (t) è stazionario in senso lato. Il suo

valor medio è: µx = µnG(0) = 0 · G(0) = 0, essendo il processo in ingresso a media

nulla. La funzione di autocorrelazione di X (t) é:

(3.5.11)

Rx(τ ) = Rn(τ ) ? g(τ ) ? g(−τ ) = nδ (τ ) ? rg(τ ) = nrg(τ ) = n

T (1 − |τ |

T )rect(

e dipende solo da τ . La corrispondente densità spettrale di potenza vale: S x(f ) =F Rx(τ ) = n · sinc2(T f ).

Il processo p(t) sappiamo che è stazionario, avendo valor medio nullo e funzione di

autocorrelazione pari a: R p(τ ) = 2 cos(2πf oτ ). La funzione valor medio del prodotto

tra le due è:

(3.5.12) µy(t) = E [X (t) p(t)] = 2E [X (t) cos(2πf 0t +Θ)]

Poichè la v.a. Θ è indipendente dalla sinusoide in cui è contenuta (all’interno del pro-

cesso p(t)) lo è a maggior ragione anche dal processo X (t). Quindi l’aspettazione

del prodotto è pari all’aspettazione presa separatamente dei singoli processi: µy(t) =E [X (t) p(t)] = E [X (t)]E [ p(t)] = 0. La funzione di autocorrelazione vale:

Ry(t, t − τ ) = E [Y (t)Y (t − τ )] =

= 4E [X (t)X (t − τ ) cos(2πf 0t + θ) cos(2πf 0(t − τ ) + θ)] =

= 4E [X (t)X (t − τ )] · E [cos(2πf 0t + θ) cos(2πf 0(t − τ ) + θ)] =

(3.5.13) = 2Rx(τ ) · cos(2πf 0τ )

Anche il processo Y (t) è quindi stazionario in senso lato, essendo il suo valor medio

nullo e la sua funzione di autocorrelazione dipendente solo da τ . La densità spettrale

di potenza è la trasformata di Fourier di Ry(τ ):

S y(f ) = F Ry(τ ) =

(3.5.14)= n · sinc2(f T ) ? [δ (f − f o) + δ (f + f o)] = n · [sinc2(T (f − f o)) + sinc2(T (f + f o))]

La maggior parte della potenza si è spostata attorno ad f o, anche se le code delle fun-

zioni sinc2 si sovrappongono sino ad infinito. L’effetto del filtraggio passa banda finale

è quello di tagliare appunto queste code, in modo da lasciar passare solo la parte dello

spettro che contiene più potenza (vedi in figure 3.5.3 ed 3.5.4 ). Approssimatamente

quindi lo spettro di potenza in uscita si può scrivere come:

(3.5.15)

S z(f ) ≈ n · [sinc2(T (f − f o)) · rect(f − f o

2/T ) + sinc2(T (f + f o)) · rect(

f + f o2/T

3.6. PROCESSI ALEATORI GAUSSIANI 100

frequenze normalizzate fT

−15 −10 −5 0 5 10 150

FIGURA 3.5 .3. Filtraggio del processo Y (t). I valori nell’esempio

riportato sono: f 0T = 5.

frequenze normalizzate fT

−15 −10 −5 0 5 10 15

S z ( f )

FIGURA 3.5.4. Densità spettrale di potenza in uscita dal sistema, S z(f )

3.6. Processi Aleatori Gaussiani

Nell’esempio del rumore termico la generazione della tensione di rumore è dovuta

alla somma della tensione provocata dal movimento casuale degli elettroni. Poichè

il processo in esame è generato dal contributo di molti fenomeni elementari ed in-

dipendenti, si può ritenere che la statistica del processo stesso sia di tipo gaussiano

(per il teorema del limite centrale). Poichè una grande quantità di fenomeni fisici si

comportano in modo simile, è utile studiare le proprietà dei processi gaussiani.

DEFINITION 3.6.1. Un processo aleatorio X (t) è gaussiano se scelto n arbitraria-

mente grande ed n istanti di tempo t1, t2,...,tn, le variabili aleatorie

[X (t1), X (t2),...,X (tn)] sono congiuntamente gaussiane.

In questa definizione è quindi necessario verificare non solo la gaussianità della

singola variabile aleatoria che si può ottenere ad ogni istante t, ma anche del vettore

aleatorio [X (t1), X (t2),...,X (tn)], comunque si scelgano gli istanti di tempo.

Molti fenomeni fisici sono modellati come processi gaussiani (onde sismiche, voce

umana, rumore termico, etc) e questo spiega la centralità di questo tipo di processi nello

studio dei processi stocastici.

La descrizione statistica completa di un processo è possibile solo se è nota la sua

funzione di densità di probabilità di ogni ordine e per ogni n − pla di istanti di tempo:

f x(x1, x2,...,xn; t1, t2,...,tn). Tuttavia se X (t) è gaussiano la densità di probabilità

congiunta ha una forma nota:

(3.6.1)

f X (x1, x2,...,xn; t1, t2,...,tn) = 1p

(2π)n det |C X |· exp(−1

2(x − µX )

T C −1X (x − µX ))

dove il vettore aleatorio x è quello che si ottiene estraendo le variabili aleatorie

[X (t1), X (t2),...,X (tn)]. Per la conoscenza completa della funzione di densità di

probabilità congiunta (e quindi dell’intero processo) è sufficiente conoscere quindi la

funzione valor medio e la funzione di autocovarianza; µx(t) e C x(t1, t2). Infatti per

ogni n − pla di istanti di tempo (t1, t2,...,tn) si ha:

(3.6.2) µX = [µx(t1), µx(t2),...,µx(tn)]

Invece per la funzione di autocovarianza si ha: C x = [cij ], dove

(3.6.3)

cij = E [(X (ti)

−µx(ti)) · (X (t j)

−µx(t j))] = C x(ti, t j) = Rx(ti, t j)

−µx(ti)µx(t j)

Una delle proprietà notevoli dei processi gaussiani consiste nel fatto che la staziona-

rietà in senso lato implica la stazionarietà in senso stretto (cosa generalmente non ve-

ra). Infatti la stazionarietà in senso lato equivale ad imporre una funzione valor medio

costante ed una funzione di autocorrelazione dipendente solo dalla differenza degli is-

tanti di tempo: µX (t) = µX e Rx(t1, t2) = Rx(τ ). Se allora si considera l’n − pla di

istanti:

[t1 + ∆t, t2 + ∆t,...,tn + ∆t]

in tali istanti la funzione valor medio non sarà cambiata poichè è una costante. La

funzione di autocovarianza rimane anch’essa costante dato che dipende solo dalle

differenze tra una qualunque coppia di istanti di tempo.

Poiche infine la funzione di densità di probabilità congiunta del processo dipende

solo da questi due parametri statistici, si può concludere che il processo stazionario in

senso lato lo è anche in senso stretto.

Quando si fa passare un processo attraverso un sistema lineare tempo-invariante,

di cui si conosce la funzione di trasferimento, è generalmete difficile determinare lafunzione di densità di probabilità congiunta di uscita, anche se nota quella di ingresso.

I processi gaussiani fanno eccezione a questa regola: un processo gaussiano che venga

fatto passare attraverso un sistema lineare conserva la sua proprietà principale di gaus-

sianità; inoltre conserva anche la stazionarietà se il sistema è anche tempo-invariante e

il processo in ingresso è stazionario.

Intuitivamente il motivo per cui la statistica del processo non cambia si può com-

prendere osservando l’operazione che si effettua quando il processo passa attraverso il

sistema:

(3.6.4) Y (t) = X (t) ? h(t) =

Z +∞−∞

X (α)h(t − α)dα

Questa operazione si può pensare come una somma di infiniti termini, ciascuno del

quali vale approssimatamente:

(3.6.5) X (k∆α)h(t − k∆α)∆α

dove si deve pensare k intero e ∆α molto piccolo. Poichè allora il processo in uscita

altro non è che una combinazione lineare di tanti processi in ingresso, tutti gaussiani

(X (t), calcolato per t = k∆α è gaussiano), è anch’esso gaussiano, comunque si scelga

l’n − pla degli istanti di tempo [t1, t2,...,tn].

EXAMPLE 3.6.2. Si consideri un processo gaussiano stazionario con densità spet-

trale di potenza:

(3.6.6) S n(f ) = N o(1 − |f |

B )rect(

e si supponga di far passare questo processo attraverso un campionatore. Il cam-

pionatore è un sistema che, dato un segnale continuo, ne estrae il valore per particolari

istanti di tempo, normalmente equispaziati. A partire da una funzione tempo continua

costruisce quindi una funzione tempo discreta o, se si preferisce, una successione di

numeri reali.

Il campionatore campioni il processo agli istanti di tempo k/B. Se k lo facciamo

variare da 1,...,n otterremo n numeri reali

X (t1 = 1/B), X (t2 = 2/B),...,X (tn = n/B)

corrispondenti ad n variabili aleatorie. Si vuole calcolare la densità di probabilità

congiunta di queste n variabili aleatorie f x(x1, x2,...,xn).

0 B−B

X(t) X k

FIGURA 3. 6. 1. Densità spettrale e schema a blocchi dell’esempio 3.6.2

Si osservi subito che se X (t) è un processo a valor medio nullo, anche il processo

campionato, essendo l’insieme di n v.a. a valor medio nullo, è a valor medio nullo.

Inoltre la sua funzione di autocovarianza vale:

cxixj = E [(X i − µxi)(X i − µxj)] = E [X iX j ] = E [X (ti)X (t j)] =

(3.6.7) = Rx(ti − t j) = Rx(i − j

Poichè conosciamo S n(f ) è possibile esprimere in forma chiusa anche la funzione di

autocorrelazione:

(3.6.8) Rn(τ ) = N oB · sinc2(Bτ )

3.7. PROCESSI ERGODICI 104

Quindi l’autocovarianza vale: cxixj = N oB · sinc2(i − j) = N oB · δ ik (con δ ik simbolo

di Kronecker) ed è una matrice diagonale. Questo ci dice che le variabili aleatorie

estratte con l’operazione di campionamento sono a due a due incorrelate. Essendo in-oltre congiuntamente gaussiane (l’operazione di campionamento è infatti chiaramente

lineare) esse sono a due a due indipendenti. La loro potenza statistica, è pari anche alla

loro varianza: Rn(0) = N oB. La densità di probabilità congiunta è allora il prodotto

delle singole densità di probabilità delle v.a. [X 1, X 2,...,X n]:

f (x1, x2,...,xn) =nY

f (xk)

(3.6.9) f (x1, x2,...,xn) = 1p (2π)n · (N oB)n

exp(−x2

1 + x2

2 + ... + x2

2N oB )

3.7. Processi Ergodici

I parametri statistici di un processo aleatorio si possono considerare operazioni

d’insieme, poichè sono effettuate sull’insieme delle funzioni campione (o realizzazioni).

Ad esempio la funzione valor medio si determina, per ogni istante fissato t, effettuan-

do la media di tutte le realizzazioni in t, nota che sia la funzione densità di probabilità

di primo ordine per quell’istante. Questa operazione, dal punto di vista teorico noncomporta alcuna difficoltà, ammesso che del processo si conosca una forma chiusa,

ammesso cioè che si sia in grado di scrivere ogni possibile realizzazione del processo,

insieme con la funzione di densità di probabilità del primo ordine (o di ordine superiore

per le altre statistiche).

In pratica la funzione di densità di probabilità non è nota e a volte non si riesce

nemmeno a fare delle ipotesi ragionevoli sulla sua forma con misure statistiche sul

processo in esame. A volte infatti, di un dato processo, è possibile misurare soltan-

to una singola realizzazione. La domanda che sorge spontanea è allora: è possibile

effettuare alcune misure sulla singola realizzazione per ottenere un comportamento

statistico generale ? La risposta a questa domanda è sì, a volte si può fare, ma ciò

dipende da una particolare proprietà che possono possedere i processi aleatori. Questaproprietà è l’ergodicità.

DEFINITION 3.7.1. Un processo aleatorio stazionario in media si dice ergodico in

media se, con probabilità che tende ad 1 si ha che la media d’insieme coincide con la

media temporale effettuata sulla singola realizzazione:

(3.7.1) P ( E [X (t)] = limT →∞

Z T/2−T/2

x(t)dt ) = 1

Tale definizione nasce infatti dall’osservazione che, se si possiede una sola realiz-

zazione del processo, può avere senso effettuare delle misure deterministiche sul quel

processo (media temporale, misura della autocorrelazione e così via). In particolare per

la misura della media temporale può accadere che questa sia differente realizzazione

per realizzazione oppure che, anche se sempre uguale per tutte le realizzazioni, sia

differente dalla media d’insieme del processo in esame. Per alcuni processi invece

capita che non solo la media temporale è uguale per tutte le realizzazioni, ma anche

che questo valore è pari a quello che si determina dalla media d’insieme. Tali processi

sono appunto detti ergodici in media.

Un processo ergodico in media è un processo la cui singola realizzazione si com-

porta come tutto il processo in esame dal punto di vista statistico, permette cioè misure

di media che dovrebbero essere fatte altrimenti su tutta la statistica del processo stesso.

E’ evidente che, affinchè un processo sia ergodico, è necessario che sia stazionario, da-

to che la media temporale è necessariamente un valore singolo e quindi non potrebbe

mai essere pari ad una funzione del tempo (se il processo non fosse stazionario).

Si osservi che nella definizione non abbiamo dato una condizione di uguaglian-

za con certezza, ma con probabilità tendente ad 1, che è una cosa differente. Infatti

quando si osserva la singola realizzazione, questa è una sola tra le tante che potreb-

bero capitare, e quindi il valore che estraiamo della media temporale è essa stessa una

variabile aleatoria. L’uguaglianza di tale variabile aleatoria con una costante (il valor

medio ottenuto come media d’insieme) può essere fatta solo in termini probabilistici,

affermando cioè che tale variabile aleatoria ha valor medio che coincide con la media

d’insieme e varianza nulla. Si tenga inoltre presente che nei casi pratici non si può

osservare nemmeno tutta la realizzazione (cioè da −∞ a +∞) e quindi quella che si

ottiene è solo una stima del valor medio (che a sua volta è una variabile aleatoria).

Quello che nella pratica si riesce ad ottenere è quindi:

(3.7.2) X T = 1

Z T/2−T/2

x(t)dt

la media temporale sarà quindi:

X m = limT →∞

ed inoltre:

(3.7.3) µX m = limT →∞

µX T , σ2X m = lim

T →∞σ2X T

anche se questi ultimi risultati non sono accessibili in una situazione reale.

Si ricordi infine che, essendo la varianza della variabile aleatoria X T pari alla funzione

di autocovarianza valutata per τ = 0, il verificarsi della condizione di ergodicità in

media è subordinato al verificarsi di una determinata condizione (C X T (0) → 0) che

coinvolge la statistica del secondo ordine del processo.

Per il calcolo della media temporale si definisce un operatore valor medio tempo-

rale, che si può applicare a qualunque segnale x(t) determinato o no:

(3.7.4) hx(t)i = limT →∞

Z T/2−T/2

x(t)dt

La proprietà di ergodicità in media può essere allora riscritta nel modo seguente:

(3.7.5) E [X (t)] = hx(t;ω)i

dove si è messo in evidenza che la media temporale è stata effettuata sulla particolare

realizzazione estratta dal processo X (t). Se però il processo è ergodico tale valore è

uguale per tutte le realizzazioni e quindi, con notazione non proprio rigorosa si può

scrivere:

(3.7.6) E [X (t)] = hX (t)i

La dimostrazione che l’uguaglianza della definizione vale con probabilità pari ad 1è legata alla dimostrazione che la media della variabile aleatoria hx(t)i sia pari al valor

medio d’insieme e la sua varianza tenda a zero. L’aspettazione della media temporale

E [hx(t)i] = E [ limT →∞

T Z T/2−T/2

x(t)dt] =

(3.7.7) = limT →∞

Z T/2−T/2

E [x(t)]dt = limT →∞

Z T/2−T/2

µxdt = µx

La varianza della variabile aleatoria hx(t)i invece vale:

V ar(hx(t)i) = E [(hx(t)i − µx)

= E [( limT →∞

Z T/2−T/2

x(t)dt − µx)2] = limT →∞

E [( 1

Z T/2−T/2

x(t)dt − µx)2] =

= limT →∞

Z T/2−T/2

(x(t) − µx)dt ·

Z T/2−T/2

(x(t) − µx)dt] =

= limT →∞

T 2 Z T/2

−T/2 Z T/2

−T/2

(x(t) − µx)(x(t1) − µx)dtdt1] =

= limT →∞

Z T/2−T/2

E [(x(t) − µx)(x(t1) − µx)]dtdt1 =

= limT →∞

Z T/2−T/2

C x(t, t1)dtdt1 = limT →∞

Z T/2−T/2

C x(t − t1)dtdt1 =

dove l’ultima uguaglianza vale solo nell’ipotesi che il processo sia stazionario in senso

lato e non solo in media. In questa ipotesi infatti la dimostrazione che la varianza

di hx(t)i va a zero per T → ∞ risulta più semplice (la dimostrazione nel caso più

generale è più complessa).

Se ora si pone t−t1 = u, si osserva che al variare di (t, t1) nel quadrato [−T /2, T /2]×[−T /2, T /2], u varia da [−T, T ]. Inoltre dtdt1 =

√ 2(T − |u|)du: si provi infatti a

calcolare l’area del rettangolino che si ottiene spostando di un infinitesimo du la retta

t − t1 = u (vedi figura 3.7.1).

−T/2

t−t = u

t−t = u+du

t0−T/2 T/2

FIGURA 3 .7. 1. Calcolo del differenziale nel cambio di variabile t −t1 = u

Quindi:

(3.7.8) = limT →∞

Z T −T

√ 2(T − |u|)C x(u)du = 0

dato che la funzione di autocovarianza non può divergere per nessun valore della vari-

abile indipendente. E’ quindi dimostrata la definizione di ergodicità in media secondo

la relazione probabilistica.

L’operatore di media temporale può essere utilizzato per definire l’autocorrelazione

di un segnale deterministico a potenza finita:

(3.7.9) hx(t)x(t − τ )i = limT →∞

Z T/2−T/2

x(t)x(t − τ )dt

Risulta allora abbastanza chiaro che il concetto di ergodicità in media può essere estesa

anche alla autocorrelazione, purchè il processo sia stazionario non solo in media ma

anche per quel che riguarda l’autocorrelazione, sia cioè stazionario in senso lato.

DEFINITION 3.7.2. Un processo aleatorio stazionario in senso lato è ergodico in

autocorrelazione se con probabilità pari ad 1 risulta vera l’uguaglianza;

(3.7.10)

Rx(τ ) = E [X (t)X (t − τ )] = hx(t)x(t − τ )i = limT →∞

T Z T/2

−T/2

x(t)x(t − τ )dt

Si osservi che l’ipotesi di stazionarietà è necessaria per l’ergodicità in autocor-

relazione, dato che altrimenti il processo avrebbe una funzione di autocorrelazione

d’insieme dipendente da due variabili, mentre l’autocorrelazione temporale dipende

chiaramente da una sola variabile. Inoltre, per gli stessi motivi addotti precedente-

mente, è necessario dare anche in questo caso una definizione in termini probabilistici.

L’ergodicità in autocorrelazione è importante poichè mediante questa è possibile

determinare la funzione di autocorrelazione d’insieme mediante l’osservazione di una

singola realizzazione. Dalla funzione di autocorrelazione si può poi calcolare la densità

spettrale di potenza del processo.Le condizioni sull’ergodicità in autocorrelazione del processo coinvolgono grandezze

statistiche del quarto ordine, poichè si deve provare che la varianza della variabile

aleatoria

(3.7.11) hx(t)x(t − τ )iT = 1

Z T/2−T/2

x(t)x(t − τ )dt

tende a zero al tendere di T

→ ∞.

Un processo ergodico in valor medio e in autocorrelazione si dice ergodico insenso lato.

DEFINITION 3.7.3. Un processo si dice ergodico in senso stretto se la proprietà

di ergodicità vale per una qualunque grandezza statistica estratta dal processo (e di

qualunque ordine):

(3.7.12)

E [g(X (t), X (t−τ 1),...,X (t−τ n−1))] = hg(X (t;ω), X (t − τ 1;ω),...,X (t − τ n−1;ω))i

EXAMPLE 3.7.4. Dimostriamo che il processo X (t) = a · cos(2πf ot + Θ), con

Θ = U [0, 2π[, con a ed f o noti, è ergodico in senso lato.

Abbiamo già dimostrato che tale processo è stazionario in senso lato (quindi il

problema è ben posto). Inoltre si è già trovato che:

3.8. CENNI SULLE CATENE DI MARKOV 110

(3.7.13) µx = 0, Rx(τ ) = a2

2 cos(2πf oτ )

Calcoliamo ora le corrispondenti medie temporali:

(3.7.14)

hx(t; θ)i = limT →∞

Z T/2−T/2

a · cos(2πf ot + Θ)dt = 1

Z T/2−T/2

a · cos(2πf ot + Θ)dt = 0

dato che la media di un qualunque segnale periodico può essere valutata sul singolo

periodo. Il risultato ottenuto è indipendente dal particolare valore diΘ

. Il processo èquindi ergodico in media.

Per l’autocorrelazione temporale si ha poi:

hx(t; θ)x(t − τ ; θ)i = limT →∞

Z T/2−T/2

a · cos(2πf ot +Θ)a · cos(2πf o(t − τ ) +Θ)dt =

Z T/2−T/2

a · cos(2πf ot +Θ)a · cos(2πf o(t−τ ) +Θ)dt = a2

Z T/2−T/2

cos(2πf oτ )dt =

(3.7.15) a2

2 cos(2πf oτ ) = Rx(τ )

Il processo è ergodico anche in autocorrelazione e quindi lo è in senso lato.

3.8. Cenni sulle Catene di Markov

3.8.1. Qualche definizione sulle catene di Markov. Le catene di Markov sono

una delle applicazioni della teoria dei processi aleatori più diffusa. Esse sono utilizzate

in un’enorme varietà di contesti poichè modellano molto bene una classe di fenomeni

reali (gli arrivi e le attese in coda).

Si supponga di considerare un processio aleatorio X (t) e si supponga di voler

conoscere qualche proprietà della variabile aleatoria X (tk) a partire dalla conoscenza

delle variabili aleatorie X (t1), X (t2),...,X (tk−1), con t1, t2,...,tk arbitrariamente es-

tratti. Si vuole quindi, se possibile, determinare:

(3.8.1) P (X (tk) = xk/X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1)

DEFINITION 3.8.1. Un processo aleatorio è detto di Markov se risulta:

P (X (tk) = xk/X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1) =

(3.8.2) = P (X (tk) = xk/X (tk−1) = xk−1)

cioè se l’evoluzione del processo dipende soltanto dall’osservazione della variabilealeatoria all’istante immediatamente precedente, comunque si scelgano t1, t2,...,tk.

La definizione precedente può anche essere posta in questi termini: l’evoluzione futura

del processo dipende solo dallo stato attuale del processo e non dagli stati passati.

Una prima proprietà è la seguente:

P (X (tk) = xk, X (tk−1) = xk−1,...,X (t1) = x1) =

P (X (tk) = xk/X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1)·

·P (X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1) =

= P (X (tk) = xk/X (tk−1) = xk−1)·

·P (X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1) =

· · ·

= P (X (tk) = xk/X (tk−1) = xk−1) · P (X (tk−1) = xk−1/X (tk−2) = xk−2) · ...

(3.8.3) ... · P (X (t1) = x1)

Naturalmente l’ultima quantità, cioè P (X (t1) = x1) è una probabilità non condizion-

ata e deve essere nota a priori.

DEFINITION 3.8.2. Una catena di Markov è detta omogenea quando le probabilità

condizionate non dipendono dall’origine dell’asse dei tempi ma solo dalla differenzatra i tempi considerati:

(3.8.4)

P (X (tk) = xk/X (tk−1) = xk−1) = P (X (tk + ∆t) = xk/X (tk−1 + ∆t) = xk−1)

I processi di Markov che assumono solo valori discreti sono detti catene di Markov.

Le catene di Markov possono essere tempo discrete o tempo continue a seconda che

evolvano o no in modo discreto.

3.8.2. Catene di Markov tempo discrete. Per le catene di Markov discrete è al-

lora possibile scrivere le probabilità di transizione ad un passo, cioè: pij = P (X n+1 =i/X n = j ), dove l’evoluzione temporale nel caso di catene discrete è indicato con un

indice sul processo aleatorio: X (tn) = X (n · ∆t) = X n. E’ allora possibile raggrup-

pare in forma matriciale le probabilità ad un passo, a seconda dei valori che il processo

aleatorio può assumere. Naturalmente questa matrice può anche essere di dimensione

infinita se il numero dei valori possibili assunti dal processo è infinito:

(3.8.5) P =

p00 p01 ... p0n ...

p10 p11 ... p1n ......

... . . .

... ...

pn0 pn1 ... pnn ...... ... ... ... ...

La somma degli elementi su una riga deve necessariamente essere pari ad 1 (da uno sta-

to il processo deve capitare con probabilità 1 in uno qualunque degli altri stati possibili:

(3.8.6) X j pij = 1

Generalizzando la definizione precedente si può anche definire la probabilità di

transizione ad k passi:

(3.8.7) pij(k) = P (X n+k = i/X n = j)

Si fa vedere facilmente che: pij(2) = P

k pik pkj , cioè la probabilità di transizione

a due passi si determina effettuando il prodotto della riga i − sima per la colonna

j − sima della matrice di transizione ad un passo. Allora è possibile costruire facil-

mente la matrice di transizione a due passi, dato che:

(3.8.8) P (2) = P · P = P 2

e, generalizzando:

(3.8.9) P (k) = P · P · ... · P | z k−volte

Se si vuole determinare la probabilità che all’istante tn una singola realizzazione

del processo abbia valore pari a xi, si trova che:

P (X n = i) =

(3.8.10)

P (X n = i/X n−1 = j) · P (X n−1 = j) =X j

pijP i(n − 1) =X j

pij(n)P i(0)

Dato un processo aleatorio che risulta essere anche una catena di Markov tempo disc-

reta, normalmente le quantità note sono la matrice di transizione ad un passo e le

probabilità iniziali del processo, cioè le: P i(0) = P (X o = i).

DEFINITION 3.8.3. Una catena di Markov tempo discreta ammette equilibrio se

esiste il limite:

(3.8.11) limn→∞

P i(n) = Πi

Si vuole vedere cioè se le probabilità, per tempi di osservazione lunghi si stabiliz-

zano o variano continuamente.DEFINITION 3.8.4. Una catena di Markov si dice stazionaria se, ammettendo

equilibrio risulta: Πi = P i(0).

In una catena di Markov stazionaria si dimostra facilmente che ∀n : P i(n) = Πi.

3.8.3. Catene di Markov tempo continue. Le catene di Markov tempo continue

sono caratterizzate dal fatto che, seppure le singole realizzazioni del processo aleatorio

assumono valori discreti, il cambiamento di stato avviene ad istanti qualunque e non

per istanti discreti prefissati. Naturalmente vale il concetto generale che definisce le

catene di Markov: l’evoluzione per stati futuri dipende solo dallo stato attuale del

processo. Vale anche la definizione di catena omogenea, dato che questa è stata data

in forma genericamente continua.Le proabilità di transizione da uno stato ad un altro possono ancora essere definite,

ma ora sono genericamente funzioni del tempo:

(3.8.12) P (X (s + t) = i/X (s) = j) = P ij(t)

Nel caso di catene di Markov tempo continue è utile definire il cosiddetto tempo di

permanenza in un possibile stato. Questo tempo di permanenza è normalmente una

variabile aleatoria, dato che la transizione da uno stato al successivo avviene in un is-tante non prevedibile. Se allora si vuole calcolare: P (T i ≤ t) oppure la P (T i > t) si

P (T i > t + s/T i > s) = P (T i > t + s/X (s0) = i, 0 ≤ s0 ≤ s) =

cioè la probabilità che il tempo di permanenza superi l’intervallo t + s, noto che è

rimasto nello stato i un tempo almeno pari ad s,

= P (T i > t + s/X (s) = i) =

se ora supponiamo la catena omogenea:

(3.8.13) = P (T i > t/X (0) = i) = P (T i > t)

La relazione precedente è soddisfatta da una variabile aleatoria di tipo esponenziale:

P (T i > t) = e−ν it. Quindi il tempo di permanenza è modellabile come una variabile

aleatoria esponenziale per catene di Markov tempo continue ed omogenee. La quantità

1/ν i è il tempo medio di permanenza nello stato i, mentre ν i si può ritenere il numero

medio di volte che il sistema fuoriesce dallo stato i nell’unità di tempo.

Detta allora q ij la probabilità di passare dallo stato i allo stato j, si ha che la probabilità

di “saltare” da uno stato i ad uno stato j in un tempo piccolo δ è:

(3.8.14) P ij(δ ) = (1 − P ii(δ )) · q ij ≈ δν iq ij [+O(δ 2)]

La quantità γ ij = ν iq ij è quindi il numero medio di transizioni che si effettuano

nell’unità di tempo dallo stato i allo stato j.

DEFINITION 3.8.5. Una catena di Markov tempo continua ammette equilibrio seal limite di t → ∞ la probabilità che il processo sia fermo su un particolare stato i non

dipende più dalla variabile tempo, cioè se

(3.8.15) ∃ limt→∞

P i(t) = pi

Per tali catene è possibile costruire un diagramma delle frequenze di transizione di

stato, che mediante una rappresentazione con nodi ed archi permette di rappresentare

le probabilità di transizione e quelle di permanenza in un determinato stato (vedi figura

3.8.1).

FIGURA 3. 8. 1. Grafo delle probabilità di transizione per una catena di

Markov tempo continua costituita da soli tre stati

Tali grafi sono governati dal seguente sistema di equazioni lineari (facilmente ri-

cavabile in base alle considerazioni precedenti):

(3.8.16)Xii6=j

γ ji · p j =Xii6=j

γ ij · pi

dove le pi sono le probabilità che il sistema si trovi nello stato i e γ ij il numero medio

di transizioni dallo stato i allo stato j.

CAPITOLO 4

La trasmissione dei segnali

4.1. Introduzione

Il segnale, come si è già detto, è una grandezza fisica variabile alla quale è associata

una qualche forma di informazione. L’interpretazione di questa informazione, cioè del

messaggio che il segnale trasporta è quindi normalmente lo scopo dello studio dei

segnali.

Una delle più comuni situazioni in cui ci si può trovare quando si ha a che fare

con i segnali è quella in cui il segnale è presente in un certo punto dello spazio e losi vuole invece in un altro punto. Ad esempio se una stazione radio programma della

musica, essa avrà la necessità di farla ascoltare al maggior numero di persone. Oppure

se si vuole stampare il risultato di un programma al calcolatore è necessario che i dati

raggiungano la stampante. Infine, persino nel caso in cui una sonda asculti il battito

cardiaco di un paziente si pone il problema della trasmissione del segnale: infatti dalla

sonda al macchinario (o al monitor sul quale il medico legge l’elettrocardiogramma) è

necessario un sistema di trasmissione del segnale cardiaco.

La trasmissione di un segnale è quindi uno dei problemi base che bisogna affrontare

quando si studiano i segnali. E’ anche evidente che questo problema non può avere

risposta univoca, dato che gli elementi che entrano in gioco nella trasmissione di un

segnale sono molto differenti tra loro, a seconda del tipo di segnale, della distanza tratrasmettitore e ricevitore, delle caratteristiche vincolanti del progetto, e così via.

4.2. Generalita’ sui Sistemi di Trasmissione

Uno schema molto generico di un sistema di trasmissione, a grandi linee com-

prende sempre i seguenti elementi base:

• un trasmettitore, che comprende tutti gli apparati del sistema di trasmissione;

• un mezzo trasmissivo, che rappresenta il mezzo fisico (con le sue caratteris-

tiche) sul quale l’informazione, sotto forma di una grandezza fisica variabile,

viaggia: ad esempio una tensione su un cavo od un’onda elettromagnetica

nello spazio vuoto;• un ricevitore, che comprende tutti gli apparati atti a ricevere il segnale ed ad

estrarne la parte utile, cioè quella che trasporta il messaggio.

Il trasmettitore ha il compito di fornire potenza al segnale, in modo che questo abbia

ancora una qualità sufficiente ad essere riconosciuto quando giunge al ricevitore. Il

trasmettitore dunque comprende tutti gli apparati necessari a fornire potenza al segnale

4.2. GENERALITA’ SUI SISTEMI DI TRASMISSIONE 118

e, soprattutto, a renderlo compatibile con i tipi di segnale che possono viaggiare su quel

mezzo trasmissivo.

Il ricevitore ha il compito di ricevere il segnale, cioè di prelevarlo dal mezzo

trasmissivo e di estrarne la parte utile, cioè quella che trasporta l’informazione e di

offrirla all’utente nella forma necessaria (ad esempio alle casse di un altoparlante se sitratta di musica).

FIGURA 4. 2.1. Schema a blocchi elementare di un sistema di trasmissione

Il mezzo trasmissivo ha il compito di convogliare l’informazione tra trasmettitore

e ricevitore. A seconda delle sue caratteristiche si modella il tipo di segnale che deve

viaggiare su di esso.I mezzi trasmissivi si dividono in due grandi categorie a seconda del modo con cui

trasportano i segnali:

• mezzi ad onde convogliate (o non dispersivi)

• mezzi ad onde irradiate (o dispersivi)

4.2.1. I mezzi trasmissivi. I mezzi ad onde irradiate sono sostanzialmente l’at-

mosfera o lo spazio vuoto. Tra i due tipi di mezzi non vi è grande differenza, dato

che questo tipo di trasmissione prevede comunque l’irradiazione di onde elettromag-

netiche. Tuttavia nel caso dell’atmosfera vi possono essere interazioni delle onde con

i gas dell’atmosfera, con il vapor d’acqua o con la superficie terrestre (tali interazioni

sono in genere molto complesse e non ci soffermeremo su di esse). La trasmissione peronde elettromagnetiche avviene quindi in modo radiativo, cioè al lato trasmettitore e al

lato ricevitore vi sono due antenne che irradiano potenza sotto forma di onde elettro-

magnetiche. Queste si propagano con una legge che dipende dalla caratteristica radia-

tiva dell’antenna trasmittente (oltre che ovviamente dal mezzo). Il caso più semplice

che si considera è quello di antenne isotrope: la potenza del segnale si distribuisce in

modo uguale in tutte le direzioni dello spazio. Quindi l’onda elettromagnetica viaggia

continuamente sul fronte di una superficie sferica di raggio continuamente crescente.

la sua velocità è pari alla velocità delle onde elettromagnetiche nel vuoto (c, detta

anche velocità della luce ed uguale 2.99792458 · 108 m/s). Ad una distanza R dall’an-

tenna trasmittente la potenza per unità di superficie è:

(4.2.1) P = P T 4πR2

Se quindi il ricevitore si trova a distanza R dal trasmettitore, basta moltiplicare ques-

ta potenza per l’area dell’antenna ricevente per ottenere la potenza in ricezione. In

realtà nel conto precedente si deve considerare l’area efficace, dato che l’area fisica

di un’antenna non corrisponde esattamente all’area che effettivamente si può sfruttare

per trasmettere/ricevere le onde e.m. Se poi l’antenna trasmittente non è isotropa, essaha un certo guadagno di direttività, cioè irradia prevalentemente più potenza in una

direzione piuttosto che in altre. Naturalmente è compito del progettista fare in modo

che la potenza irradiata venga fatta convogliare prevalentemente nella direzione in cui

è posto il ricevitore. L’equazione diventa allora:

(4.2.2) P R = P T · GT AR

sfruttando la relazione che lega area efficace al guadagno d’antenna: Aeff = G · λ2

4π si

(4.2.3) P R = P T · GT GRλ

(4π)2R2

I mezzi ad onde convogliate sono sostanzialmente tutti i sistemi a cavo. Tra questi

vi sono:• doppino in rame

• cavo coassiale

• fibra ottica

• guide d’onda

I mezzi ad onde convogliate trasportano la potenza del segnale sotto forma di segnali di

tensione (o corrente) che viaggiano sul mezzo seguendo leggi fisiche differenti a sec-

onda del tipo di mezzo con cui abbiamo a che fare. Questi tipi di mezzo trasmissivo

non possono essere studiati nello stesso modo dei circuiti a parametri concentrati, dato

che le loro dimensioni fisiche sono in genere molto maggiori della lunghezza d’onda

del segnale che convogliano. Per essi quindi si fa l’ipotesi di mezzo a costanti dis-

tribuite: cioè resistenza, induttanza e capacità sono distribuite uniformemente lungo

la linea. Per l’analisi si suppone che, considerando un tratto infinitesimo di linea, dx,

la sezione esaminata sia a parametri concentrati e si suppone inoltre che la linea sia

uniforme, cioè che questi parametri non varino lungo la linea stessa.

A causa della presenza di elementi dissipativi all’interno di una linea di trasmis-

sione, anche per i mezzi non dispersivi la potenza cala lungo il percorso del mezzo.

In particolare, se si suppongono costanti i parametri caratteristici del mezzo, la poten-

za decresce in modo lineare con la distanza in unità logaritmiche: P R = P T /10αtot .

Cioè la potenza ricevuta si può scrivere come potenza trasmessa meno l’attenuazione

specifica per unità di distanza moltiplicato per la distanza, purchè le potenze vengano

espresse in dB:

(4.2.4) P R = P T − αs · l

Per i conduttori in metallo (ad esempio il rame) l’attenuazione varia anche con la fre-

quenza d’utilizzo (a causa dell’effetto pelle):

(4.2.5) αs = αr ·

dove αr è l’attenuazione ad una frequenza di riferimento f r (le attenuazioni sono

misurate in dB).

Nella tabella sono riportate le caratteristiche salienti dei più comuni mezzi trasmis-

Mezzo Caratteristica Variazione dell’ attenuazione con

la distanza

Banda d’utilizzo

Vuoto dispersivo 1/R2 passa banda

Atmosfera dispersivo complessa ∼ 1/R2 passa banda

doppino,cavo coassiale non dispersivo esponenziale passa basso

Fibra ottica non dispersivo esponenziale passa banda

Nell’ultima colonna è stata anche riportata una delle caratteristiche fondamentali dei

mezzi trasmissivi: cioè qual è la loro banda prevalente d’utilizzo, cioè la banda di

frequenze dove essi esibiscono una minore attenuazione (per fare in modo da dover

utilizzare meno potenza per lo stesso segnale). I mezzi dispersivi sono ovviamente

passa banda (le onde elettromagnetiche hanno necessità di oscillare e quindi di avere

frequenza non nulla per potersi propagare). I mezzi metallici sono prevalentemente

passa basso a causa dell’effetto pelle visto precedentemente: infatti all’aumentare della

frequenza essi esibiscono una attenuazione sempre maggiore (che cresce esponenzial-

mente). Infine le fibre ottiche sono così dette a causa del loro migliore comportamento

(un’attenuazione specifica di circa 0.2 dB per Km) alle frequenze ottiche (nell’ordine

del migliaio di T Hz ).

4.2.2. Equalizzazione dei mezzi trasmissivi. Dalla rapida analisi dei mezzi trasmis-

sivi non è però emerso qual è lo scopo fondamentale di un mezzo trasmissivo: quello

di convogliare l’informazione in modo da lasciarla immutata.

Dato in ingresso ad un mezzo trasmissivo ideale un segnale s(t), al più ci aspetti-

amo che il segnale di uscita si sia attenuato (ed è inevitabile) e ritardato (a causa dellavelocità di propagazione finita). La forma del segnale di uscita è quindi

(4.2.6) k · s(t− to)

a cui corrisponde una funzione di trasferimento pari a:

(4.2.7) H (f ) = k · e− jωto

Il mezzo trasmissivo ideale ha quindi ampiezza costante dello spettro e fase che varia

linearmente. Si può parlare di funzione di trasferimento del mezzo trasmissivo ideale

perchè si suppone che esso sia lineare e che le sue caratteristiche non variano nel tempo

(tempo-invariante).

I mezzi reali tuttavia si discostano molto dal comportamento ideale. Prima di tutto

essi sono solo approssimatamente lineari (o lo sono solo per un determinato range

di ampiezze del segnale), le loro caratteristiche variano nel tempo a causa di molte

condizioni esterne (quindi sono lentamente tempo varianti), infine la loro funzione di

trasferimento (ricavabile con le approssimazioni di linearità e tempo invarianza) non è

quella del mezzo ideale.

La prima operazione che si effettua in ricezione è allora l’equalizzazione del mez-zo trasmissivo. Detta H t(f ) la funzione di trasferimento del mezzo (ricavabile con

le approssimazioni viste), l’equalizzazione è un filtraggio effettuato per compensare

l’effetto del mezzo trasmissivo:

(4.2.8) H eq(f ) = k · e− jωto

H t(f )

Naturalmente, affinchè si possa effettuare un’equalizzazione del mezzo è necessario

che il mezzo trasmissivo sia lineare, tempo invariante (una lenta tempo varianza è

ammessa, purchè in ricezione l’equalizzazione si possa adattare a questa tempo vari-

anza) e che si conosca il comportamento in frequenza del mezzo, cioè la H t(f ).

Se il mezzo è non lineare compaiono termini armonici “spuri”, anche dove il seg-

nale non ha componenti spettrali (distorsione non lineare). Le componenti spettrali

spurie possono essere filtrate, sempre che esse siano all’esterno della banda del seg-

nale, altrimenti non è più possibile distinguerle dal segnale stesso in uscita dal mezzo

4.3. TRASMISSIONE ANALOGICA E NUMERICA 122

trasmissivo. Inoltre, poichè una non linearità si può sempre approssimare con uno

sviluppo in serie di Taylor di ordine opportunamente elevato, può essere istruttivo

vedere cosa accade quando un segnale passa attraverso un semplice quadratore, la più

semplice delle non linearità. Questo dispositivo non lineare effettua il quadrato del

segnale che gli proviene all’ingresso: Y = X 2. Ad un prodotto nei tempi corrispondeuna convoluzione nelle frequenze: Y (f ) = X (f ) ∗X (f ), con conseguente raddoppio

della banda del segnale e mescolamento delle componenti armoniche.

Si ricordi infine che un mezzo trasmissivo reale introduce sempre una qualche

forma di disturbo sul segnale immesso. In ricezione dunque, oltre al segnale (distorto

o modificato dal mezzo) saranno sempre presenti una serie di segnali indesiderati,

legati in modo più o meno complesso all’informazione. A tali tipi di disturbo si dà il

nome generico di rumore.

4.3. Trasmissione Analogica e Numerica

Una prima grande distinzione tra i sistemi di trasmissione si ha a seconda delsegnale che si vuole trasmettere: se il segnale è analogico o se il segnale è numerico.

La trasmissione numerica è da anni diventata più popolare e conveniente della

trasmisione analogica per più motivi. Il motivo fondamentale sta nel fatto che nella

trasmissione numerica la struttura del trasmettitore/ricevitore non cambia al variare

del segnale che si codifica o della sequenza di simboli che si devono trasmettere; al

contrario nella trasmissione analogica il sistema varia a seconda delle caratteristiche

del segnale. Inoltre nella trasmissione numerica si riesce a controllare con maggior

precisione l’entità dei disturbi che inevitabilmente influenzano il segnale durante la

trasmissione. La trasmissione numerica inoltre permette un risparmio di potenza a

parità di informazione convogliata o, equivalentemente, una maggiore informazione

a parità di potenza in trasmissione. La trasmissione numerica, rispetto all’analogica,

tuttavia, richiede uno schema di trasmissione/ricezione più complesso; si tenga conto

però che gli schemi di trasmissione numerica sono standardizzati ormai da anni e in

commercio esistono apparati economici per le più svariate esigenze e soluzioni.

Dalla rapida analisi dei mezzi di trasmissione fatta precedentemente è emersa una

caratteristica importante: i mezzi di trasmissione sono intrinsecamente analogici: cioè

non è possibile trasmettere su di essi dei segnali di tipo discreto, nè tanto meno numeri.

Allora che cosa significa fare la distinzione tra trasmissione analogica e trasmissione

numerica ?

Nella trasmissione analogica l’informazione che si trasmette è la forma del segnale

stesso, così come questo è generato sul lato del trasmettitore (ad esempio un segnale

musicale generato da uno strumento).

Nella trasmissione numerica invece si effettuano una serie di operazioni sul segnale

sino a codificarlo in una serie di simboli. Una volta che sono stati ottenuti i simboli

si effettua la trasmissione di forme d’onda analogiche (perchè altro non può essere),

ma che, a differenza del caso precedente, sono rappresentative dei simboli codificati e

non della forma d’onda originaria. Addirittura è possibile che il segnale analogico di

4.4. IL CAMPIONAMENTO 123

partenza non esista affatto: si pensi al caso della trasmissione di dati da un computer

ad una stampante, dove i simboli da trasmettere sono una sequenza di zeri e di uno.

Ritornando tuttavia al caso in cui si voglia trasmettere in modo numerico un seg-

nale analogico, è necessario fare su di esso una serie di operazioni per renderlo numeri-

co. Queste operazioni naturalmente devono avere la caratteristica di essere invertibili:cioè al lato del ricevitore deve essere possibile tornare indietro, in modo da avere a

disposizione nuovamente il segnale originario o comunque qualcosa che gli assomigli

abbastanza per l’utilizzo a cui è destinato.

Le tre operazioni che si effettuano al lato trasmittente per rendere numerico un seg-

nale analogico sono, nell’ordine, il filtraggio, il campionamento e la quantizzazione.

Cominciamo con l’analizzare il campionamento.

4.4. Il Campionamento

Dato un segnale analogico l’operazione di campionamento consiste nell’estrarre

una serie di campioni, cioè i valori del segnale in posizioni equispaziate (anche se

esistono casi di campionamento a passo non costante). Dall’operazione di campiona-

mento si ha cioè una serie di numeri reali che rappresentano i campioni del segnale. In

figura 4.4.1 è illustrata l’estrazione dei campioni dal segnale analogico s(t).

FIGURA 4. 4.1 . Campionamento di un segnale

Quando il campionamento avviene a passo regolare (e ciò accade nella stragrande

maggioranza dei casi), il passo di campionamento T rappresenta l’intervallo con cui

si spaziano i campioni, mentre è detta frequenza di campionamento il reciproco di T :f c = 1/T . Intuitivamente si può già capire che aumentando il numero di campioni

e quindi diminuendo il passo di campionamento, migliora la descrizione del segnale

analogico. Al limite con T → 0 avremmo una descrizione perfetta del segnale di

partenza. In una situazione del genere naturalmente non saremmo però in grado di

gestire i campioni del segnale, dato che, anche per un intervallo di tempo piccolo,

avremmo un numero infinito di campioni. Si tratta allora di stabilire quale può essere

il passo di campionamento più grande che si può utilizzare senza perdere informazione

del segnale, per fare in modo, cioè, che esso possa essere ricostruito a partire dai suoi

campioni.

Cominciamo allora a dare una descrizione matematica del campionamento. Una

delle proprietà dell’impulso, come si è avuto modo di vedere, è quella di “estrarre” un

campione del segnale, quando è applicato nella posizione di estrazione:

(4.4.1) s(t) δ (t− τ ) = s(τ ) δ (t− τ )

Infatti la relazione precedente, sebbene più corretta sotto il segno di integrale, ci dice

che se moltiplichiamo un impulso in τ per il segnale s(t), otteniamo un impulso di

area s(τ

) nella stessa posizione.Dato allora un segnale s(t), il segnale campionato a passo T , sc(t), ha la seguente

rappresentazione:

(4.4.2) sc(t) = s(t) ·+∞Xn=−∞

δ (t− nT )

cioè una sequenza di impulsi equispaziati di area pari all’ampiezza del segnale nelleposizioni nT . Proviamo ad effettuare la trasformata di Fourier del segnale campionato.

S c(f ) = = sc(t) = S (f ) ? =

( +∞Xn=−∞

δ (t− nT )

(4.4.3) = S (f ) ? 1

Xk=−∞

δ (f − k

Xk=−∞

S (f − k

Lo spettro del segnale campionato è la somma di tutte le repliche, a passo 1/T , dello

spettro del segnale di partenza; le repliche vanno da −∞ a +∞. Una rappresentazione

dello spettro di un segnale campionato è riportata in figura 4.4.2.

cS (f)

f c f c2−f

FIGURA 4. 4.2. Spettro del segnale di partenza e della sua versione campionata

Da questa semplice osservazione si può immediatamente dedurre qual è la con-

dizione sufficiente affinchè un segnale campionato possa essere ricostruito, cioè si

possano ottenere dai campioni il segnale di partenza analogico. La condizione da

verificare è che la banda unilatera del segnale sia inferiore a metà della frequen-za di campionamento, oppure che la banda bilatera sia inferiore alla frequenza di

campionamento:

(4.4.4) 2Bs ≤ f c

Bt ≤ f c

La metà della frequenza di campionamento è detta frequenza di Nyquist. Lo spettro

di un segnale campionato esiste quindi solo all’interno dell’intervallo [−f c/2, f c/2],

poi si ripete periodicamente uguale a sè stesso. Se la condizione precedente non è ver-

ificata il segnale di partenza non può essere più ricostruito poichè le repliche spettrali

si sovrappongono in modo tale da non poter essere più distinte tra loro. In tal caso

si dice che il segnale è stato aliasato o che lo spettro del segnale campionato presenta

aliasing (equivocazione). Si veda a tale proposito la figura 4.4.3.

aliasing

cS (f)

−f c f c 2f c

FIGURA 4. 4.3 . Spettro del segnale di partenza e della sua versione

campionata in presenza di alias

Dato un segnale analogico si supponga di volerlo trasmettere in forma numerica. Il

primo problema che ci dobbiamo porre è: a quale frequenza lo devo campionare ? E’

infatti molto probabile che lo spettro del segnale non sia limitato come negli esempi.

A rigore quindi la frequenza di campionamento dovrebbe essere infinita. In realtà,

sulla base di considerazioni energetiche, si riesce comunque a stabilire una frequenza

di campionamento.

Ad esempio il segnale vocale è compreso in una banda che va da circa 20 Hz a

circa 20 K Hz . Quindi se si sceglie una frequenza di campionamento di, per esem-

pio, 50 K Hz , si è sicuri di non commettere equivocazione sullo spettro del segnale

campionato.

Un modo per evitare sicuramente aliasing è quello di filtrare il segnale prima di

campionarlo. Facendo passare il segnale attraverso un filtro passa basso di banda B ,

si è sicuri che tutte le frequenze al di là di B sono state abbattute. Successivamente il

segnale può essere campionato ad una qualunque frequenza purchè questa sia ≥ 2B.

Si supponga ora che il segnale numerico sia arrivato al ricevitore il quale si pone

il problema di riottenere il segnale analogico dai campioni di partenza. A questa oper-

azione è dato il nome di ricostruzione del segnale analogico. Se si osserva la figura,

la cosa più ovvia è quella di filtrare via, dallo spettro del segnale campionato, tutte

le repliche spettrali che non fanno parte dello spettro del segnale di partenza. A tale

proposito, per manterere inalterato lo spettro del segnale di partenza, si usa il filtro

passa basso ideale (cioè un rettangolo di ampiezza 1) di banda f c/2 (vedi in figura

4.4.4).

il valore che assume la somma dei prodotti che si ottengono moltiplicando i campioni

del segnale per la funzione seno cardinale centrata in ciascuno dei campioni. Poichè

inotre la funzione seno cardinale è pari, la formula precedente può anche essere scritta

sr(t) = 1

+∞Xn=−∞

s(nT ) · sinc(nT − t

il cui significato può anche essere inteso nel modo seguente: il segnale ricostruito nella

posizione generica t si ottiene come somma dei prodotti tra i campioni e il valore che

assume la funzione seno cardinale nelle posizioni di campionamento quando questa è

posta in t. Entrambe le interpretazioni sono riassunte in figura 4.4.5.

s(−1)

s(−2)

s(−3)

−0.52 4−2−4

−0.5

−4 −2 0 2−1

FIGURA 4.4. 5. Rappresentazione grafica della ricostruzione delsegnale analogico a partire dai suoi campioni

La casistica e le difficoltà nel campionamento di un segnale analogico non si esauriscono

qui: infatti si è considerato solo il caso più semplice di segnale di partenza con banda

concentrata dalla frequenza zero sino ad un certo valore massimo (segnale passa bas-

so). Nel caso di segnali passa banda le cose sono leggermente differenti, anche se il

teorema del campionamento continua a valere.

Infine si osservi che, a rigore, un campionamento perfetto è impossibile dato che

dovrebbe esistere un sistema in grado di “estrarre” l’informazione del segnale in una

posizione istantanea. La maggior parte dei campionatori funziona approssimando il

comportamento sopra descritto: l’istante di campionamento diventa in realtà un pe-

riodo di osservazione del segnale, durante il quale si effettua una sorta di media del

segnale stesso. Se questo periodo è molto più piccolo del periodo di campionamento

si può ritenere corretta l’approssimazione di campionamento ideale. In figura 4.4.6 è

mostrato un campionamento reale.

4.5. LA QUANTIZZAZIONE 129

FIGURA 4.4 .6. Campionamento reale

Un campionamento reale si può sempre schematizzare quindi come un campionamento

ideale preceduto da un filtro la cui risposta all’impulso è il rettangolo alto 1 e di durata

τ , con τ T . Poichè la trasformata di questo rettangolo è un sinc con il primo zero

in 1/τ , l’effetto di un campionamento reale è quello di fare leggero un filtraggio passa

basso del segnale prima di campionarlo.

4.5. La Quantizzazione

Dopo il campionamento si ha la serie di campioni del segnale. Questi altro non

sono che numeri reali, e quindi come tali, non rappresentabili su calcolatore o in

un sistema a logica digitale. L’operazione successiva al campionamento è la quan-

tizzazione. La quantizzazione consiste nel trasformare un numero reale in un altro

numero, scelto con un certo criterio, tra un certo insieme finito di valori. Poichè in-

fatti l’aritmetica del calcolatore è finita, essa è in grado di descrivere solo numeri con

una precisione finita. E’ necessario allora trasformare il numero reale estratto dal

campionatore in un numero a precisione finita, tra un certo insieme di valori possibili.

Da qui si capisce bene che la quantizzazione è un’operazione irreversibile: infatti

una volta trasformato, il numero reale non può più essere ricostruito con precisione, da-

to che la sua informazione è perduta per sempre. Naturalmente la trasmissione numeri-

ca è possibile e funziona perchè la quantizzazione viene fatta con criterio. Cominciamo

con l’analizzare quindi gli elementi della quantizzazione.

Il principio su cui si basa la quantizzazione è il seguente: se i campioni del segnale

si quantizzano con un numero sufficiente di livelli (i possibili valori che il campione

può assumere), allora l’effetto di perdita che si ha a causa dell’irreversibilità della

quantizzazione è accettabile. Naturalmente si tratta di mettere in relazione questo

effetto di perdita con il numero di livelli e con le caratteristiche del segnale se si vuole

quantificare l’effetto distorsivo della quantizzazione.

La quantizzazione è caratterizzata dalla massima escursione dei campioni del seg-

nale (o dinamica) e dal numero di livelli con i quali si vuole effettuare la quantizzazione

stessa. Poichè la quantizzazione è legata sempre all’elaborazione del segnale all’inter-

no di sistemi a logica binaria, è conveniente quantizzare con un numero di livelli pari

ad una potenza del due: infatti in questo modo è possibile descrivere un campione

come una sequenza di bit sempre della stessa lunghezza. Se ad esempio decidiamo di

descrivere un campione con 8 bit, non ha senso utilizzare, ad esempio, solo 180 livel-

li per descrivere il segnale: sarebbe meglio utilizzarne il numero massimo consentito

dal numero di bit utilizzato (28 = 256). In questo modo usiamo comunque 8 bit per

descrivere i singoli campioni, e allo stesso tempo la descrizione del campione risulterà

più precisa.La cosa più logica da fare quando si effettua la descrizione del campione con i

livelli, è quella di approssimarlo con il livello più vicino, in modo da minimizzare

l’errore che inevitabilmente si commette nel quantizzare un segnale. In figura 4.5.1 è

risportato lo schema generale della quantizzazione

dinamica

FIGURA 4.5.1. Schema della quantizzazione

I livelli sono codificati con una sequenza di bit scelta opportunamente. Ad esempio si

può decidere di partire dal livello più basso numerandolo come livello 0 e di giungere

a quello più alto che avrà valore 2n − 1. Quindi i bit assegnati ai singoli livelli altro

non sono che la trasformazione binaria dei numeri assegnati ai livelli. Tale tipo di

corrispondenza, almeno teoricamente, è puramente convenzionale, ma in realtà per

motivi di convenienza si effettuano sempre e solo alcuni tipi di trasformazione, poichè

questi permettono, in fase di ricezione, una più veloce ricostruzione del livello da

assegnare al campione.

Anche la dinamica del segnale e la sua statistica ha la sua influenza sulla scelta

del numero di livelli e sulla dimensione del salto. Infatti si supponga di avere a che

fare con un segnale che per la maggior parte del tempo si mantiene a valori bassi

e che saltuariamente presenta picchi elevati. Se si volesse quantizzare tale segnale,

cercando di descrivere anche i picchi più alti, si perderebbe inevitabilmente parte della

precisione nel descrivere il segnale quando questo presenta livelli bassi. Meglio in

tale situazione rinunciare alla descrizione del segnale quando salta e descrivere con

più precisione la dinamica che il segnale occupa per la maggior parte del tempo. I

picchi saranno descritti con il livello massimo del segnale, e quindi una volta ricostruiti

risulteranno “mozzati”. Tale effetto è noto con il nome di saturazione.

Si supponga ora di avere a che fare con un processo aleatorio e stazionario, a media

nulla. Il campionamento di una delle sue realizzazioni dà luogo, per ogni campione,

ad una variabile aleatoria, la cui densità di probabilità sia f (x). Si supponga inoltre

che la dinamica della variabile aleatoria sia [−a, a]. Detto allora Q il numero di livelli,

l’ampiezza del quanto o intervallino di quantizzazione è:

(4.5.1) ∆ = 2a

I bordi degli intervallini si trovano in xi = −a + i · ∆, i = 0,...,Q, mentre i singoli

livelli hanno valore:

(4.5.2) xq = xi + xi−1

= −a + i ·∆−∆

i = 1,...,Q

In questo modo minimizzo l’errore di quantizzazione, dato che, ponendo il livello a

metà tra due salti l’errore di quantizzazione massimo si commette se al più il campione

ha un valore pari ad uno dei bordi. In questo caso estremo l’errore di quantizzazione è

pari a metà livello: ∆2

Per rendere quantitativo l’effetto “distorcitivo” della quantizzazione è possibile

misurare l’errore quadratico medio che si commette nello scegliere i livelli di quan-

tizzazione piuttosto che il valore dei campioni (l’errore medio ci si aspetta sia nullo,

dato che c’è pari probabilità del campione di presentarsi poco più sopra o poco più

sotto del livello):

N q = E

(x− xq)2

Z +a−a

(x− xq)2f (x)dx =

Z xixi−1

(x− xq)2f (x)dx =

A questo punto la risoluzione dell’integrale si può effettuare solo se si conosce la sta-

tistica del processo. Una delle ipotesi semplificatrici che si fa molte volte è quella di

supporre la statistica del segnale uniforme sulla dinamica considerata. Cioè si suppone

f (x) una v.a. uniforme nell’intervallo [−a, a]:

f (x) =

12a x ∈ [−a, a]0 altrove

N q =QXi=1

Z −a+i∆

−a+(i−1)∆

(x + a− i∆ +∆

2adx =

(4.5.3) =

Z +∆/2

−∆/2

2ady =

Questa quantità va confrontata con la potenza del segnale, dato che, essendo un dis-

turbo, esso è più o meno forte a seconda del livello di potenza che il segnale possiede

(non ha senso chiedersi il livello di un disturbo se non lo si confronta con il livello del

segnale disturbato):

(4.5.4) S x =

Z +a−a

2adx =

Poichè risulta: a = Q∆2 , allora S x = Q2∆2

12 . Il rapporto tra la potenza del segnale e

il valore quadratico medio dell’errore di quantizzazione è detto rapporto segnale ru-

more di quantizzazione e vale:

(4.5.5) S xN q

é uguale quindi al quadrato del numero di intervalli. Questo conferma quanto già

qualitativamente si era intuito: aumentando il numero di intervalli la descrizione dei

campioni del segnale avviene sempre più precisamente. Se poi il numero di intervalli

è una potenza del due il rapporto segnale rumore di quantizzazione vale: S xN q

= 22n,

che espresso in dB è:

= 10 log10 22n ' 6.02 · n dB

Il rapporto segnale rumore aumenta in conclusione di circa 6dB per ogni bit di quan-

tizzazione in più.

4.5.1. Quantizzazione non lineare. Per il calcolo del rapporto segnale rumore di

quantizzazione si è supposto precedentemente che la statistica del processo sia uni-

forme nella dinamica in cui si suppongono presenti i campioni del segnale. Tuttavia

questo normalmente non è vero. Si pone quindi il problema di trovare il rappor-

to segnale rumore nel caso generale, e, ancora prima, di verificare se il metodo di

quantizzazione proposto è l’ottimale.

Si supponga di avere un processo a media nulla e con una densità di probabilità

molto concentrata attorno all’origine, come potrebbe essere ad esempio un processo

gaussiano con varianza molto piccola. In tal caso le singole realizzazioni del pro-

cesso, pur potendo in linea teorica avere una dinamica molto elevata, nella maggior

parte del tempo non si discosteranno in modo significativo dallo zero. Per le realiz-

zazioni (e quindi per i campioni) di quel processo, è più probabile un valore piccolo

che uno grande. Si tenga inoltre conto che, essendo il processo un processo gaus-

siano, la dinamica del segnale è infinita, il segnale cioè può avere una escursione an-

che estremamente grande, sebbene questo evento ha una probabilità molto remota di

accadere.

Si tratta allora di trovare qual è la quantizzazione ottima per questo tipo di proces-so, dove l’ottimo sta nella massimizzazione del rapporto segnale rumore di quantiz-

zazione.

Quando si quantizzano i campioni di questo processo necessariamente si dovrà

scegliere una dinamica finita entro cui far variare il processo, pur essendo questo a

dinamica teoricamente infinita. La descrizione che daremo del processo è una de-

scrizione in qualche modo “mozzata”: quando il campione assume cioè un valore che

è maggiore del valore della dinamica scelta, esso viene posto pari al valore massimo.

Questa descrizione è ragionevole, purchè questo evento sia molto remoto.

Per un processo gaussiano per esempio possiamo porre la dinamica pari a 3 volte la

deviazione standard, dato che un processo con densità di probabilità gaussiana ha una

probabilità di superare in escursione 3σ pari ad appena lo 0.03%. Scelta la dinamicasi devono scegliere il numero di livelli. Questa normalmente è una scelta legata alle

caratteristiche dell’hardware, ed è quindi limitata da altre considerazioni (il numero di

bit del sistema che effettua la transizione analogico-digitale).

FIGURA 4. 5. 2. Confronto tra una quantizzazione lineare ed una non lineare

Infine si deve decidere come dividere la dinamica tra i vari livelli. Infatti finora

si è implicitamente supposto che la dinamica sia divisa equamente tra i vari livelli,

ma questa è solo una possibilità. Un’altra possibilità sta nel dividere i livelli in mo-

do da assegnare livelli più piccoli dove il segnale è più probabile. In questo modo

la descrizione dei campioni che più probabilmente occorrono è più precisa, mentre la

descrizione dei campioni più rari perde di precisione. Complessivamente però ques-

ta quantizzazione, detta non lineare, risulta vantaggiosa e permette di migliorare il

rapporto segnale rumore di quantizzazione.

4.6. IL CANALE BINARIO 134

Più precisamente la divisione tra livelli si fa in modo tale da suddividere l’escur-

sione della dinamica in intervalli che contengano la stessa area della funzione densità

di probabilità. Dove la densità di probabilità risulta elevata (evento più probabile) sarà

necessaria una suddivisione più fine e quindi livelli più piccoli; al contrario dove la

densità di probabilità è più bassa livelli più ampi (vedi in figura 4.5.3 l’esempio peruna gaussiana).

−8 −6 −4 −2 0 2 4 60

FIGURA 4. 5. 3. Quantizzazione non lineare di un processo gaussiano

4.6. Il Canale Binario

In un sistema di trasmissione numerico, i vari blocchi funzionali introdotti (fil-

traggio, campionamento, quantizzazione) servono a generare bit, che poi sono l’in-

formazione che si trasmette. Generalizzando questo concetto potremmo dire che in

un sistema di trasmissione numerico sono generati N differenti simboli, mentre al

ricevitore ne giungono M (vedi figura 4.6.1).

P(b R/a T)1

FIGURA 4.6. 1. Schematizzazione della trasmissione numerica

Se il canale fosse senza errori, avremmo N = M ed inoltre, alla trasmissione di aiavremmo la ricezione con probabilità 1 di bi: P (biR/aiT ) = 1 e P (biR/a jT ) = 0 se

j 6= i. In un canale ideale l’alfabeto dei simboli in ingresso è uguale in numero a quello

dei simboli in uscita, dato che il canale non introduce equivocazione e quindi non c’è

possibilità di scambiare un simbolo per un altro o di dover introdurre altri simboli per

indicare situazioni indecidibili (simboli di “cancellazione”).

Se il numero di simboli trasmessi e ricevuti è pari a due, allora il sistema si sem-

plifica e si ha il canale binario (figura 4.6.2). Nel canale binario ideale si suppone di

avere due soli simboli in ingresso (che possono essere lo 0 e l’1) e due soli simboli in

uscita.

FIGURA 4.6 .2. Canale binario ideale

Senza perdere di generalità si può supporre che a0 = 0 e a1 = 1, inoltre che b0 = 0 e

b1 = 1. Le probabilità di trasmissione corretta o errata sono quindi:

(4.6.1)

q 0 = P (0R/0T )q 1 = P (1R/1T )

p0 = P (1R/0T ) p1 = P (0R/1T )

Le probabilità di errore, dette anche probabilità di transizione, si devono supporre

genericamente differenti. Inoltre i simboli in trasmissione sono emessi con proba-

bilità pari a: P (0T ) = P 0 e P (1T ) = P 1. Il canale si dice binario e simmetrico

quando la probabilità d’errore è uguale, cioè non fa distizioni tra i simboli trasmessi:

p0 = p1 = p. Poichè ogni simbolo trasmesso può essere ricevuto in uno di due modi

possibili, si ha:

(4.6.2)

q 0 + p0 = 1q 1 + p1 = 1

Per un canale binario la probabilità d’errore è la probabilità che, trasmesso un simbolo,

il simbolo ricevuto sia differente:

P (E ) = P (E

\0T ) + P (E

\1T ) = P (E/0T ) · P (0T ) + P (E/1T ) · P (1T ) =

(4.6.3) = P (1R/0T ) · P (0T ) + P (0R/1T ) · P (1T ) = p0P 0 + p1P 1

Se il canale è simmetrico si ha:

(4.6.4) P (E ) = p(P 0 + P 1) = p

Vediamo invece quali sono le probabilità di ricevere i due simboli:

(4.6.5) P (0R) = P (0R/0T ) · P (0T ) + P (0R/1T ) · P (1T ) = q 0P 0 + p1P 1

(4.6.6) P (1R) = P (1R/0T ) · P (0T ) + P (1R/1T ) · P (1T ) = p0P 0 + q 1P 1

L’errore sul canale binario può essere abbassato ricorrendo in trasmissione ad alcuni

accorgimenti, che consistono generalmente nel modificare il bit trasmesso (o una se-

quenza di bit) in modo che questo risulti meno “equivocabile” con l’altro simbolo. A

tale sistema si dà il nome generico di codifica di sorgente. Lo schema di un sistema di

trasmissione numerico può quindi riassumersi nella figura 4.6.3, dove ad ogni blocco

funzionale in trasmissione ne corrisponde uno in ricezione.Per sorgente si suppone un qualche sistema che emetta bit, comunque questi siano

stati generati (campionando e quantizzando un segnale analogico o da un generatore

di dati binari come potrebbe essere la porta di un calcolatore). La codifica di sorgente

è, come già detto, un qualche sistema che dato un certo numero di bit, decide quale

sequenza di bit o quale simbolo trasmettere. Il suo scopo è di rendere minimo l’errore

di trasmissione senza rendere troppo complessa l’implementazione. Infine la codifica

di canale è l’insieme di sistemi che, presi i singoli simboli, ne associano la forma

d’onda corrispondente da mandare nel mezzo trasmissivo. In ricezione si fanno le

operazioni contrarie sino ad ottenere l’informazione trasmessa.

sorgenteS RCodifica di

sorgente canaleCodifica di

Canale Decodifica di

canaleDecodifica di

FIGURA 4.6. 3. Schema a blocchi di una trasmissione numerica

In figura è stato quadrettata la parte che riguarda direttamente un canale binario:

per un canale binario la complessità che sta dietro la trasmissione attraverso il mezzo

trasmissivo è nascosta, dato che esso vede solo bit trasmessi e ricevuti.

4.6.1. Codice a ripetizione. Tra i vari metodi di codifica di sorgente vi è quello

della codifica a ripetizione. Supponiamo di avere un canale binario simmetrico. Per

ogni bit emesso dalla sorgente, nel canale sono trasmessi 2n + 1 bit. La velocità

di trasmissione è evidentemente ridotta di un fattore 2n + 1, tuttavia anche l’errore è

notevolmente minimizzato, dato che il ricevitore lavorerà a maggioranza: esso attende

i 2n + 1 bit e poi decide il simbolo in base a quello che in questa sequenza si presenta

più spesso. la probabilità di sbagliare è la probabilità che nella sequenza siano stati

sbagliati almeno n + 1 bit tra i 2n + 1 trasmessi.

Esempio: sequenza da trasmettere: 0 1 1 0 1, sequenza effettivamente trasmes-

sa con n = 1: 000 111 111 000 111.La sequenza di bit in ricezione si può vedere come un processo di Bernoulli, dato

che i simboli arrivano indipedentemente uno dall’altro e possono assumere solo due

valori (0 e 1). In realtà una certa dipendenza statistica c’è, dato che 2n + 1 bit dovreb-

bero avere lo stesso valore. Tuttavia la presenza del rumore sul canale rende del tutto

casuale il valore che il bit assumerà in ricezione.

La probabilità di errore su un bit è allora la probabilità che siano stati sbagliati o

n + 1 bit, oppure n + 2 bit, e così via sino a 2n + 1:

(4.6.7) P (E 1) =2n+1Xk=n+1

2n + 1

pk(1− p)2n+1−k

4.6.2. Codice a controllo di parità. Nel codice a controllo di parità il codificatore

di sorgente aspetta di ricevere n− 1 bit per trasmetterne n: esso cioè ne aggiunge solo

uno in più, diminuendo la velocità di trasmissione di n/(n− 1). La regola con cui tale

bit è aggiunto è la seguente: se il numero di bit pari ad 1 nella sequenza lunga n − 1è dispari, si aggiunge un 1, in modo da renderlo pari, altrimenti si aggiunge uno zero.

Questa codifica è detta a parità pari, dato che assicura sempre un numero di 1 pari

nella sequenza di n bit. L’alternativa consiste nell’avere un numero sempre dispari di

1 nella sequenza di n bit ed è chiamata parità dispari.

Ad esempio sia n = 7 e si abbia la sequenza: 0011010. Se vogliamo trasmettere a

parità pari dovremo trasmettere la sequenza: 00110101. Supponiamo ora che durante

la trasmissione sul mezzo l’errore sia avvenuto su un solo bit, ad esempio il terzo:

00010101. In ricezione ci si accorge dell’errore, dato che il ricevitore aspetta la se-

quenza di n bit per verificare se il numero di 1 è pari (per poi scartare l’ultimo bit che

serve solo da controllo e non rappresenta informazione). Tuttavia questo sistema è un

sistema di rivelazione e non correzione dell’errore, dato che, dopo la scoperta dell’er-

rore il ricevitore non è in grado di stabilire quale tra i bit trasmessi è errato. A questo

punto però ha varie alternative: richiesta di trasmissione, scartare la sequenza, e così

via. L’errore inoltre si scopre solo perchè nella sequenza è stato sbagliato un solo bit

(o in generale un numero dispari). Se i bit sbagliati fossero stati due (o in generale un

numero pari) il ricevitore non è in grado di stabilire nemmeno che c’è un errore, nello

stesso modo in cui nel codice a ripetizione se l’errore avviene su un numero sufficiente

di bit il ricevitore equivoca il simbolo trasmesso.

Tuttavia il sistema di codifica a parità funziona molto bene dato che normalmente

l’errore di trasmissione su singolo bit è molto minore di 1. Questo comporta che a

fronte di un sistema di codifica molto semplice ed efficiente l’errore su più di un bit in

una sequenza è un evento molto più remoto dell’errore sul singolo bit.

La probabilità che l’errore non sia rivelato dal ricevitore è la probabilità che il nu-mero di errori sui singoli bit sia pari. Supponendo n pari si ha:

(4.6.8) P (Er) =

n/2Xk=1

p2k(1− p)n−2k

Se il numero di errori è dispari invece il ricevitore può chiedere la ritrasmissione.

Questo evento ha probabilità di accadere pari a:

(4.6.9) P (Rt) =

n/2Xk=1

2k − 1

p2k−1(1− p)n−2k+1

Infine la probabilità che la trasmissione sia corretta è:

(4.6.10) P (C ) = (1− p)n

Poichè possono risultare solo una di quste tre alternative, si ha: P (Er) + P (Rt) +

P (C ) = 1. Le politiche di decisione a questo punto possono essere varie: ad esempioil ricevitore può chiedere la ritrasmissione sino a che non riceve una sequenza corretta

(o meglio una sequenza in cui esso non riesce a rivelare l’errore), oppure può richiedere

la ritrasmissione solo per un numero di volte fissato e poi scartare la sequenza se questa

è ancora corrotta, o non richiedere affatto la ritrasmissione.

Facciamo l’esempio in cui il ricevitore richiede continuamente la ritrasmissione,

sino a che non rivela più errore. In tal caso l’errore totale può capitare se, in prima

trasmissione il ricevitore non si accorge della sequenza corrotta, oppure se, accorgen-

dosi della sequenza corrotta in prima trasmissione, richiede la trasmissione e non si

accorge della sequenza corrotta in seconda trasmissione, o se le prime due trasmis-

sioni sono corrotte in modo che il ricevitore se ne accorga e la terza è corrotta in modo

che non se ne accorga e così via. Quindi l’errore è l’unione di tutti questi eventi, datoche questi possibili eventi sono tra loro disgiunti. La probabilità d’errore totale è quin-

P (E ) = P (Er) + P (Rt)P (Er) + P (Rt)2P (Er) + ... =

(4.6.11) = P (Er) ·∞

P (Rt)k = P (Er)

1− P (Rt)

A questo punto anche il numero di ritrasmissioni che si possono richiedere è una vari-

abile casuale. Infatti il numero di ritrasmissioni è zero se la sequenza è corretta o se

il ricevitore non è in grado di accorgersi dell’errore, è uno se in prima trasmissione ci

si accorge dell’errore ma in seconda trasmissione no (oppure non c’è affatto) e così via:

(4.6.12)

P (nR = 0) = P (Er) + P (C ) = 1− P (Rt)P (nR = 1) = P (Rt) · (1− P (Rt))P (nR = 2) = P (Rt)2 · (1− P (Rt))

P (nR = k) = P (Rt)k · (1− P (Rt))

Il numero medio di ritrasmissioni è allora:

E [nR] =∞Xk=0

k · P (nR = k) =∞Xk=0

k · P (Rt)k · (1− P (Rt)) =

= (1− P (Rt)) · P (Rt) ·∞Xk=1

k · P (Rt)k−1 = (1− P (Rt)) · P (Rt) · 1

(1− P (Rt))2 =

(4.6.13) = P (Rt)

1− P (Rt)

Il numero totale di trasmissioni è anch’esso una variabile aleatoria, pari a: nT = nR+1.

Quindi il suo valor medio vale:

(4.6.14) E [nT ] = E [nR] + 1 = 1

1− P (Rt)

Il canale binario può essere soggetto a numerose varianti che rendono lo schema com-

plesso quanto si vuole. Ad esempio è sempre possibile immaginare situazioni in cui la

legge di ritrasmissione sia più semplice del caso teorico di infinite ritrasmissioni: per

esempio si può chiedere di ritrasmettere solo un certo numero di volte e poi accettare

ciò che arriva eventualmente alla trasmissione n-sima.

Inoltre anche l’ipotesi di simmetria del canale può cadere: si può sempre pensare

ad un canale che tratta gli errori sull’uno diversamente da quelli sullo zero, attribuendo

così una probabilità d’errore differente a seconda che si sbaglino gli uno o gli zero.

4.7. TEORIA DELL’INFORMAZIONE 140

Infine un’altra situazione comune è quella in cui in ricezione si introduce un terzo

simbolo, detto di cancellazione, che rappresenta l’indecidibilità tra i due simboli attesi.

Lo schema del canale binario diventa allora quello proposto in figura 4.6.4.

a b0 0

FIGURA 4. 6.4. Canale binario con il simbolo di cancellazione in ricezione

In ricezione, se si trasmette il simbolo a0 si può avere corretta ricezione (b0), ricezione

sbagliata (b1) oppure un simbolo che non è nè corretto nè sbagliato ma che risulta in-decidibile (b2). In questa situazione il sistema non è in grado di decidere correttamente

e quindi può adottare politiche del tipo: lo scarta comunque, oppure lo prende co-

munque, oppure lo scarta per il 50% delle volte, oppure lo prende pari al valore prece-

dentemente arrivato e così via. La situazione simmetrica si ha trasmettendo l’altro

simbolo (a1).

4.7. Teoria dell’Informazione

Lo scopo della teoria dell’informazione è di valutare i limiti teorici dell’infor-

mazione che si può trasmettere su di un canale preassegnato sotto forma di trasmis-

sione numerica. Dati infatti un insieme di sistemi reali differenti tra loro, un confronto

per valutarne l’efficienza relativa è molte volte impossibile. L’unica via sta nel rius-

cire a determinare un limite teorico di “informazione” trasmissibile: in questo modo i

sistemi reali si confrontano tutti con il sistema teorico. Questo problema fu posto (e

brillantemente risolto) per la prima volta da Shannon nel 1948.

Si supponga di avere uno schema ideale di trasmissione numerica. Per schema

ideale si suppone uno schema in cui i dettagli implementativi sono omessi ed inoltre la

parte che converte i dati numerici in forme d’onda da trasmettere sul mezzo trasmissi-

vo, in trasmissione e la parte che riceve le forme d’onda e decide quale tra i possibili

simboli è stato trasmesso, in ricezione, è tutta racchiusa in una scatola che indicheremo

come canale numerico o binario.

Si consideri dunque una sorgente discreta che emette continuamente, indipendente-

mente tra loro e a velocità costante, una serie di simboli scelti tra quelli di un possibile

alfabeto. L’alfabeto sia composto da M simboli, per codificare i quali si ha necessità

di log2 M bit/simbolo. Questo è dunque il rate di informazione trasmesso dalla sor-

gente. La legge con la quale si assegna ad ogni simbolo una determinata sequenza

di bit è detta codifica. Se i simboli fossero equiprobabili è ragionevole supporre una

codifica a lunghezza fissa. Se i simboli non sono più equiprobabili è più ragionevole

utilizzare una codifica a lunghezza variabile, dato che è più conveniente utilizzare pa-

role (stringhe di bit che codificano un simbolo) più corte per i simboli più probabili,

in modo da minimizzare il numero di bit che per unità di tempo transitano sul canale

binario.

Genericamente quindi la quantità di informazione media che transita sul canale sipuò ritenere pari ad una media pesata della lunghezza delle parole di bit, i pesi essendo

le probabilità di presentarsi da parte dei simboli che quelle parole codificano (pratica-

mente il numero medio di bit che transitano su canale):

(4.7.1)Xi

p(xi) · ni

dove xi è il simbolo i-simo, p(xi) la sua probabilità di occorrere e ni il numero di bit

per codificare quel simbolo.

L’informazione emessa dalla sorgente si può determinare utilizzando il cosiddettoteorema dell’equipartizione. Supponiamo la sorgente ergodica. Questo significa che

è stazionaria e quindi che le sue proprietà statistiche non variano nel tempo ed inoltre

che queste si possono desumere dall’osservazione di una sola realizzazione per tem-

pi via via più lunghi (la sorgente passa per tutti i possibili stati). Questo ci consente

allora di dire che un messaggio formato da N simboli, con N molto grande, conterrà

mediamente Np1 simboli x1, Np2 simboli x2 e così via, sino ad NpM simboli xM .Per N tendente ad infinito la probabilità che tali simboli si presentino quel numero

di volte è praticamente 1. Con questi N simboli si può effettuare la costruzione di

tantissimi possibili messaggi: tutti quelli che hanno N p1 simboli x1, N p2 simboli x2

,..., N pM simboli xM . Questi messaggi si differenziano tra loro per la posizione dei

simboli all’interno del messaggio stesso. La probabilità di un singolo messaggio dipresentarsi si può determinare basandosi sull’assunto che i simboli sono emessi tutti

in modo indipendente:

pmess = pNp11 · pNp22 · .... · pNpM

M (4.7.2)

Per la supposta ergodicità della sorgente tutti i messaggi leciti emessi dalla sorgente

sono equiprobabili, quindi i possibili messaggi con N simboli sono: 1/pmess.Il numero minimo di bit necessari per descrivere tutto il messaggio è, a questo pun-

n = log2

pmess= − log2 pmess

e quindi il numero medio di bit necessari per descrivere il singolo simbolo è:

(4.7.3) H (x) = n

N = −

N log2

pNpii = −M

pi · log2 pi

A tale quantità si dà il nome di entropia della sorgente e si misura in bit/simbolo.

Il suo nome, strettamente legato al concetto di entropia fisica (che è una misura dello

stato termodinamico di un sistema fisico), dice qual è l’informazione media legata alla

sorgente, cioè la parte non predicibile del messaggio.

La quantità − log2 pi, confrontando la (4.7.1) con la (4.7.3), rappresenta il mini-

mo numero di bit teoricamente necessari per descrivere un simbolo. L’informazione

emessa da un simbolo si può allora definire come:

(4.7.4) I (xi) = − log2

L’entropia rappresenta quindi il numero minimo di bit per simbolo mediamente neces-

sari a descrivere un messaggio. Se descriviamo in questo modo l’informazione legata

alla sorgente allora valgono le seguenti proprietà.

(1) Se p(xi) → 1 allora I (xi) → 0Concettualmente, quanto più probabile è l’emissione di un simbolo, tanto

meno informazione esso trasporta. Al limite, se esso è certo, la quantità di

informazione trasportata è nulla.

(2) I (xi) > I (x j) se p(xi) < p(x j)

(3) Se l’emissione di simboli successivi è indipendente, allora: I (xiT

x j) =I (xi) + I (x j). Infatti si ha: P (xiT

x j) = P (xi) · P (x j) ⇒I (xiT

x j) =log2

1P (xi

= log21

P (xi)·P (xj) = log2

1P (xi)

+ log21P (xj)

= I (xi) + I (x j)

In conclusione, se ci si vuole avvicinare ad una trasmissione numerica ottimale, si deve

trasmettere codificando i simboli con parole a lunghezza variabile.

EXAMPLE 4.7.1. Si supponga che la sorgente possa emettere solo una coppia di

simboli (come accade nel caso di sorgente binaria), x1 e x2, con probabilità di emis-

sione rispettivamente p e 1− p:

x1 , px2 , 1 − p

L’entropia in tal caso vale: H (S ) = p · log21 p

+ (1− p) · log21

1− p. La funzione è rappre-

sentata in figura 4.7.1. Come si vede il massimo dell’entropia, e cioè dell’informazione

emessa dalla sorgente si ha quando i simboli sono equiprobabili.

0 0.2 0.4 0.6 0.80

FIGURA 4.7 .1. Entropia di una sorgente binaria

Dimostriamo adesso che: H (s) ≤ log2 M , dove M è il numero totale di simboli

dell’alfabeto. Cioè se si tenta di codificare i simboli nel modo più ovvio, si sprecano

bit per simbolo, dato che c’è sempre una codifica migliore che permetterebbe maggior

efficienza e quindi di avvicinarsi di più al limite teorico che è rappresentato da H (s).

(4.7.5) H (s)− log2 M ≤ 0 ⇐⇒M Xi=1

pi log2

pi− log2 M ≤ 0

tuttavia si haM Xi=1

pi = 1 ⇒M Xi=1

pi log2

pi−M Xi=1

pi · log2 M =M Xi=1

pi · (log2

pi− log2 M ) ≤ 0

pi · (log

Mpi) ≤ 0

Si fa vedere facilmente che ln y ≤ y− 1. Applicando tale risultato alla disuguaglianza

precedente si ha:

M Xi=1

Mpi− 1

log2 e = log2 e ·

M Xi=1

M − pi

Quindi la disuguaglianza in (4.7.5) è dimostrata. L’uguaglianza vale solo nel caso in

cui gli elementi emessi sono equiprobabili.

4.7.1. Codifica di Huffmann. Si è visto precedentemente che una codifica effi-

ciente implica una codifica a lunghezza variabile. Al ricevitore, tuttavia, arrivano i

bit in sequenza e quindi senza soluzione di continuità. In ricezione si pone allora un

problema fondamentale: come fare a capire quando termina la sequenza di bit che cod-

ifica un simbolo e inizia la sequenza che codifica il simbolo successivo ? E’ evidente

infatti che, al contrario della codifica a lunghezza fissa, in questa situazione si deve es-

sere in grado di comprendere la fine di un simbolo, altrimenti si rischia di equivocare

l’interpretazione.

Facciamo il seguente esempio. La sorgente S emetta quattro simboli differenti

x1, x2, x3, x4 (scritti in ordine dal più probabile al meno probabile) e i simboli sianocodificati con le seguenti parole:

x1 0x2 01x3 010x4 100

Al ricevitore arrivi la seguente sequenza di bit: 100010010 che può essere interpreta-

ta in modo equivoco, dato che può essere: x4, x3, x3, ma anche x4, x1, x4,... oppure

ancora x4, x2, x1, x1,.... Situazioni del genere devono essere evitate.

THEOREM 4.7.2. Siano M i simboli x1, x2,...,xM e siano n1, n2,...,nM le lunghezze

delle parole di bit che codificano tali simboli. Condizione necessaria affinchè un

codice sia univocamente decodificabile è che risulti vera la seguente disuguaglian-

za (disuguaglianza di Kraft):

(4.7.6)

2−ni ≤ 1

E’ evidente che tale disuguaglianza non può fornire una condizione sufficiente, dato

che non dice come costruire il codice, nè qual è la lunghezza delle singole parole. L’u-

nica cosa che può fare è di verificare a posteriori che un codice sia univocamente de-

codificabile. Codici con parole di lunghezza grande verificheranno facilmente la con-

dizione di cui sopra. Ovviamente noi siamo tuttavia interessati a codici con parole di

lunghezza quanto più piccola possibile e che siano ancora univocamente decodificabili.

In linea di principio potremmo costruire un codice con una lunghezza di parola

pari a

(4.7.7) ni = d− log pie

dato che non possiamo costruirlo di lunghezza ni = − log pi poichè non è una

quantità intera. La relazione precedente ci dice anche che:

(4.7.8) − log pi ≤ ni ≤ − log pi + 1

Sommando tutti i termini (per i = 1,...,M ) moltiplicati per la quantità positiva pisi ha dunque:

M Xi=1

pi log pi ≤

M Xi=1

pini ≤ −

M Xi=1

pi log pi +

M Xi=1

(4.7.9) H (X ) ≤ n ≤ H (X ) + 1

La condizione nella Eq. (4.7.8) implica la disuguaglianza di Kraft, dato che:

I (xi) ≤ ni ≤ I (xi) + 1 ⇒

ni ≥ I (xi) = log2

pi⇒ ni ≥ log2

pi⇒ pi ≥ 2−ni

che è proprio la (4.7.6) quando si estende la disuguaglianza a tutti i simboli (i =1,...,M ).

La struttura base che si utilizza per produrre sequenze univocamente decodificabili

è l’albero binario. Le codifiche prodotte con tale metodo sono dette di Huffmann.

EXAMPLE 4.7.3. Sia data una sorgente che emette simboli in modo indipendente,

x1, x2, x3, x4 con probabilità rispettivamente di: p1 = 0.6, p2 = 0.25, p3 = 0.1 e

p4 = 0.05. Costruiamo l’albero binario, procedendo dal simbolo meno probabile al

più probabile (vedi figura 4.7.2).

x 0.05

x 0.25

FIGURA 4. 7.2. L’albero binario della codifica alla Huffmann

La codifica che ne risulta è:

(4.7.10)

x1 1x2 01x3 001x4 000

La tecnica consiste nell’accoppiare sempre le due probabilità più piccole. Per val-

utare l’efficienza del codice, basta confrontare la quantità media di informazione con

l’entropia della sorgente:

H (s) = −0.6log2 0.6−0.25log2 0.25−0.1log2 0.1−0.05log2 0.05 = 1.49 bit/simbolo

n = 1 · 0.6 + 2 · 0.25 + 3 · 0.1 + 3 · 0.05 = 1.55 bit/simbolo

Come si vede la codifica di Huffmann risulta molto efficiente poichè porta all’uso di un

numero medio di bit per simbolo ragionevolmente vicino all’entropia. In una codifica

tradizionale (con 2 bit/simbolo) si sarebbe ottenuto n = 2 bit/simbolo.

Vediamo ora l’esempio notevole dalla trasmissione fax.

EXAMPLE 4.7.4. Nella trasmissione fax la sorgente emette due simboli, il nero

(N ) e il bianco (B). La probabilità di emissione del bianco è enormemente più grande

di quella del nero. Per semplicità si supponga che le probabilità di emissione siano:

pN = 0.1 e pB = 0.9. Si suppone inoltre che l’emissione dei simboli sia indipendente,cosa nella realtà non vera e che viene anzi sfruttata per migliorare ulteriormente la

codifica. Se codificassimo con un bit per simbolo, avremmo che la quantità di infor-

mazione media varrebbe: n = 1 bit/simbolo, molto lontana dal limite teorico, dato

dall’entropia:

H (s) = −0.9log2 0.9− 0.1log2 0.1 = 0.47 bit/simbolo

Sprechiamo quindi il 53% dell’informazione trasmessa. La situazione migliora un po’

se si effettua una codifica a coppie. Siccome si è supposto che i simboli sono emessi

in modo indipendente l’uno dall’altro (cosa, ripetiamo, non vera nella realtà), si ha che

la probabilità di emissione delle quattro possibili coppie vale:

(4.7.11)

BB 0.81BN 0.09NB 0.09N N 0.01

e codificando con l’albero binario (si veda in figura 4.7.3)

BB 0.81

BN 0.09

NN 0.01

NB 0.090.1

FIGURA 4.7. 3. Codifica binaria per la trasmissione fax

La codifica che si ottiene è la seguente:

(4.7.12)

BB 1BN 00NB 011N N 010

Il numero medio di bit necessari per codificare una coppia vale: n = 1 · 0.81 + 2 ·0.09 + 3 · 0.09 + 3 · 0.01 = 1.29 bit/coppia e quindi 0.645 bit/simbolo. Come si

vede ci si è già avvicinati al valore teorico fornito dall’entropia. Si potrebbero anche

considerare blocchi più lunghi, a patto che la complessità del sistema in ricezione lo

permetta: infatti conviene non aumentare più la complessità quando l’incremento di

efficienza diventa piccolo in confronto all’incremento di complessità circuitale.

Una codifica a lunghezza variabile può tuttavia creare qualche problema. Prima di

tutto si suppone che la sorgente emetta i simboli a tasso costante. Se il codificatoredi sorgente codifica ogni simbolo con un numero differente di bit, allora il numero di

bit trasmessi per unità di tempo potrebbe essere variabile. A tale problema si pone

rimedio con un blocco di memoria sufficientemente lungo sia in trasmissione che in

ricezione: nel blocco di memoria in trasmissione si pongono una serie di simboli che

sono codificati, in modo che la trasmissione avvenga sempre a bit rate costante. In

ricezione i bit sono posti nel registro e quindi prelevati simbolo per simbolo. Quan-

do i bit in ingresso tuttavia riempiono la memoria vi sarà overflow e andranno persi.

Viceversa, se la memoria si svuota si ricorre al bit stuffing: si riempie la memoria con

bit privi di informazione unicamente per mantenere occupato il canale.

Un altro problema sta nella più facile propagazione degli errori. Infatti in una

codifica alla Huffmann l’errore su di un bit non fa equivocare soltanto il simbolo acui è associato, ma anche il successivo (e forse anche oltre), dato che sbagliando un

simbolo non si è più in grado di riconoscere l’inizio del successivo/i.

4.7.2. Codifica a blocchi. Nel caso della trasmissione fax si è visto che codifi-

cando i singoli bit si è molto lontani dal limite teorico imposto dall’entropia. Per far

fronte a questo problema si è pensato di codificare insieme due simboli. In questo mo-

do il limite dell’entropia si è avicinato un po’ di più. Questo approccio di codifica può

essere formalizzato. Quando infatti il numero medio di bit trasmessi, n è abbastanza

lontano da H (S ) si può pensare di codificare insieme una coppia, una terna, ... oppure

una ν -pla di simboli. In questo modo la sorgente S diventa, formalmente, la sorgente

Y = S × S × ...× S = S

.Se l’emissione dei simboli è indipendente, allora si dimostra che:

(4.7.13) H (Y ) = ν · H (S )

Dimostriamo che è vero per ν = 2.

H (Y ) =Xi,j

p(si, s j)·log2

p(si, s j) =Xi

p(si) p(s j)

p(si) + log2

p(s j)

p(si) p(s j)log2 1 p(si)

p(si) p(s j)log2 1 p(s j)

p(s j)

p(si)log21

p(s j)log21

p(s j)

p(s j) · H (S ) +Xi

p(si) · H (S ) = 2 · H (S )

Inoltre, poichè risulta anche: H (Y ) ≤ nY ≤ H (Y ) + 1, allora:

(4.7.14) H (S ) ≤ nY ν ≤ H (S ) + 1

Se quindi nY è il numero medio di bit associati alla sorgente Y = S ν , nY /ν è il

numero medio di bit associati ai simboli della sorgente S . All’aumentare di ν questo

numero medio tende più o meno velocemente al’entropia (vedi la convergenza della

doppia disuguaglianza in 4.7.14).

4.7.3. Sorgenti discrete con memoria. Sinora si è supposto che i simboli emessi

dalla sorgente siano tutti statisticamente indipendenti tra loro. Questa è un’approssi-

mazione inaccettabile nella maggior parte dei casi e quindi vediamo se è possibile

estendere i ragionamenti precedenti a sorgenti con memoria.Nell’ipotesi di sorgente con memoria la definizione di entropia data precedente-

mente non è più sufficiente a descrivere l’informazione emessa dalla sorgente stessa,

dato che il simbolo corrente, dipendendo dai precedenti, perde parte dell’informazione

che trasporta poichè questa poteva essere desunta dai simboli precedenti. La statistica

dipendenza costituisce informazione aggiuntiva di cui non si tiene conto nel calcolo

dell’entropia come è stata definita sinora.

Data l’emissione di un simbolo s1, la sua informazione è legata all’emissione del

simbolo precedente s0:

(4.7.15) I (s1/s

0) = log

p(s1/s0)

L’informazione media, legata alla condizione che il simbolo precedente sia s0 è:

(4.7.16) H (S/s0) =Xi

p(si/s0) · log2

p(si/s0)

L’informazione media, o anche entropia del primo ordine, è allora la media pesata di

tutte le possibili emissioni del simbolo precedente, con pesi le probabilità che i simboli

precedenti hanno di essere emessi:

(4.7.17)

H (S/s) =X j

p(si/s j) · log2

p(si/s j) · p(s j) =

p(si, s j) · log2

p(si/s j)

L’entropia condizionata rappresenta l’ulteriore contenuto informativo che si ottiene

dall’emissione del simbolo nuovo, tolta la conoscenza che il simbolo precedente è in

grado di dare. A questo punto però si può supporre che la sorgente abbia una “memo-

ria” più estesa, e quindi si passa a definire l’entropia del secondo ordine, del terzo e

così via, sino a che la sorgente non esaurisce la sua memoria:

H (si/si−1, si−2,...,si−n) =

(4.7.18) =Xsi

Xsi−1

...Xsi−n

p(si, si−1, si−2,...,si−n) · log2

p(si/si−1,...,si−n)

L’entropia vera di una sorgente è, in conclusione:

(4.7.19) H (S ) = limn→∞H (sn/sn−1, sn−2,...,s0)

Tenendo conto della statistica dipendenza tra i simboli si possono ottenere prestazioni

notevolmente migliori. Ad esempio nella codifica fax è evidente una dipendenza sta-

tistica tra i simboli. Infatti la presenza di un evento ’nero’ rende molto più probabile

l’arrivo di un altro evento ’nero’, dato che lo spessore della traccia di scrittura non è

nullo. Questo discorso è ancora più valido per il ’bianco’. In conclusione sequenze

anche molto lunghe di 1 o di 0 possono essere codificate con stringhe molto corte di

bit, tanto più che alcune di esse sono anche molto probabili (ad esempio una sequenza

di eventi ’bianco’ che copre tutta la pagina è quella corrispondente a una riga tutta

bianca, come ad esempio si trova al termine di un foglio).Sfruttando quindi la conoscenza sui simboli precedenti si riesce a predire qualcosa

sui simboli in arrivo e quindi l’entropia di ordine n ci si aspetta che sia minore di quella

di ordine n − 1. Dimostriamo che questo è vero per:

(4.7.20) H (s1/s0) ≤ H (s1)

p(s1, s0) · log2

p(s1/s0) −Xs1

p(s1) · log2

p(s1) =

p(s1, s0) · log2

p(s1/s0) −Xs1

p(s1, s0) · log2

p(s1) =

dove l’ultima uguaglianza discende dal fatto che: p(s1) =Ps0

p(s1, s0)

p(s1, s0) · log2

p(s1/s0) ≤Xs1

p(s1, s0) ·

p(s1/s0) − 1

· log2 e =

(si ricordi infatti la disuguaglianza ln y ≤ y − 1)

p(s1/s0) p(s0) · p(s1)− p(s1/s0)

p(s1/s0) · log2 e =

p(s0) p(s1)−Xs1

p(s0) p(s1/s0)

#· log2 e = 0

da cui la tesi. Da ciò si deduce facilmente che:

(4.7.21) 0 ≤ H (S ) ≤ H (sn/sn−1,...,s0) ≤ H (sn) ≤ log2 M

4.7.4. Capacità del canale. Caratterizzata la sorgente rimane il problema di come

caratterizzare il canale trasmissivo. Supponiamo di avere un canale binario ideale, cioè

in grado di far passare bit al suo interno senza commettere errori. Detto allora N (t) il

numero di possibili messaggi leciti in grado di trasitare in un intervallo di tempo t, per

codificarli sarà necessario utilizzare al minimo log2 N (t). Facendo tendere il tempo di

osservazione all’infinito si definisce capacità del canale la quantità:

(4.7.22) C = limt→∞log2 N (t)

misurata in bit/s. Nel caso di un canale reale i simboli in uscita da un mezzo trasmis-

sivo sono in parte sbagliati. Consideriamo la sorgente e il canale binario reale come

un’unica sorgente che emette un messaggio Y , generalmente diverso (a causa dei bit

errati) dal messaggio X emesso dalla sorgente originaria (vedi figura 4.7.4).

Sorgente X Canale Binario

FIGURA 4.7.4. Schematizzazione di un canale binario reale

Considerata l’entropia della sorgente Y , H (Y ), se il canale fosse ideale, allora si

avrebbe: H (Y ) = H (X ). Nel caso di canale reale H (Y ) contiene anche informazione

errata a causa della presenza di errori nei bit trasmessi. L’informazione in uscita dal

canale non è quindi H (Y ), ma H (Y ) depurata di quella parte di informazione falsa

che il canale introduce a causa degli errori. L’informazione vera che emerge dal canale

è in conclusione:

(4.7.23) I (X, Y ) = H (Y )−H (Y /X )

dove H (Y /X ) è l’equivocazione, cioè quella parte di informazione dovuta alla non

idealità del canale. Al variare della statistica della sorgente il canale può essere più o

meno in grado di trasmettere informazione. A questo punto la capacità del canale può

essere definita anche in base alla seguente:

(4.7.24) C = maxX I (X, Y )

dove il massimo è preso rispetto a tutte le possibili statistiche di emissione della

sorgente.

In questo modo si mette meglio in evidenza che C rappresenta una misura dell’in-

formazione vera che il canale è in grado di convogliare, poichè fa riferimento ai bit per

unità di tempo che riescono a transitare correttamente sul canale.

Tra tutte le sorgenti con una data varianza, quella che permette di ottenere la mas-

sima capacità di canale a parità di statistica d’errore del canale stesso (che si suppone

gaussiana) è la sorgente con densità di probabilità di emissione di simboli gaussiana.

Supponendo la statistica della sorgente e quella del canale a media nulla, si dimostra

che la capacità del canale (calcolata in bit/simbolo) in tali ipotesi vale:

2 · log2(1 +

N )(4.7.25)

essendo S ed N rispettivamente la potenza delle statistiche di sorgente e del rumore

di canale. Questo teorema, noto anche come teorema di Shannon, permette di sta-

bilire un limite superiore alla capacità di trasmettere bit su un canale, fissato che sia

il rapporto tra la potenza del segnale emesso dalla sorgente e il rumore presente sul

canale.

Teoria dei Segnali

Documents

Transcript of Teoria dei Segnali

Esercizi di Teoria dei Segnali - disi.unitn.itdisi.unitn.it/~sacchi/Esercizi_SLTI_27_10_15.pdf · Esercizi di Teoria dei Segnali Anno accademico 2015-2016 ... (con operazione di convoluzione

Analisi dei sistemi nel dominio della frequenzawpage.unina.it/verdoliv/tds/appunti/Appunti_05.pdf · Appunti di Teoria dei Segnali a.a. 2010/2011 Analisi dei sistemi nel dominio della

Esercizi Svolti Teoria dei Segnali

TEORIA DEI SEGNALI CERTI - comlab.uniroma3.it · FACOLTÀ DI INGEGNERIA CORSI DI STUDIO IN INGEGNERIA INFORMATICA Anno accademico 2001-2002 Corso di TEORIA DEI SEGNALI CERTI Prof.

Esame di Teoria dei Segnali - dee.poliba.itdee.poliba.it/guccioneweb/downloads/thsegnali/appelli_2003-2005.pdf · Esame di Teoria dei Segnali 3 Aprile 2003 Esercizio 1 Data una variabile

Problemi di base di Elaborazione Numerica dei Segnali · Interpolazione 4.1 Teoria 15 4.2 Esercizio 18 5. Decimazione 5.1 Teoria 19 ... (poli complessi coniugati) 72 15.3 Esercizio

Raccolta di esercizi Elaborazione numerica e Teoria dei segnali

Generalità Spettro di potenza e autocorrelazione Proprietà ...corsiadistanza.polito.it/on-line/teoria_segnali/pdf/U3_2_bn.pdf · Teoria dei segnali Rappresentazione in frequenza

Teoria dei Segnali · 1 Torna all’indice Teoria dei Segnali Introduzione Il termine Segnale e' usato molto frequentemente non solo nel campo scientifico e tecnologico ma

Appunti di Teoria dei Segnali a.a. 2010/2011wpage.unina.it/verdoliv/tds/appunti/Appunti_04.pdf · In questa sezione cercheremo di estendere questi concetti anche ai segnali aperiodici,

Conte Lezione Di Teoria Dei Segnali

Corso di TEORIA DEI SEGNALI ALEATORI · 2003-06-04 · TEORIA DELLA PROBABILITÀ Studio dei fenomeni aleatori, ovvero fenomeni che presentano elementi di incertezza a priori. L’aleatorietà

Elementi di Trasmissione dei Segnali e Sistemi di ... dei Segnali e... · di esempi applicativi della teoria esposta, ... quella dei segnali analogici, e quella dei segnali numerici.

Teoria dei Segnali - uniroma1.it...matematici descritti e analizzati hanno carattere di totale generalità e quindi applicabili a tutti i segnali o sistemi fisici che sono e rimangono

Elaborazione Numerica dei Segnali - homes.di.unimi.it · A Richiami di Teoria della Probabilità 267. Capitolo 1 Segnali e Sistemi ... L’elaborazione dei segnali trovano feconde

Prova di esame di Teoria dei Segnali II moduloinfocom.uniroma1.it/alef/segnali2/prove/...e_svolgimento_10_7_2009.pdf · 10 Luglio 2009 Prova di esame di Teoria dei Segnali II modulo

Esercizi svolti di teoria dei segnali - dii.unisi.itpozzebon/comunicazioni_elettriche/segnali/... · Esercizi svolti di teoria dei segnali Alessia De Rosa Mauro Barni Novembre 2003.

Teoria dei Segnali - Libero Communityusers.libero.it/sandry/download/TeoriaSegnalidownload/segnali_12.pdf · Appunti di “Teoria dei Segnali” - Capitolo 12 Autore: Sandro Petrizzelli

Appunti di Teoria dei Segnali Aleatori Corso di Tecniche ... · Appunti di Teoria dei Segnali Aleatori Corso di Tecniche di Trasmissione A.A. 2003-2004 Francesco Vatalaro, ... 2 Processi

Corso di Fondamenti di Telecomunicazioni - Pagina principale · 3 Fondamenti di TLC - Prof. G. Schembra 2 – Teoria dei segnali determinati Segnali periodici Definizione: un segnale