Post on 05-Mar-2016
description
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 1/152
Politecnico di Bari
Corso di Laurea in Ingegneria delle Telecomunicazioni
Appunti del corso di
TEORIA DEI SEGNALI
Pietro Guccione
Anno Accademico 2007-2008
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 2/152
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 3/152
Indice
Capitolo 1. Richiami principali ai segnali 51.1. Introduzione 51.2. Tipi di segnale 61.3. Segnali elementari 91.4. La Correlazione 15
Capitolo 2. La teoria delle probabilità 21
2.1. Esperimenti Aleatori 212.2. Le Basi della Teoria delle Probabilità 222.3. Variabili Aleatorie 282.4. Densita’ di Probabilita’ 302.5. Operazioni sulla Variabile Aleatoria 322.6. Parametri Statistici di una Variabile Aleatoria 332.7. Esempi di Variabili Aleatorie 362.8. Variabili Aleatorie Condizionate 452.9. Applicazioni notevoli 462.10. Sistemi di Variabili Aleatorie 502.11. Convergenza ed approssimazione 62
Capitolo 3. I Processi Stocastici 673.1. Definizione di Processi Stocastici 673.2. Parametri Statistici del 1o e 2o Ordine 703.3. Processi Stazionari 793.4. Filtraggio di un Processo Aleatorio 883.5. Analisi Spettrale di un Processo Aleatorio 923.6. Processi Aleatori Gaussiani 1003.7. Processi Ergodici 1043.8. Cenni sulle Catene di Markov 110
Capitolo 4. La trasmissione dei segnali 1174.1. Introduzione 1174.2. Generalita’ sui Sistemi di Trasmissione 1174.3. Trasmissione Analogica e Numerica 1224.4. Il Campionamento 1234.5. La Quantizzazione 1294.6. Il Canale Binario 134
3
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 4/152
INDICE 4
4.7. Teoria dell’Informazione 140
Capitolo 5. Il rumore 1535.1. Introduzione 153
5.2. Caratteristiche Generali del Rumore 1545.3. Fattore e Temperatura Equivalente di Rumore 160
Capitolo 6. La modulazione analogica 1676.1. Introduzione 1676.2. Rappresentazione complessa dei segnali 1696.3. Sistemi di trasmissione con modulazione 176
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 5/152
CAPITOLO 1
Richiami principali ai segnali
1.1. Introduzione
La definizione di segnale parte dall’esperienza comune. Esempi di segnale nellavita quotidiana sono il segnale acustico che viene prodotto da uno strumento musicale,il segnale radio captato dall’antenna di un ricevitore, la rappresentazione del battitocardiaco attraverso un elettrocardiografo e così via.
Tutti gli esempi che si possono fare hanno una matrice comune: il segnale è una
grandezza fisica variabile a cui è associata una qualche forma di informazione. Lo stu-dio dei segnali quindi passa necessariamente attraverso lo studio delle funzioni matem-atiche di una o più variabili. Le grandezze fisiche rappresentate da un segnale sono lepiù svariate: l’intensità luminosa e il colore su uno schermo nel caso di un segnale tele-visivo, la variazione della pressione dell’aria nel caso di un segnale musicale, la ten-sione elettrica o la corrente nel caso di un segnale misurato su di un circuito elettrico,un’onda elettromagnetica nel caso di un segnale radio captato dallo spazio.
L’evoluzione di molti segnali monodimensionali (cioè dipendenti da una sola grandez-za) avviene nel tempo: esempi sono il segnale musicale, la misura della tensione suun condensatore, la variazione dell’intensità luminosa del sole durante il giorno, ec-cetera. Tuttavia è possibile considerare dipendenze diverse di un segnale: ad esempio
la sua variazione nello spazio. La misura dell’intensità dell’oscillazione di un terre-moto ad uno stesso istante nelle varie località rappresenta un segnale di cui interessala cui estensione spaziale e non la sua evoluzione temporale. Naturalmente è semprepossibile immaginare lo stesso tipo di informazione (l’intensità di un terremoto) in unadata località e seguirne la sua evoluzione nel tempo.
Quest’ultimo esempio porta alla rappresentazione di segnali bidimensionali o an-che multidimensionali, segnali cioè che variano in dipendenza della variazione di dueo più grandezze. Il segnale televisivo bianco e nero è un esempio di segnale tridi-mensionale, dato che esso è dipendente da due coordinate spaziali (larghezza ed al-tezza dello schermo) e da una coordinata temporale (il susseguirsi delle scene sulloschermo).
Se consideriamo invece un segnale televisivo a colori esso è in realtà la sovrap-posizione di tre segnali tridimensionali, dato che separatamente in ogni punto delloschermo è rappresentata la sovrapposizione dei tre colori fondamentali: rosso, verde,blu. Quindi un segnale televisivo a colori si puè pensare come un segnale vettoriale(costituito cioè da tre componenti) a tre dimensioni, dipendente cioè da tre grandezzefisiche: c(x,y,t) = [red(x,y,t), green(x,y,t), blue(x,y,t)].
5
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 6/152
1.2. TIPI DI SEGNALE 6
1.2. Tipi di segnale
Una prima classificazione di segnale è stata già fatta differenziando i segnali monodi-mensionali da quelli multidimensionali, come anche quelli scalari da quelli vettoriali,
costituiti cioè da più componenti.Si possono inoltre differenziare i segnali in base ai valori assunti dalla variabileindipendente:
• segnali a tempo continuo: sono quelli per i quali il dominio della funzioneha la cardinalità dei numeri reali. La variabile indipendente (ad esempio iltempo) assume valori in modo continuo (ad esempio un segnale musicaleemesso da uno strumento).
• segnali a tempo discreto: sono quelli per i quali il dominio della funzioneha la cardinalità dei numeri naturali. Per questi segnali la variabile indipen-dente assume valori in un insieme discreto. In tal caso la dipendenza delsegnale dalla variabile indipendente è rappresentata mediante la successione
dei valori assunti: x(n) per indicare il valore del segnale x dall’n−simo val-ore della variabile indipendente. Esempio di un segnale tempo discreto è ilsegnale televisivo, dato che esso è rappresentato sullo schermo mediante lasuccessione di 25 fotogrammi al secondo.
I segnali stessi possono assumere valori in un insieme non numerabile di valori (seg-
nali ad ampiezza continua) o in un insieme numerabile di valori (segnali ad ampiezza
discreta). Esempio di un segnale ad ampiezza continua è la misura della tensione su uncondensatore così come essa è rappresentata su un oscilloscopio analogico; esempio diun segnale ad ampiezza discreta è invece lo stato di un semaforo: ad ogni istante essopuò assumere solo due possibili valori: acceso o spento. I segnali ad ampiezza contin-
ua sono detti anche segnali analogici, quelli ad ampiezza discreta sono detti numerici.In figura (1.2.1) sono rappresentati i due tipi di segnale sinora visti.
s(t)
t
s(t)
t
FIGURA 1.2.1. Differenza tra segnale ad ampiezza continua e segnalead ampiezza discreta
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 7/152
1.2. TIPI DI SEGNALE 7
Un’altra distinzione può essere fatta tra i segnali periodici e segnali non periodici
(o aperiodici). Detto T un numero reale > 0, un segnale s(t) si dice periodico se∀n ∈ Z : s(t) = s(t + nT ). Un segnale periodico è quindi definito su tutto l’assereale e per una sua descrizione completa è sufficiente la conoscenza all’interno di un
periodo. Un segnale di durata finita è, quindi, aperiodico. Una combinazione linearedi segnali periodici di stesso periodo T o di periodo che è un sottomultiplo di T , cioèT /n è, a sua volta, periodica di periodo T .
I segnali inoltre possono essere suddivisi in base al loro comportamento energeti-co. Si dicono ad energia finita i segnali che verificano la seguente proprietà:
(1.2.1)Z +∞−∞
| s(t) |2 dt < +∞
dove la quantità a primo membro dell’espressione è detta energia del segnale. I segnaliperiodici non sono segnali ad energia finita, dato che, se
R +T/2
−T/2 | s(t) |2 dt è una quan-
tità finita, l’integrale su tutto < risulterà sicuramente infinito. Tali segnali sono allorasegnali a potenza finita, per i quali cioè risulta:
(1.2.2) limT →+∞
1
T
Z +T/2
−T/2
| s(t) |2 dt < +∞
La quantità a primo membro è detta potenza del segnale. Per i segnali ad energia finitala potenza è nulla.
Per i segnali tempo discreti la definizione di energia e potenza è rispettivamente:
(1.2.3)+∞X
n=−∞|s(n)|2
(1.2.4) limN
→+
∞
1
2N + 1
+N
Xn=−N
|s(n)|2
Infine altre distinzioni tra segnali possono essere fatte sulla base delle loro proprietàpuramente matematiche: ad esempio si distinguono i segnali reali da quelli complessi,composti cioè di una parte reale e di una parte immaginaria: sc(t) = sR(t) + jsI (t).Particolari simmetrie dei segnali possono permettere di distinguere i segnali pari, per i
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 8/152
1.2. TIPI DI SEGNALE 8
quali risulta: s(t) = s(−t), da quelli dispari, per i quali vale invece: s(t) = −s(−t).Per un segnale che non gode di simmetria pari, nè dispari, si può sempre pensare diestrarne la sua parte pari:
(1.2.5) se(t) = 1
2[s(t) + s(−t)]
e la sua parte dispari
(1.2.6) so(t) = 1
2
[s(t)
−s(
−t)]
1.2.1. Operazioni sui segnali. Vengono qui richiamate le principali operazioniche è possibile compiere sui segnali. Particolare interesse assumono le operazionisulla variabile indipendente
1.2.1.1. Traslazione. La traslazione di un segnale è il suo spostamento sull’assedella variabile indipendente (o nel piano delle sue variabili indipendenti se dipende dadue variabili): s(t − to) è il segnale s(t) spostato temporalmente nella posizione to.Se la variabile indipendente è il tempo, si dice anche che il segnale è ritardato di tosecondi se to > 0 altrimenti è anticipato di to secondi, se risulta to < 0.
1.2.1.2. Ribaltamento. Il ribaltamento di un segnale corrisponde all’operazione:s(t) → s(−t), esso cioè viene descritto con l’asse della variabile indipendente riflessorispetto all’asse delle ordinate. Questa operazione è utile per esaminare le proprietà disimmetria di un segnale (segnale pari o dispari).
1.2.1.3. Scalatura dell’asse. Considerato un numero reale a > 0, un segnale sidice che ha subito un cambiamento di scala se risulta la seguente trasformazione:s(t) → s(at). In particolare se a > 1 il segnale ha subito un restringimento, altri-menti, con 0 < a < 1 il segnale subisce un’espansione. E’ sempre possibile estendereil cambiamento di scala dell’asse della variabile indipendente ai casi in cui risultaa < 0, basta applicare separatamente le due operazioni di ribaltamento e di scalaturadel segnale: s(t) → s(−t) → s(− |a| t). Si ricordi che l’operazione di cambiamentodi scala, come quella di ribaltamento – che si può considerare come un caso particolarecon a = −1 – non commuta con quella di traslazione.
1.2.1.4. Convoluzione tra segnali. Dati due segnali x(t) ed h(t), si definisce ilprodotto di convoluzione tra i due segnali come:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 9/152
1.3. SEGNALI ELEMENTARI 9
(1.2.7) y(t) = x(t) ? h(t) =
Z +∞−∞
x(τ )h(t − τ )dτ
La convoluzione gode delle seguenti proprietà:
(1) La convoluzione è un’operazione commutativa: x(t) ? h(t) = h(t) ? x(t)(2) La convoluzione gode della proprietà associativa: x(t) ? y(t) ? h(t) = (x(t) ?
y(t)) ? h(t) = x(t) ? (y(t) ? h(t))(3) La convoluzione è distributiva rispetto alla somma: (x(t) + y(t)) ? h(t) =
x(t) ? h(t) + y(t) ? h(t)
1.3. Segnali elementari
Esiste una classe di segnali che, per la loro particolare semplicità, viene spesso uti-lizzata per schematizzare il comportamento dei segnali che si incontrano nei casi reali.A questi segnali si dà il nome di segnali elementari. Le proprietà viste precedentementesi applicano ovviamente anche ai segnali elementari.
1.3.1. Gradino unitario. Il gradino unitario è la funzione così definita:
(1.3.1) u(t) =
1, t > 00, t < 0
Per t = 0 si assume che s(0) = 0.5.1.3.2. Rampa. E’ un segnale nullo per t < 0 e che, per t > 0, cresce pro-
porzionalmente a t:
(1.3.2) r(t) =
t, t > 00, t < 0
r(t)
ta
a
t
FIGURA 1.3.1. Rampa unitaria
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 10/152
1.3. SEGNALI ELEMENTARI 10
Tale segnale può considerarsi come il risultato del passaggio dello scalino unitarioattraverso un integratore:
(1.3.3) r(t) =Z t−∞
u(τ ) dτ
1.3.3. Parabola. La parabola (o rampa parabolica) è il segnale che si ottiene ri-applicando l’operatore di integrazione alla rampa:
(1.3.4) p(t) =
Z t
−∞
r(τ ) dτ = 1
2 t2
p(t)
t
FIGURA 1.3.2. Rampa parabolica
1.3.4. Segnale rettangolare, onda quadra. Si chiama rettangolare un segnaleche mantenga valore costante per tutta la sua durata limitata:
(1.3.5) rectt
τ = 1, |t| < τ
20, |t| > τ
2
E’, chiaramente, un segnale di energia finita e la sua energia vale τ . La somma disegnali rettangolari ripetuti a distanza T dà luogo ad un segnale periodico, di periodoT :
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 11/152
1.3. SEGNALI ELEMENTARI 11
(1.3.6) sq (t) =+∞
Xn=−∞rect
t − nT
τ
che viene detto onda quadra.
Τ−
τ
2
τ
2
τ
2
τ
2−Τ−
τ
2−Τ−
τ
2
− τ
2
τ
2Τ+
−
FIGURA 1.3.3 . Rettagolo ed onda quadra
Se τ = T /2 l’onda quadra si dice a duty cycle 50%. L’onda quadra (1.3.6) oscillatra 0 e 1 ed ha valor medio τ /T . Un’onda quadra con duty cycle 50% che oscilla tra+1 e −1 ha valor medio nullo.
Si osservi infine che, a rigore, il segnale rettangolare (1.3.5) è discontinuo in±τ /2 ed il suo valore in tali punti sarebbe indefinito. In un punto di discontinuitàassumeremo che il segnale assuma il valore s(to) = 1
2[s(t−o ) + s(t+o )]
1.3.5. Delta di Dirac. Il Delta di Dirac non è in realtà una vera e propria fun-
zione, ma una distribuzione. Essa, a rigore, dovrebbe essere definita solo all’interno diun integrale. La sua definizione parte dalla osservazione che la funzione:
(1.3.7) 1
T rect(
t
T )
ha sempre area pari ad 1, qualunque sia il valore di T . Al tendere però di T a zero, ilrettangolo diventa infinitamente stretto ed alto. Una definizione della funzione delta èallora la seguente:
(1.3.8) δ (t) = limT →0
1
T rect(
t
T )
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 12/152
1.3. SEGNALI ELEMENTARI 12
La funzione così definita ha valori sempre nulli tranne in t = 0 dove assume valorenominalmente infinito. La sua rappresentazione su di un grafico è quindi a rigoreimpossibile. La schematizzazione che si usa è quella riportata in fig. 1.3.4
(t)δ
t
FIGURA 1. 3.4. Rappresentazione grafica dell’impulso o delta di Dirac.
In base a quanto detto:
(1.3.9)Z +∞−∞
δ (t)dt = 1
inoltre la funzione delta è pari: δ (−t) = δ (t). La principale proprietà della funzionedelta è la seguente:
(1.3.10)
Z +∞
−∞
s(t)δ (t − to)dt = s(to)
essa cioè applicata ad una funzione all’interno di un integrale permette di estrarre ilvalore di quella funzione nel punto in cui il delta è applicato (sempre che la funziones(t) sia continua in t = to). Questa notazione è utilizzata per indicare l’estrazionedi un campione da un segnale nella posizione in cui è posto l’impulso. La proprietàin (1.3.10) può essere vista anche nel modo seguente: l’impulso piazzato ad un datoistante τ e moltiplicato per una funzione s(t) risulta pari all’impulso stesso ma conarea uguale al valore che il segnale assume in quella posizione τ : s(t) δ (t − τ ) =s(τ ) δ (t − τ ).
Un segnale può essere rappresentato mediante una successione infinita di impulsi
delta infinitamente vicini tra loro e di valore pari al valore che il segnale assume inquel punto:
(1.3.11)Z +∞−∞
s(τ )δ (t − τ )dτ = s(t)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 13/152
1.3. SEGNALI ELEMENTARI 13
Il significato di ques’ultimo integrale è anche quello di una convoluzione tra il segnales(t) e la funzione delta.
Un cambiamento di scala della variabile indipendente influisce sul risultato:
(1.3.12)Z +∞−∞
x(t) δ (at + b) dt =
Z +∞−∞
x
ς − b
a
δ (ς )
dς
|a| =
1
|a|x(− b
a)
Per l’impulso quindi un cambiamento di scala ed una traslazione comporta la vari-azione dell’area dell’impulso stesso:
(1.3.13) δ (at + b) = 1
|a|δ (t +
b
a)
Ultima considerazione è quella relativa alle derivate dell’impulso. La derivata del-l’impulso, indicata con δ 0(t) è detta doppietto:
(1.3.14)
Z +∞
−∞
x(t) δ 0(t − τ ) dt = −x0(τ )
sempre che x(t) sia dotata di derivata in t = τ . La (1.3.14) si può ricavare dal-la definizione dell’impulso (1.3.8) mediante integrazione per parti (ricordando cheD(AB) = AD(B) + BD(A), dove D(·) rappresenta l’operatore di derivazione):
(1.3.15)Z +∞−∞
x(t) δ 0(t−τ ) dt = x(t)δ (t − τ )|+∞−∞−Z +∞−∞
x0(t) δ (t−τ ) dt = −x0(τ )
Si osservi infine che l’intergale dell’impulso è lo scalino di ampiezza unitaria:
(1.3.16) u(t) =
Z t−∞
δ (τ ) dτ
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 14/152
1.3. SEGNALI ELEMENTARI 14
infatti tale integrale vale zero finchè t < 0, ed 1 non appena t > 0. Dualmente, laderivata dello scalino unitario è l’impulso unitario: d
dtu(t) = δ (t)
1.3.6. Funzioni sinusoidali. Una classe di funzioni molto utilizzate, soprattut-to nell’ambito dell’analisi di funzioni periodiche sono le funzioni sinusoidali. Per ladefinizione di una funzione sinusoidale sono sufficienti tre elementi: ampiezza A, pul-sazione ωo e fase iniziale ϕ (cioè l’argomento della sinusoide per t = 0). L’ampiezzarappresenta l’escursione massima che la funzione assume, la frequenza il numero dicicli per unità di tempo che esegue:
(1.3.17) A sin(2πf t + ϕ)
La sinusoide si ripete uguale a se stessa ad una distanza temporale T tale cheωoT = 2π. Il periodo di una sinusoide di pulsazione ωo è, perciò:
(1.3.18) T = 2π
ωo
f = 1/T è la frequenza. Va da sé che una sinusoide di frequenza f è periodica di peri-odo T = 1/f ma, anche, di periodo 2T , 3T , . . . , N T . Una sinusoide con fase inizialeπ/2 è chiamata cosinusoide e vale la relazione sin(ωt + π/2) = cos(ωt). La potenza
media di una sinusoide di ampiezza unitaria vale:
(1.3.19) P m = ω
2π
Z 2π/ω
0
sin2(ωt) dt = 1
2
La sua potenza di picco è
(1.3.20) P p = maxt
sin2(ωt) = 1
Il rapporto tra potenza di picco e potenza media è detto fattore di picco e, per unasinusoide vale 2.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 15/152
1.4. LA CORRELAZIONE 15
1.3.7. Seno cardinale. Un’ultima funzione molto utilizzata è la funzione senocardinale, così definita:
(1.3.21) sinc(t) = sin(π t
T )
π tT
e che assume valore pari ad 1 al limite per t → 0. E’ una funzione pari, in quantorapporto di due funzioni dispari.
1.4. La Correlazione
Dato un segnale deterministico e non periodico, s(t), di esso si può definire, comegià visto l’energia:
(1.4.1) E s =
Z +∞−∞
| s(t) |2 dt =
Z +∞−∞
| S (f ) |2 df
dove l’ultima uguaglianza discende dal teorema di Parseval, il quale afferma chel’energia del segnale, calcolabile nei due domini tempo e frequenza, non cambia.
Se il segnale passa attraverso un sistema lineare tempo invariante con funzione ditrasferimento: H (f ):
Y (f ) = S (f ) · H (f )
(1.4.2) E y =
Z +∞−∞
| S (f ) |2 · | H (f ) |2 df
L’energia si può quindi ottenere conoscendo lo spettro del segnale (e | S (f ) |2 è dettospettro di energia del segnale) e la funzione di trasferimento del sistema.
1.4.1. Autocorrelazione per segnali ad energia finita. Sia ora x(t) un segnalereale ad energia finita. Si definisce autocorrelazione di x(t) la funzione che si ottienedal seguente integrale:
(1.4.3) Rx(τ ) =
Z +∞−∞
x(t)x(t − τ )dt
Dalla definizione si osserva subito che: Rx(τ ) = x(τ ) ? x(−τ ) (per dimostrarlo si
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 16/152
1.4. LA CORRELAZIONE 16
provi a porre x(−τ ) = y(τ ) e ad eseguire l’integrale di convoluzione: Rx(τ ) =R +∞−∞ x(t)y(τ − t)dt) e quindi che:
(1.4.4) Rx(τ ) =Z +∞−∞
| X (f ) |2 ·e j2πf τ df
cioè l’autocorrelazione di un segnale è anche l’antitrasformata del suo spettro di en-ergia. Si ricordi che per un segnale reale, se ad x(t) → X (f ), allora ad x(−t) →X (−f ) = X ∗(f ), mentre per un segnale complesso si ha che se ad x(t) → X (f ),allora ad x(−t) → X (−f ), e ad x∗(t) → X ∗(−f ), infine ad x∗(−t) → X ∗(f ).
Poichè quest’ultima definizione vale sempre, allora se il segnale è complesso ladefinizione di autocorrelazione deve essere adeguatamente modificata:
(1.4.5) Rx(τ ) =
Z +∞−∞
x(t)x∗(t − τ )dt = x(τ ) ? x∗(−τ )
1
Proprietà della funzione di autocorrelazione:
(1) Rx(0) = E x, cioè la funzione di autocorrelazione calcolata per τ = 0 rappre-senta l’energia del segnale
(2) Rx(τ ) = Rx(−τ ), cioè la funzione di autocorrelazione è una funzione pari(Rx(τ ) = R∗
x(−τ ) per i segnali complessi)(3) | Rx(τ ) |
≤ Rx(0), cioè il massimo della funzione di autocorrelazione è lo-
calizzato in τ = 0:
[x(t − τ ) − x(t)]2 ≥ 0 ⇔
x(t − τ )2 + x(t)2 − 2x(t − τ )x(t) ≥ 0
ed integrando da −∞ a +∞ si ha: 2E x ≥ 2Rx(τ ).
L’autocorrelazione di un segnale ha un’interessante interpretazione fisica. Essa rapp-resenta una misura del grado di somiglianza del segnale con sè stesso. Infatti quantopiù un segnale somiglia a sè stesso tanto più è alto il valore dell’integrale in 1.4.3.Ecco quindi il motivo per cui la funzione di autocorrelazione assume valore massimoper τ = 0: quando infatti il segnale è perfettamente sovrapposto a sè stesso il gradodi somiglianza è massimo. Per valori di τ crescenti i segnali generalmente tendono
1Su alcuni testi è riportata la relazione: Rx(τ ) =R +∞−∞
x∗(t)(t− τ )dt = x∗(τ ) ? x(−τ ).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 17/152
1.4. LA CORRELAZIONE 17
a non somigliare più a sè stessi e quindi il valore dell’autocorrelazione diminuisce.Eccezione notevole a questa regola sono, come si vedrà più avanti, i segnali periodici.
1.4.2. Cross correlazione di due segnali. Dati due segnali x(t) ed y(t), si definiscela crosscorrelazione tra i due segnali come:
(1.4.6) Rxy(τ ) =
Z +∞−∞
x(t)y(t − τ )dt = x(τ ) ? y(−τ )
ed anche:
(1.4.7) Ryx(τ ) =
Z +∞
−∞y(t)x(t − τ )dt = y(τ ) ? x(−τ )
Per i segnali complessi la definizione è invece:
(1.4.8) Rxy(τ ) =
Z +∞−∞
x∗(t)y(t − τ )dt = x∗(τ ) ? y(−τ )
(1.4.9) Ryx(τ ) =
Z +∞−∞
y∗(t)x(t − τ )dt = y∗(τ ) ? x(−τ )
Si può facilmente dimostrare che: Rxy(τ ) = R∗yx(−τ ):
Rxy(τ ) =
Z +∞−∞
x∗(t)y(t − τ )dt =
Z +∞−∞
x∗(z + τ )y(z )dz =
=
Z +∞−∞
y(z )x∗(z + τ )dz
∗∗=
Z +∞−∞
y∗(z )x(z − (−τ ))dz
∗=
= R∗yx(−τ )
Due segnali si dicono ortogonali se risulta che Rxy(τ ) = 0, ∀τ . La cross corre-lazione dà una misura del grado di somiglianza tra due segnali, analogamente all’au-tocorrelazione di un segnale.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 18/152
1.4. LA CORRELAZIONE 18
1.4.3. Segnali a potenza finita. Per i segnali a potenza finita
(1.4.10) P = limT →+∞ 1T Z +T/2
−T/2| s(t) |2 dt
si può ancora definire una quantità che nel dominio delle frequenze ci dice come sonodistribuite le potenze del segnale: la densità spettrale di potenza del segnale. Siainfatti: sT (t) la limitazione di s(t) nell’intervallo: [−T, T ] :
(1.4.11) sT (t) =
s(t) |t| ≤ T
0 altrove
Poichè quest’ultimo segnale è sicuramente ad energia finita, per esso si può dare la
definizione di trasformata di Fourier e quindi la densità spettrale di energia: sT (t) →S T (f ):
(1.4.12) E T =
Z +∞−∞
| sT (t) |2 dt =
Z +∞−∞
| S T (f ) |2 df
Poichè la potenza di s(t) è definita come limite dell’energia della sua limitazione,sT (t), al tendere dell’intervallo di limitazione all’infinito (e rapportando per l’interval-lo di tempo stesso), la densità spettrale di potenza si può scrivere come:
P = Z +∞−∞ limT →+∞1
2T | S T (f ) |2
df ⇒
(1.4.13) S p(f ) = limT →+∞
1
2T | S T (f ) |2
La densità spettrale di potenza gode di proprietà simili a quelle della densità spettraledi energia: cioè è una funzione pari (per i segnali reali), è sempre non negativa e il suointergale su tutto l’asse delle frequenze dà luogo alla potenza del segnale.
Analogamente a ciò che accade per i segnali ad energia finita, il passaggio di unsegnale a potenza finita attraverso un sistema lineare tempo invariante dà luogo ad unsegnale a potenza finita in uscita, la cui densità spettrale di potenza è pari a: S
y(f ) =
S x(f ) · |H (f )|2.Troviamo ora la funzione del tempo che corrisponde alla funzione densità spettrale
di potenza:
S p(f ) = limT →+∞
1
2T | S T (f ) |2= lim
T →+∞1
2T S T (f ) · S ∗T (f ) ⇒
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 19/152
1.4. LA CORRELAZIONE 19
antitrasformando:
⇒ limT →+∞
12T
sT (τ ) ? sT (−τ ) =
= limT →+∞
1
2T
Z +T
−T
sT (t)sT (t + τ )dt
A tale quantità diamo il nome di funzione di autocorrelazione:
(1.4.14) Rg(τ ) = limT
→+
∞
1
2T Z +T
−T
sT (t)sT (t + τ )dt
La funzione di autocorrelazione per i segnali a potenza finita è l’antitrasformata diFourier della densità spettrale di potenza, nello stesso modo con cui nel caso di segnaliad energia finità essa è l’antitrasformata di Fourier della densità spettrale di energia.
La funzione di autocorrelazione dei segnali a potenza finita gode delle stesse pro-prietà della corrispondente funzione definita per i segnali ad energia finita. Inoltreè possibile dare una definizione analoga anche per la cross correlazione di segnali apotenza finita.
1.4.4. Segnali periodici. Sia dato un segnale periodico e la sua rappresentazionein serie di Fourier:
s(t) = s(t + n · T )
(1.4.15) s(t) =+∞X
n=−∞cn · exp( j2π
n
T t)
Lo spettro d’ampiezza di un segnale periodico è uno spettro a righe:
(1.4.16) S (f ) =+∞X
n=−∞cn · δ (f − n
T )
dove i cn si possono calcolare in base alla trasformata di Fourier di una singola ripe-tizione del segnale:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 20/152
1.4. LA CORRELAZIONE 20
(1.4.17) cn = 1
T
Z +T/2
−T/2
s(t) · e− j2πnT tdt =
1
T S T (f )|f = n
T
I segnali periodici sono ovviamente segnali a potenza finita. La loro densità spettraledi potenza è anch’essa a righe e si può ricavare facilmente :
P = 1
T
Z +T/2
−T/2
s(t)s∗(t)dt =
= 1
T
Z +T/2
−T/2
Xn
cn · e j2πnT t
"Xm
cm · e j2πmT t
#∗dt =
= 1
T Xn Xm cnc∗m Z
+T/2
−T/2
e j2πnT te− j2π
mT tdt = Xn
|cn|2
⇒
(1.4.18) S p(f ) ==+∞X
n=−∞|cn|2 · δ (f − n
T )
La corrispondente funzione di autocorrelazione, essendo un intergale di funzione peri-odica, è anch’essa periodica di periodo T e la sua definizione si può restringere ad unsingolo periodo:
Rg(τ ) = limT →+∞
1
2T Z +∞
−∞
sT (t)sT (t + τ )dτ =
(1.4.19) = 1
T
Z +T/2
−T/2
s(t)s(t + τ )dτ
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 21/152
CAPITOLO 2
La teoria delle probabilità
2.1. Esperimenti Aleatori
Nelle scienze sperimentali la verifica di una ipotesi di lavoro è affidata all’esperi-mento. L’esperimento quindi consiste nel controllare che, sotto alcune ipotesi, la teo-ria e la realtà sono equivalenti, cioè la teoria è descrittiva di un certo fenomeno dellanatura.
Esempio classico può essere la descrizione della caduta di un grave. Poichè esso
segue la legge: s = 12gt2, si può facilmente determinare quanto tempo il grave impiegaa cadere per terra a partire da una certa altezza s con velocità iniziale nulla. I dati
raccolti in molte prove ripetute permetteranno di ridurre l’incertezza legata alla misurasperimentale, affetta sempre da una certa dose di errore. Un esperimento di questotipo, oltre a verificare le ipotesi, ci dice anche un’altra cosa e cioè che se ci poniamo incerte condizioni (un grave cade da una altezza fissa, si riduce al minimo l’effetto dellaresistenza dell’aria in modo da ridurre l’incertezza della misura, e così via), la realtànon può fare a meno di comportarsi seguendo determinate leggi. L’esperimento con-dotto è cioè di tipo deterministico, segue una legge ben precisa e verificabile ogni voltache si desidera, a meno delle inevitabili incertezze dovute alle non perfette condizionipratiche.
Si supponga ora di voler condurre un altro tipo di esperimento. Si vogliono mis-urare il numero di autovetture che attraversano un casello autostradale durante unagiornata. In questo tipo di esperimento, come si capisce bene, una determinata ipote-si di lavoro come ad esempio che i giorni feriali sono più trafficati di quelli festivi,non permette di prevedere l’esito dell’esperimento stesso. La prova che si effettuainoltre darà un risultato diverso giorno per giorno. La prova si dice di tipo aleato-
rio. Per questa classe di esperimenti non è possibile quindi trovare una legge chepermetta di predire l’esito dell’esperimento stesso. Tuttavia è possibile trovare una de-scrizione globale dell’esperimento che permetta cioè di predire, dopo numerose prove,che queste seguono comunque una certa regolarità statistica. Il risultato dell’esperi-mento singolo non è quindi mai prevedibile a priori, ma esso può essere inglobato in
una teoria che, entro certi limiti, ne dà una previsione grossolana.Si supponga, per maggiore chiarezza, di volere osservare i risultati del lancio di un
dado. Questo tipo di esperimento appartiene alla classe ora vista, cioè dà luogo ad unrisultato che non può essere previsto. Tuttavia dopo il lancio dello stesso dado millevolte, può essere abbastanza ragionevole supporre che la faccia con il numero 6 si saràpresentata all’incirca 167 volte (∼1000/6). Quindi se il risultato dell’esperimento dà
21
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 22/152
2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 22
un valore che è ragionevolmente vicino a questo numero possiamo dire che questorisultato è prevedibile, e possiamo dire anche che il dado si è comportato seguendo leipotesi iniziali, cioè che non fosse truccato e che tutte e sei le facce avessero la stessaprobabilità di presentarsi.
La teoria alla base dei fenomeni della natura che seguono leggi aleatorie è la teoriadelle probabilità. Questa teoria è stata sviluppata da fisici e matematici come Bernoul-li, Pascal e Laplace, durante il XVII e il XVIII secolo e inizialmente fu utilizzata perquantificare le vincite ai tavoli da gioco da gestori di casinò e giocatori d’azzardo.
2.2. Le Basi della Teoria delle Probabilità
Vediamo ora come la teoria delle probabilità permette di modellare un esperimen-to aleatorio, in modo che si possano ricavare delle leggi applicabili all’esperimentostesso.
Un elemento fondamentale della teoria è quello di ricavare tutti i possibili risul-
tati che l’esperimento stesso è in grado di produrre. Per il lancio di un dado questoè piusttosto facile, dato che lo spazio campione dell’esperimento è costituito dainumeri 1, 2, 3, 4, 5, 6. In altre situazioni lo spazio campione è più difficile da ot-tenere. Nell’esperimento descritto precedentemente, delle automobili che transitanoda un casello autostradale durante una giornata, si può dire che il risultato è sicura-mente un numero intero, zero compreso. Tuttavia è piuttosto difficile indicare il limitesuperiore di questo intervallo se non intervengono altre ipotesi di lavoro (come ad es-empio potrebbero essere il tempo medio di transito, la velocità media delle autovetturesull’autostrada, e così via).
PROPOSITION 2.2.1. Lo spazio campione Ω rappresenta l’insieme dei possibili
risultati di un esperimento aleatorio.Dato inoltre un certo esperimento, come quello delle auto al casello, possono inter-
essare anche determinati gruppi di risultati. Ad esempio potrebbe essere interessantevalutare il numero di automobili che transitano al casello in un’ora, oppure il numerodi automobili che transita dalle 8.30 alle 11.30 e così via. Questi possibili risultatisono nient’altro che possibili sottoinsiemi dello spazio campione e sono detti eventi.Gli eventi devono però soddisfare determinate condizioni per potere essere definiti tali:
• se A è un evento, anche il suo complemento rispetto allo spazio campione, A,è un evento;
• se A e B sono eventi, anche A
SB è un evento.
Utilizzando queste due condizioni si può dimostrare anche che:• l’intersezione A
TB di due eventi arbitrari, A e B è un evento (infatti si ha
che AT
B = (AS
B));• dato un evento A, anche A
S A e A
TA sono eventi. Il primo rappresenta
tutto lo spazio campione Ω, il secondo rappresenta l’evento nullo detto ancheevento impossibile.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 23/152
2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 23
Gli eventi di uno spazio campione costituiscono quindi una classe S cioè un insiemechiuso rispetto alle operazioni di unione e di intersezione.
Un esperimento aleatorio è completamente caratterizzato se sono dati i seguenti treelementi: i) la descrizione del suo spazio campione Ω, ii) l’individuazione della classe
degli eventi S , ed infine iii) la descrizione della legge di probabilità P (•), la leggeche associa ad ogni evento di S la sua probabilità di presentarsi. La terna Ω, S , P (•)è detta lo spazio delle probabilità. A volte l’esperimento aleatorio viene identificatocon il suo spazio delle probabilità, cioè con la sua descrizione matematica astratta.
2.2.1. La probabilità. Varie definizioni ed interpretazioni sono state date allaprobabilità. Secondo la teoria assiomatica moderna, dovuta al matematico Kolmogorov,dato un esperimento aleatorio con il suo spazio campione, la legge di probabilità è unacorrispondenza che permette di associare ad ogni evento di S un numero reale chesoddisfa i seguenti tre assiomi:
• la probabilità di un evento arbitrario è sempre non negativa: P (A)
≥0;
• La probabilità dell’evento certo è pari ad 1: P (Ω) = 1;• Dati due eventi mutuamente esclusivi, la probabilità dell’evento unione è pari
alla somma delle probabilità dei singoli eventi:AT
B = ∅ ⇒ P (AS
B) =P (A) + P (B)
Da questi assiomi si ricavano alcune proprietà (quindi teoremi che si possono di-mostrare a partire dagli assiomi):
THEOREM 2.2.2. Dato un evento A la probabilità dell’evento complementare A è
pari al complemento ad uno della probabilità di A: P (A) = 1 − P (A).
THEOREM 2.2.3. L’evento nullo ha probabilità zero di verificarsi: P (∅) = 0.
THEOREM 2.2.4. La probabilità di un evento A è sempre un numero reale com-
preso tra zero ed 1: 0 ≤ P (A) ≤ 1.
THEOREM 2.2.5. Dati due eventi, A e B , la probabilità dell’evento unione è
espressa da: P (AS
B) = P (A) + P (B) − P (AT
B).
DIMOSTRAZIONE. A
SB = (A
SB)
TΩ = (A
SB)
T(A
SA) = (A
TA)
S(ATA)S(BTA)S(BTA) = AS(BTA)P (ASB) = P (AS(BTA). Tuttavia, essendo B = B TΩ = B T(ASA) =
= (BT
A)S
(BT
A). Quindi: P (B) = P (BT
A) + P (BT
A), da cui la tesi.
La probabilità intersezione di due eventi è anche detta probabilità congiunta, mentre leprobabilità dei due eventi, prese separatamente, sono dette probabilità marginali. Data
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 24/152
2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 24
una coppia di eventi, A e B con P (B) 6= 0, la probabilità di A condizionata all’evento
B, indicata con P (A/B) è definita dalla relazione:
(2.2.1) P (A/B) = P (ATB)
P (B)
La probabilità di A, presa separatamente, è detta probabilità a priori, mentre la prob-abilità di A noto anche l’evento B, cioè P (A/B) è detta probabilità a posteriori.L’evento B condiziona l’evento A e quindi ne modifica la sua probabilità, una voltache esso si sia verificato. Da questa osservazione nasce la definizione stessa nella qualel’evento congiunto è rinormalizzato per la probabilità di B che funge quindi da nuovospazio campione (da definizione infatti: P (B/B) = 1).
EXAMPLE 2.2.6. Supponiamo di voler studiare l’esperimento aleatorio che mod-elli il lancio di un dado non truccato. Lo spazio campione, costituito dall’insieme deipossibili risultati, è dato da: Ω = ω1,ω2,ω3,ω4,ω5,ω6 dove ωi rapresenta il risul-tato della faccia i − sima al termine dell’esperimento. La classe S di tutti i possibilieventi è costituita da 26 possibili valori, compresi Ω e ∅. La legge di probabilità restaassegnata non appena si assegna una probabilità a ciascuno dei risultati dello spaziodei campioni ωi. Poichè abbiamo ritenuto il dado non truccato e quindi è ragionevolesupporre che in un lancio tutte le facce di un dado abbiano uguale possibilità di pre-sentarsi, si può ritenere che:
(2.2.2) P (ωi) = 1
6
A questo punto è possibile definire un qualsiasi evento e trovare la sua probabilità dioccorrenza. Si voglia ad esempio determinare la probabilità che lanciando il dado,appaiano numeri inferiori a 3. Questa probabilità è la probabilità che accada: P (A) =P (ω1
Sω2). Poichè questi eventi sono disgiunti, la probabilità della loro unione è
anche pari alla somma delle loro probabilità: P (A) = P (ω1) + P (ω2) = 16
+ 16
= 13
.
In casi semplici come questo, dove lo spazio dei campioni è finito ed è simmet-rico (cioè vi è equiprobabilità di tutti i possibili risultati dello spazio campione Ω),è possibile utilizzare la definizione classica di probabilità dovuta a Laplace. Questadefinizione parte dall’osservazione dei casi favorevoli nell’insieme di tutti i casi pos-sibili che si possono verificare. Detta allora N il numero di tutti i casi possibili ed N Aquelli favorevoli all’evento A, la probabilità cercata è data dal rapporto:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 25/152
2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 25
(2.2.3) P (A) = N A
N
L’ipotesi cruciale alla base di questa definizione sta nel fatto che tutti i risultati dellospazio campione hanno pari probabilità di verificarsi. Nell’ipotesi in cui non vi siaequiprobabilità dei risultati dello spazio campione la definizione precedente non è piùadeguata e si ricorre allora ad un approccio di tipo sperimentale. Si supponga di effet-tuare un numero molto alto di lanci N e di collezionare il numero di volte che l’eventoA si verifica, N A. All’aumentare di N si comincia a notare una certa regolarità nellarelazione che esiste tra il numero di lanci e il numero di volte che A si verifica. Lafrequenza relativa con cui si verifica A, cioè: N A/N tende allora, per un numero dilanci molto elevato, alla probabilità, secondo la definizione di Von Mises:
(2.2.4) P (A) = limN →∞
N AN
Questa definizione, seppure non corrispondente alla visione moderna ( assiomatica)della teoria delle probabilità, ha il vantaggio di prescindere dalla simmetria (e quindiequiprobabilità) del problema in esame.
Si osservi che la definizione di Von Mises non è in contrasto con quella assiomaticadi Kolmogorov, dato che il rapporto tra due numeri positivi è sempre positivo. Se in-
oltre A è un sottinsieme di Ω, accade sempre che N A ≤ N , e quindi che 0 ≤ P (A) ≤1. Inoltre si può osservare che, detti A e B due eventi disgiunti, e dette N A ed N B leloro occorrenze su un numero totale di esperimenti pari ad N , la probabilità dell’even-to unione:
(2.2.5) P (A[
B) = limN →∞
N ASB
N = lim
N →∞N A + N B
N = P (A) + P (B)
e quindi gli assiomi di Kolmogorov sono verificati.
PROPOSITION 2.2.7. Due eventi A e B sono detti indipendenti se la probabilità
marginale di A e la probabilità di A condizionata a B sono uguali, cioè se:
(2.2.6) P (A) = P (A/B)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 26/152
2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 26
Partendo dalla definizione della probabilità condizionata, questo significa che:
(2.2.7) P (A) = P (A/B) = P (A
TB)
P (B) ⇒ P (A) · P (B) = P (A
\B)
I due eventi sono detti indipendenti quando la probabilità congiunta è pari al prodot-to delle singole probabilità. L’indipendenza tra i due eventi è esplicata nel fatto che laprobabilità dell’evento A è uguale a priori ed a posteriori dell’evento B . L’evento Bquindi non ha alcuna influenza su A, cioè i due eventi sono tra loro indipendenti.
Dalla definizione di probabilità condizionata nasce anche la seguente osservazione:
(2.2.8) P (A/B) · P (B) = P (B/A) · P (A) ⇒ P (A/B) = P (B/A) · P (A)
P (B)
nota anche con il nome di teorema (o formula) di Bayes. IL teorema di Bayes è notoanche con il nome di teorema delle probabilità totali.
Si consideri infatti una certa partizione dello spazio dei campioni Ω, fatto da N eventi disgiunti tra loro: B1, B2,...,BN , con Bi
TB j = ∅ e
Si Bi = Ω. La probabilità
di un dato evento A si può allora calcolare in base alla conoscenza delle probabilità
condizionate di A con le Bi:
(2.2.9)
P (A) = P (A\
Ω) = P (A\ N [
i=1
Bi) = P (N [
i=1
(A\
Bi)) =N X
i=1
P (A\
Bi)
da cui si ricava, ricordando la relazione che esiste tra la probabilità congiunta e quellacondizionata:
(2.2.10) P (A) =N X
i=1
P (A/Bi) · P (Bi)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 27/152
2.2. LE BASI DELLA TEORIA DELLE PROBABILITÀ 27
2.2.2. Esperimento composto. Si considerino ora due esperimenti aleatori dif-ferenti tra loro e caratterizzati dagli spazi campione Ω1 ed Ω2. Si può pensare unesperimento composto come la contemporanea osservazione dei due esperimenti. Lospazio campione sarà allora il prodotto cartesiano dei due spazi campione: Ω1
×Ω2 e gli
elementi di questo spazio sono le coppie ordinate che si ottengono dalla combinazionedi tutti i possibili risultati di Ω1 con quelli di Ω2. I due esperimenti naturalmente pos-sono fare riferimento a due esperienze uguali (ad esempio due lanci di dadi) o a duecompletamente differenti, come ad esempio il lancio di un dado e l’estrazione di unacarta da un mazzo di 52 carte francesi.
Sia ora A1 un evento del primo spazio campione ed A2 un evento del secondo. Sivoglia studiare la probabilità dell’evento composizione dei due eventi A1 ed A2, cioè:A = A1 × A2. Se i due eventi fossero indipendenti è evidente che la probabilita del-l’evento A è pari al prodotto delle due probabilità: P (A) = P (A1) · P (A2). Se invecei due esperimenti sono tra loro in qualche modo legati è necessario valutare il gradodi correlazione dei due eventi e quindi la probabilità non è più pari al prodotto delle
due probabilità. E’ ad esempio evidente che se si vuole stabilire la probabilità di unevento come l’estrazione di un numero dispari da un lancio di un dado e di un asso daun mazzo di carte, avremo:P (Adisp
TAasso) = P (Adisp) · P (Aasso) = 1
2 · 4
52 = 1
26.
Le considerazioni fatte per la composizione di due esperimenti si possono fare perla composizione di N qualunque esperimenti, ricordando però che in generale, dallaconoscenza delle leggi di probabilità dei singoli esperimenti non è possibile deter-minare la legge di probabilità dell’esperimento composto. In tale ambito ricade ilproblema delle prove ripetute ed indipendenti. Caso notevole è quello delle provebinarie ripetute ed indipendenti o prove di Bernoulli.
EXAMPLE 2.2.8. Formula di Bernoulli. Si supponga di voler indagare sull’es-
perimento composto da n esperimenti uguali tra loro ed indipendenti. Ciascuno degliesperimenti dà luogo ad uno spazio dei campioni con due soli possibili risultati: ωo edω1, con P (ωo) = p e P (ω1) = 1 − p. Un classico esempio è il lancio di n monete, oanche il lancio di una stessa moneta, purchè il risultato sia la composizione dei singolilanci. Si costruisca ora l’evento A = ωo si presenta k volte negli n esperimenti (oprove ripetute). La formula di Bernoulli (o binomiale) dice che:
(2.2.11) P (A) = ( nk
) · pk · (1 − p)n−k
ove il coefficiente binomiale vale: ( nk
) = n!k!(n−k)!
.
1
1Si ricordi che il modo con cui possono essere disposti k oggetti in n differenti posizioni, dis-tinguendo i gruppi anche per l’ordine, è dato dal numero Dn,k = n · (n− 1) · ... · (n− k + 1), chiamato
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 28/152
2.3. VARIABILI ALEATORIE 28
2.3. Variabili Aleatorie
Si consideri l’esperimento aleatorio costituito dal lancio di un dado. Sappiamo giàche il suo spazio campione è costituito da tutti i possibili valori che possono essere
ottenuti, e cioè i numeri da 1 a 6. Questi stessi numeri li potremmo ottenere anche conaltri esperimenti aleatori (ad esempio un qualche esperimento che consideri i giornidella settimana lavorativi).
Quello che si può osservare da un insieme di esperimenti di questo tipo è la co-mune cardinalità dello spazio campione, sebbene gli elementi dello spazio campionesiano differenti. Se allora astraiamo i casi particolari che abbiamo ottenuto, è possibilenumerare gli elementi (od i risultati) dello spazio campione, sino ad ottenere il valoreassociato a ciascuno dei possibili risultati. Quindi in questo modo l’esito del lancio diun dado diventa l’insieme dei numeri da 1 a 6, mentre l’esito di un qualche esperimen-to che coinvolga i giorni della settimana lavorativi diventa, ancora una volta, l’insiemedei numeri da 1 a 6.
Abbiamo costruito quindi una quantità variabile a seconda del risultato dell’esper-imento. A questa quantità è dato il nome di variabile aleatoria.Formalmente si può definire la variabile aleatoria come segue.
PROPOSITION 2.3.1. Dato un esperimento aleatorio avente come spazio campi-
one Ω , come classe degli eventi S e come legge di probabilità P (•) , si definisce una
corrispondenza che associ a ciascun risultato dello spazio Ω un unico numero reale.
Tale corrispondenza tra l’asse reale e lo spazio Ω è detta variabile aleatoria se l’in-
sieme dei risultati per i quali è verificata la disuguaglianza X (ωi) ≤ a è un evento,
comunque si scelga il numero reale a.
La variabile aleatoria si introduce ogni volta che il risultato di un esperimento
aleatorio è un valore numerico, come ad esempio una misura. Per quanto preciso edaccurato possa essere lo strumento, ripetendo più volte un esperimento (anche de-terministico!) si otterranno di volta in volta valori differenti, dovuti agli errori dimisura. L’insieme delle misure ottenute rappresenta proprio una variabile aleatoria,per l’effetto di incertezza dovuto all’errore di misura.
Rimane ora il problema di come trasferire la legge di probabilità alle variabilialeatorie. Vogliamo cioè essere in grado di stabilire qual è la probabilità di un evento,quando questo sia definito sull’asse dei numeri reali e non nella classe degli eventi S .In particolare, dati due numeri reali a e b, con a < b, ha interesse determinare qual è
disposizioni di n oggetti in classe k.Le disposizioni di n oggetti in classe n, cioè il modo con cui possono essere disposti n oggetti
distinguendoli solo per l’ordine che assumono nelle n posizioni è detto permutazioni in classe n evale: P n = n!.
Infine si dicono combinazioni di n oggetti in classe k il modo con cui è disporre k oggetti in ndifferenti posizioni, non distinguendoli per l’ordine. E’ quindi il numero di disposizioni Dn,k diviso il
numero delle permutazioni di k oggetti: C n,k = Dn,k/P k = n!k!(n−k)! =
nk
. Il numero
nk
è
detto anche coefficiente binomiale.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 29/152
2.3. VARIABILI ALEATORIE 29
la probabilità che la variabile aleatoria sia compresa tra a e b, cioè P (a < X ≤ b).Estendendo il linguaggio usato solo nell’ambito degli esperimenti aleatori, si definiràevento anche l’intervallo di valori sull’asse reale compreso tra a e b, dato che, per ladefinizione di variabile aleatoria, l’intervallo ]a, b] è associabile ad un dato evento diS .
Questa operazione di “determinazione” della legge di probabilità di un dato eventodefinito direttamente sull’asse reale diventa immediato se si introduce una funzione, lafunzione distribuzione di probabilità: F X (x), definita come segue:
(2.3.1) F X (x) = P (X ≤ x)
dove x è un numero reale ben definito. La funzione di distribuzione di probabilità èuna funzione che associa ad ogni numero reale il valore della probabilità dell’eventoidentificato dall’intervallo X ≤ x. Per F X (x) valgono le seguenti proprietà:
(1) 0 ≤ F X (x) ≤ 1(2) Il suo valore limite, per x → +∞ vale 1: limx→+∞ F X (x) = F X (+∞) =
P (X ≤ +∞) = 1(3) Il suo valore limite per x → −∞ vale 0: limx→−∞ F X (x) = F X (−∞) =
P (X ≤ −∞) = 0(4) La funzione è monotona non decrescente, cioè se x1 < x2 ⇒ F X (x1) ≤
F X (x2)(5) La funzione è continua da destra, cioè F X (x) = limh→0+ F X (x + h)
(6) Se la funzione di distribuzione presenta una discontinuità di prima specie nelpunto x, allora la differenza tra il limite a destra e quello a sinistra è proprio ilvalore della probablità dell’evento in X = x: P (X = x) = limh→0+ F X (x +h) − limh→0− F X (x + h)
(7) La probabilità dell’evento a < X ≤ b può essere calcolata tramite la re-lazione: F X (b) − F X (a).
Le variabili aleatorie possono essere suddivise in tre classi: variabili aleatorie continue,variabili aleatorie discrete e variabili aleatorie miste. Una variabile aleatoria è dettadiscreta se la sua funzione di distribuzione è continua a tratti: F X (x) =
Pk P (X =
xk)·u(x−xk). Tenendo conto delle ultime due proprietà viste precedentemente questosignifica che la variabile aleatoria assume valore solo in un numero discreto (cioè concardinalità pari a quella dei numeri naturali) di valori, e non continuo. Le posizioniin cui questo accade sono proprio le xk. In queste posizioni la probabilità dell’eventoè “concentrata” nel valore xk: pk = P (X = xk). Le pk sono dette anche masse diprobabilità.
Se invece abbiamo a che fare con una distribuzione di probabilità continua, alloral’insieme dei valori che può assumere la funzione F X (x) si distribuisce con continuità
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 30/152
2.4. DENSITA’ DI PROBABILITA’ 30
sull’asse dei numeri reali. L’insieme degli eventi a cui è associata tale v.a. è un in-finito di cardinalità pari a quello dei numeri reali, quindi la probabilità che la variabilealeatoria assuma un certo valore x è un infinitesimo, tende cioè a zero.
Una variabile aleatoria mista è una variabile aleatoria continua quasi ovunque,
tranne che per un numero finito (o un’infinità numerabile) di punti per i quali presentadiscontinuità.
2.4. Densita’ di Probabilita’
Una descrizione alternativa di una variabile aleatoria è data anche della funzionedensità di probabilità, f X (x), definita dalla relazione:
(2.4.1) f X (x) = dF X (x)
dx
La relazione inversa è invece:
(2.4.2) F X (x) =
Z x−∞
f X (x)dx
La funzione densità di probabilità è ovviamente non negativa, discendendo dalla derivazionedi una funzione monotona non descrescente, inoltre la sua area vale sempre 1:
(2.4.3)Z +∞−∞
f X (x)dx = 1
.
Il nome di densità di probabilità discende dalla sua stessa definizione. Infatti sisupponga di considerare un intervallino molto piccolo: [x, x +∆x] e di voler calcolarela probabilità che X capiti in quell’intervallo: P (x < X ≤ x + ∆x). Per definizionesi ha:
P (x < X ≤ x + ∆x) = Z x+∆x
xf X (x)dx ≈ f X (x) · ∆x ⇒
(2.4.4) f X (x) = P (x < X ≤ x + ∆x)
∆x
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 31/152
2.4. DENSITA’ DI PROBABILITA’ 31
cioè la funzione densità di probabilità in un punto rappresenta il valore della probabilitàche si può calcolare in un intervallino nell’intorno di quel punto diviso l’ampiezza diquell’intervallino. La sua misura è quindi una misura di densità, cioè di come laprobabilità si addensa attorno ai vari valori che la variabile aleatoria può assumere
sull’asse reale.Poichè la funzione distribuzione di probabilità può essere continua, discreta o
mista, anche per la densità di probabilità dovremmo distinguere i vari casi. Quando lafunzione di distribuzione è discreta o mista, essa è costituita da un insieme (anche in-finito) di discontinuità di prima specie. Conseguentemente in questi punti la funzionenon è, a rigore, derivabile e quindi non si potrebbe definire la densità di probabilità.
Tuttavia di una variabile aleatoria discreta è stata data una descrizione in terminidi distribuzione di probabilità che introduceva l’uso dei gradini. Difatti il gradino dàinformazione del “salto” di probabiltà che è avvenuto in un certo punto a causa dellapresenza di una certa massa di probabilità. Una funzione di distribuzione di probabilitàdiscreta è rappresentata in figura (2.4.1)
i
F(x)
xx
FIGURA 2.4.1. Distribuzione di probabilità di una variabile aleatoria discreta
Se allora si considera la descrizione per gradini è possibile introdurre, come densitàdi probabilità, una densità che sia costituita da impulsi nelle posizioni delle discontinu-ità e sia uguale a zero altrove. Gli impulsi infatti rappresentano, nella descrizione delladensità di probabilità, un valore “concentrato” e non distribuito della probabilità, unvalore cioè che assume una densità infinita, dovendo essere definita in un solo puntomatematico (vedi figura (2.4.2)).
Da un punto di vista della rappresentazione matematica si ha:
(2.4.5) F X (x) =X
k
P (X = xk) · u(x−xk) ⇒ f X (x) =X
k
P (X = xk) ·δ (x−xk)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 32/152
2.5. OPERAZIONI SULLA VARIABILE ALEATORIA 32
i
F(x)
xx
FIGURA 2.4.2. Densità di probabilità di una variabile aleatoria discreta
2.5. Operazioni sulla Variabile Aleatoria
Nei problemi che coinvolgono una variabile aleatoria può essere comune l’esigen-za di dover effettuare alcune operazioni su di essa. In particolare, data una variabilealeatoria X , si pone il problema di come determinare le caratteristiche della variabilealeatoria ottenuta come Y = g(X ), dove g(•) è una funzione deterministica definitasull’asse reale (e dotata di determinate proprietà). Un esempio può essere dato dallatensione di rumore ai capi di una resistenza. Questa quantità può essere descritta medi-ante una variabile aleatoria, X , dato che il fenomeno che sta alla base della tensione dirumore è un fenomeno di tipo statistico. Se ora si vuole misurare la potenza di rumoredissipata sul resistore, poichè la potenza su un resistore è sempre pari a P R = x2/R,sarà anch’essa una variabile aleatoria, ottenuta come prodotto di una costante (il valoredella resistenza) per il quadrato di una quantità aleatoria. Se dunque X varia in modoimprevedibile, ma con una certa legge di probabilità, ci si può chiedere come varia lapotenza P R. Questa nuova variabile aleatoria si può ottenere trasformando la variabilealeatoria originaria.
Sia y = g(x). Si vuole determinare: F Y (y) = P (Y ≤ y) = P (g(X ) ≤ y). Sidevono allora prendere tutti i valori di x, per i quali risulta g(x) ≤ y. Detto DY questoinsieme: DY = x 3 g(x) ≤ y, si ha che: F Y (y) =
R DY
f X (x)dx. Da questa si
ricava poi la densità di probabilità: f Y (y) = dF Y (y)dy
.Si supponga in particolare che la funzione g(•) sia monotona strettamente cres-
cente. In tal caso è possibile definire la sua inversa: g−1
(•) ed è immediata la relazioneper determinare la densità di probabilità di Y :
F Y (y) = P (Y ≤ y) = P (g(X ) ≤ y) = P (X ≤ g−1(y)) = F X (g−1(y)) ⇒
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 33/152
2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA 33
(2.5.1) f Y (y) = f X (g−1(y)) · dg−1(y)
dy =
f X (g−1(y))
g0(g−1(y))
se la funzione è monotona strettamente decrescente invece si ha:
(2.5.2) f Y (y) = −f X (g−1(y)) · dg−1(y)
dy = −f X (g−1(y))
g0(g−1(y))
La relazione generale si può quindi riassumere nella seguente formula:
(2.5.3) f Y (y) = Z dY f X (x)
|g0(x)|dx
dove dY è l’insieme di tutti i valori x che sono soluzioni dell’equazione g(x) = y.Naturalmente l’insieme delle soluzioni di g(x) = y può anche essere l’insieme vuoto,nel qual caso si ha ovviamente: f Y (y) = 0. Il caso in cui invece risulta: g0(x) = 0è trattato differentemente a seconda che anche f X (x) sia nullo oppure no. Nel primocaso sono costanti sia F X (x) che g(x) quindi risulterà: P (Y = y) = P (X ∈ I ) con I intervallo delle x in cui g(x) assume valore costante. Nel secondo caso f Y (y) tenderàad un valore infinito (cioè ad un impulso).
2.6. Parametri Statistici di una Variabile Aleatoria
Nelle situazioni reali non è sempre possibile avere a disposizione tutte le conoscen-ze necessarie per caratterizzare una variabile aleatoria. Il massimo di informazioneche si può trarre da un esperimento aleatorio è la determinazione della sua funzionedensità di probabilità. Quando questa funzione non si conosce è comunque possibiledeterminare alcuni parametri statistici che, seppure non permettono una conoscenzacompleta della variabile aleatoria, permettono di estrarne qualche proprietà.
Il più importante di questi parametri statistici è il valore atteso o media, µx, definitodalla seguente relazione:
(2.6.1) µX = Z +∞−∞ x f X (x)dx
e rappresenta una sorta di “baricentro” della funzione densità di probabilità (si con-fronti a tale proposito la media con le definizioni, meno note di moda e mediana). Sela variabile aleatoria è discreta la relazione precedente, a causa della presenza degli
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 34/152
2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA 34
impulsi, diventa una sommatoria:
(2.6.2) µX = Z +∞−∞ x f X (x)dx = Xk
pk · Z +∞−∞ x δ (x − xk)dx = Xk
xk pk
L’operazione precedente di media può essere scritta molto più facilmente introducen-do l’operatore di aspettazione (o di valor medio):
(2.6.3) E [g(X )] =
Z +∞−∞
g(x) f X (x)dx
che nel caso della media assume la semplice relazione: µX = E [X ]. L’operatore divalor medio gode della proprietà di linearità, dato che è definito attraverso un’oper-azione di integrazione: E [a · g(X ) + b · h(X )] = a · E [g(X )] + b · E [h(X )]. Inoltre,si supponga di avere una variabile aleatoria Y ottenuta tramite trasformazione dellav.a. X attraverso la funzione y = g(x). Senza passare attraverso il calcolo (a voltedifficoltoso) della densità di probabilità di Y nota quella di X è possibile determinareil valor medio di Y :
(2.6.4) µY = E [Y ] = E [g(X )] = Z +∞
−∞ g(x) f X (x)dx
Questo risultato è noto con il nome di teorema del valor medio.Due v.a. possono possedere lo stesso valor medio ed essere molto differenti tra
loro. In particolare è possibile che le v.a. abbiano una densità di probabilità che sia inun caso molto “stretta”, nell’altro molto “larga”. Si confrontino le due densità in figura(2.6.1).Questo fatto suggerisce che, seppure con una media uguale, le due v.a. hanno compor-tamenti molto differenti tra loro. Nel caso della v.a. con densità di probabilità moltolarga è più probabile che capitino valori della v.a. lontani dal valor medio, cosa invece
meno probabile nel secondo caso. E’ possibile allora quantificare questo fatto statisti-co introducendo un nuovo parametro, la varianza, che è definita come segue:
(2.6.5) σ2X = E [(X − µX )
2] =
Z +∞−∞
(x − µX )2 f X (x)dx
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 35/152
2.6. PARAMETRI STATISTICI DI UNA VARIABILE ALEATORIA 35
6
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
−6 −4 −2 0 2 40
FIGURA 2.6.1. Confronto tra due densità di probabilità con la stessa media
La radice quadrata della varianza è detta deviazione standard e rappresenta una misuradi quanto “dispersa” sia la densità di probabilità attorno alla media (più grande è ladeviazione standard, maggiore la dispersione). Una v.a. che non presenti affatto dis-persione attorno alla media (cioè con σX = 0) sarebbe tutta concentrata sulla media,cioè avrebbe una densità di probabilità pari ad un impulso di area unitaria posto sul-la posizione della media (ovviamente in questo caso non si può parlare di densità diprobabilità vera e propria, dato che i possibili valori collassano su unico valore certo).
Il valore quadratico medio (chiamato a volte anche potenza) è definito come segue:
(2.6.6) m2X = E [X 2] =
Z +∞−∞
x2 f X (x)dx
L’operatore E [•] è un operatore lineare, quindi è possibile trovare la relazione che legatra loro varianza e potenza:
σ2X = E [(X
−µX )
2] = E [X 2
−2XµX + µ2
X ] = E [X 2]
−2E [X ] · µX + µ2
X =
(2.6.7) = m2X − 2µ2
X + µ2X = m2
X − µ2X
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 36/152
2.7. ESEMPI DI VARIABILI ALEATORIE 36
2.7. Esempi di Variabili Aleatorie
2.7.1. Variabile aleatoria uniforme. Una variabile aleatoria uniforme presentauna densità di probabilità costante in tutto l’intervallo in cui è definita, [a, b] e valore
nullo al di fuori di questo. Conseguentemente, dato che l’area sottesa dalla densitàdi probabilità deve essere unitaria, l’altezza di tale valore costante è: 1/(b − a). Ladensità di probabilità si può quindi scrivere come:
(2.7.1) f X (x) = 1
b − arect(
x − b+a2
b − a )
La v.a. non può assumere mai valori al di fuori dell’intervallo [a, b], ma dentro diquesto intervallo la probabilità di occorrenza di tutti i possibili valori è uguale (è come
se fosse un dado “continuo”, dotato cioè di infinite facce).La funzione di distribuzione, essendo la funzione integrale della densità di proba-
bilità avrà comportamento a “rampa” nell’intervallo in cui la funzione di densità è nonnulla:
(2.7.2) F X (x) =
0 x < ax−ab−a a ≤ x ≤ b1 x > b
Gli andamenti della funzione di densità e di quella di distribuzione sono mostrati infigura (2.7.1).
1/(b−a)
1
FIGURA 2.7.1. Densità e distribuzione della v.a. uniforme
Si possono calcolare facilmente i suoi parametri statistici:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 37/152
2.7. ESEMPI DI VARIABILI ALEATORIE 37
(2.7.3) µX =
Z ba
x · 1
b − adx =
b + a
2
σ2X =
Z ba
(x − b + a2
)2 · 1b − a
dx =
(2.7.4) 1
b − a(
b3 − a3
3 − (b + a) · (b2 − a2)
2 +
(b2 + a2 + 2ab)(b − a)
4 ) =
(b − a)2
12
(2.7.5) m2X =
Z ba
x2 · 1
b − adx =
b3 − a3
3(b − a) =
a2 + ab + b2
3
2.7.2. Variabile aleatoria esponenziale. Una variabile aleatoria molto utilizza-ta è la cosiddetta variabile aleatoria continua esponenziale unilatera o semplicementeesponenziale, così definita:
(2.7.6) f X (x) = 1
η · exp(−x
η) · u(x)
dove u(x) è il gradino unitario con discontinuità in x = 0. Il significato del parametroreale e positivo η sarà chiaro in seguito, quando si vedrà uno dei più comuni utilizzi
della v.a. esponenziale, cioè nei problemi di affidabilità e calcolo del rischio.La distribuzione di probabilità esponenziale vale:
(2.7.7) F X (x) =
Z x0
1
η · exp(−x
η)dx = [1 − exp(−x
η)] · u(x)
ed entrambe sono illustrate in figura (2.7.2).I suoi parametri statistici valgono:
(2.7.8) µX =
Z +∞0
x · 1
η · exp(−x
η)dx = η
(2.7.9) m2X =
Z +∞0
x2 · 1
η · exp(−x
η)dx = 2η2
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 38/152
2.7. ESEMPI DI VARIABILI ALEATORIE 38
2
0.5
1
1.5
2
2.5
3
0 0.5 1 1.50
FIGURA 2.7.2. Densità e distribuzione della v.a. esponenziale
(2.7.10) σ2X = Z +∞
0
(x − η)2 · 1η
· exp(−xη
)dx = η2
La v.a. esponenziale è spesso utilizzata (in ambito telecomunicazionistico) nellaseguente forma:
(2.7.11) f X (x) = λ · exp(−λx) · u(x)
dove λ = 1/η assume il significato di rate della v.a. esponenziale.
2.7.3. Variabile aleatoria di Poisson. La variabile aleatoria di Poisson è una v.a.
discreta con densità di probabilità:
(2.7.12) f Z (z ) =+∞Xn=0
e−ΛΛn
n! δ (z − n)
dove il parametro Λ caratterizza la v.a. discreta. La v.a. di Poisson assume valoridi probabilità (di massa) differenti da zero solo per valori interi e non negativi. Lavariabile aleatoria di Poisson e quella esponenziale sono in realtà legate tra loro, comesi vedrà in seguito. Esse modellano bene fenomeni come il conteggio del numero diclienti che paga ad una cassa di un supermercato nell’unità di tempo o il numero diautomobili che transita ad un casello autostradale o il numero di elettroni che transitaattraverso una giunzione np.
La funzione di distribuzione essendo l’integrale della f Z (z ) precedente, è moltosemplice:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 39/152
2.7. ESEMPI DI VARIABILI ALEATORIE 39
(2.7.13) F Z (z ) =+∞
Xn=0
e−ΛΛn
n! u(z − n)
dovendo integrare solo la variabile z . Un andamento della massa di probabilità perΛ = 3 è mostrato in figura (2.7.3).
12
0.05
0.1
0.15
0.2
0.25
0 2 4 6 8 100
FIGURA 2. 7.3. Densità e distribuzione della v.a. di Poisson
I suoi parametri statistici sono:
(2.7.14) µZ = Z +∞
0 z ·
+∞
Xn=0 e−ΛΛ
n
n! δ (z −n)dz =
+∞
Xn=0 e−ΛΛ
n
n! n = e−Λ
·
+∞
Xn=1
Λn
n! n =Λ
m2Z =
Z +∞0
z 2 ·+∞Xn=0
e−ΛΛn
n! δ (z − n)dz = e−Λ ·
+∞Xn=0
Λn
n! n2 =
(2.7.15)
e−Λ·+∞
Xn=1
Λn
(n − 1)!(n−1+1) = Λe−Λ·
+∞
Xn=2
Λn−1
(n − 1)!(n−1)+e−ΛΛ·
+∞
Xn=2
Λn−1
(n − 1)! = Λ
2+Λ
(2.7.16) σ2Z = m2
Z − µ2Z = Λ
Quindi per la v.a. di Poisson il parametro caratteristico Λ rappresenta sia il valor mediosia la varianza.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 40/152
2.7. ESEMPI DI VARIABILI ALEATORIE 40
2.7.4. Variabile aleatoria di binomiale. Considerato un esperimento che con-duce a due soli possibili risultati (successo, con probabilità p e insuccesso, con proba-bilità 1− p), la variabile aleatoria binomiale (o di Bernoulli) conta il numero di successiaccaduti in n esperimenti aleatori di questo tipo indipendenti tra loro:
P (X = k) =
nk
pk(1 − p)n−k k = 0,...,n
Questa v.a. è discreta, quindi hanno ovvia formulazione sia la distribuzione sia ladensità di probabilità. La media vale:
µX =nX
k=0
k
nk
pk(1 − p)n−k =
nXk=1
k n(n − 1)!
k(k − 1)!(n − k)! ppk−1(1 − p)n−k = np
la varianza vale invece:
σ2X =
nXk=0
(k − np)2 nk pk(1 − p)n−k = np(1 − p)
2.7.5. Variabile aleatoria geometrica. Considerati n esperimenti aleatori indipen-denti di Bernoulli la v.a. geometrica conta qual è il numero di successi da osservareprima di registrare il primo insuccesso:
P (X = k) = pk(1 − p) k = 0, ...,∞La media vale:
µX =∞X
k=0
kpk(1 − p) = p
1 − p
la varianza vale invece:
σ2X =
∞Xk=0
k − p
1 − p
2
pk(1 − p) = p
(1 − p)2
sebbene la determinazione attraverso la formula riportata risulti alquanto diffi-coltosa.
2.7.6. Variabile aleatoria binomiale negativa e ipergeometrica. La variabilealeatoria binomiale negativa o di Pascal conta il numero di successi che si devonocollezionare in una serie di prove ripetute ed indipendeti di Bernoulli prima di osser-vare un numero di insuccessi complessivamente pari ad m, con m intero positivo, zerocompreso:
P (X = n) =
n + m − 1
m − 1
pn(1 − p)m−1(1 − p)
Il valore medio è pari a: µX = m p1− p .
Infine la variabile aleatoria ipergeometrica si introduce in una particolare classe diesperimenti detti senza rimessa (o senza rimescolamento). Si supponga, per rendere
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 41/152
2.7. ESEMPI DI VARIABILI ALEATORIE 41
chiara l’idea con un esempio, di avere un lotto di N oggetti di cui D difettosi. Sisupponga ora di pescare da questo lotto un numero di oggetti n senza rimessa (cioèsenza rimetterli dentro dopo aver osservato di quale oggetto si tratti). Detti k gli oggettidifettosi tra gli n pescati, la v.a. ipergeometrica permette di valutare la probabilità di k
(numero compreso tra 0,...,n):
P (X = k) =
D
k
N − D
n − k
N n
2.7.7. Derivazione e significato delle v.a. esponenziale e di Poisson. La v.a.
esponenziale e quella di Poisson sono legate allo stesso significato fisico che è quellodell’attesa di un evento. In un processo di Poisson la casualità è affidata al tempo di
arrivo di un certo evento. In generale nei processi di Poisson siamo interessati da varifenomeni:
(1) osservare il numero di eventi in un certo intervallo di tempo fissato;(2) il tempo di interarrivo, cioè il tempo che intercorre tra l’arrivo di due eventi
successivi;(3) il tempo di attesa, cioè il tempo che occorre affinchè arrivi il primo evento a
partire da un istante iniziale di osservazione.
I tre tipi di fenomeni sono riassunti nella figura (2.7.4), dove le crocette rappresentanogli arrivi di un certo evento sull’asse temporale.
3)
x x x x x x
0
1) 2)
0
FIGURA 2. 7.4. Rappresentazione grafica dei tre fenomeni descritti
Per poter ricavare la distribuzione di un processo poissoniano si fanno alcune ipotesisemplificative:
(1) fissato un intervallo T e suddividendo questo intervallo in n (con n grande)intervallini piccoli di durata δ T , T = n · δ T , la probabilità che un evento
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 42/152
2.7. ESEMPI DI VARIABILI ALEATORIE 42
capiti in un intervallino è pari ad una v.a. di Bernoulli:
P (N (δ T ) = 1) = pP (N (δ T ) = 0) = 1
− p
si esclude la probabilità che in un singolo intervallino capiti più di un evento(2) Gli arrivi in intervallini diversi sono indipendenti tra loro.
Calcoliamo ora qual è la probabilità che in un dato intervallo finito T capitino keventi: P n(N (T ) = k). In base alle formule viste per la v.a. di Bernoulli si ha:
P (N (T ) = k) = ( nk
) pk(1 − p)n−k con n numero totale di intervallini in cui si può
pensare suddiviso l’intervallo T . Sia ora Λ un parametro costante, tale che si possascrivere: ΛT = np = α, così che, quando il numero di intervallini tende ad infinito, laprobabilità che un evento capiti in un dato intervallino vada a zero: n → ∞ ⇒ p → 0.La probabilità diventa allora:
P (N (T ) = k) = limn→∞
P n(N (T ) = k) = limn→∞
( nk
) pk(1 − p)n−k =
= limn→∞
( nk
)(α
n)k(1−α
n)n−k =
αk
k! · lim
n→∞n · (n − 1) · ... · (n − k)!
nk · (n − k)! ·(1−α
n)n·(1−α
n)−k =
(2.7.17) = αk
k! · lim
n→∞(1 − α
n)n =
αk
k! · exp(−α)
Si osservi che se si pone T = 1 allora la P (N (1) = k) coincide con la distribuzionedi Poisson trovata nel par. 2.7.3, che a questo punto rappresenta la probabilità che nel-l’unità di tempo capitino k eventi. La probabilità che nell’unità di tempo non capitinoaffatto eventi vale: P (N (1) = 0) = exp(−Λ).
Calcoliamo ora il tempo di attesa, cioè il tempo che bisogna attendere affinchècapiti il primo evento a partire da un instante iniziale di osservazione. Se è x l’istantein cui si vuole valutare la v.a., distribuzione di probabilità della v.a. tempo di attesa puòessere espressa anche come: F τ (x) = P (τ ≤ x) = 1 − P (τ > x). Ma P (τ > x) è an-che la probabilità che sino ad x non sia capitato alcun evento: P (τ > x) = exp(−Λx).Quindi:
(2.7.18) F τ (x) = 1 − e−Λx
f τ (x) = Λe−Λx
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 43/152
2.7. ESEMPI DI VARIABILI ALEATORIE 43
che, confrontata con le (2.7.6) e (2.7.7) dà significato alla v.a. esponenziale, purchè siponga: Λ = 1
η.
Si supponga ora che, a partire da un certo istante in cui è capitato un evento, sivoglia determinare quale sarà la probabilità che sia τ il tempo di arrivo dell’evento
successivo. Questa probabilità di arrivo, detta tempo di interarrivo si può calcolarefacilmente a partire dalle considerazioni fatte precedentemente. Infatti, poichè glieventi sono indipendenti tra loro, l’occorrere di un evento ad un certo istante (quel-lo nel quale noi poniamo t = 0) non genera alcuna dipendenza futura sull’eventosuccessivo. Ne consegue che la distribuzione e la densità di probabilità del tempo diinterarrivo sono uguali a quelle calcolate per il tempo di attesa. La variabile aleatoriaesponenziale esprime cioè la mancanza di memoria di un sistema.
2.7.8. Variabie aleatoria gaussiana. La variabile aleatoria di Gauss detta anchev.a. normale, o a campana, emerge nell’esperienza dell’umanità come una delle più
ampie generalizzazioni della filosofia naturale. Essa serve come strumento guida in
ricerche della scienza, della medicina e dell’ingegneria. E’ uno strumento indispens-abile per l’analisi e l’interpretazione dei dati fondamentali ottenuti dall’osservazione
e dall’esperimento.2
Moltissimi fenomeni naturali si modellano statisticamente, in mancanza di altreinformazioni, come se seguissero una variabile aleatoria gaussiana. Inoltre, come verràdimostrato più avanti con il teorema del limite centrale, la v.a. gaussiana si può sempreconsiderare una generalizzazione di altre v.a. quando il numero di elementi presentidiventa molto grande.
La densità di probabilità della v.a. gaussiana è:
(2.7.19) f X (x) = 1
σ√
2πexp(−(x − µ)2
2σ2 )
dove, come si può dimostrare, i parametri µ e σ2 sono rispettivamente il valor medio ela varianza della v.a. La densità di probabilità gaussiana si estende su tutto l’asse deinumeri reali, ed è simmetrica rispetto al suo valor medio µ. La v.a. gaussiana è indicataanche con ℵ(µ,σ2), dato che la media e la varianza sono sufficienti per caratterizzarlacompletamente. La gaussiana standard è quella con densità di probabilità ℵ(0, 1), cioè:
(2.7.20) f X N (x) = 1√
2πexp(−x2
2 )
2J. Gleick: “Caos: la nascita di una nuova scienza”, ed. Bur.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 44/152
2.7. ESEMPI DI VARIABILI ALEATORIE 44
Essa è particolarmente importante poichè si può facilmente vedere che una gaussianaqualunque ℵ(µ,σ2) può essere ottenuta come trasformazione lineare della gaussianastandard: X = σ · X N + µ. Infatti:
f X (x) = 1
σ · f X N (
x − µ
σ ) =
1
σ√
2πexp(−(x − µ)2
2σ2 )
La funzione di distribuzione della gaussiana non può essere espressa in forma chiusa.A tale proposito si introduce la funzione di distribuzione della gaussiana standard:
(2.7.21) ΦX N (x) =
Z x
−∞
1√ 2π
exp(−z 2
2 )dz
Questa funzione è calcolata con metodi numerici e spesso si danno anche valori tab-ulati. Talvolta si usa anche la funzione Q(x) = 1 − Φ(x). Nota la funzione di dis-tribuzione standard è possibile calcolare la funzione di distribuzione per una normalequalunque ℵ(µ,σ2): ΦX (x) = P (X ≤ x) = P (σX N + µ ≤ x) = ΦX N (
x−µσ
). Quin-di, ad esempio, se si vuole conoscere la probabilità che la variabile gaussiana assumavalori in un intervallo [a, b], si ottiene:
(2.7.22) P (a < x ≤ b) = F X (b) − F X (a) = ΦN (b − µ
σ ) − ΦN (
a − µ
σ )
.
Molte volte nei calcolatori si ha a disposizione, direttamente implementata, la fun-zione di distribuzione standard. Quando questa non è presente, si hanno le funzionierrore ed errore complementare (error function e complementary error function):
(2.7.23) erf (x) = 2√ π
Z x0
e−z2dz
(2.7.24) erfc(x) = 1 − erf (x) =
2
√ π Z +∞
x e−z2
dz
Quando si hanno a disposizione solo la funzione errore o la sua complementare si puòricavare la funzione di distribuzione standard da quest’ultima: Φ(x) = 1
2(1+erf ( x√
2)),
e la funzione Q(x) = 12erfc( x√
2). Da questa relazione si può ricavare facilmente la
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 45/152
2.8. VARIABILI ALEATORIE CONDIZIONATE 45
probabilità che una gaussiana assuma valori nell’intervallo [a, b]: P (a < x ≤ b) =12 [erf ( b−µ√
2σ) − erf (a−µ√
2σ)] = 1
2 [erfc(a−µ√ 2σ
) − erfc( b−µ√ 2σ
)]. Nelle figura (2.7.5) sonoriportate la densità di probabilità gaussiana con la funzione di distribuzione e la Q(x),in figura (2.7.6) è riportata invece la funzione errore e la sua complementare.
Q(x)
0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
−4 −3 −2 −1 0 1 2 3 4
0.1
FIGURA 2.7.5. Densità, distribuzione e funzione Q(x) per la v.a. gaussiana
erfc(x)
erf(x)
−1
0.5
1
1.5
2
−4 −3 −2 −1 0 1 2 3 4
−0.5
0
FIGURA 2.7.6. Funzione errore e funzione errore complementare
2.8. Variabili Aleatorie Condizionate
La funzione di distribuzione della probabilità, F X (x) passa attraverso la definizionedi un evento, di cui la funzione ne rappresenta la probabilità: F X (x) = P (X ≤ x) =P (A), dove l’evento A è l’evento che la v.a. assuma valori minori od uguali ad X . Ilverificarsi di un evento però può essere anche influenzato dal verificarsi o meno di unaltro evento B avente probabilità non nulla di accadere, P (B). Ha quindi senso porsiil problema del calcolo di una funzione di distribuzione condizionata dall’occorreredell’evento B . Tale funzione di distribuzione della v.a. X , indicata con F X/B(x/B),
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 46/152
2.9. APPLICAZIONI NOTEVOLI 46
vale ovviamente:
(2.8.1) F X/B(x/B) = P (A, B)
P (B) = P (X
≤x, B)
P (B)
da cui si può definire anche la densità di probabilità:
(2.8.2) f X/B(x/B) = dF X/B(x/B)
dx
Le funzioni di distribuzione e di densità di probabilità godono di tutte le proprietà vistefinora e valide per le funzioni e distribuzioni non condizionate.
2.9. Applicazioni notevoli
2.9.1. Trasformazione di una variabile aleatoria. Schematizzazione del guas-
to di un circuito elettrico. Si supponga di avere il semplice circuito elettrico riportatoin figura (2.9.1). Il generatore di tensione sia collegato alla serie RC all’istante t = 0.Il resistore R abbia un tempo di guasto aleatorio X , in corrispondenza del quale essointerrompe il circuito. Questo tipo di fenomeno, cioè l’istante in cui interrompe il cir-cuito, si può modellare (per quanto detto in par. 2.7.7) come una v.a. esponenziale conparametro (scelto arbitrariamente) pari a 2α = 2RC :
(2.9.1) f X (x) = 1
2α exp(− x
2α) · u(x)
R
C
t=0
t=X
Vo
FIGURA 2.9.1 . Schema del circuito RC con un guasto in t = X .
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 47/152
2.9. APPLICAZIONI NOTEVOLI 47
Si vuole determinare la densità di probabilità f V (v) della v.a. V che rappresenta latensione ai capi del condensatore dopo che è avvenuto il guasto al resistore R. Il guas-to al resistore si può schematizzare come l’interruzione del circuito e il conseguentemantenimento della tensione sul condensatore (qui supposto ideale). Poichè non si
conosce l’istante in cui il guasto avverrà, anche la tensione che verrà mantenuta ai capidel condensatore è una quantità statistica, cioè ignota a priori, di cui però è possibiledeterminare la probabilità che assuma un certo valore. E’ sufficiente a tale propositodeterminare la legge che lega il tempo alla tensione ai capi del condensatore: v(t) =V o[1−exp(−t/α)] · u(t). Ponendo t = X , segue: v(X ) = V o[1−exp(−X/α)] · u(X ).Conosciamo quindi la legge di trasformazione e la densità di probabilità di X . Si devequindi applicare quanto riportato nel par. 2.5:
(2.9.2) f V (v) = f X (x)
v0(x)
dove x è la quantità che soddisfa l’equazione v = v(x). Poichè la legge v(t) è perfet-tamente invertibile nell’intervallo [0, V o], solo in questo intervallo avrà senso definirela densità di probabilità di f V (v). L’inversione della legge porta a:
(2.9.3) v = v(x) ⇒ x = −α ln(1 − v
V o)
poichè inoltre:
(2.9.4) v0(x) = V oα
exp(−t/α)
si ha infine:
(2.9.5) f V (v) = 1
2V o·
1p 1 − v
V o
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 48/152
2.9. APPLICAZIONI NOTEVOLI 48
2.9.2. Tempo di guasto dopo il rodaggio. Un altro problema interessante è quel-lo del tempo di guasto dopo il rodaggio. Si abbia una serie di resistenze, tutte nomi-nalmente uguali tra loro. Se queste resistenze si pongono sotto tensione, presto o tardiesse tenderanno a rompersi. La rottura di una singola resistenza è ovviamente un even-
to casuale, che è ben modellato da una variabile aleatoria esponenziale, con densità diprobabilità data dalla (2.7.6). Il parametro η, che nella densità di probabilità esponen-ziale rappresenta il valor medio, è detto tempo medio di guasto o MTTF (Mean TimeTo Failure).
Effettuiamo ora un’operazione di rodaggio. Dato cioè un tempo prefissato a pi-acere, to, scartiamo le resistenze che si sono guastate sino a quell’istante. Quindicominciamo, per istanti t ≥ to, ad osservare le resistenze che non si sono ancora guas-tate. In base alla proprietà di mancanza di memoria della variabile aleatoria esponen-ziale, ci si aspetta che la densità di probabilità condizionata da questo evento non siamutata. Verifichiamolo. Quello che vogliamo determinare è la densità di probabilitàcondizionata dall’evento B, con B = t
≥to.
Si calcola prima la distribuzione di probabilità F X/B(x/B). La probabilità del-l’evento B è: P (B) = P (X ≥ to) = 1 − P (X < to) = 1 − F X (to), dove F X (x)è la funzione di distribuzione della v.a. X . La probabilità congiunta dell’eventoP (X ≤ x, B) si può determinare invece a partire dai due casi in cui x > to op-pure x ≤ to:
P (X ≤ x, B) = P (X ≤ x, X ≥ to) =
F X (x) − F X (to) x > to
0 altrimenti =
(2.9.6) = [F X (x) − F X (to)] · u(x − to)
Sostituendo nella definizione di distribuzione di probabilità condizionata da unevento:
F X/B(x/B) = P (X ≤ x, B)
P (B) =
[F X (x) − F X (to)] · u(x − to)
1 − F X (to) =
(2.9.7) = [F X (x) − F X (to)]1 − F X (to)
· u(x − to)
da cui si ricava facilmente la densità di probabilità condizionata:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 49/152
2.9. APPLICAZIONI NOTEVOLI 49
(2.9.8) f X/B(x/B) = dF X/B(x/B)
dx =
f X (x)
1 − F X (to) · u(x − to)
Questa densità di probabilità spiega il comportamento delle resistenze quando si in-troduce il tempo di rodaggio: la probabilità che se ne guasti qualcuna per x < to èovviamente nulla, dato che si stanno considerando solo le resistenze sopravvisute al-l’istante t = to; inoltre la densità di probabilità è la stessa del caso in cui si cominci adosservare il fenomeno per t = 0 (e quindi è verificato che il sistema è privo di memo-ria), tranne per il fattore di scala 1
1−F X(to) che ha lo scopo di rinormalizzare la densità
di probabilità in modo che la sua area sia sempre pari ad 1.
2.9.3. Generatori aleatori. Nei problemi di simulazione capita talvolta di richiedere,
ai computer, di produrre dei numeri casuali, generati con una legge assegnata. La rou-tine di sistema di un computer, basata sulle complesse relazioni esistenti tra i registridella macchina e il clock, è in grado spesso di fornire un numero casuale, ad aritmeticafinita, compreso tra 0 ed 1 e distribuito in modo uniforme.
Il primo problema da risolvere per produrre numeri a caso con distribuzione as-segnata, consiste nel costruire una funzione φ tale che se X è uniforme nell’intervallo[0, 1], allora φ(X ) abbia la distribuzione assegnata nell’intervallo assegnato. Il proble-ma si formalizza così: data una v.a. X uniforme in [0, 1], ed assegnata una densità diprobabilità (continua) f , si deve trovare un’applicazione φ, tale che Y = φ(X ) abbiadensità di probabilità f .
Supponiamo che si voglia f non nulla all’interno di un intervallo assegnato [a, b]
e nulla al di fuori di esso. In tal caso la F , funzione cumulativa, sarà strettamentecrescente e quindi invertibile in questo intervallo. Mostriamo che la scelta φ = F −1
risolve il nostro problema.Anzitutto osserviamo che la F di una v.a. uniforme vale:
F (x) = x 0 ≤ x ≤ 1
vale 0 per x < 0 e 1 per x > 1. Si ha allora che ∀t, 0 ≤ F (t) ≤ 1 e quindi che:
P (F −1(X ) ≤ t) = P (X ≤ F (t)) = F (t)
La v.a. Y = φ(X ) = F −1(X ) risolve il problema, dato che avrà una funzione
cumulativa pari ad F .Supponiamo, ad esempio, di voler ottenere una legge esponenziale con parametroλ. Siccome la funzione cumulativa vale:
F (t) = 1 − exp(−λt), t ≥ 0
essa è invertibile su <+ e la sua inversa vale:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 50/152
2.10. SISTEMI DI VARIABILI ALEATORIE 50
F −1(x) = − 1
λ log(1 − x)
Quindi se X è uniforme su [0, 1], allora la funzione trasformata Y =
−1λ
log(1
−X )
è esponenziale con parametro λ.In altri casi esistono tecniche più raffinate (o più semplici, quando la funzione da
invertire non è semplice) che, pur sfruttando il principio sopra esposto, permettono diaggirare le difficoltà del problema in esame.
2.10. Sistemi di Variabili Aleatorie
2.10.1. Sistemi di due variabili aleatorie. Nello studio di un esperimento aleato-rio può avere senso associare due grandezze fisiche differenti a due risultati differen-ti dell’esperimento. Tuttavia le corrispondenti v.a. associate a queste grandezze, X ed Y , difficilmente forniranno risultati significativi all’esperimento stesso, se prese
singolarmente.Ad esempio si supponga di considerare un esperimento statistico in cui si misura
l’altezza e il peso di una certa popolazione di persone. Sarà molto difficile trovareuna persona molto alta e molto magra, sebbene la variabilità di peso e di altezza,prese singolarmente permettono escursioni ampie. Questo significa che, nell’esperi-mento aleatorio, le due grandezze forniscono informazione utile solo se prese insieme(informazione congiunta).
Data allora una coppia di variabili aleatorie (X, Y ) si definisce la funzione di dis-
tribuzione di probabilità congiunta:
(2.10.1) F XY (x, y) = P (X ≤ x, Y ≤ y)
che descrive in modo completo il comportamento statistico delle due v.a. In partico-lare, conoscendo F XY (x, y) è possibile avere informazioni sul comportamento statis-tico delle due v.a. prese separatamente (probabilità marginali). Le proprietà dellafunzione di distribuzione di probabilità congiunta sono molto simili a quelle viste perla funzione di distribuzione di una sola variabile:
(1) la funzione F XY (x, y) assume valori compresi tra 0 ed 1;(2) Dato un valore fisso di y , y = yo, la funzione F XY (x, yo) è monotona non
decrescente in x e continua da destra; analoga proprietà vale per l’altra vari-abile;
(3) la funzione soddisfa le seguenti uguaglianze:F XY (−∞, y) = P (X ≤ −∞, Y ≤ y) = 0F XY (x, −∞) = P (X ≤ x, Y ≤ −∞) = 0F XY (−∞, −∞) = P (X ≤ −∞, Y ≤ −∞) = 0
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 51/152
2.10. SISTEMI DI VARIABILI ALEATORIE 51
(4) Le funzioni di distribuzione marginale si ricavano come:F X (x) = F XY (x, +∞)F Y (y) = F XY (+∞, y)
(5) limx,y
→∞F XY (x, y) = 1
(6) La probabilità dell’evento rettangolare R = x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2 sicalcola con la relazione:
(2.10.2)P (x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2) = F XY (x2, y2)−F XY (x1, y2)−F XY (x2, y1)+F XY (x1, y1)
In particolare l’ultima proprietà permette di determinare la funzione densità di proba-bilità congiunta quando l’ampiezza degli intervalli in x ed in y tende a diventare moltopiccola:
P (x ≤ X ≤ x + ∆x, y ≤ Y ≤ y + ∆y) =
[F XY (x + ∆x, y + ∆y) − F XY (x, y + ∆y)] − [F XY (x + ∆x, y) − F XY (x, y)] =
= ∂ F XY (x, y + ∆y)
∂ x ∆x − ∂ F XY (x, y)
∂ x ∆x =
∂ 2F XY (x, y)
∂ x∂ y ∆x∆y
Se allora si definisce la funzione: f XY
(x, y) = ∂ 2F XY (x,y)
∂ x∂ y , si ha:
(2.10.3) P (x ≤ X ≤ x + ∆x, y ≤ Y ≤ y + ∆y) ∼= f XY (x, y) · ∆x∆y
La funzione definita è detta densità di probabilità congiunta. Essa è sempre nonnegativa ed integra ad 1 su tutto il piano:
(2.10.4) Z Z <2 f XY (x, y)dxdy = 1
Le densità di probabilità marginali si ricavano in base a quanto già visto per la dis-tribuzione di probabilità congiunta:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 52/152
2.10. SISTEMI DI VARIABILI ALEATORIE 52
(2.10.5) f X (x) =
Z +∞−∞
f XY (x, y)dy
(2.10.6) f Y (y) =Z +∞−∞
f XY (x, y)dx
Dato un evento A, identificabile con un dominio sul piano <2 : (x, y) ∈ A, la proba-bilità di quell’evento è:
(2.10.7)Z Z
A
f XY (x, y)dxdy
Infine la funzione di distribuzione può essere ricavata dalla densità di probabilità me-diante la relazione:
(2.10.8) F XY (x, y) =
Z x−∞
Z y−∞
f XY (s, t)dsdt
Anche in questo caso si può definire la funzione di distribuzione e la densità diprobabilità condizionata. Si supponga infatti che la v.a. X abbia assunto un certovalore X = x. In tal caso la probabilità marginale di Y sarà condizionata da questo
cambiamento. Si definisce allora la funzione di distribuzione condizionata:
(2.10.9) F Y/X (y/x) =
R y−∞ f XY (x, t)dt
f X (x)
Da questa si ricava poi la densità di probabilità condizionata derivando rispetto ad y:
(2.10.10) f Y/X (y/x) = ∂ F Y/X (y/x)
∂ y
= f XY (x, y)
f X (x)Se il comportamento della variabile aleatoria Y è uguale sia sotto condizionamentoper X = x, ∀x sia senza condizionamento, cioè se f Y (y) = f Y/X (y/x) allora questosignifica che le v.a. sono indipendenti tra loro. In questo caso la densità di probabilitàcongiunta è pari al prodotto delle due densità di probabilità: f XY (x, y) = f X (x) ·f Y (y).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 53/152
2.10. SISTEMI DI VARIABILI ALEATORIE 53
Come già visto nel caso di una sola v.a., anche nel caso di due v.a. si può ef-fettuare una trasformazione: Z = g(X, Y ), dove g(•, •) è una funzione reale di duevariabili reali. La funzione definisce una nuova v.a. con funzione di distribuzione:F Z (z ) = P (g(X, Y )
≤ z ). Il calcolo della F Z (z ) può essere facilmente effettuato
tramite:
(2.10.11) F Z (z ) =
Z Z R(Z )
f XY (x, y)dxdy
dove il dominio R(Z ) indica la regione di piano in cui vale la relazione g(X, Y ) ≤ z .Nota la funzione di distribuzione, la densità di probabilità si ricava mediante semplicederivazione rispetto all’unica variabile z .
EXAMPLE 2.10.1. Somma di due variabili aleatorie. Questo esempio dà luogoad un risultato notevole. Detta infatti D la regione di piano individuata dalla relazionex + y ≤ z , si ha che D = x, y ≤ z − x , ∀x. Quindi si ha:
F Z (z ) =
Z +∞−∞
Z z−x
−∞f XY (x, y)dxdy =
Z +∞−∞
Z z−x
−∞f XY (x, y)dy
dx
f Z (z ) = dF Z (z )
dz
= Z +∞
−∞
d
dz Z z−x
−∞f XY (x, y)dy dx = Z
+∞
−∞f XY (x, z
−x)dx
Se poi le v.a. sono indipendenti si ottiene:
(2.10.12)
f Z (z ) =
Z +∞−∞
f XY (x, z − x)dx =
Z +∞−∞
f X (x) · f Y (z − x)dx = f X (z ) ? f Y (z )
cioè date due v.a. sommate tra loro ed indipendenti, la densità di probabilità della v.a.somma è pari alla convoluzione delle densità di probabilità delle due v.a. di partenza.
Il risultato è facilmente generalizzabile alla somma di n variabili aleatorie indipen-denti tra loro.
2.10.2. Correlazione e covarianza. Il comportamento statistico di una coppia div.a. può essere descritto da alcuni parametri che le descrivono in modo congiunto. Traquesti parametri vi sono la correlazione:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 54/152
2.10. SISTEMI DI VARIABILI ALEATORIE 54
(2.10.13) rXY = E [XY ] =
Z +∞−∞
Z +∞−∞
xy f XY (x, y)dxdy
e la covarianza:
(2.10.14)
cXY = E [(X − µX )(Y − µY )] =
Z +∞−∞
Z +∞−∞
(x − µX )(y − µY ) f XY (x, y)dxdy
Si fa vedere facilmente che cXY = rXY
−µX µY .
La covarianza è un parametro statistico molto importante. Essa stabilisce se esisteun qualche tipo di dipendenza lineare tra le v.a. Cerca in ogni caso di misurare unadispersione congiunta intorno ai rispettivi valori medi. Se ad esempio la covarian-za è positiva questo significa che, prevalentemente, le v.a. tendono a muoversi nellastessa direzione, cioè è più probabile che se una di esse è sopra la media lo sia an-che l’altra (come ad esempio peso ed altezza di una persona). Una covarianza neg-ativa indica invece il fenomeno contrario, cioè che prevalentemente le due v.a. simuovono statisticamente in direzioni opposte, come ad esempio età ed acuità visiva diuna popolazione.
Supponiamo che tra le due v.a. X e Y esista una certa dipendenza lineare:
Y = aX + b
µY = aµX + b
Y − µY = a(X − µX )(2.10.15)
La covarianza vale allora:
cXY = E [(X − µX )(Y − µY )] = E [(X − µX )a(X − µX )] = aσ2X
cXY = E [(X − µX )(Y − µY )] = E [(Y − µY )(Y − µY )/a] = σ2Y /a
da cui si ricava che:
(2.10.16) c2XY = σ2X σ
2Y
In questo caso il rapporto cXY σXσY
= ±1.E’ possibile generalizzare il discorso precedente e porre, per una data coppia di
v.a. X e Y , la seguente definizione:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 55/152
2.10. SISTEMI DI VARIABILI ALEATORIE 55
(2.10.17) ρ = E
X − µX
σX · Y − µY
σY
=
cXY
σX σY
che dà una misura del grado di correlazione o di dipendenza lineare tra le due v.a.Si ponga ora il caso generale: Y = aX + b + Z , in cui la quantità Z è una v.a.Con questo modello abbiamo supposto che la dipendenza lineare tra X e Y sia dubbiao comunque non nota. Il problema che ci poniamo è quello di determinare la rettamigliore possibile (cioè i coefficienti a e b) che permettano di formulare la migliorepredizione lineare di Y in funzione di X .
La soluzione considerata ottima è quella che si ottiene imponendo che la media diZ sia nulla e che la sua varianza sia minima:
µZ = µY − aµX − b = 0
σ
2
Z = σ
2
Y + a
2
σ
2
X − 2acXY = min(2.10.18)la seconda equazione va derivata e posta = 0:
(2.10.19) ∂σ2
Z
∂ a = 2aσ2
X − 2cXY = 0
da cui si ricava abbastanza facilmente:
(2.10.20) a = cXY
σ2X
Sostituendo il valore determinato di a nella seconda equazione della (2.10.18) siricava la varianza minima che deve assumere la v.a. Z :
(2.10.21) σ2Z min
= σ2Y +
c2XY
σ4X
σ2X − 2
cXY
σ2X
cXY = σ2Y (1 − ρ2)
Dalla precedente equazione si ricavano le seguenti osservazioni:
(1) il valore del coefficiente di correlazione ρ è un numero in valore assolutosempre minore di 1: 0 ≤ |ρ| ≤ 1;
(2) Tanto più |ρ| → 1 tanto più sono linearmente dipendenti le v.a. X e Y . Se|ρ| = 1, X e Y dipendono linearmente tra loro.
(3) Se |ρ| = 0 allora cXY = 0, cioè le due v.a. sono incorrelate.
Il coefficiente di correlazione serve a normalizzare la covarianza che altrimenti
potrebbe assumere valori anche molto differenti per diverse coppie di v.a. Esso perme-tte quindi di confrontare diversi risultati tra loro, dato che l’intervallo in cui è definitoè sempre [−1, 1]. Il coefficiente di correlazione si può anche vedere come una corre-lazione definita per la nuova coppia di v.a. normalizzate ( X −µX
σX, Y −µY
σY ). Quanto più
vicino è questo coefficiente ad 1 in modulo, tanto più le v.a. tendono a seguire unalegge di variazione lineare.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 56/152
2.10. SISTEMI DI VARIABILI ALEATORIE 56
Se poi le v.a. sono indipendenti tra loro la loro correlazione vale:
rXY = E [XY ] = Z +∞−∞ Z +∞−∞ xy f XY (x, y)dxdy =
(2.10.22) =
Z +∞−∞
xf X (x)dx ·
Z +∞−∞
y f Y (y)dy = µX µY
cioè due v.a. indipendenti sono anche incorrelate. L’inverso di questa relazione nonè sempre vera tuttavia: cioè due v.a. incorrelate possono anche essere dipendenti traloro. L’indipendenza è una condizione più restrittiva della incorrelazione.
2.10.3. Metodo dei minimi quadrati. Questo metodo, strettamente correlato conil concetto di dipendenza lineare tra due v.a. è in realtà oggetto di studio della statisticae non della teoria delle probabilità. Infatti il metodo si introduce in un contesto incui l’eventuale dipendenza lineare tra due v.a. è ignota ma si suppone esistente peripotesi di lavoro; si suppone inoltre che le statistiche delle due v.a. non siano note.Si suppongono invece note una serie di misure delle due v.a., che in un esperimentoaleatorio, si possono considerare due grandezze fisiche in qualche modo dipendenti traloro (per esempio si potrebbe pensare ad un esperimento aleatorio che coinvolga spaziopercorso da un oggetto che si muove di moto rettilineo uniforme e tempo trascorso. E’ragionevole supporre dipendenza lineare tra le due grandezze fisiche).
Siano xi e yi, con i = 1, 2,...,N la serie di misure ottenute. La retta ottima consistenel considerare la soluzione che minimizza la somma dei quadrati della relazione didipendenza lineare:
z i = yi − axi − b
S =X
i
z 2i =X
i
(yi − axi − b)2
∂ S
∂ a = −
Xi
xiyi + aX
i
x2i + b
Xi
xi = 0
∂ S
∂ b = −Xi
yi + aXi
xi + N b = 0(2.10.23)
Le relazioni precedenti possono essere riarrangiate in un sistema di due equazioniin due incognite: a e b, dato che le restanti quantità sono note, essendo ricavabili dallecoppie di misure (xi, yi).
Se si pongono le seguenti stime:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 57/152
2.10. SISTEMI DI VARIABILI ALEATORIE 57
cµX =
1
N
Xi
xi
cµY = 1N X
i
yi
cσ2X =
1
N
Xi
(xi − cµX )2
cσ2Y =
1
N
Xi
(yi − cµY )2
dcXY = 1
N
Xi
(xi − cµX ) (yi − cµY )
I valori ottimali di a e b nel senso dei minimi quadrati si possono riscrivere nelseguente modo:
a = dcXY cσ2
X
b = cµY − a cµX
ρ = dcXY cσX cσY
(2.10.24)
2.10.4. Sistemi di n variabili aleatorie. Quanto visto per due v.a. può esserefacilmente generalizzato per n variabili aleatorie. La funzione di distribuzione di prob-
abilità congiunta è definita come:
(2.10.25) F X 1,X 2,...,X n(x1, x2,...,xn) = P (X 1 ≤ x1, X 2 ≤ x2,...,X n ≤ xn)
e la relativa densità di probabilità è:
(2.10.26) f X 1,X 2,...,X n(x1, x2,...,xn) = ∂ nF X 1,X 2,...,X n(x1, x2,...,xn)
∂ x1∂ x2...∂ xn
Dalla densità di probabilità congiunta è possibile ricavare la densità di probabilitàmarginale rispetto a ciascuna delle variabili: è sufficiente integrare su tutto il dominio< per tutte le altre. Inoltre è possibile ricavare la densità di probabilità marginaledi un qualunque sottoinsieme di v.a., sempre integrando in < rispetto a quelle che
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 58/152
2.10. SISTEMI DI VARIABILI ALEATORIE 58
devono mancare (se ad esempio si vuole la densità di probabilità marginale rispetto adx3, x4,...,xn si deve integrare f X 1,X 2,...,X n(x1, x2,...,xn) rispetto ad x1, x2.
In modo analogo si ricavano le densità di probabilità condizionate. Se si vuole de-terminare la densità di probabilità condizionata ad un qualunque sottoinsieme di v.a. è
sufficiente dividere la densità di probabilità congiunta per la marginale ristretta a quelsottoinsieme. Se ad esempio si vuole determinare
(2.10.27) f X 1,X 4,...,X n/X 2,X 3(x1, x4,...,xn/x2, x3) = f X 1,X 2,...,X n(x1, x2,...,xn)
f X 2,X 3(x2, x3)
Le v.a. si dicono indipendenti tra loro se, preso un qualunque sottoinsieme diesse, condizionato da un qualunque altro sottoinsieme (distinto dal primo), la densità
di probabilità condizionata è pari alla densità del primo sottoinsieme considerato noncondizionato.Per lo studio dei sistemi di v.a. si utilizza normalmente la notazione matriciale:
X = X 1, X 2,...,X n dove X è un vettore aleatorio:
(2.10.28) X =
X 1X 2
...X n
= [X 1, X 2,...,X n]T
La funzione di distribuzione di probabilità congiunta e la funzione di densità di prob-abilità congiunta possono essere quindi indicate con notazione vettoriale: F X (X ) edf X (X ). Anche i parametri statistici possono essere indicati con notazione vettoriale:
(2.10.29) µX = E [X ] = [µX 1, µX 2 ,...,µX n]T
Poichè la correlazione e la covarianza sono state definite per coppie di v.a. quandosi hanno più di due v.a., ha senso definire la correlazione e la covarianza per tutte lepossibili coppie di v.a. In tal caso tutte le correlazioni, come pure tutte le covarianzepossono essere riunite in una matrice di dimensione n×n dette matrici di correlazionee di covarianza:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 59/152
2.10. SISTEMI DI VARIABILI ALEATORIE 59
(2.10.30) RX = E [XX T ] =
rX 1X 1 rX 1X 2 ... rX 1X n
rX 2X 1 rX 2X 2 ... rX 2X n...
...
. ..
...rX nX 1 rX nX 2 ... rX nX n
(2.10.31) C X = E [(X − µX )(X − µX )T ] =
cX 1X 1 cX 1X 2 ... cX 1X n
cX 2X 1 cX 2X 2 ... cX 2X n...
... . . .
...cX nX 1 cX nX 2 ... cX nX n
Le matrici di correlazione e di covarianza sono simmetriche, essendo
(2.10.32) rX iX j = rX jX i cX iX j = cX jX i
dalle loro stesse definizioni. I valori sulla diagonale di RX sono i valori quadraticimedi delle singole v.a. X i: rX iX i = E [X iX i] = m2
X i. I valori sulla diagonale della
matrice di covarianza sono le varianze delle singole v.a. X i:
(2.10.33) cX iX i = E [(X i − µX i)(X i − µX i)] = σ2X i
La relazione tra la matrice di correlazione e quella di covarianza è pari alla relazioneche esiste tra la correlazione e la covarianza per una coppia di v.a.: C X = RX −µX µ
T X .
Anche per la trasformazione si possono fare considerazioni analoghe. Si consideriuna funzione vettoriale di n variabili in n valori g(•, •,..., •) = g1(•), g2(•),...,gn(•),e si applichi tale funzione al vettore aleatorio X ottenendo un nuovo vettore aleatoriodi n v.a.: Y = g(X ). Per determinare la densità di probabilità congiunta del nuovovettore f Y (y) a partire da quella di X si può utilizzare la generalizzazione di quantovisto in par. 2.5:
(2.10.34) f Y (y) = Xi
f X (xi)|det(J (xi))|
dove xi è il sottoinsieme di Rn soluzione della relazione: g(xi) = y e dove J (xi) è lamatrice jacobiana calcolata per tali valori.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 60/152
2.10. SISTEMI DI VARIABILI ALEATORIE 60
Nell’ipotesi in cui il vettore aleatorio sia trasformato in un altro vettore di dimen-sioni differenti, m, è necessario passare prima attraverso il calcolo della funzione didistribuzione di probabilità congiunta, estesa al dominio che soddisfa la disuguaglian-za data dalla trasformazione:
(2.10.35) F Z (z ) =
Z RD
f X (x)dx
dove RD è l’insieme che soddisfa la relazione:
RD =n
(X 1, X 2,...,X n) 3 g1(X 1, X 2,...,X n) ≤ Z 1\
(2.10.36) \ g2(X 1, X 2,...,X n) ≤ Z 2...\ gm(X 1, X 2,...,X n) ≤ Z moNota poi la funzione di distribuzione, si può determinare la funzione di densità diprobabilità congiunta mediante derivazione.
Particolare interesse ha il caso in cui m = 1, cioè si voglia trasformare il vettorealeatorio in una sola variabile aleatoria. Facciamo il caso in cui la v.a. che si vuoleottenere è somma delle n v.a. di partenza: Z =
Pi X i.
Poichè si può scrivere: Z = 1T X con 1T = [11 ... 1], si ha che il valore attesovale:
(2.10.37) µZ = E [Z ] = E [1T X ] = 1T E [X ] = 1T µX =X
i
µX i
Per la varianza si ha:
σ2Z = E [(Z − µZ )
2] = E [(Z − µZ )T (Z − µZ )] =
= E [(1
T
X − 1
T
µX )
T
(1
T
X − 1
T
µX )] = E [(X − µX )
T
11
T
(X − µX )] =
(2.10.38) =X
i
X j
cxixj
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 61/152
2.10. SISTEMI DI VARIABILI ALEATORIE 61
Se allora le v.a. componenti il vettore aleatorio X sono a due a due incorrelate (oaddirittura indipendenti), cioe se cxixj = 0 ∀i, j = 1,...,n ed i 6= j allora la varianzadella v.a. somma è pari alla somma delle varianze delle singole v.a. X i.
2.10.5. Variabili aleatorie congiuntamente gaussiane. Particolare interesse as-sume la composizione di v.a. gaussiane. Si supponga di avere n v.a. gaussiane checostituiscono un vettore aleatorio X = [X 1, X 2,...,X n]T . Se le v.a. sono tutte in-dipendenti tra loro la densità di probabilità congiunta è pari al prodotto delle densitàdi probabilità di tutte le componenti del vettore:
(2.10.39) f X (x) =nY
i=1
f xi(xi)
Inoltre, poichè si è supposta la gaussianità delle singole X i, ℵ(µi,σ2i ), la f X (x) diven-
ta:
(2.10.40)
f X (x) =nY
i=1
1
σi
√ 2π
exp(−(x − µi)2
2σ2i
) = 1p
(2π)n ·Q
i σ2i
· exp(−1
2
nXi=1
(x − µi)2
σ2i
)
dove si è posto, con notazione abbreviata, σ2
i = σ
2
X i e µi = µX i . La densità di proba-bilità può essere riscritta sfruttando il vettore dei valori medi µ = [µ1, µ2,...,µn]T e lamatrice di covarianza, che è peraltro diagonale data l’indipendenza delle n variabili:
(2.10.41) C X =
σ21 0 ... 0
0 σ22 ... 0
... ...
. . . ...
0 0 · · · σ2n
(2.10.42) det C X =nY
i=1
σ2i
La densità di probabilità congiunta diventa:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 62/152
2.11. CONVERGENZA ED APPROSSIMAZIONE 62
(2.10.43) f X (x) = 1
p (2π)n |det C X |
· exp(−1
2(x − µX )
T C −1X (x − µX ))
La densità di probabilità congiunta, nel caso di n v.a. congiuntamente gaussiane enon indipendenti può essere ancora scritta come risportato nella equazione precedente,purchè si tenga in conto in fatto che, in tal caso, la matrice di covarianza non è piùdiagonale ma ha i valori tutti genericamente differenti da zero.
Un vettore gaussiano gode delle seguenti proprietà:(1) il suo comportamento statistico è univocamente determinato dal vettore dei
valori medi µ e dalla matrice di covarianza C X ;(2) se le v.a. gaussiane sono incorrelate a due a due allora la densità di proba-
bilità congiunta si può esprimere come prodotto delle densità di probabilitàmarginali (poichè gli elementi fuori diagonale di C X sono nulli). Cioè per lev.a. gaussiane la incorrelazione implica la indipendenza.
(3) Un qualunque sottoinsieme di v.a. gaussiane è ancora un insieme di v.a.congiuntamente gaussiane.
(4) Data una qualunque trasformazione di tipo lineare: Y = aX + b il vettorealeatorio Y è ancora congiuntamente gaussiano, con vettore dei valori medipari a µY = aµX + b e matrice di covarianza C Y = AC X A
T
(5) Un qualunque sottogruppo di v.a. preso tra le n del vettore X , condizionatoad un qualunque altro sottogruppo (purchè formato da v.a. distinte da quelleconsiderate nel primo sottogruppo) è ancora congiuntamente gaussiano.
2.11. Convergenza ed approssimazione
Si è già accennato al fatto che la deviazione standard (radice quadrata della vari-anza) è in grado di dare una misura della dispersione di una v.a. attorno al suo valormedio. Valori di varianza grandi sono indice del fatto che c’è una significativa prob-abilità che valori casuali estratti dalla v.a. siano abbastanza lontani dal valor medio;viceversa per valori piccoli della varianza.
E’ evidente, tuttavia, che la varianza non è in grado di dire quanto questa disper-sione sia significativa, dato che differenti v.a. possono avere anche varianze uguali,pur essendo disperse attorno al valor medio in modi differenti.
Esiste tuttavia un teorema che è in grado di dare una misura quantitativa delladispersione in termini di probabilità e che utilizza proprio la varianza.
THEOREM 2.11.1. Disuguaglianza di Chebyshev. Data una v.a. X , ∀η > 0 risulta che:
(2.11.1) P (|X − E [X ]| > η) ≤ V ar (X )
η2
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 63/152
2.11. CONVERGENZA ED APPROSSIMAZIONE 63
DIMOSTRAZIONE. Si consideri la v.a. Y che vale:
Y =
η2 , |X − E [X ]| > η0 , |X
−E [X ]|
≤η
E’ allora chiaro che
(|X − E [X ]|)2 ≥ Y
sempre, dato che se accade l’evento |X − E [X ]| > η , si ha Y = η2 < (|X − E [X ]|)2.Se invece accade l’evento |X − E [X ]| ≤ η, la v.a. Y vale 0, ma |X − E [X ]| ècomunque un numero ≥ 0.
Se ora si fa l’aspettazione di ambo i membri della relazione precedente si ha:
V ar (X ) = E (|X
−E [X ]|)2 ≥
E [Y ] = η2P (|X
−E [X ]| > η)
che dà il risultato cercato.
La disuguaglianza di Chebyshev rende rigorosa l’interpretazione intuitiva di vari-anza come misura della dispersione: più V ar(X ) è piccola più piccola è la probabilitàche X prenda valori lontani dalla media.
Tuttavia la disuguaglianza di Chebyshev è spesso una maggiorazione grossolanadella probabilità di P (|X − E [X ]| > η). Ad esempio si consideri la v.a. che assume ivalori −1, 1 con probabilità rispettivamente di 1/2, 1/2. Per questa v.a. la media è 0 ela varianza vale V ar(X ) = 1. Se si sceglie η = 2 si ha che P (|X − E [X ]| > η) = 0mentre V ar(X )/η2 = 1/4, ma se addirittura si prende un η < 1 si ha una mag-giorazione con il valore V ar(X )/η2 > 1, cosa ovvia dato che una probabilità èsicuramente maggiorata da un numero maggiore di 1.
In molte circostanza tuttavia la disuguaglianza di Chebyshev si dimostra preziosa.E’ infatti fondamentale per dimostrare e giustificare la cosiddetta Legge dei grandi
numeri.Partiamo prima con un esempio. Si supponga di lanciare n volte una moneta e sia
k il numero di lanci in cui si ottiene testa. La quantità k/n è quindi la proporzionedi teste ottenute in n lanci. Se la moneta è equilibrata l’intuizione suggerisce che taleproporzione non debba discostarsi troppo dal valore 1/2. Tuttavia sarà difficile che laquantità k/n dia esattamente 1/2, come anche è poco probabile (ma non impossibile)che il numero di teste sia molto piccolo (o addirittura nullo) o molto grande. Tuttaviaempiricamente si può verificare che al crescere del numero di lanci, il fenomeno didiscostamento dal valore 1/2 dovrebbe sparire: cioè il numero di teste e croci tendea compensarsi sempre più man mano che cresce il valore di n. Formalizziamo alloraquanto l’intuizione ci suggerisce. Il lancio di una moneta è rappresentabile da una v.a.di Bernoulli con n = 1 e p = 1/2; a tale v.a. facciamo assumere valore 1 quando sipresenta una testa: X i = 1, altrimenti 0. Il numero totale di teste ottenute negli n lanci
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 64/152
2.11. CONVERGENZA ED APPROSSIMAZIONE 64
può essere dunque rappresentato dalla quantità
S n = X 1 + X 2 + ... + X n
e la proporzione di teste negli n lanci dalla quantità
X n = 1n
(X 1 + X 2 + ... + X n)
Quanto osservato prima può essere quindi schematizzato dall’osservazione che,all’aumentare di n la quantità X n tende a discostarsi sempre meno da 1/2. Quan-to trovato corrisponde al vero, anzi tale risultato è formalizzato e generalizzato dallacosiddetta Legge dei Grandi Numeri:
THEOREM 2.11.2. Sia (X n)n una successione di v.a. indipendenti ed aventi tutte
la stessa legge, la stessa media µ e varianza σ2. Posto allora
X n = 1
n (X 1 + X 2 + ... + X n)
si ha che, ∀η > 0limn→∞
P X n − µ
≥ η
= 0
DIMOSTRAZIONE. La v.a. X n ha anch’essa media µ:
E
X n
= 1
nE [X 1 + X 2 + ... + X n] =
1
n(µ + µ + ... + µ) = µ
e varianza pari a:
V ar
X n
=
1
n2V ar (X 1 + X 2 + ... + X n) =
= 1n2
(V ar(X 1) + V ar(X 2) + ... + V ar(X n)) = 1n2
· n · V ar(X 1) = σ2
nOra, applicando la disuguaglianza di Chebyshev si ha la dimostrazione:
0 ≤ P X n − µ
> η ≤ V ar
X n
η2 =
σ2
nη2 −→n→∞ 0
Riprendiamo l’esempio introduttivo sul lancio della moneta. Supponiamo di nonsapere a priori se la moneta sia equilibrata o no ( p = 1/2). la legge dei grandi numerifornisce uno strumento per stimare tale probabilità. Lanciamo la moneta n volte estimiamo p tramite la quantità:
# teste in n lancin
Se infatti poniamo
X i =
1 lancio i-simo dà testa0 altrimenti
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 65/152
2.11. CONVERGENZA ED APPROSSIMAZIONE 65
allora X n = 1n
(X 1 + X 2 + ... + X n) e, per la Legge dei Grandi Numeri X n → p =E [X i] per n → ∞. Tuttavia, nella pratica, noi possiamo fare soltanto un numero finitodi lanci e quindi occorre valutare l’errore che si commette stimando p con il valore diX n che verrà fuori da tale esperimento composto. Si può procedere allora in questo
modo. Si fissi un numero η > 0 e si stimi la probabilità di commettere un errore nelvalutare p maggiore di η. Si tratta di valutare quindi la quantità:
P X n − p
> η
Naturalmente, siccome tale valutazione richiederebbe il calcolo della funzione di dis-tribuzione (cumulativa) di una binomiale con n molto grande (quantità per la quale ilcalcolo è spesso lungo e non vi sono formule chiuse), è meglio limitarci a maggiorarequella probabiltà con la disuguaglianza di Chebyshev:
P X n
− p > η ≤
V ar(X n)
η2 =
p(1 − p)
n
· 1
η2
Questa disuguaglianza dipende ancora dalla incognita p (che è la quantità chevogliamo stimare), ma un semplice studio di funzione permette di stabilire che p(1 −
p) ≤ 1/4, con 0 ≤ p ≤ 1. Allora si ha:
P X n − p
> η ≤ 1
4nη2
Per n = 100 la probabilità che p disti da X n più di 0.1 è una quantità minoredi 0.25. Tale valutazione, come si può vedere, è spesso grossolana, soprattutto peresperimenti semplici e per un numero n di prove piccolo. Esiste tuttavia un Teo-rema che permette di migliorare tale stima, ed è il Teorema del Limite Centrale,
dovuto al matematico russo Lyapunov. Questo teorema vale sotto condizioni non par-ticolarmente restrittive, sebbene la sua dimostrazione risulti difficoltosa nel caso piùgenerale.
Si considerino n v.a. X i indipendenti tra loro e tutte dotate della stessa densità diprobabilità f X i(x) = f X (x) e quindi con stesso valor medio µ e stessa varianza σ2.Sappiamo che, se si considera la somma delle v.a. S n =
Pi X i questa avrà media pari
alla somma dei valori medi e varianza pari alla somma delle varianze: µn = n · µ eσ2
n = n · σ2. Ovviamente, al crescere di n, sia il valor medio, sia la varianza tendono adivergere. Si può considerare in tal caso una v.a. normalizzata (nello stesso modo concui si fa per la gaussiana):
(2.11.2) Z n = S n − µn
σn=
S n − n · µ√ n · σ
che, per qualunque valore di n, ha sempre valor medio nullo e varianza pari ad 1.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 66/152
2.11. CONVERGENZA ED APPROSSIMAZIONE 66
THEOREM 2.11.3. Date n v.a. indipendenti e con la stessa densità di probabilità,
al limite per n che tende ad infinito la variabile aleatoria somma normalizzata, Z n ,
tende ad una gaussiana standard, cioè a media 0 e varianza 1:
(2.11.3) limn→∞
f Z n(x) = f N (x) = 1√
2πexp(−x2
2 )
A prescindere dalla particolare distribuzione che possiedono le v.a. X i la lorosomma tende comunque a diventare gaussiana. Questo risultato è particolarmente utileper modellare numerosi fenomeni fisici quali il rumore termico.
Riprendiamo ora l’esempio del lancio ripetuto di una moneta. Si vuole stimare
meglio la quantità P X n − p > η
avendo posto η = 0.1 ed n = 100. Siccome la somma di n = 100 v.a. di Bernoullisi può ritenere con ottima approssimazione una gaussiana, allora si ha:
P
√ n
σ
X n − p ≤ √
n
σ · η
=
= P
S n − np√ nσ
≤ √ n
σ · η
=
'P |Z N |
≤
√ n
σ
· η = Φ(
√ n
σ
η)
−Φ(
−
√ n
σ
η) = 2Φ(
√ n
σ
η)
−1
avendo indicato con Z N una v.a. gaussiana a media 0 e varianza 1. Per η = 0.1,n = 100 e σ2 ≤ 1/4 si ha:
P
|Z N | ≤
√ n
σ · η
' 2Φ(2) − 1
la quantità che volevamo stimare si determina facilmente dal risultato precedente:
P X n − p
> η ' 1 − (2Φ(2) − 1) = 0.0455
stima migliore della quantità 0.25 trovata precedentemente.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 67/152
CAPITOLO 3
I Processi Stocastici
3.1. Definizione di Processi Stocastici
Una distinzione importante tra i segnali è quella che si fa tra segnali predicibili,
di cui si può conoscere a priori l’evoluzione nel tempo (come ad esempio un’onda
quadra) e segnali non predicibili, di cui si possono al più supporre alcune caratter-
istiche principali (ad esempio le escursioni massime, la velocità di variazione e così
via).
Si supponga di registrare l’evoluzione della pressione atmosferica in un certo lu-ogo della Terra durante l’anno. Questa grandezza fisica non è predicibile a priori, e
l’unico modo per conoscerla è quello di osservarla a posteriori. Dopo l’acquisizione
si potranno fare alcune osservazioni, come ad esempio il fatto che essa difficilmente
supera i 1030 mB e altrettanto difficilmente va al di sotto di 950 mB. Una cosa impor-
tante a proposito di questo segnale è che non solo non si può prevedere, ma che esso
cambia a seconda del periodo in cui è stato registrato (cioè la sua osservazione nel
mese di marzo è sicuramente diversa da quella nel mese di agosto) ed inoltre cambia
a seconda del luogo della Terra in cui viene registrato, anche se la registrazione è fatta
nello stesso periodo (vedi in figura 3.1.1 tre differenti misurazioni).
100
0
50
100
150
200
250
0 10 20 30 40 50 60 70 80 90−50
FIGURA 3. 1.1. Rappresentazione delle pressioni atmosferiche in vari
luoghi della Terra.
La variabilità del processo è quindi di due tipi: una variabilità tra i vari segnali ed
una variabilità dell’evoluzione temporale del singolo segnale. Il modellamento di un
segnale aleatorio viene fatto attraverso la teoria dei processi stocastici.
67
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 68/152
3.1. DEFINIZIONE DI PROCESSI STOCASTICI 68
Come nella teoria delle probabilità, dovremmo, per un segnale aleatorio, individ-
uare lo spazio delle probabilità, cioè l’insieme di tutti i possibili segnali che costitu-
iscono il processo (ammesso che questo si possa fare): Ω = ωi. Quindi riferendosi
al processo si può pensare una corrispondenza che associ ad ogni campione ωi di Ω
un dato segnale. Questa corrispondenza costituisce il processo aleatorio. Una datamisurazione della pressione atmosferica in un punto della Terra costituisce un risultato
dello spazio campione e viene chiamato realizzazione del processo xi(t) = X (t,ωi).
Il processo stocastico è comunemente indicato con X (t), omettendo la relazione
di dipendenza dallo spazio campione con cui è associato Ω.
Una volta fissato quale tra i vari segnali del processo va estratto, si ha una funzione
del tempo che rappresenta la realizzazione. Una realizzazione del processo stocastico
non è più aleatoria, a posteriori, nel senso che dopo l’osservazione essa è una funzione
deterministica del tempo. Viceversa, si può fissare un arbitrario istante di tempo ed
osservare il valore che tutte le realizzazioni del processo assumono a quell’istante:
X (to) (vedi in figura 3.1.2)
ot
−50
100
150
200
250
300
350
400
0 10 20 30 40 50 60 70 80 90 100
0
50
FIGURA 3. 1.2. Estrazione di una variabile aleatoria dal processo stocastico.
I valori che sono assunti sulle varie realizzazioni del processo non sono predicibili
a priori e quindi rappresentano i risultati di una variabile aleatoria.
3.1.1. Processi parametrici. Un primo esempio di processi stocastici è dato dai
processi parametrici, cioè processi in cui per le funzioni del tempo esiste una forma
chiusa che permetta di rappresentarle, sebbene uno o più parametri di queste funzioni
siano variabili aleatorie.
Si supponga di considerare il seguente processo:
(3.1.1) X (t;ω) = e−A(ω)tu(t)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 69/152
3.1. DEFINIZIONE DI PROCESSI STOCASTICI 69
dove A(ω) rappresenta una variabile aleatoria con distribuzione uniforme nell’inter-
vallo [0, 1/T ]. Se omettiamo la dipendenza dal risultato ω, si può scrivere: X (t) =e−Atu(t). In questo processo parametrico è quindi definita una classe di funzioni il cui
andamento dipende dal valore estratto di una v.a.
Un altro esempio notevole (che avremo modo di riprendere più avanti) è quellodell’oscillazione sinusoidale prodotta da un oscillatore reale. In un oscillatore reale,
mentre si possono controllare abbastanza bene l’ampiezza e la frequenza dell’oscil-
lazione, è molte volte difficile determinare la fase iniziale. Ne consegue che accen-
dendo in tempi differenti l’oscillatore la funzione sinusoidale che viene generata può
essere modellata come un processo stocastico parametrico:
(3.1.2) X (t) = A · sin(2πf ot + Θ)
dove Θ è una variabile aleatoria uniforme nell’intervallo [0, 2π[.
3.1.2. Caratterizzazione di un processo stocastico. Al contrario di quanto si può
fare per un segnale deterministico, per un processo stocastico non è possibile una sua
caratterizzazione in termini di andamento temporale. Si devono quindi introdurre gli
strumenti della teoria delle probabilità per poter caratterizzare il processo in modo
statistico.
Si cominci ad osservare che, se si considera un istante di tempo ben determinato
to, il valore che tutte le realizzazioni assumono in quell’istante rappresenta una v.a.
Quindi è possibile, per quella v.a. definire una funzione di distribuzione di probabilità
(dipendente da to):
(3.1.3) F (x; to) = P (X (to) ≤ x)
La funzione di distribuzione cambierà al variare di to, dato che al variare dell’istante
di osservazione la v.a. è differente. Questo modellamento non è tuttavia sufficiente a
caratterizzare il processo. Se così fosse dovremmo essere in grado di prevedere l’an-
damento della singola realizzazione a partire da tutte le funzioni di distribuzione di
probabilità estratte ad ogni istante, e così non è. Si pensi ad esempio alla possibil-
ità che abbiamo di prevedere l’andamento di un titolo in borsa nel tempo. Si vuole
cioè cercare di determinare quando il valore del titolo supera il valore attuale. Per
fare questo la caratterizzazione del primo ordine che abbiamo dato non è sufficiente.
E’ necessaria una caratterizzazione che permetta di correlare, congiuntamente, le due
variabili aleatorie nei due istanti differenti to e t1 nei quali conduciamo l’osservazione.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 70/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 70
E’ necessaria quindi una caratterizzazione del secondo ordine. Questa relazione è de-
scritta dalla funzione di distribuzione di probabilità congiunta per una coppia di v.a.:
(3.1.4) F (x1, x2; t1, t2) = P (X (t1) ≤ x1; X (t2) ≤ t2)
La conoscenza completa della statistica del secondo ordine richiede che queste fun-
zioni di distribuzione siano note per ogni coppia possibile di istanti di tempo.
Iterando questo ragionamento, si capisce che la caratterizzazione di un processo
stocastico si può considerare completa solo quando, fissati n istanti di tempo (con narbitrariamente grande), si è in grado di determinare la funzione di distribuzione con-
giunta di ordine n per le n variabili aleatorie che si hanno estraendo i valori dalle
realizzazioni agli istanti t1, t2,...,tn:
(3.1.5)
F (x1, x2,...,xn; t1, t2,...,tn) = P (X (t1) ≤ x1, X (t2) ≤ x2,...,X (tn) ≤ xn)
Da questa si può ricavare la funzione densità di probabilità di ordine n:
(3.1.6) f (x1, x2,...,xn; t1, t2,...,tn) = ∂ nF (x1, x2,...,xn; t1, t2,...,tn)
∂ x1∂ x2...∂ xn
La conoscenza della classe di funzioni f (x1, x2,...,xn; t1, t2,...,tn) per qualunque val-
ore n e qualunque n − pla di istanti di tempo caratterizza completamente il processo
aleatorio.
Si capisce bene che la conoscenza completa di un processo aleatorio è impresa
quali sempre impossibile. Nella maggior parte dei casi si cerca di determinare la dis-
tribuzione (e densità) del primo o al più secondo ordine. Altre volte ci si accontenta di
determinare alcuni parametri statistici.
3.2. Parametri Statistici del 1o
e 2o
Ordine
3.2.1. Valor medio, potenza e varianza. Alcuni parametri statistici permettono
di determinare le caratteristiche principali di un processo statistico, pur senza la conoscen-
za completa di esso.
Tra questi parametri particolarmente significativa è la funzione valor medio: µX (t).
Per definizione questa funzione è il valor medio della v.a. che si ottiene estraendo i
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 71/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 71
valori delle realizzazioni all’istante assegnato:
(3.2.1) µ(t) = E [X (t)] = Z +∞−∞
xf X (x, t)dx
al variare di t si generano una serie di valori medi che costituiscono la funzione. La
funzione valor medio rappresenta una statistica del primo ordine, dato che per il suo
calcolo è sufficiente la conoscenza della statistica di primo ordine del processo. La
funzione valor medio rappresenta una specie di compendio di tutte le realizzazioni del
processo stocastico, ma non rappresenta necessariamente essa stessa una realizzazione
del processo.
EXAMPLE 3.2.1. Si supponga di considerare il processo aleatorio parametrico
X (t) = a cos(2πf ot + Θ
), dove Θ
è una v.a. con densità di probabilità uniformenell’intervallo [0, π[. La funzione valor medio si può determinare osservando che, per
ogni istante t fissato, il processo X (t) si può pensare come la trasformazione della v.a.
Θ in un’altra v.a. X = X (Θ). Il suo valor medio quindi si può determinare con il
teorema del valor medio: µ(t) = E [X (t)] = E [a cos(2πf ot + Θ)]:
(3.2.2)
µ(t) =
Z +∞−∞
a cos(2πf ot + θ)f θ(θ)dθ = a
π
Z π
0
cos(2πf ot + θ)dθ = −2a
π sin(2πf ot)
Analogamente si potrebbe ricavare la funzione valor medio nel caso visto nella eq.
3.1.2, in cui cioè: X (t) = a sin(2πf ot +Θ), con Θ = U (0, 2π).
Un’altra grandezza statistica del primo ordine utile per caratterizzare il processo, è
la potenza media statistica istantanea (brevemente detta potenza media):
(3.2.3) P x(t) = E [X 2(t)] =
Z +∞−∞
x2 · f X (x, t)dx
analoga alla potenza istantanea per i segnali deterministici.Si può inoltre definire la funzione varianza del processo:
(3.2.4) σ2x(t) = E [(X (t) − µ(t))2] =
Z +∞−∞
(x − µ(t))2 · f X (x, t)dx
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 72/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 72
Si ricava, abbastanza facilmente:
(3.2.5) σ2x(t) = P x(t) − µ2(t)
la relazione che esprime la dipendenza tra varianza, funzione valor medio e potenza
istantanea.
3.2.2. Autocorrelazione e autocovarianza. Due parametri statistici del secondo
ordine, fondamentali per lo studio dei processi stocastici, sono la funzione di autocor-
relazione e la funzione di autocovarianza. Il loro significato è rimandato più avanti,
quando si introdurranno i processi stazionari.Si supponga di considerare due istanti di tempo arbitrari, t1 e t2. Dato il processo
stocastico, è possibile estrarre le due v.a. Y = X (t1) e Z = X (t2). Ha senso allora ef-
fettuare il calcolo della correlazione tra Y e Z . Generalmente questa correlazione sarà
funzione dei due istanti di tempo, e quindi si può ritenere una funzione di due variabili:
(3.2.6)
Rx(t1, t2) = E [X (t1)X (t2)] =
Z +∞x1=−∞
Z +∞x2=−∞
x1x2f x(x1, x2; t1, t2)dx1dx2
La funzione che così si ottiene è detta funzione di autocorrelazione, poichè le due
variabili aleatorie sono state ottenute estraendole dallo stesso processo.
In modo del tutto analogo è possibile determinare la funzione di autocovarianza:
C x(t1, t2) = E [(X (t1) − µ(t1)) · (X (t2) − µ(t2))] =
(3.2.7) =
Z +∞x1=−∞
Z +∞x2=−∞
(x1 − µ(t1)) · (x2 − µ(t2)) · f x(x1, x2; t1, t2)dx1dx2
Dalla definizione è facile ricavare che: C x(t1, t2) = Rx(t1, t2) − µ(t1)µ(t2).
EXAMPLE 3.2.2. Si calcoli la funzione di autocorrelazione del processo X (t) =a · cos(2πf ot + Θ), con Θ = U [0,π[. Estraendo il processo negli istanti t1 e t2 si
ottengono le v.a.: X (t1) = a · cos(2πf ot1 + Θ) e X (t2) = a · cos(2πf ot2 + Θ), che si
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 73/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 73
possono ritenere entrambe trasformazioni della stessa v.a.. Quindi, mediante il teore-
ma del valor medio si ottiene:
Rx(t1, t2) = E [X (t1)X (t2)] = E [a · cos(2πf ot1 + θ) · a · cos(2πf ot2 + θ)] =
(3.2.8) = a2 ·
Z π
0
1
π cos(2πf ot1 + θ) cos(2πf ot2 + θ)dθ =
a2
2 cos(2πf o(t1 − t2))
In questo esempio la funzione di autocorrelazione è sinusoidale, come i segnali che
costituiscono le singole realizzazioni del processo, inoltre dipende dalle due vari-
abili attraverso la loro differenza. La funzione di autocorrelazione è quindi, in realtà,
funzione di una sola variabile.
Si supponga ora di avere lo stesso processo precedente: X (t) = a · cos(2πf ot+Θ),ma con Θ = U [0, 2π[. Si voglia calcolare la funzione valor medio, la funzione di
autocorrelazione e la funzione di autocovarianza.
Si osservi che, se per la funzione valor medio si ha:
(3.2.9) µ(t) = E [X (t)] =
Z 2π0
1
2π · a · cos(2πf ot + θ)dθ = 0
allora: C x(t1, t2) = Rx(t1, t2). Entrambe valgono:
Rx(t1, t2) = E [X (t1)X (t2)] =
(3.2.10) =
Z 2π0
1
2π·a·cos(2πf ot1+θ)·a·cos(2πf ot2+θ)dθ =
a2
2 cos(2πf o(t1−t2))
pari al risultato ottenuto precedentemente (vedi 3.2.8).
Vediamo infine il caso in cui nel processo X (t) = A · cos(2πf ot) a variare sia
l’ampiezza dell’oscillazione sinusoidale. Tale ampiezza vari come una v.a. uniforme
nell’intervallo [0, 1]. La funzione valor medio si ottiene fissando un dato istante di
tempo t:
(3.2.11) µ(t) = E [X (t)] = E [A · cos(2πf ot)] = E [A] · cos(2πf ot) = 1
2 · cos(2πf ot)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 74/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 74
La funzione di autocorrelazione vale:
Rx(t1, t2) = E [A · cos(2πf ot1) ·A · cos(2πf ot2)] = cos(2πf ot1) ·cos(2πf ot2) · E [A2] =
(3.2.12) = 1
3 cos(2πf ot1) · cos(2πf ot2)
e in questo caso non si può esprimere come funzione di una sola variabile. La funzione
di autocovarianza vale infine:
C x(t1, t2) = 1
3 cos(2πf ot1) · cos(2πf ot2) − 1
2 · cos(2πf ot1) ·
1
2 · cos(2πf ot2) =
(3.2.13) = 1
12 cos(2πf ot1) · cos(2πf ot2)
Un altro esempio notevole è il seguente:
EXAMPLE 3.2.3. Processo di Bernoulli e processi derivati.
Si consideri il seguente processo tempo discreto: I n = 0, 1 che può assumere
valori solo in istanti discreti indicati con indici interi n ∈ N. I valori assunti dalle
singole realizzazioni possono essere soltanto 0 o 1. In particolare il valore 0 è assunto
con probabilità p, il valore 1 con probabilità 1 − p:
(3.2.14) I n =
0 p1 1 − p
Le singole realizzazioni, come pure le estrazioni in una singola realizzazione sono
indipendenti tra loro (vedi figura 3.2.1).
La funzione valor medio vale:
(3.2.15) mI (n) = p · 0 + (1 − p) · 1 = 1 − p
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 75/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 75
0 1 1 1 0 0 1 ....
i i+1 i+2 i+3 ............
1 1 0 1 0 1 1 ...
i i+1 i+2 i+3 ...............
FIGURA 3. 2.1. Rappresentazione grafica del processo di Bernoulli.
ed è indipendente dal tempo (cioè l’indice n). La varianza vale:
(3.2.16) σ2I = E [I 2n] − E 2[I n] = p · 02 + (1 − p) · 12 − (1 − p)2 = p(1 − p)
Infine la funzione di autocorrelazione vale:
(3.2.17) RI (n, m) = E [I nI m] = E [I n]E [I m]
essendo le estrazioni indipendenti. Quindi si ha: RI (n, m) = (1 − p)2.
Un processo derivato da quello di Bernoulli è il seguente:
(3.2.18) Dn = 2I n − 1 =
−1 p1 1 − p
Il suo valor medio vale:
(3.2.19) mD(n) = E [2I n − 1] = 2(1 − p) − 1 = 1 − 2 p
la sua varianza vale
(3.2.20) σ2D = E [D2
n] − E 2[Dn] = E
4I 2n − 4I n + 1− (1 − 2 p)2 = 4 p(1 − p)
Infine la funzione di autocorrelazione vale:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 76/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 76
RD(n, m) = E [DnDm] = E [4I nI m − 2I n − 2I m + 1] =
(3.2.21) = 4(1 − p)2 − 4(1 − p) + 1 = (1 − 2 p)2
che è lo stesso risultato che avremmo ottenuto semplicemente osservando che: E [DnDm] =E [Dn]E [Dm].
L’ultima applicazione del processo di Bernoulli è la passeggiata a caso unidimen-
sionale, cioè il processo:
(3.2.22) S n = D1 + D2 + ... + Dn
Il suo valor medio vale:
(3.2.23) E [S n] = E [D1+D2+ ...+Dn] = E [D1]+E [D2]+ ...+E [Dn] = n(1−2 p)
e questa volta è una quantità dipendente da n. Inoltre, essendo i processi indipendenti
tra loro la varianza è somma delle varianze
(3.2.24) σ2S n =
nXk=1
σ2D = 4np(1 − p)
La sua funzione di autocorrelazione vale:
(3.2.25)
RS (n.m) = E [S nS m] = E
" nXk=1
Dk ·mXl=1
Dl
# =
nXk=1
mXl=1
E [Dk · Dl] = n·m·(1−2 p)2
Il range di valori che può assumere questo processo è variabile con n. Per un certo
n fissato, S n può assumere tutti i valori compresi tra [−n, n]. La probabilità che tra i
D1, D2,...,Dn vi siano k valori pari ad 1 ed n−k valori pari a −1 (quindi la probabilità
che S n valga: k − (n − k) = 2k − n) è:
(3.2.26) P (S n = 2k − n) = ( nk
)(1 − p)k pn−k
Una variazione sul tema dei processi stocastici di Bernoulli è il segnale telegrafico
casuale. Il processo consiste di realizzazioni che possono assumere solo valori discreti
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 77/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 77
pari a −1 od a 1. Le funzioni sono continue nel tempo:
(3.2.27) X (t) = −11
Per ipotesi si suppone inoltre che
(3.2.28) P (X (0) = 1) = P (X (0) = −1) = 1/2
Le realizzazioni del processo assumono valori differenti cambiando di “stato” nello
stesso modo con cui arrivano gli eventi negli esperimenti aleatori alla Poisson. Una
possibile realizzazione è riportata in figura (3.2.2).
FIGURA 3. 2.2. Realizzazione di un processo telegrafico casuale
Sia α l’intensità della legge di Poisson che governa il processo. Ogni singola real-
izzazione, x(t), permane ad un dato valore sino a che non c’è un arrivo che gli facambiare stato. Il numero di arrivi nell’unità di tempo è regolato da una v.a. discreta
di Poisson con intensità α. Calcoliamo la probabilità che ad un dato istante t la singola
realizzazione abbia uno dei due valori:
P (X (t) = 1) = P (X (t) = 1/X (0) = 1) · P (X (0) = 1)
(3.2.29) +P (X (t) = 1/X (0) = −1) · P (X (0) = −1)
la prima delle due somme a secondo membro ha il termine P (X (t) = 1/X (0) = 1)che si può verficare solo se il numero di cambiamenti (eventi di Poisson) verificatosi è
pari, per il secondo termine il numero di cambiamenti da verificarsi è dispari:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 78/152
3.2. PARAMETRI STATISTICI DEL 1o E 2
o ORDINE 78
(3.2.30) P(N camb = pari) =∞
X j=0
(αt)2 j
(2 j)! e−αt = e−αt ·
1
2(eαt + e−αt) =
1
2(1 + e−2αt)
(3.2.31)
P (N camb = dispari) =∞X
j=0
(αt)2 j+1
(2 j + 1)!e−αt = e−αt ·
1
2(eαt − e−αt) =
1
2(1 − e−2αt)
Da cui si ha in conclusione:
(3.2.32) P (X (t) = 1) = 1
2
[1
2
(1 + e−2αt) + 1
2
(1
−e−2αt)] =
1
2
ed analogamente: P (X (t) = −1) = 12
.
Calcoliamo la funzione valor medio e la funzione varianza del processo:
(3.2.33) mX (t) = E [X (t)] = 1
2 · (−1) +
1
2 · (+1) = 0
(3.2.34) σ2
X
(t) = P x(t) = E [X (t)2] = 1
2 · (
−1)2 +
1
2 · (+1)2 = 1
Calcoliamo infine la funzione di autocorrelazione e la funzione di autocovarianza:
Rx(t1, t2) = C x(t1, t2).
(3.2.35) Rx(t1, t2) = E [X (t1)X (t2)]
tuttavia il prodotto di X (t1)X (t2) può essere solo o −1 oppure +1. In particolare èpari a −1 quando il numero di cambiamenti (eventi di Poisson) avvenuti tra t1 e t2 è
dispari, altrimenti il prodotto X (t1)X (t2) è pari a +1. Quindi:
P (X (t1)X (t2) = 1) = P (N camb = pari) = P (N (t2 − t1) = pari) =
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 79/152
3.3. PROCESSI STAZIONARI 79
(3.2.36) = 1
2(1 + e−2α(t2−t1))
Analogamente per un numero dispari di arrivi:
P (X (t1)X (t2) = −1) = P (N camb = dispari) = P (N (t2 − t1) = dispari) =
(3.2.37) = 1
2(1 − e−2α(t2−t1))
Si ha in conclusione:
E [X (t1)X (t2)] = (+1) · 1
2(1 + e−2α(t2−t1)) + (−1) ·
1
2(1 − e−2α(t2−t1)) =
(3.2.38) = e−2α|t2−t1|
ed, ancora una volta, abbiamo trovato un processo la cui funzione di autocorrelazione
(e di autocovarianza) dipende solo dalla differenza dei due istanti generici, e non
separatamente dai due.
3.3. Processi Stazionari
Una notevole proprietà dei processi stocastici è la stazionarietà. Si è visto che
i parametri statistici del primo e secondo ordine dipendono dalla scelta degli istanti
di tempo. Anche la funzione densità di probabilità congiunta di ordine n dipende
generalmente dalla scelta degli istanti di tempo in corrispondenza dei quali si valuta il
processo.
Si supponga ora di considerare n istanti di tempo t1, t2,...,tn, in corrispondenza
dei quali si ottiene la funzione di densità di probabilità congiunta:
f x(x1, x2,...,xn; t1, t2,...,tn).Se si spostano rigidamente tutti gli istanti di tempo di una stessa quantità ∆t, gen-
eralmente otterremo una differente funzione di densità di probabilità congiunta:
(3.3.1) f x(x1, x2,...,xn; t1 + ∆t, t2 + ∆t,...,tn + ∆t)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 80/152
3.3. PROCESSI STAZIONARI 80
.
PROPOSITION 3.3.1. Un processo si dice stazionario in senso stretto, se risulta
che, per ogni scelta di n , t1, t2,...,tn e di∆
t:
(3.3.2) f x(x1, x2,...,xn; t1, t2,...,tn) = f x(x1, x2,...,xn; t1+∆t, t2+∆t,...,tn+∆t)
La stazionarietà forte (in senso stretto) richiede l’uguaglianza della funzione di
densità di probabilità congiunta per qualunque ordine, scelta degli istanti di tempo e
di traslazione. Cioè richiede che rispetto a tutte queste variabili la funzione f x sia
invariante. I processi X (t) e X (t + ∆t) devono quindi avere le stesse statistiche.
Questo non significa che le due variabili aleatorie che estrarremo nei due istanti ditempo sono identiche (poichè questo non può mai accadere per il significato stesso di
grandezza statistica) ma significa che le due quantità non possono essere distinte tra
loro con misure statistiche.
Conseguenza di questa definizione è che: f x(x; t) = f x(x; t +∆t) cioè la funzione
densità di probabilità del primo ordine non è funzione del tempo e anche i parametri
statistici del primo ordine (funzione valor medio, funzione potenza e funzione varian-
za) non dipendono dalla variabile tempo (stazionarietà del primo ordine).
Inoltre per quel che riguarda la stazionarietà del secondo ordine, si ha:
(3.3.3) f x(x1, x2; t1, t2) = f x(x1, x2; t1 + ∆t, t2 + ∆t)
e questo può accadere solo se la funzione di densità di probabilità dipende dalla
differenza tra gli istanti di tempo, e non separatamente dai due: f x(x1, x2; t1, t2) =f x(x1, x2; t1 − t2). Allora tutte le statistiche del secondo ordine (funzione di autocor-
relazione e funzione di autocovarianza) dipenderanno dalla differenza degli istanti di
tempo e non separatamente dai due. Questo è il caso del processo visto in (3.1.2) o del
segnale telegrafico casuale.
Salendo di ordine (sebbene statistiche di ordine superiore non siano state introdotte)
si ottiene che la funzione densità di probabilità congiunta di ordine n e tutte le statis-tiche di ordine correlato non dipenderanno dagli istanti di tempo separatamente, ma
dalle n − 1 differenze t1 − t2, t2 − t3, ..., tn−1 − tn, dato che solo queste differenze
restano invariate rispetto ad una traslazione rigida dei tempi.
COROLLARY 3.3.2. Una stazionarietà di ordine n implica la stazionarietà di tutti
gli ordini più bassi (il contrario generalmente non è vero).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 81/152
3.3. PROCESSI STAZIONARI 81
3.3.1. Stazionarietà in senso lato. La verifica della stazionarietà in senso stret-
to, anche per ordini bassi, è in genere un compito arduo (salvo casi particolari). Di
solito allora ci si accontenta di una definizione di stazionarietà meno restrittiva: la
stazionarietà in senso lato (o debole).
PROPOSITION 3.3.3. Un processo aleatorio è stazionario in senso lato se la sua
funzione valor medio è costante µx(t) = µx e la sua funzione di autocorrelazione
dipende solo dalla differenza degli istanti di tempo Rx(t1, t2) = Rx(t1 − t2).
La definizione di stazionarietà in senso lato coinvolge solo due statistiche e quindi
non richiede alcuna paricolare proprietà alla funzione densità di probabilità congiunta.
COROLLARY 3.3.4. Un processo stazionario in senso stretto è stazionario anche
in senso lato. Non è vero il viceversa
Se il processo è stazionario in senso lato la funzione di autocovarianza vale:
(3.3.4) C x(t1, t2) = Rx(t1 − t2) − µ2x = C x(t1 − t2)
cioè anche la funzione di autocovarianza dipende dalla differenza degli istanti di
tempo. Anche nel caso di stazionarietà in senso lato rimane comunque difficile ver-
ificare la proprietà. Infatti la verifica di una proprietà statistica come la stazionarietà
richiede che si riescano a manipolare (per effettuare misure statistiche) tutte le possi-
bili realizzazioni del primo e secondo ordine del processo, o che si conosca in qualche
modo una forma chiusa della funzione di densità di probabilità del processo stesso alvariare di t (cosa normalmente non vera).
La funzione di autocorrelazione, nell’ipotesi di stazionarietà in senso lato può es-
sere riscritta mettendo in evidenza proprio la dipendenza dalla differenza degli istanti
di tempo:
(3.3.5) Rx(t1, t2) = Rx(t, t − τ ) = E [X (t)X (t − τ )]
EXAMPLE 3.3.5. Riprediamo l’esempio visto più volte: X (t) = a·cos(2πf ot+Θ),con Θ = U [0, π[. Si è ottenuto che µ(t) = −2a
π sin(2πf ot), quindi il processo non si
può considerare stazionario in senso lato, dato che la funzione valor medio dipende dal
tempo.
Il processo X (t) = a · cos(2πf ot + Θ), con Θ = U [0, 2π[, ha invece: µ(t) = 0
e Rx(t1, t2) = a2
2 cos(2πf o(t1 − t2)), e quindi si può ritenere un processo stazionario
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 82/152
3.3. PROCESSI STAZIONARI 82
in senso lato, dato che la funzione valor medio è costante e la funzione di autocorre-
lazione dipende solo dalla differenza dei tempi.
Un caso particolare del processo telegrafico casuale è il seguente
EXAMPLE 3.3.6. Segnale dati.
Si supponga di avere un processo stocastico le cui realizzazioni sono funzioni del
tempo V (t) che possono assumere solo due valori discreti: +1 e −1 con probabilità
1/2. Si supponga inoltre che la funzione cambi di stato solo ad istanti prefissati, che
verranno indicati con degli indici interi: V (nT ) = V n. I valori inoltre sono assunti in
modo indipendente l’uno dall’altro. Quindi la funzione assume valore costante per tutti
gli istanti di tempo t compresi tra due transizioni: V (t) = V n per nT ≤ t < (n + 1)T .La forma generica della funzione è quindi la seguente:
(3.3.6) V (t) =+∞
Xn=−∞
V nrect(t − nT − T /2
T )
Il precedente processo modella molto bene un segnale dati binario con velocità di clock
pari a 1/T . Esso è utile a schematizzare tutte le situazioni in cui si ha il trasferimento di
bit tra due sistemi (ad esempio un computer ed una sua periferica). Poichè infatti non
è nota a priori l’informazione che si sta trasmettendo, il processo si può considerare a
tutti gli effetti aleatorio.
Determiniamo ora i parametri statistici rilevanti e verifichiamo l’eventuale staziona-
rietà. Ad un certo istante fissato t, l’osservazione di tutte le realizzazioni porta a dire
che i valori che queste possono assumere sono soltanto +1 o
−1. Inoltre, poichè si è
supposto che tali valori sono assunti con probabilità pari ad 1/2, la funzione di densitàdi probabilità del primo ordine non può che valere:
(3.3.7) f v(v; t) = 1
2δ (v + 1) +
1
2δ (v − 1)
Questa funzione non dipende dalla variabile tempo. Quindi il processo è stazionario
in senso stretto per il primo ordine. Ci aspettiamo allora che la funzione valor medio
sia costante:
(3.3.8) µv(t) =
Z +∞−∞
vf v(v; t)dv =
Z +∞−∞
v · [1
2δ (v + 1) +
1
2δ (v − 1)]dv = 0
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 83/152
3.3. PROCESSI STAZIONARI 83
Il calcolo della funzione di autocorrelazione è un po’ più complesso. Tuttavia
si può facilmente dimostrare che il processo non è stazionario nè in senso stretto,
nè in senso lato per quel che riguarda il secondo ordine, dato che la funzione di
autocorrelazione non può dipendere dalla sola differenza dei tempi.
Si consideri infatti, nella figura 3.3.1, i due istanti di tempo t1 e t2. Nel graficoin alto i due istanti di tempo capitano all’interno dell’intervallo [nT, (n + 1)T ], quin-
di la realizzazione assume valore uguale: V (t1) = V (t2) = V n. Si ha allora che
Rv(t1, t2) = E [V (t1)V (t2)] = E [V 2n ] = 1. Se ora spostiamo rigidamente i due istanti
di tempo sino a farli capitare a cavallo di due intervalli, come indicato nella figura in
basso, si avrà che V (t1) 6= V (t2) e quindi
(3.3.9) Rv(t1, t2) = E [V (t1)V (t2)] = E [V (t1)]E [V (t2)] = E [V n]E [V n+1] = 0
Se il processo fosse stazionario in senso lato la funzione di autocorrelazione dovrebbe
dipendere solo dalla differenza dei due istanti di tempo e quindi la Rv(t1, t2) nei due
casi avrebbe dovuto mantenere lo stesso valore.
2
t t
t
1 2
1t
FIGURA 3.3.1. Realizzazione di un processo dati binario
Si può concludere quindi che il processo in esame non è stazionario in senso lato,
pur essendo stazionario in senso stretto per il primo ordine.
Un caso molto frequente è quello in cui si conosce la forma di un segnale (cioè il
suo andamento) ma non si riesce a piazzare il segnale rispetto ad un preciso riferimento
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 84/152
3.3. PROCESSI STAZIONARI 84
temporale. In tal caso il segnale può essere modellato come un processo stocastico di
questo tipo:
EXAMPLE 3.3.7. X (t) = p(t − Θ), con Θ variabile aleatoria che modella l’in-
certezza sulla posizione temporale del segnale. Un esempio classico è l’eco del segnaleradar.
Se supponiamo per semplicità che il segnale sia periodico di periodo T : p(t) = p(t + T ), Θ si può ipotizzare distribuita in modo uniforme tra 0 e T : Θ ∈ U (0, T ).
Troviamo le proprietà del processo descritto.
La funzione valor medio:
(3.3.10) µ(t) = E [ p(t −Θ)] =
Z T 0
p(t − θ) 1
T dθ =
1
T
Z tt−T
p(α)dα
Poichè la funzione p(α) è periodica di periodo T , il suo integrale in un periodo non può
dipendere dagli estremi di integrazione, quindi dal valore t. Quindi la funzione valor
medio è indipendente dalla variabile tempo. In particolare il valore che la funzione
valor medio assume è pari al valor medio della funzione p(α).
Per la funzione di autocorrelazione si ha invece:
Rx(t1, t2) = E [X (t1)X (t2)] = E [ p(t1 −Θ) p(t2 −Θ)] =
(3.3.11) = Z T 0
p(t1 − θ) · p(t2 − θ) 1T
dθ = 1T Z t1t1−T
p(α) · p(t2 − t1 + α)dα
Anche in questo caso la funzione integranda, essendo il prodotto di due segnali peri-
odici di periodo T, è ancora periodica di periodo T , quindi il suo integrale non dipende
dal particolare posizionamento degli estremi di integrazione. La funzione di autocorre-
lazione quindi non dipende separatamente da t1 o da t2, ma solo dalla loro differenza:
Rx(t1, t2) = Rx(t1−t2). Se si pone allora: t1−t2 = τ nella equazione precedente si ha:
(3.3.12) Rx(τ ) = 1T
Z T/2−T/2
p(α) · p(α − τ )dα
avendo posto t1 = T /2. La funzione di autocorrelazione statistica del processo X (t) è
pari alla funzione di autocorrelazione del segnale deterministico e periodico p(t).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 85/152
3.3. PROCESSI STAZIONARI 85
3.3.2. Proprietà della funzione di autocorrelazione di un processo stazionario
in senso lato. Vediamo ora alcune proprietà della funzione di autocorrelazione di un
processo stazionario in senso lato.
(1) La funzione di autocorrelazione Rx(τ ) è pari: Rx(τ ) = Rx(−τ ).
Per dimostrare questa proprietà si osservi che, per la stazionarietà del proces-
so, la funzione di autocorrelazione rimane invariata se la si calcola relativa-
mente a due istanti di tempo t e t − τ oppure ai due istanti t e t + τ , dato che
questi ultimi sono ottenuti semplicemente mediante traslazione rigida. Si ha
allora
(3.3.13) Rx(τ ) = E [X (t)X (t − τ )] = E [X (t + τ )X (t)] = Rx(−τ )
(2) Il valore assunto da Rx(τ ) nell’origine è pari alla potenza statisica del pro-
cesso:
(3.3.14) Rx(τ )|τ =0 = Rx(0) = E [X (t)X (t)] = E [X 2(t)]
.
(3) La funzione di autocorrelazione è massima in modulo nell’origine: Rx(0) ≥|Rx(τ )|.
Se si considera infatti la disuguaglianza: E [(X (t) ± X (t − τ ))2] ≥ 0, si
osserva che essa è sempre vera, dato che rappresenta la aspettazione di una
quantità sempre positiva. Sviluppando la relazione precedente si ha però:
E [(X (t) ± X (t
−τ ))2] =
(3.3.15) = E [X 2(t) + X 2(t − τ ) ± 2X (t)X (t − τ )] = 2Rx(0) ± 2Rx(τ )
che prova la disuguaglianza.
(4) Se Rx(τ ) non è periodica il suo valore limite per τ → ∞ è il quadrato del
valor medio:
(3.3.16) limτ →∞
Rx(τ ) = µ2x
Per giustificare qualitativamente questa proprietà si ricordi innanzitutto che:
Rx(τ ) = C x(τ ) + µ2x. Al crescere della distanza τ tra gli istanti di tempo, te t − τ , i valori delle variabili aleatorie tendono sempre più ad “allontanarsi”
tra loro, ad assumere cioè comportamenti statistici sempre più indipendenti,
finchè, al limite per τ → ∞, il loro comportamento è completamente indipen-
dente e quindi la loro autocovarianza è nulla. La funzione di autocorrelazione
quindi diventa pari al quadrato del valor medio.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 86/152
3.3. PROCESSI STAZIONARI 86
EXAMPLE 3.3.8. Si riconsideri il processo dati binario già visto precedentemente.
Se il riferimento temporale non è noto, il modello più appropriato per questo processo
è:
(3.3.17) V (t) =+∞X
n=−∞
V nrect(t −Θ− T /2 − nT
T )
t
0
0
t
FIGURA 3.3.2. Realizzazioni di un processo dati binario con
riferimento temporale non noto
dove la variabile aleatoria Θ contiene l’incertezza relativa al riferimento temporale,
ed è distribuita nell’intervallo [0, T ] in modo uniforme. Tale v.a. è indipendente dalla
generazione dei dati binari, ed è modellata da una v.a. uniforme nell’intervallo [0, T [.Indipendentemente dall’istante di inizio del processo, il ragionamento fatto per deter-
minare la funzione di densità di probabilità del primo ordine vale ancora. Quindi il
processo si può ancora definire stazionario in senso stretto per il primo ordine, e il
calcolo della funzione valor medio è uguale a quanto già fatto in (3.3.8). Si ha allora
che: µv(t) = µv = 0. Per il calcolo della funzione di autocorrelazione si ha invece:
Rv(t1, t2) = E [+∞X
n=−∞
V nrect(t1 −Θ− T /2 − nT
T )·
·+∞X
m=−∞
V mrect(t2 −Θ− T /2 − mT
T )] =
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 87/152
3.3. PROCESSI STAZIONARI 87
(3.3.18)
=+∞
Xn=−∞+∞
Xm=−∞
E [V nV mrect(t1 −Θ− T /2 − nT
T
) · rect(t2 −Θ− T /2 − mT
T
)]
ottenibile sfruttando la linearità dell’operatore aspettazione. Ora si osservi che rispetto
alla statistica dei dati binari, E [V nV m] è diversa da zero solo quando gli indici n ed
m sono uguali (vedi il ragionamento e l’eq. (3.3.9)). Quindi della doppia sommatoria
sopravvive solo un indice:
Rx(t1, t2) =+∞
Xn=−∞E Θ[rect(t1 −Θ− T /2 − nT
T ) · rect(
t2 −Θ− T /2 − nT
T )] =
=+∞X
n=−∞
E Θ[rect(t −Θ− T /2 − nT
T ) · rect(
t − τ −Θ− T /2 − nT
T )] =
= 1
T
+∞Xn=−∞
Z T 0
rect(t − θ − T /2 − nT
T ) · rect(
t − τ − θ − T /2 − nT
T )dθ =
se ora si pone: α = t
−θ
−nT , si ha:
(3.3.19) = 1
T
+∞Xn=−∞
Z t−nT t−nT −T
rect(α − T /2
T )rect(
α − τ − T /2
T )dα
Si osservi ora che la funzione integranda non contiene la dipendenza da n, quindi i
valori dell’integrale saranno tutti uguali al variare di n e saranno funzioni dipendenti
solo da τ . Inoltre, poichè tali integrali sono calcolati in intervalli disgiunti del tipo:
[nT
−T,nT ], la funzione di autocorrelazione si può anche scrivere come:
(3.3.20) Rx(τ ) = 1
T
Z +∞−∞
rect(α − T /2
T )rect(
α − τ − T /2
T )dα
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 88/152
3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO 88
che rappresenta la nota correlazione deterministica tra due funzioni rettangolo. Il risul-
tato è pari alla funzione triangolo di base 2T :
(3.3.21) Rx(τ ) = (1 − |τ |
T )rect(
τ
2T )
Quindi, in questo secondo caso, il segnali dati binario è stazionario in senso lato, dato
che la funzione valor medio è costante e la funzione di autocorrelazione dipende solo
dalla variabile τ .
3.3.2.1. Significato della funzione di autocorrelazione. Si supponga di avere due
processi stocastici e stazionari in senso lato X (t) e Y (t), dotati degli stessi parametri
statistici del primo ordine (funzione valor medio, funzione potenza e funzione varian-
za). In tal caso, rinunciando all’idea di riuscire a determinare la funzione di densitàdi probabilità congiunta di qualunque ordine per i due processi, ci si deve affidare, per
poterli distinguere, ai parametri statistici. I parametri statistici del primo ordine però
sono tra loro uguali e quindi non permettono una distinzione statistica dei due processi
in esame.
In tal caso vengono in aiuto i parametri statistici del secondo ordine ed in par-
ticolare la funzione di autocorrelazione, il cui significato ed utilità sono molto bene
evidenziati proprio per i processi stazionari. Infatti se si suppone che i due proces-
si X (t) ed Y (t) hanno funzioni di autocorrelazione differenti tra loro, qusto significa
che, in uno stesso istante di tempo τ , Rx(τ ) ed Ry(τ ) saranno differenti. Cioè se si
osservano i processi in due istanti di tempo distaccati di un intervallo τ , la loro ve-
locità di variazione è differente, dato che uno dei due processi assomiglia molto di più a se stesso rispetto all’altro processo (quello con autocorrelazione maggiore ha
un’autosomiglianza maggiore).
In conclusione la funzione di autocorrelazione decresce tanto più velocemente a
zero quanto più rapida è la variazione delle realizzazioni del processo. Essa misura
cioè la rapidità di variazione del segnale aleatorio.
3.4. Filtraggio di un Processo Aleatorio
Si è già detto che il motivo principale nell’introduzione della teoria dei processi
stocastici sta nel modellamento di fenomeni reali che sono descrivibili da grandezze
fisiche che variano nel tempo e il cui comportamento non è predicibile a priori. Poichè
le grandezze fisiche con cui ha a che fare l’ingegnere sono anche grandezze fisiche
manipolabili, ha senso porsi il problema di cosa succede al processo (e quindi anche
alle sue statistiche) se lo si fa passare per un sistema. Uno dei sistemi più semplici da
studiare è il filtro, cioè un sistema lineare e tempo-invariante, che può essere descritto
completamente dalla sua risposta all’impulso, o dalla sua funzione di trasferimento.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 89/152
3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO 89
Un tipico esempio è quello in cui il processo in ingresso è costituito da un segnale
deterministico noto a cui è sovrapposto un processo aleatorio a valor medio nullo (det-
to disturbo o rumore): X (t) = s(t) + n(t), come riportato nell’esempio in figura 3.4.1.
30
−1
−0.5
0
0.5
1
1.5
0 5 10 15 20 25−1.5
FIGURA 3. 4.1. Esempio di un segnale deterministico rumoroso
Quello che si fa è normalmente di cercare, almeno in parte, di elaborare s(t) elim-
inando la componente rumorosa. Questa operazione può essere effettuata da un filtro.
L’operazione imposta da un filtro è un’operazione di convoluzione con un segnale noto
(la risposta all’impulso del filtro), quindi il comportamento sui segnali deterministici è
noto. Resta da vedere come si comporta sui processi stocastici.
X(t) Y(t)h(t)
FIGURA 3. 4.2 . Filtraggio del processo X (t)
Ogni realizzazione del processo di partenza X (t) è ottenuta mediante estrazione di
un risultato dallo spazio campione Ω: x(t;ω). Questa realizzazione è un segnale che
ammette un’uscita dal sistema filtro: y(t) = x(t;ω) ? h(t), dove l’operazione ? denota
la convoluzione. Per ogni risultato dello spazio campione Ω si ha una realizzazionedifferente e quindi un segnale di uscita differente. L’insieme dei segnali di uscita cos-
tituiscono un nuovo processo, Y (t), che può complessivamente denotarsi con:
(3.4.1) Y (t) = X (t) ? h(t)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 90/152
3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO 90
Generalmente il problema di determinare la funzione densità di probabilità congiunta
di qualunque ordine del processo di uscita, ammesso che sia nota quella del processo
di partenza, è insolubile.Quello che si fa allora è di determinare la relazione che esiste tra i parametri stastiti-
ci del primo e secondo ordine (si suppone di essere riusciti a determinare per lo meno
la funzione valor medio e la funzione di autocorrelazione di X (t)). La funzione valor
medio vale:
µy(t) = E [Y (t)] = E [X (t) ? h(t)] =
Z +∞−∞
h(τ )E [X (t − τ )]dτ =
(3.4.2) Z +∞−∞
h(τ )µx(t − τ )dτ = µx(t) ? h(t)
La funzione valor medio in uscita si ottiene effettuando la convoluzione tra la funzione
valor medio in ingresso con la risposta all’impulso del sistema. Il processo in ingresso
si può sempre pensare, ai fini del filtraggio, come la somma di una funzione determin-
istica, µx(t) e di un processo a valor medio nullo: X (t) = X o(t) + µx(t). Il filtraggio
del processo X (t), per la linearità del sistema, dà in uscita un processo somma di due
componenti: quella deterministica è ottenuta filtrando il segnale deterministico µx(t),
la componente statistica ha valor medio nullo.
Vediamo adesso la funzione di autocorrelazione del segnale di uscita:
Ry(t1, t2) = E [Y (t1)Y (t2)] = E [(X (t1) ? h(t1))(X (t2) ? h(t2))] =
= E [
Z +∞−∞
X (α)h(t1 − α)dα
Z +∞−∞
X (β )h(t2 − β )dβ ] =
=
Z +∞−∞
Z +∞−∞
E [X (α)h(t1 − α)X (β )h(t2 − β )]dαdβ =
= Z +∞−∞
Z +∞−∞
h(t1 − α)h(t2 − β )E [X (α)X (β )]dαdβ =
(3.4.3) =
Z +∞−∞
Z +∞−∞
h(t1 −α)h(t2 − β )Rx(α,β )dαdβ = Rx(t1, t2) ? h(t1) ?h(t2)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 91/152
3.4. FILTRAGGIO DI UN PROCESSO ALEATORIO 91
La doppia convoluzione va intesa nel senso che, nella prima la variabile t2 è consider-
ata costante, nella seconda convoluzione è t1 ad essere considerata costante.
3.4.1. Filtraggio di un processo stazionario in senso lato. Particolare interesse
assume il caso in cui il processo in ingresso al filtro sia stazionario in senso lato. Perla funzione valor medio sia ha infatti la seguente relazione ingresso-uscita:
(3.4.4) µy(t) = µy =
Z +∞−∞
h(τ )µx(t − τ )dτ = µx
Z +∞−∞
h(τ )dτ = H (0) · µx
dove H (0) è il valore che la trasformata di Fourier della risposta all’impulso del
sistema (la sua funzione di trasferimento H (f )) assume in f = 0.
La funzione di autocorrelazione vale:
Ry(t, t − τ ) = E [Y (t)Y (t − τ )] = E [(X (t) ? h(t))(X (t − τ ) ? h(t − τ ))] =
= E [
Z +∞−∞
h(α)X (t − α)dα
Z +∞−∞
h(β )X (t − τ − β )dβ ] =
= E [
Z +∞−∞
Z +∞−∞
h(α)h(β )X (t − α)X (t − τ − β )dαdβ ] =
= Z +∞−∞
Z +∞−∞
h(α)h(β )E [X (t − α)X (t − τ − β )]dαdβ =
=
Z +∞−∞
Z +∞−∞
h(α)h(β )Rx(τ + β − α)dαdβ =
(3.4.5) =
Z +∞−∞
h(β ) · [
Z +∞−∞
h(α)Rx(τ + β − α)dα]dβ
Si osservi subito che la funzione di autocorrelazione non dipende da t, ma solo da τ .
Inoltre:
(3.4.6)
Z +∞−∞
h(α)Rx(τ + β − α)dα = Rx(τ + β ) ? h(τ + β )
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 92/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 92
Quindi la funzione di autocorrelazione in uscita diventa:
(3.4.7) Ry(τ ) = Z +∞−∞
h(β ) · [Rx(τ + β ) ? h(τ + β )]dβ = Rx(τ ) ? h(τ ) ? h(−τ )
Se poi si osserva che la convoluzione di un segnale con se stesso ribaltato rispetto
all’asse dei tempi è la autocorrelazione deterministica, si ha che: h(τ )?h(−τ ) = rh(τ ).
Quindi: Ry(τ ) = Rx(τ ) ? rh(τ ).
In conclusione:
THEOREM 3.4.1. Se un processo in ingresso ad un sistema lineare tempo invari-
ante è stazionario in senso lato, lo è anche in uscita dal sistema. Il valore medio e la
funzione di autocorrelazione del processo in uscita sono legate a quelle del processo
in ingresso tramite, rispettivamente, le (3.4.4) e (3.4.7).
3.5. Analisi Spettrale di un Processo Aleatorio
Poichè si è introdotto il problema del filtraggio di un processo aleatorio, può avere
senso la descrizione dello stesso problema in termini spettrali, dato che per il sistema la
funzione di trasferimento è facilmente calcolabile. Si deve tuttavia introdurre l’analisi
frequenziale per i processi aleatori. Si supporrà di studiare le proprietà in frequenza per
i soli processi aleatori stazionari in senso lato, anche se, concettualmente, è possibile
analizzare nel dominio delle frequenze un qualunque processo aleatorio.
La caratterizzazione di un processo aleatorio in frequenza, in termini di spettro di
ampiezza e fase è normalmente inusuale. E’ infatti sempre concepibile l’estrazione
di una realizzazione x(t) dal processo X (t) e la sua trasformazione secondo Fourier.
Tuttavia l’analisi dell’intero processo richiederebbe lo studio in frequenza di ogni real-
izzazione del processo. Conseguentemente le ampiezze e le fasi dello spettro sarebbero
caratterizzate in maniera aleatoria, con relazione tra aleatorietà nel tempo e aleatorietà
in frequenza non banale.
E’ allora più comune limitarsi alla descrizione degli spettri di potenza del segnale
aleatorio. Le realizzazioni di un processo stazionario in senso lato non possono essere
segnali ad energia finita. Infatti tutti i segnali ad energia finita prima o poi, al tendere
di t → ∞ tendono a zero. Se così fosse anche la funzione valor medio, calcolata per
valori di t → ∞
tenderebbe a zero, e quindi, a meno che non è sempre pari a zero,
essa non sarebbe più un valore costante. Quindi generalmente le realizzazioni di un
processo stazionario in senso lato sono segnali a potenza finita e perciò il processo
aleatorio ammette spettro di potenza.
La funzione densità spettrale di potenza di un processo aleatorio è la media delle
funzioni densità spettrale di potenza ottenute per le singole realizzazioni:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 93/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 93
(3.5.1) S x(f ) = E [S x(f ;ω)] = E [ limT →∞
|= xT (t;ω)|2
T ]
dove l’operazione di media va fatta tra tutti i segnali aleatori S x(f ;ω) che si otten-
gono prendendo i pezzi delle realizzazioni del processo X (t) che sono compresi tra
[−T /2, T /2], e cioè:
xT (t;ω) = x(t;ω) · rect( t
T )
e facendone il modulo quadro della loro trasformata di Fourier. La definizione di spet-
tro di potenza ricalca quindi quella che si potrebbe fare per un segnale deterministicodi potenza. L’unica differenza è dovuta alla presenza di una collezione (anche infinita)
di realizzazioni sulla quali non possiamo fare altro che effettuare una media. Questa
definizione è del tutto generale, cioè è valida anche per processi non stazionari.
Normalmente essa è molto difficile da utilizzare, anche per processi stazionari in
senso lato. Si utilizza allora nella pratica la definizione dovuta a Wiener-Kintchine. In
base a questa definizione
PROPOSITION 3.5.1. la densità spettrale di potenza dei processi stazionari è cal-
colabile come trasformata di Fourier della funzione di autocorrelazione:
(3.5.2) S x(f ) =
Z +∞−∞
Rx(τ )e− j2πf τ dτ
Vediamo alcune proprietà.
(1) La densità spettrale di potenza di un processo aleatorio e stazionario in senso
lato è una funzione reale e pari, dato che è la trasformata di Fourier di un
segnale reale e pari
(2) La potenza statistica media del processo (che si ricordi è una costante, data
la stazionarietà del processo) è pari all’integrale della densità spettrale di fre-
quenza su tutto l’asse delle frequenze:
(3.5.3) P x = E [X 2(t)] =
Z +∞−∞
S x(f )df
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 94/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 94
(3) la densità spettrale di potenza è una funzione non negativa: S x(f ) ≥ 0.
Quest’ultima proprietà discende direttamente dalla definizione diretta, e non
dalla definizione di Wiener-Kintchine.
3.5.1. Filtraggio di un processo stazionario. Riprendiamo allora il problema delfiltraggio visto in fig. 3.4.2 di un processo stazionario e vediamo come ora si può
caratterizzare la densità spettrale del processo in uscita, nota la densità spettrale del
processo in ingresso. Sappiamo infatti che, se il processo in ingresso è stazionario in
senso lato, lo è anche quello in uscita.
La densità spettrale del processo in uscita vale:
(3.5.4) S y(f ) = F Rx(τ ) ? h(τ ) ? h(−τ ) = S x(f )H (f )H (−f )
Inoltre, poichè il sistema si suppone reale, H (−f ) = H ∗(f ), si ha:
(3.5.5) S y(f ) = S x(f ) · |H (f )|2
che è la stessa relazione che vale per gli spettri di potenza dei segnali deterministici.
La risposta in fase del sistema non influenza la densità spettrale del processo in uscita.
Nella densità spettrale di potenza sono quindi contenute tutte le informazioni spet-
trali del processo e cioè come si distribuisce la potenza sulle varie componenti ar-moniche, dato che S x(f ) si comporta come la densità spettrale di potenza di un segnale
deterministico.
Conseguentemente il significato di densità spettrale di potenza è lo stesso per i seg-
nali deterministici e per i processi aleatori: una fettina spettrale alla frequenza f rapp-
resenta il contenuto in potenza del processo sulla sinusoide a frequenza f moltiplicato
per la banda passante infinitesima intorno a f , df : dP x(f ) = S x(f )df .
EXAMPLE 3.5.2. Calcoliamo la densità spettrale di potenza del processo visto
in (3.1.2): X (t) = A · sin(2πf ot + Θ), con Θ = U [0, 2π[. Poichè il processo
è stazionario in senso lato, la sua densità spettrale di potenza può essere calcolata
secondo la definizione di Wiener-Kintchine. Poichè si è già trovato che: Rx(τ ) =a2
2 cos(2πf oτ ), la densità spettrale di potenza vale:
(3.5.6) S x(f ) = F
a2
2 cos(2πf oτ )
=
a2
4 [δ (f − f o) + δ (f + f o)]
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 95/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 95
La potenza dell’intero processo è quindi concentrata sulla frequenza f o.
La funzione di autocorrelazione misura, come già detto, la velocità di variazione e
l’autosomiglianza di un processo con sè stesso. Poichè la densità spettrale di potenza è
la trasformata di Fourier della funzione di autocorrelazione (per i processi stazionari),
allora anche la densità spettrale di potenza può caratterizzare un processo. In parti-
colare, quanto più rapidamente variano le singole realizzazioni di un processo, tanto
più larga è la banda passante della densità spettrale di potenza, dato che ad una banda
larga corrisponde una funzione di autocorrelazione piccola. Quindi a variazioni rapide
corrispondono termini spettrali a potenza non nulla sempre più in alta frequenza. Nella
figura 3.5.1 è riportata una singola realizzazione di tre processi, ciascuno dei quali pre-
senta una densità spettrale di potenza a banda crescente. Si osservi come, al crescere
della banda aumenta non solo la rapidità di variazione della realizzazione, ma anche
l’ampiezza delle escursioni, e cioè la potenza complessiva del segnale
8000
−1
−0.5
0
0.5
1
1.5
0 1000 2000 3000 4000 5000 6000 7000−1.5
8000
−1
−0.5
0
0.5
1
1.5
0 1000 2000 3000 4000 5000 6000 7000−1.5
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 96/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 96
8000
−1
−0.5
0
0.5
1
1.5
0 1000 2000 3000 4000 5000 6000 7000−1.5
FIGURA 3. 5.1. Esempio di tre processi a banda crescente nello spettro
di potenza
3.5.2. Processo aleatorio bianco. Si supponga ora di considerare un processo la
cui densità spettrale di potenza ha una banda che cresce illimitatamente, pur mantenen-
do lo stesso valore per f = 0. La funzione di autocorrelazione di tale processo tenderà
ad un valore piccolissimo (la funzione non assomiglia quasi per niente a sè stessa e
varia sempre più rapidamente). Al limite per f → ∞ la funzione di autocorrelazione
diventa impulsiva e quindi la densità spettrale di potenza diventa costante su tutto lo
spettro di frequenze:
(3.5.7) Rx(τ ) = n · δ (τ ) ⇔ S x(f ) = n
A tale tipo di processo, astrazione matematica di molti fenomeni reali, si dà il nome
di processo di rumore bianco. Il nome rumore bianco deriva dal fatto che tutte le com-
ponenti spettrali sono ugualmente rappresentate, così come tutti i colori sono ugual-
mente rappresentati nel processo di composizione della luce bianca. Il valor medio di
questo processo è nullo, dato che il valor medio è pari al limτ →∞ Rx(τ ) = 0. Inoltre
si capisce bene che tale processo è solo una idealizzazione, dato che esso dovrebbe
possedere potenza infinita, condizione impossibile per un qualunque processo che
modelli un segnale fisico.
Una delle applicazioni più comuni di questa idealizzazione consiste nel modella-
mento del rumore termico. Un comune resistore, oltre a presentare una certa resistenza
R, presenta anche una debole tensione di rumore, dovuta alla casuale agitazione ter-
mica degli elettroni nel materiale che compone il resistore. Questa agitazione termica
è tanto più elevata quanto più alta è la temperatura assoluta alla quale si trova il resis-
tore. Il modello che normalmente si utilizza è allora quello di considerare il resististore
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 97/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 97
ideale e di porre in serie ad esso un generatore di tensione con tensione pari a n(t) V ,dove n(t) è un processo casuale, responsabile della produzione di rumore termico.
L’espressione che assume la densità spettrale di potenza del rumore termico deriva da
considerazioni di carattere quantistico (e quindi non verrà effettuata in questa sede) ed
assume la forma:
(3.5.8) S n(f ) = kT R|f | /f o
e|f |/f o − 1
dove il valore di f o è: f o = kT R/h, con k = 1.38 · 10−23J/K costante di Boltzmann,
h = 6.62 · 10−34J · s costante di Plank e T R temperatura assoluta del resistore. Alla
temperatura ambiente il valore di f o è estremamente alto (∼ 6T Hz ). Poichè i valori
di frequenza che normalmente si utilizzano nelle applicazioni pratiche sono molto più
bassi, l’espressione precedente si può approssimare come segue:
(3.5.9) S n(f ) = kT R|f | /f o
e|f |/f o − 1 ≈ kT R
cioè come una costante. Il processo di rumore bianco è quindi, in questo caso, un utile
idealizzazione di una situazione reale. Un circuito elettrico infatti che sia composto
da un filtro con banda passante B f o, “vedrà” la densità spettrale del processo
praticamente come piatta.EXAMPLE 3.5.3. Si voglia determinare la densità spettrale di potenza del processo
in uscita dal sistema riportato in figura 3.5.2, con N (t) un processo stazionario in senso
lato e densità spettrale di potenza costante e pari ad n.
Il primo blocco effettua una media pesata del segnale in ingresso su un intervallo
[t − T, T ]:
(3.5.10) 1
T
Z tt−T
(•)dτ
La sua risposta all’impulso vale allora: g(t) = 1T rect( t−T/2T ). Il secondo blocco è un
filtro passa banda ideale, con banda pari a 2/T intorno ad f 0, con f 0T 1. Infine il
moltiplicatore moltiplica per un oscillatore locale la cui espressione è del tipo: p(t) =2 cos(2πf 0t +Θ), quindi è in realtà un processo, con Θ variabile aleatoria con densità
di probabilità uniforme in [0, 2π[.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 98/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 98
0
N(t) X(t) Y(t) Z(t)
H(f)g(t)
p(t)
−f f 0
2/T
0
f
| H(f) |
FIGURA
3.5. 2. Sistema dell’esempio e filtro passa banda H (f )
Poichè il processo in ingresso è stazionario in senso lato e il blocco g(t) è lineare
e tempo invariante, anche il processo in uscita X (t) è stazionario in senso lato. Il suo
valor medio è: µx = µnG(0) = 0 · G(0) = 0, essendo il processo in ingresso a media
nulla. La funzione di autocorrelazione di X (t) é:
(3.5.11)
Rx(τ ) = Rn(τ ) ? g(τ ) ? g(−τ ) = nδ (τ ) ? rg(τ ) = nrg(τ ) = n
T (1 − |τ |
T )rect(
τ
2T )
e dipende solo da τ . La corrispondente densità spettrale di potenza vale: S x(f ) =F Rx(τ ) = n · sinc2(T f ).
Il processo p(t) sappiamo che è stazionario, avendo valor medio nullo e funzione di
autocorrelazione pari a: R p(τ ) = 2 cos(2πf oτ ). La funzione valor medio del prodotto
tra le due è:
(3.5.12) µy(t) = E [X (t) p(t)] = 2E [X (t) cos(2πf 0t +Θ)]
Poichè la v.a. Θ è indipendente dalla sinusoide in cui è contenuta (all’interno del pro-
cesso p(t)) lo è a maggior ragione anche dal processo X (t). Quindi l’aspettazione
del prodotto è pari all’aspettazione presa separatamente dei singoli processi: µy(t) =E [X (t) p(t)] = E [X (t)]E [ p(t)] = 0. La funzione di autocorrelazione vale:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 99/152
3.5. ANALISI SPETTRALE DI UN PROCESSO ALEATORIO 99
Ry(t, t − τ ) = E [Y (t)Y (t − τ )] =
= 4E [X (t)X (t − τ ) cos(2πf 0t + θ) cos(2πf 0(t − τ ) + θ)] =
= 4E [X (t)X (t − τ )] · E [cos(2πf 0t + θ) cos(2πf 0(t − τ ) + θ)] =
(3.5.13) = 2Rx(τ ) · cos(2πf 0τ )
Anche il processo Y (t) è quindi stazionario in senso lato, essendo il suo valor medio
nullo e la sua funzione di autocorrelazione dipendente solo da τ . La densità spettrale
di potenza è la trasformata di Fourier di Ry(τ ):
S y(f ) = F Ry(τ ) =
(3.5.14)= n · sinc2(f T ) ? [δ (f − f o) + δ (f + f o)] = n · [sinc2(T (f − f o)) + sinc2(T (f + f o))]
La maggior parte della potenza si è spostata attorno ad f o, anche se le code delle fun-
zioni sinc2 si sovrappongono sino ad infinito. L’effetto del filtraggio passa banda finale
è quello di tagliare appunto queste code, in modo da lasciar passare solo la parte dello
spettro che contiene più potenza (vedi in figure 3.5.3 ed 3.5.4 ). Approssimatamente
quindi lo spettro di potenza in uscita si può scrivere come:
(3.5.15)
S z(f ) ≈ n · [sinc2(T (f − f o)) · rect(f − f o
2/T ) + sinc2(T (f + f o)) · rect(
f + f o2/T
)]
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 100/152
3.6. PROCESSI ALEATORI GAUSSIANI 100
frequenze normalizzate fT
0.2
0.4
0.6
0.8
1
1.2
−15 −10 −5 0 5 10 150
FIGURA 3.5 .3. Filtraggio del processo Y (t). I valori nell’esempio
riportato sono: f 0T = 5.
frequenze normalizzate fT
0.2
0.4
0.6
0.8
1
−15 −10 −5 0 5 10 15
S z ( f )
0
FIGURA 3.5.4. Densità spettrale di potenza in uscita dal sistema, S z(f )
3.6. Processi Aleatori Gaussiani
Nell’esempio del rumore termico la generazione della tensione di rumore è dovuta
alla somma della tensione provocata dal movimento casuale degli elettroni. Poichè
il processo in esame è generato dal contributo di molti fenomeni elementari ed in-
dipendenti, si può ritenere che la statistica del processo stesso sia di tipo gaussiano
(per il teorema del limite centrale). Poichè una grande quantità di fenomeni fisici si
comportano in modo simile, è utile studiare le proprietà dei processi gaussiani.
DEFINITION 3.6.1. Un processo aleatorio X (t) è gaussiano se scelto n arbitraria-
mente grande ed n istanti di tempo t1, t2,...,tn, le variabili aleatorie
[X (t1), X (t2),...,X (tn)] sono congiuntamente gaussiane.
In questa definizione è quindi necessario verificare non solo la gaussianità della
singola variabile aleatoria che si può ottenere ad ogni istante t, ma anche del vettore
aleatorio [X (t1), X (t2),...,X (tn)], comunque si scelgano gli istanti di tempo.
Molti fenomeni fisici sono modellati come processi gaussiani (onde sismiche, voce
umana, rumore termico, etc) e questo spiega la centralità di questo tipo di processi nello
studio dei processi stocastici.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 101/152
3.6. PROCESSI ALEATORI GAUSSIANI 101
La descrizione statistica completa di un processo è possibile solo se è nota la sua
funzione di densità di probabilità di ogni ordine e per ogni n − pla di istanti di tempo:
f x(x1, x2,...,xn; t1, t2,...,tn). Tuttavia se X (t) è gaussiano la densità di probabilità
congiunta ha una forma nota:
(3.6.1)
f X (x1, x2,...,xn; t1, t2,...,tn) = 1p
(2π)n det |C X |· exp(−1
2(x − µX )
T C −1X (x − µX ))
dove il vettore aleatorio x è quello che si ottiene estraendo le variabili aleatorie
[X (t1), X (t2),...,X (tn)]. Per la conoscenza completa della funzione di densità di
probabilità congiunta (e quindi dell’intero processo) è sufficiente conoscere quindi la
funzione valor medio e la funzione di autocovarianza; µx(t) e C x(t1, t2). Infatti per
ogni n − pla di istanti di tempo (t1, t2,...,tn) si ha:
(3.6.2) µX = [µx(t1), µx(t2),...,µx(tn)]
Invece per la funzione di autocovarianza si ha: C x = [cij ], dove
(3.6.3)
cij = E [(X (ti)
−µx(ti)) · (X (t j)
−µx(t j))] = C x(ti, t j) = Rx(ti, t j)
−µx(ti)µx(t j)
Una delle proprietà notevoli dei processi gaussiani consiste nel fatto che la staziona-
rietà in senso lato implica la stazionarietà in senso stretto (cosa generalmente non ve-
ra). Infatti la stazionarietà in senso lato equivale ad imporre una funzione valor medio
costante ed una funzione di autocorrelazione dipendente solo dalla differenza degli is-
tanti di tempo: µX (t) = µX e Rx(t1, t2) = Rx(τ ). Se allora si considera l’n − pla di
istanti:
[t1 + ∆t, t2 + ∆t,...,tn + ∆t]
in tali istanti la funzione valor medio non sarà cambiata poichè è una costante. La
funzione di autocovarianza rimane anch’essa costante dato che dipende solo dalle
differenze tra una qualunque coppia di istanti di tempo.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 102/152
3.6. PROCESSI ALEATORI GAUSSIANI 102
Poiche infine la funzione di densità di probabilità congiunta del processo dipende
solo da questi due parametri statistici, si può concludere che il processo stazionario in
senso lato lo è anche in senso stretto.
Quando si fa passare un processo attraverso un sistema lineare tempo-invariante,
di cui si conosce la funzione di trasferimento, è generalmete difficile determinare lafunzione di densità di probabilità congiunta di uscita, anche se nota quella di ingresso.
I processi gaussiani fanno eccezione a questa regola: un processo gaussiano che venga
fatto passare attraverso un sistema lineare conserva la sua proprietà principale di gaus-
sianità; inoltre conserva anche la stazionarietà se il sistema è anche tempo-invariante e
il processo in ingresso è stazionario.
Intuitivamente il motivo per cui la statistica del processo non cambia si può com-
prendere osservando l’operazione che si effettua quando il processo passa attraverso il
sistema:
(3.6.4) Y (t) = X (t) ? h(t) =
Z +∞−∞
X (α)h(t − α)dα
Questa operazione si può pensare come una somma di infiniti termini, ciascuno del
quali vale approssimatamente:
(3.6.5) X (k∆α)h(t − k∆α)∆α
dove si deve pensare k intero e ∆α molto piccolo. Poichè allora il processo in uscita
altro non è che una combinazione lineare di tanti processi in ingresso, tutti gaussiani
(X (t), calcolato per t = k∆α è gaussiano), è anch’esso gaussiano, comunque si scelga
l’n − pla degli istanti di tempo [t1, t2,...,tn].
EXAMPLE 3.6.2. Si consideri un processo gaussiano stazionario con densità spet-
trale di potenza:
(3.6.6) S n(f ) = N o(1 − |f |
B )rect(
f
2B )
e si supponga di far passare questo processo attraverso un campionatore. Il cam-
pionatore è un sistema che, dato un segnale continuo, ne estrae il valore per particolari
istanti di tempo, normalmente equispaziati. A partire da una funzione tempo continua
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 103/152
3.6. PROCESSI ALEATORI GAUSSIANI 103
costruisce quindi una funzione tempo discreta o, se si preferisce, una successione di
numeri reali.
Il campionatore campioni il processo agli istanti di tempo k/B. Se k lo facciamo
variare da 1,...,n otterremo n numeri reali
X (t1 = 1/B), X (t2 = 2/B),...,X (tn = n/B)
corrispondenti ad n variabili aleatorie. Si vuole calcolare la densità di probabilità
congiunta di queste n variabili aleatorie f x(x1, x2,...,xn).
k/B
N0
f
S (f)
0 B−B
n
X(t) X k
FIGURA 3. 6. 1. Densità spettrale e schema a blocchi dell’esempio 3.6.2
Si osservi subito che se X (t) è un processo a valor medio nullo, anche il processo
campionato, essendo l’insieme di n v.a. a valor medio nullo, è a valor medio nullo.
Inoltre la sua funzione di autocovarianza vale:
cxixj = E [(X i − µxi)(X i − µxj)] = E [X iX j ] = E [X (ti)X (t j)] =
(3.6.7) = Rx(ti − t j) = Rx(i − j
B )
Poichè conosciamo S n(f ) è possibile esprimere in forma chiusa anche la funzione di
autocorrelazione:
(3.6.8) Rn(τ ) = N oB · sinc2(Bτ )
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 104/152
3.7. PROCESSI ERGODICI 104
Quindi l’autocovarianza vale: cxixj = N oB · sinc2(i − j) = N oB · δ ik (con δ ik simbolo
di Kronecker) ed è una matrice diagonale. Questo ci dice che le variabili aleatorie
estratte con l’operazione di campionamento sono a due a due incorrelate. Essendo in-oltre congiuntamente gaussiane (l’operazione di campionamento è infatti chiaramente
lineare) esse sono a due a due indipendenti. La loro potenza statistica, è pari anche alla
loro varianza: Rn(0) = N oB. La densità di probabilità congiunta è allora il prodotto
delle singole densità di probabilità delle v.a. [X 1, X 2,...,X n]:
f (x1, x2,...,xn) =nY
k=1
f (xk)
(3.6.9) f (x1, x2,...,xn) = 1p (2π)n · (N oB)n
exp(−x2
1 + x2
2 + ... + x2
n
2N oB )
3.7. Processi Ergodici
I parametri statistici di un processo aleatorio si possono considerare operazioni
d’insieme, poichè sono effettuate sull’insieme delle funzioni campione (o realizzazioni).
Ad esempio la funzione valor medio si determina, per ogni istante fissato t, effettuan-
do la media di tutte le realizzazioni in t, nota che sia la funzione densità di probabilità
di primo ordine per quell’istante. Questa operazione, dal punto di vista teorico noncomporta alcuna difficoltà, ammesso che del processo si conosca una forma chiusa,
ammesso cioè che si sia in grado di scrivere ogni possibile realizzazione del processo,
insieme con la funzione di densità di probabilità del primo ordine (o di ordine superiore
per le altre statistiche).
In pratica la funzione di densità di probabilità non è nota e a volte non si riesce
nemmeno a fare delle ipotesi ragionevoli sulla sua forma con misure statistiche sul
processo in esame. A volte infatti, di un dato processo, è possibile misurare soltan-
to una singola realizzazione. La domanda che sorge spontanea è allora: è possibile
effettuare alcune misure sulla singola realizzazione per ottenere un comportamento
statistico generale ? La risposta a questa domanda è sì, a volte si può fare, ma ciò
dipende da una particolare proprietà che possono possedere i processi aleatori. Questaproprietà è l’ergodicità.
DEFINITION 3.7.1. Un processo aleatorio stazionario in media si dice ergodico in
media se, con probabilità che tende ad 1 si ha che la media d’insieme coincide con la
media temporale effettuata sulla singola realizzazione:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 105/152
3.7. PROCESSI ERGODICI 105
(3.7.1) P ( E [X (t)] = limT →∞
Z T/2−T/2
x(t)dt ) = 1
Tale definizione nasce infatti dall’osservazione che, se si possiede una sola realiz-
zazione del processo, può avere senso effettuare delle misure deterministiche sul quel
processo (media temporale, misura della autocorrelazione e così via). In particolare per
la misura della media temporale può accadere che questa sia differente realizzazione
per realizzazione oppure che, anche se sempre uguale per tutte le realizzazioni, sia
differente dalla media d’insieme del processo in esame. Per alcuni processi invece
capita che non solo la media temporale è uguale per tutte le realizzazioni, ma anche
che questo valore è pari a quello che si determina dalla media d’insieme. Tali processi
sono appunto detti ergodici in media.
Un processo ergodico in media è un processo la cui singola realizzazione si com-
porta come tutto il processo in esame dal punto di vista statistico, permette cioè misure
di media che dovrebbero essere fatte altrimenti su tutta la statistica del processo stesso.
E’ evidente che, affinchè un processo sia ergodico, è necessario che sia stazionario, da-
to che la media temporale è necessariamente un valore singolo e quindi non potrebbe
mai essere pari ad una funzione del tempo (se il processo non fosse stazionario).
Si osservi che nella definizione non abbiamo dato una condizione di uguaglian-
za con certezza, ma con probabilità tendente ad 1, che è una cosa differente. Infatti
quando si osserva la singola realizzazione, questa è una sola tra le tante che potreb-
bero capitare, e quindi il valore che estraiamo della media temporale è essa stessa una
variabile aleatoria. L’uguaglianza di tale variabile aleatoria con una costante (il valor
medio ottenuto come media d’insieme) può essere fatta solo in termini probabilistici,
affermando cioè che tale variabile aleatoria ha valor medio che coincide con la media
d’insieme e varianza nulla. Si tenga inoltre presente che nei casi pratici non si può
osservare nemmeno tutta la realizzazione (cioè da −∞ a +∞) e quindi quella che si
ottiene è solo una stima del valor medio (che a sua volta è una variabile aleatoria).
Quello che nella pratica si riesce ad ottenere è quindi:
(3.7.2) X T = 1
T
Z T/2−T/2
x(t)dt
la media temporale sarà quindi:
X m = limT →∞
X T
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 106/152
3.7. PROCESSI ERGODICI 106
ed inoltre:
(3.7.3) µX m = limT →∞
µX T , σ2X m = lim
T →∞σ2X T
→ 0
anche se questi ultimi risultati non sono accessibili in una situazione reale.
Si ricordi infine che, essendo la varianza della variabile aleatoria X T pari alla funzione
di autocovarianza valutata per τ = 0, il verificarsi della condizione di ergodicità in
media è subordinato al verificarsi di una determinata condizione (C X T (0) → 0) che
coinvolge la statistica del secondo ordine del processo.
Per il calcolo della media temporale si definisce un operatore valor medio tempo-
rale, che si può applicare a qualunque segnale x(t) determinato o no:
(3.7.4) hx(t)i = limT →∞
1
T
Z T/2−T/2
x(t)dt
La proprietà di ergodicità in media può essere allora riscritta nel modo seguente:
(3.7.5) E [X (t)] = hx(t;ω)i
dove si è messo in evidenza che la media temporale è stata effettuata sulla particolare
realizzazione estratta dal processo X (t). Se però il processo è ergodico tale valore è
uguale per tutte le realizzazioni e quindi, con notazione non proprio rigorosa si può
scrivere:
(3.7.6) E [X (t)] = hX (t)i
La dimostrazione che l’uguaglianza della definizione vale con probabilità pari ad 1è legata alla dimostrazione che la media della variabile aleatoria hx(t)i sia pari al valor
medio d’insieme e la sua varianza tenda a zero. L’aspettazione della media temporale
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 107/152
3.7. PROCESSI ERGODICI 107
è:
E [hx(t)i] = E [ limT →∞
1
T Z T/2−T/2
x(t)dt] =
(3.7.7) = limT →∞
1
T
Z T/2−T/2
E [x(t)]dt = limT →∞
1
T
Z T/2−T/2
µxdt = µx
La varianza della variabile aleatoria hx(t)i invece vale:
V ar(hx(t)i) = E [(hx(t)i − µx)
2
] =
= E [( limT →∞
1
T
Z T/2−T/2
x(t)dt − µx)2] = limT →∞
E [( 1
T
Z T/2−T/2
x(t)dt − µx)2] =
= limT →∞
E [ 1
T 2
Z T/2−T/2
(x(t) − µx)dt ·
Z T/2−T/2
(x(t) − µx)dt] =
= limT →∞
E [ 1
T 2 Z T/2
−T/2 Z T/2
−T/2
(x(t) − µx)(x(t1) − µx)dtdt1] =
= limT →∞
1
T 2
Z T/2−T/2
Z T/2−T/2
E [(x(t) − µx)(x(t1) − µx)]dtdt1 =
= limT →∞
1
T 2
Z T/2−T/2
Z T/2−T/2
C x(t, t1)dtdt1 = limT →∞
1
T 2
Z T/2−T/2
Z T/2−T/2
C x(t − t1)dtdt1 =
dove l’ultima uguaglianza vale solo nell’ipotesi che il processo sia stazionario in senso
lato e non solo in media. In questa ipotesi infatti la dimostrazione che la varianza
di hx(t)i va a zero per T → ∞ risulta più semplice (la dimostrazione nel caso più
generale è più complessa).
Se ora si pone t−t1 = u, si osserva che al variare di (t, t1) nel quadrato [−T /2, T /2]×[−T /2, T /2], u varia da [−T, T ]. Inoltre dtdt1 =
√ 2(T − |u|)du: si provi infatti a
calcolare l’area del rettangolino che si ottiene spostando di un infinitesimo du la retta
t − t1 = u (vedi figura 3.7.1).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 108/152
3.7. PROCESSI ERGODICI 108
−T/2
t−t = u
t−t = u+du
1
1
t1
t0−T/2 T/2
T/2
FIGURA 3 .7. 1. Calcolo del differenziale nel cambio di variabile t −t1 = u
Quindi:
(3.7.8) = limT →∞
1
T 2
Z T −T
√ 2(T − |u|)C x(u)du = 0
dato che la funzione di autocovarianza non può divergere per nessun valore della vari-
abile indipendente. E’ quindi dimostrata la definizione di ergodicità in media secondo
la relazione probabilistica.
L’operatore di media temporale può essere utilizzato per definire l’autocorrelazione
di un segnale deterministico a potenza finita:
(3.7.9) hx(t)x(t − τ )i = limT →∞
1
T
Z T/2−T/2
x(t)x(t − τ )dt
Risulta allora abbastanza chiaro che il concetto di ergodicità in media può essere estesa
anche alla autocorrelazione, purchè il processo sia stazionario non solo in media ma
anche per quel che riguarda l’autocorrelazione, sia cioè stazionario in senso lato.
DEFINITION 3.7.2. Un processo aleatorio stazionario in senso lato è ergodico in
autocorrelazione se con probabilità pari ad 1 risulta vera l’uguaglianza;
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 109/152
3.7. PROCESSI ERGODICI 109
(3.7.10)
Rx(τ ) = E [X (t)X (t − τ )] = hx(t)x(t − τ )i = limT →∞
1
T Z T/2
−T/2
x(t)x(t − τ )dt
Si osservi che l’ipotesi di stazionarietà è necessaria per l’ergodicità in autocor-
relazione, dato che altrimenti il processo avrebbe una funzione di autocorrelazione
d’insieme dipendente da due variabili, mentre l’autocorrelazione temporale dipende
chiaramente da una sola variabile. Inoltre, per gli stessi motivi addotti precedente-
mente, è necessario dare anche in questo caso una definizione in termini probabilistici.
L’ergodicità in autocorrelazione è importante poichè mediante questa è possibile
determinare la funzione di autocorrelazione d’insieme mediante l’osservazione di una
singola realizzazione. Dalla funzione di autocorrelazione si può poi calcolare la densità
spettrale di potenza del processo.Le condizioni sull’ergodicità in autocorrelazione del processo coinvolgono grandezze
statistiche del quarto ordine, poichè si deve provare che la varianza della variabile
aleatoria
(3.7.11) hx(t)x(t − τ )iT = 1
T
Z T/2−T/2
x(t)x(t − τ )dt
tende a zero al tendere di T
→ ∞.
Un processo ergodico in valor medio e in autocorrelazione si dice ergodico insenso lato.
DEFINITION 3.7.3. Un processo si dice ergodico in senso stretto se la proprietà
di ergodicità vale per una qualunque grandezza statistica estratta dal processo (e di
qualunque ordine):
(3.7.12)
E [g(X (t), X (t−τ 1),...,X (t−τ n−1))] = hg(X (t;ω), X (t − τ 1;ω),...,X (t − τ n−1;ω))i
EXAMPLE 3.7.4. Dimostriamo che il processo X (t) = a · cos(2πf ot + Θ), con
Θ = U [0, 2π[, con a ed f o noti, è ergodico in senso lato.
Abbiamo già dimostrato che tale processo è stazionario in senso lato (quindi il
problema è ben posto). Inoltre si è già trovato che:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 110/152
3.8. CENNI SULLE CATENE DI MARKOV 110
(3.7.13) µx = 0, Rx(τ ) = a2
2 cos(2πf oτ )
Calcoliamo ora le corrispondenti medie temporali:
(3.7.14)
hx(t; θ)i = limT →∞
1
T
Z T/2−T/2
a · cos(2πf ot + Θ)dt = 1
T
Z T/2−T/2
a · cos(2πf ot + Θ)dt = 0
dato che la media di un qualunque segnale periodico può essere valutata sul singolo
periodo. Il risultato ottenuto è indipendente dal particolare valore diΘ
. Il processo èquindi ergodico in media.
Per l’autocorrelazione temporale si ha poi:
hx(t; θ)x(t − τ ; θ)i = limT →∞
1
T
Z T/2−T/2
a · cos(2πf ot +Θ)a · cos(2πf o(t − τ ) +Θ)dt =
= 1
T
Z T/2−T/2
a · cos(2πf ot +Θ)a · cos(2πf o(t−τ ) +Θ)dt = a2
2T
Z T/2−T/2
cos(2πf oτ )dt =
(3.7.15) a2
2 cos(2πf oτ ) = Rx(τ )
Il processo è ergodico anche in autocorrelazione e quindi lo è in senso lato.
3.8. Cenni sulle Catene di Markov
3.8.1. Qualche definizione sulle catene di Markov. Le catene di Markov sono
una delle applicazioni della teoria dei processi aleatori più diffusa. Esse sono utilizzate
in un’enorme varietà di contesti poichè modellano molto bene una classe di fenomeni
reali (gli arrivi e le attese in coda).
Si supponga di considerare un processio aleatorio X (t) e si supponga di voler
conoscere qualche proprietà della variabile aleatoria X (tk) a partire dalla conoscenza
delle variabili aleatorie X (t1), X (t2),...,X (tk−1), con t1, t2,...,tk arbitrariamente es-
tratti. Si vuole quindi, se possibile, determinare:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 111/152
3.8. CENNI SULLE CATENE DI MARKOV 111
(3.8.1) P (X (tk) = xk/X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1)
DEFINITION 3.8.1. Un processo aleatorio è detto di Markov se risulta:
P (X (tk) = xk/X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1) =
(3.8.2) = P (X (tk) = xk/X (tk−1) = xk−1)
cioè se l’evoluzione del processo dipende soltanto dall’osservazione della variabilealeatoria all’istante immediatamente precedente, comunque si scelgano t1, t2,...,tk.
La definizione precedente può anche essere posta in questi termini: l’evoluzione futura
del processo dipende solo dallo stato attuale del processo e non dagli stati passati.
Una prima proprietà è la seguente:
P (X (tk) = xk, X (tk−1) = xk−1,...,X (t1) = x1) =
P (X (tk) = xk/X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1)·
·P (X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1) =
= P (X (tk) = xk/X (tk−1) = xk−1)·
·P (X (tk−1) = xk−1, X (tk−2) = xk−2,...,X (t1) = x1) =
· · ·
= P (X (tk) = xk/X (tk−1) = xk−1) · P (X (tk−1) = xk−1/X (tk−2) = xk−2) · ...
(3.8.3) ... · P (X (t1) = x1)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 112/152
3.8. CENNI SULLE CATENE DI MARKOV 112
Naturalmente l’ultima quantità, cioè P (X (t1) = x1) è una probabilità non condizion-
ata e deve essere nota a priori.
DEFINITION 3.8.2. Una catena di Markov è detta omogenea quando le probabilità
condizionate non dipendono dall’origine dell’asse dei tempi ma solo dalla differenzatra i tempi considerati:
(3.8.4)
P (X (tk) = xk/X (tk−1) = xk−1) = P (X (tk + ∆t) = xk/X (tk−1 + ∆t) = xk−1)
I processi di Markov che assumono solo valori discreti sono detti catene di Markov.
Le catene di Markov possono essere tempo discrete o tempo continue a seconda che
evolvano o no in modo discreto.
3.8.2. Catene di Markov tempo discrete. Per le catene di Markov discrete è al-
lora possibile scrivere le probabilità di transizione ad un passo, cioè: pij = P (X n+1 =i/X n = j ), dove l’evoluzione temporale nel caso di catene discrete è indicato con un
indice sul processo aleatorio: X (tn) = X (n · ∆t) = X n. E’ allora possibile raggrup-
pare in forma matriciale le probabilità ad un passo, a seconda dei valori che il processo
aleatorio può assumere. Naturalmente questa matrice può anche essere di dimensione
infinita se il numero dei valori possibili assunti dal processo è infinito:
(3.8.5) P =
p00 p01 ... p0n ...
p10 p11 ... p1n ......
... . . .
... ...
pn0 pn1 ... pnn ...... ... ... ... ...
La somma degli elementi su una riga deve necessariamente essere pari ad 1 (da uno sta-
to il processo deve capitare con probabilità 1 in uno qualunque degli altri stati possibili:
(3.8.6) X j pij = 1
Generalizzando la definizione precedente si può anche definire la probabilità di
transizione ad k passi:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 113/152
3.8. CENNI SULLE CATENE DI MARKOV 113
(3.8.7) pij(k) = P (X n+k = i/X n = j)
Si fa vedere facilmente che: pij(2) = P
k pik pkj , cioè la probabilità di transizione
a due passi si determina effettuando il prodotto della riga i − sima per la colonna
j − sima della matrice di transizione ad un passo. Allora è possibile costruire facil-
mente la matrice di transizione a due passi, dato che:
(3.8.8) P (2) = P · P = P 2
e, generalizzando:
(3.8.9) P (k) = P · P · ... · P | z k−volte
= P k
Se si vuole determinare la probabilità che all’istante tn una singola realizzazione
del processo abbia valore pari a xi, si trova che:
P (X n = i) =
(3.8.10)
=X j
P (X n = i/X n−1 = j) · P (X n−1 = j) =X j
pijP i(n − 1) =X j
pij(n)P i(0)
Dato un processo aleatorio che risulta essere anche una catena di Markov tempo disc-
reta, normalmente le quantità note sono la matrice di transizione ad un passo e le
probabilità iniziali del processo, cioè le: P i(0) = P (X o = i).
DEFINITION 3.8.3. Una catena di Markov tempo discreta ammette equilibrio se
esiste il limite:
(3.8.11) limn→∞
P i(n) = Πi
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 114/152
3.8. CENNI SULLE CATENE DI MARKOV 114
Si vuole vedere cioè se le probabilità, per tempi di osservazione lunghi si stabiliz-
zano o variano continuamente.DEFINITION 3.8.4. Una catena di Markov si dice stazionaria se, ammettendo
equilibrio risulta: Πi = P i(0).
In una catena di Markov stazionaria si dimostra facilmente che ∀n : P i(n) = Πi.
3.8.3. Catene di Markov tempo continue. Le catene di Markov tempo continue
sono caratterizzate dal fatto che, seppure le singole realizzazioni del processo aleatorio
assumono valori discreti, il cambiamento di stato avviene ad istanti qualunque e non
per istanti discreti prefissati. Naturalmente vale il concetto generale che definisce le
catene di Markov: l’evoluzione per stati futuri dipende solo dallo stato attuale del
processo. Vale anche la definizione di catena omogenea, dato che questa è stata data
in forma genericamente continua.Le proabilità di transizione da uno stato ad un altro possono ancora essere definite,
ma ora sono genericamente funzioni del tempo:
(3.8.12) P (X (s + t) = i/X (s) = j) = P ij(t)
Nel caso di catene di Markov tempo continue è utile definire il cosiddetto tempo di
permanenza in un possibile stato. Questo tempo di permanenza è normalmente una
variabile aleatoria, dato che la transizione da uno stato al successivo avviene in un is-tante non prevedibile. Se allora si vuole calcolare: P (T i ≤ t) oppure la P (T i > t) si
ha:
P (T i > t + s/T i > s) = P (T i > t + s/X (s0) = i, 0 ≤ s0 ≤ s) =
cioè la probabilità che il tempo di permanenza superi l’intervallo t + s, noto che è
rimasto nello stato i un tempo almeno pari ad s,
= P (T i > t + s/X (s) = i) =
se ora supponiamo la catena omogenea:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 115/152
3.8. CENNI SULLE CATENE DI MARKOV 115
(3.8.13) = P (T i > t/X (0) = i) = P (T i > t)
La relazione precedente è soddisfatta da una variabile aleatoria di tipo esponenziale:
P (T i > t) = e−ν it. Quindi il tempo di permanenza è modellabile come una variabile
aleatoria esponenziale per catene di Markov tempo continue ed omogenee. La quantità
1/ν i è il tempo medio di permanenza nello stato i, mentre ν i si può ritenere il numero
medio di volte che il sistema fuoriesce dallo stato i nell’unità di tempo.
Detta allora q ij la probabilità di passare dallo stato i allo stato j, si ha che la probabilità
di “saltare” da uno stato i ad uno stato j in un tempo piccolo δ è:
(3.8.14) P ij(δ ) = (1 − P ii(δ )) · q ij ≈ δν iq ij [+O(δ 2)]
La quantità γ ij = ν iq ij è quindi il numero medio di transizioni che si effettuano
nell’unità di tempo dallo stato i allo stato j.
DEFINITION 3.8.5. Una catena di Markov tempo continua ammette equilibrio seal limite di t → ∞ la probabilità che il processo sia fermo su un particolare stato i non
dipende più dalla variabile tempo, cioè se
(3.8.15) ∃ limt→∞
P i(t) = pi
Per tali catene è possibile costruire un diagramma delle frequenze di transizione di
stato, che mediante una rappresentazione con nodi ed archi permette di rappresentare
le probabilità di transizione e quelle di permanenza in un determinato stato (vedi figura
3.8.1).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 116/152
3.8. CENNI SULLE CATENE DI MARKOV 116
12
3
!12
!21
!13
!31
!32
!23
FIGURA 3. 8. 1. Grafo delle probabilità di transizione per una catena di
Markov tempo continua costituita da soli tre stati
Tali grafi sono governati dal seguente sistema di equazioni lineari (facilmente ri-
cavabile in base alle considerazioni precedenti):
(3.8.16)Xii6=j
γ ji · p j =Xii6=j
γ ij · pi
dove le pi sono le probabilità che il sistema si trovi nello stato i e γ ij il numero medio
di transizioni dallo stato i allo stato j.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 117/152
CAPITOLO 4
La trasmissione dei segnali
4.1. Introduzione
Il segnale, come si è già detto, è una grandezza fisica variabile alla quale è associata
una qualche forma di informazione. L’interpretazione di questa informazione, cioè del
messaggio che il segnale trasporta è quindi normalmente lo scopo dello studio dei
segnali.
Una delle più comuni situazioni in cui ci si può trovare quando si ha a che fare
con i segnali è quella in cui il segnale è presente in un certo punto dello spazio e losi vuole invece in un altro punto. Ad esempio se una stazione radio programma della
musica, essa avrà la necessità di farla ascoltare al maggior numero di persone. Oppure
se si vuole stampare il risultato di un programma al calcolatore è necessario che i dati
raggiungano la stampante. Infine, persino nel caso in cui una sonda asculti il battito
cardiaco di un paziente si pone il problema della trasmissione del segnale: infatti dalla
sonda al macchinario (o al monitor sul quale il medico legge l’elettrocardiogramma) è
necessario un sistema di trasmissione del segnale cardiaco.
La trasmissione di un segnale è quindi uno dei problemi base che bisogna affrontare
quando si studiano i segnali. E’ anche evidente che questo problema non può avere
risposta univoca, dato che gli elementi che entrano in gioco nella trasmissione di un
segnale sono molto differenti tra loro, a seconda del tipo di segnale, della distanza tratrasmettitore e ricevitore, delle caratteristiche vincolanti del progetto, e così via.
4.2. Generalita’ sui Sistemi di Trasmissione
Uno schema molto generico di un sistema di trasmissione, a grandi linee com-
prende sempre i seguenti elementi base:
• un trasmettitore, che comprende tutti gli apparati del sistema di trasmissione;
• un mezzo trasmissivo, che rappresenta il mezzo fisico (con le sue caratteris-
tiche) sul quale l’informazione, sotto forma di una grandezza fisica variabile,
viaggia: ad esempio una tensione su un cavo od un’onda elettromagnetica
nello spazio vuoto;• un ricevitore, che comprende tutti gli apparati atti a ricevere il segnale ed ad
estrarne la parte utile, cioè quella che trasporta il messaggio.
Il trasmettitore ha il compito di fornire potenza al segnale, in modo che questo abbia
ancora una qualità sufficiente ad essere riconosciuto quando giunge al ricevitore. Il
trasmettitore dunque comprende tutti gli apparati necessari a fornire potenza al segnale
117
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 118/152
4.2. GENERALITA’ SUI SISTEMI DI TRASMISSIONE 118
e, soprattutto, a renderlo compatibile con i tipi di segnale che possono viaggiare su quel
mezzo trasmissivo.
Il ricevitore ha il compito di ricevere il segnale, cioè di prelevarlo dal mezzo
trasmissivo e di estrarne la parte utile, cioè quella che trasporta l’informazione e di
offrirla all’utente nella forma necessaria (ad esempio alle casse di un altoparlante se sitratta di musica).
RxTx
MT
FIGURA 4. 2.1. Schema a blocchi elementare di un sistema di trasmissione
Il mezzo trasmissivo ha il compito di convogliare l’informazione tra trasmettitore
e ricevitore. A seconda delle sue caratteristiche si modella il tipo di segnale che deve
viaggiare su di esso.I mezzi trasmissivi si dividono in due grandi categorie a seconda del modo con cui
trasportano i segnali:
• mezzi ad onde convogliate (o non dispersivi)
• mezzi ad onde irradiate (o dispersivi)
4.2.1. I mezzi trasmissivi. I mezzi ad onde irradiate sono sostanzialmente l’at-
mosfera o lo spazio vuoto. Tra i due tipi di mezzi non vi è grande differenza, dato
che questo tipo di trasmissione prevede comunque l’irradiazione di onde elettromag-
netiche. Tuttavia nel caso dell’atmosfera vi possono essere interazioni delle onde con
i gas dell’atmosfera, con il vapor d’acqua o con la superficie terrestre (tali interazioni
sono in genere molto complesse e non ci soffermeremo su di esse). La trasmissione peronde elettromagnetiche avviene quindi in modo radiativo, cioè al lato trasmettitore e al
lato ricevitore vi sono due antenne che irradiano potenza sotto forma di onde elettro-
magnetiche. Queste si propagano con una legge che dipende dalla caratteristica radia-
tiva dell’antenna trasmittente (oltre che ovviamente dal mezzo). Il caso più semplice
che si considera è quello di antenne isotrope: la potenza del segnale si distribuisce in
modo uguale in tutte le direzioni dello spazio. Quindi l’onda elettromagnetica viaggia
continuamente sul fronte di una superficie sferica di raggio continuamente crescente.
la sua velocità è pari alla velocità delle onde elettromagnetiche nel vuoto (c, detta
anche velocità della luce ed uguale 2.99792458 · 108 m/s). Ad una distanza R dall’an-
tenna trasmittente la potenza per unità di superficie è:
(4.2.1) P = P T 4πR2
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 119/152
4.2. GENERALITA’ SUI SISTEMI DI TRASMISSIONE 119
Se quindi il ricevitore si trova a distanza R dal trasmettitore, basta moltiplicare ques-
ta potenza per l’area dell’antenna ricevente per ottenere la potenza in ricezione. In
realtà nel conto precedente si deve considerare l’area efficace, dato che l’area fisica
di un’antenna non corrisponde esattamente all’area che effettivamente si può sfruttare
per trasmettere/ricevere le onde e.m. Se poi l’antenna trasmittente non è isotropa, essaha un certo guadagno di direttività, cioè irradia prevalentemente più potenza in una
direzione piuttosto che in altre. Naturalmente è compito del progettista fare in modo
che la potenza irradiata venga fatta convogliare prevalentemente nella direzione in cui
è posto il ricevitore. L’equazione diventa allora:
(4.2.2) P R = P T · GT AR
4πR2
sfruttando la relazione che lega area efficace al guadagno d’antenna: Aeff = G · λ2
4π si
ha:
(4.2.3) P R = P T · GT GRλ
2
(4π)2R2
I mezzi ad onde convogliate sono sostanzialmente tutti i sistemi a cavo. Tra questi
vi sono:• doppino in rame
• cavo coassiale
• fibra ottica
• guide d’onda
I mezzi ad onde convogliate trasportano la potenza del segnale sotto forma di segnali di
tensione (o corrente) che viaggiano sul mezzo seguendo leggi fisiche differenti a sec-
onda del tipo di mezzo con cui abbiamo a che fare. Questi tipi di mezzo trasmissivo
non possono essere studiati nello stesso modo dei circuiti a parametri concentrati, dato
che le loro dimensioni fisiche sono in genere molto maggiori della lunghezza d’onda
del segnale che convogliano. Per essi quindi si fa l’ipotesi di mezzo a costanti dis-
tribuite: cioè resistenza, induttanza e capacità sono distribuite uniformemente lungo
la linea. Per l’analisi si suppone che, considerando un tratto infinitesimo di linea, dx,
la sezione esaminata sia a parametri concentrati e si suppone inoltre che la linea sia
uniforme, cioè che questi parametri non varino lungo la linea stessa.
A causa della presenza di elementi dissipativi all’interno di una linea di trasmis-
sione, anche per i mezzi non dispersivi la potenza cala lungo il percorso del mezzo.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 120/152
4.2. GENERALITA’ SUI SISTEMI DI TRASMISSIONE 120
In particolare, se si suppongono costanti i parametri caratteristici del mezzo, la poten-
za decresce in modo lineare con la distanza in unità logaritmiche: P R = P T /10αtot .
Cioè la potenza ricevuta si può scrivere come potenza trasmessa meno l’attenuazione
specifica per unità di distanza moltiplicato per la distanza, purchè le potenze vengano
espresse in dB:
(4.2.4) P R = P T − αs · l
Per i conduttori in metallo (ad esempio il rame) l’attenuazione varia anche con la fre-
quenza d’utilizzo (a causa dell’effetto pelle):
(4.2.5) αs = αr ·
s f
f r
dove αr è l’attenuazione ad una frequenza di riferimento f r (le attenuazioni sono
misurate in dB).
Nella tabella sono riportate le caratteristiche salienti dei più comuni mezzi trasmis-
sivi
Mezzo Caratteristica Variazione dell’ attenuazione con
la distanza
Banda d’utilizzo
Vuoto dispersivo 1/R2 passa banda
Atmosfera dispersivo complessa ∼ 1/R2 passa banda
doppino,cavo coassiale non dispersivo esponenziale passa basso
Fibra ottica non dispersivo esponenziale passa banda
Nell’ultima colonna è stata anche riportata una delle caratteristiche fondamentali dei
mezzi trasmissivi: cioè qual è la loro banda prevalente d’utilizzo, cioè la banda di
frequenze dove essi esibiscono una minore attenuazione (per fare in modo da dover
utilizzare meno potenza per lo stesso segnale). I mezzi dispersivi sono ovviamente
passa banda (le onde elettromagnetiche hanno necessità di oscillare e quindi di avere
frequenza non nulla per potersi propagare). I mezzi metallici sono prevalentemente
passa basso a causa dell’effetto pelle visto precedentemente: infatti all’aumentare della
frequenza essi esibiscono una attenuazione sempre maggiore (che cresce esponenzial-
mente). Infine le fibre ottiche sono così dette a causa del loro migliore comportamento
(un’attenuazione specifica di circa 0.2 dB per Km) alle frequenze ottiche (nell’ordine
del migliaio di T Hz ).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 121/152
4.2. GENERALITA’ SUI SISTEMI DI TRASMISSIONE 121
4.2.2. Equalizzazione dei mezzi trasmissivi. Dalla rapida analisi dei mezzi trasmis-
sivi non è però emerso qual è lo scopo fondamentale di un mezzo trasmissivo: quello
di convogliare l’informazione in modo da lasciarla immutata.
Dato in ingresso ad un mezzo trasmissivo ideale un segnale s(t), al più ci aspetti-
amo che il segnale di uscita si sia attenuato (ed è inevitabile) e ritardato (a causa dellavelocità di propagazione finita). La forma del segnale di uscita è quindi
(4.2.6) k · s(t− to)
a cui corrisponde una funzione di trasferimento pari a:
(4.2.7) H (f ) = k · e− jωto
Il mezzo trasmissivo ideale ha quindi ampiezza costante dello spettro e fase che varia
linearmente. Si può parlare di funzione di trasferimento del mezzo trasmissivo ideale
perchè si suppone che esso sia lineare e che le sue caratteristiche non variano nel tempo
(tempo-invariante).
I mezzi reali tuttavia si discostano molto dal comportamento ideale. Prima di tutto
essi sono solo approssimatamente lineari (o lo sono solo per un determinato range
di ampiezze del segnale), le loro caratteristiche variano nel tempo a causa di molte
condizioni esterne (quindi sono lentamente tempo varianti), infine la loro funzione di
trasferimento (ricavabile con le approssimazioni di linearità e tempo invarianza) non è
quella del mezzo ideale.
La prima operazione che si effettua in ricezione è allora l’equalizzazione del mez-zo trasmissivo. Detta H t(f ) la funzione di trasferimento del mezzo (ricavabile con
le approssimazioni viste), l’equalizzazione è un filtraggio effettuato per compensare
l’effetto del mezzo trasmissivo:
(4.2.8) H eq(f ) = k · e− jωto
H t(f )
Naturalmente, affinchè si possa effettuare un’equalizzazione del mezzo è necessario
che il mezzo trasmissivo sia lineare, tempo invariante (una lenta tempo varianza è
ammessa, purchè in ricezione l’equalizzazione si possa adattare a questa tempo vari-
anza) e che si conosca il comportamento in frequenza del mezzo, cioè la H t(f ).
Se il mezzo è non lineare compaiono termini armonici “spuri”, anche dove il seg-
nale non ha componenti spettrali (distorsione non lineare). Le componenti spettrali
spurie possono essere filtrate, sempre che esse siano all’esterno della banda del seg-
nale, altrimenti non è più possibile distinguerle dal segnale stesso in uscita dal mezzo
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 122/152
4.3. TRASMISSIONE ANALOGICA E NUMERICA 122
trasmissivo. Inoltre, poichè una non linearità si può sempre approssimare con uno
sviluppo in serie di Taylor di ordine opportunamente elevato, può essere istruttivo
vedere cosa accade quando un segnale passa attraverso un semplice quadratore, la più
semplice delle non linearità. Questo dispositivo non lineare effettua il quadrato del
segnale che gli proviene all’ingresso: Y = X 2. Ad un prodotto nei tempi corrispondeuna convoluzione nelle frequenze: Y (f ) = X (f ) ∗X (f ), con conseguente raddoppio
della banda del segnale e mescolamento delle componenti armoniche.
Si ricordi infine che un mezzo trasmissivo reale introduce sempre una qualche
forma di disturbo sul segnale immesso. In ricezione dunque, oltre al segnale (distorto
o modificato dal mezzo) saranno sempre presenti una serie di segnali indesiderati,
legati in modo più o meno complesso all’informazione. A tali tipi di disturbo si dà il
nome generico di rumore.
4.3. Trasmissione Analogica e Numerica
Una prima grande distinzione tra i sistemi di trasmissione si ha a seconda delsegnale che si vuole trasmettere: se il segnale è analogico o se il segnale è numerico.
La trasmissione numerica è da anni diventata più popolare e conveniente della
trasmisione analogica per più motivi. Il motivo fondamentale sta nel fatto che nella
trasmissione numerica la struttura del trasmettitore/ricevitore non cambia al variare
del segnale che si codifica o della sequenza di simboli che si devono trasmettere; al
contrario nella trasmissione analogica il sistema varia a seconda delle caratteristiche
del segnale. Inoltre nella trasmissione numerica si riesce a controllare con maggior
precisione l’entità dei disturbi che inevitabilmente influenzano il segnale durante la
trasmissione. La trasmissione numerica inoltre permette un risparmio di potenza a
parità di informazione convogliata o, equivalentemente, una maggiore informazione
a parità di potenza in trasmissione. La trasmissione numerica, rispetto all’analogica,
tuttavia, richiede uno schema di trasmissione/ricezione più complesso; si tenga conto
però che gli schemi di trasmissione numerica sono standardizzati ormai da anni e in
commercio esistono apparati economici per le più svariate esigenze e soluzioni.
Dalla rapida analisi dei mezzi di trasmissione fatta precedentemente è emersa una
caratteristica importante: i mezzi di trasmissione sono intrinsecamente analogici: cioè
non è possibile trasmettere su di essi dei segnali di tipo discreto, nè tanto meno numeri.
Allora che cosa significa fare la distinzione tra trasmissione analogica e trasmissione
numerica ?
Nella trasmissione analogica l’informazione che si trasmette è la forma del segnale
stesso, così come questo è generato sul lato del trasmettitore (ad esempio un segnale
musicale generato da uno strumento).
Nella trasmissione numerica invece si effettuano una serie di operazioni sul segnale
sino a codificarlo in una serie di simboli. Una volta che sono stati ottenuti i simboli
si effettua la trasmissione di forme d’onda analogiche (perchè altro non può essere),
ma che, a differenza del caso precedente, sono rappresentative dei simboli codificati e
non della forma d’onda originaria. Addirittura è possibile che il segnale analogico di
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 123/152
4.4. IL CAMPIONAMENTO 123
partenza non esista affatto: si pensi al caso della trasmissione di dati da un computer
ad una stampante, dove i simboli da trasmettere sono una sequenza di zeri e di uno.
Ritornando tuttavia al caso in cui si voglia trasmettere in modo numerico un seg-
nale analogico, è necessario fare su di esso una serie di operazioni per renderlo numeri-
co. Queste operazioni naturalmente devono avere la caratteristica di essere invertibili:cioè al lato del ricevitore deve essere possibile tornare indietro, in modo da avere a
disposizione nuovamente il segnale originario o comunque qualcosa che gli assomigli
abbastanza per l’utilizzo a cui è destinato.
Le tre operazioni che si effettuano al lato trasmittente per rendere numerico un seg-
nale analogico sono, nell’ordine, il filtraggio, il campionamento e la quantizzazione.
Cominciamo con l’analizzare il campionamento.
4.4. Il Campionamento
Dato un segnale analogico l’operazione di campionamento consiste nell’estrarre
una serie di campioni, cioè i valori del segnale in posizioni equispaziate (anche se
esistono casi di campionamento a passo non costante). Dall’operazione di campiona-
mento si ha cioè una serie di numeri reali che rappresentano i campioni del segnale. In
figura 4.4.1 è illustrata l’estrazione dei campioni dal segnale analogico s(t).
s(t)
tT
0
FIGURA 4. 4.1 . Campionamento di un segnale
Quando il campionamento avviene a passo regolare (e ciò accade nella stragrande
maggioranza dei casi), il passo di campionamento T rappresenta l’intervallo con cui
si spaziano i campioni, mentre è detta frequenza di campionamento il reciproco di T :f c = 1/T . Intuitivamente si può già capire che aumentando il numero di campioni
e quindi diminuendo il passo di campionamento, migliora la descrizione del segnale
analogico. Al limite con T → 0 avremmo una descrizione perfetta del segnale di
partenza. In una situazione del genere naturalmente non saremmo però in grado di
gestire i campioni del segnale, dato che, anche per un intervallo di tempo piccolo,
avremmo un numero infinito di campioni. Si tratta allora di stabilire quale può essere
il passo di campionamento più grande che si può utilizzare senza perdere informazione
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 124/152
4.4. IL CAMPIONAMENTO 124
del segnale, per fare in modo, cioè, che esso possa essere ricostruito a partire dai suoi
campioni.
Cominciamo allora a dare una descrizione matematica del campionamento. Una
delle proprietà dell’impulso, come si è avuto modo di vedere, è quella di “estrarre” un
campione del segnale, quando è applicato nella posizione di estrazione:
(4.4.1) s(t) δ (t− τ ) = s(τ ) δ (t− τ )
Infatti la relazione precedente, sebbene più corretta sotto il segno di integrale, ci dice
che se moltiplichiamo un impulso in τ per il segnale s(t), otteniamo un impulso di
area s(τ
) nella stessa posizione.Dato allora un segnale s(t), il segnale campionato a passo T , sc(t), ha la seguente
rappresentazione:
(4.4.2) sc(t) = s(t) ·+∞Xn=−∞
δ (t− nT )
cioè una sequenza di impulsi equispaziati di area pari all’ampiezza del segnale nelleposizioni nT . Proviamo ad effettuare la trasformata di Fourier del segnale campionato.
S c(f ) = = sc(t) = S (f ) ? =
( +∞Xn=−∞
δ (t− nT )
)=
(4.4.3) = S (f ) ? 1
T
+∞
Xk=−∞
δ (f − k
T ) =
1
T
+∞
Xk=−∞
S (f − k
T )
Lo spettro del segnale campionato è la somma di tutte le repliche, a passo 1/T , dello
spettro del segnale di partenza; le repliche vanno da −∞ a +∞. Una rappresentazione
dello spettro di un segnale campionato è riportata in figura 4.4.2.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 125/152
4.4. IL CAMPIONAMENTO 125
c
f
f
S(f)
cS (f)
0
0
f c f c2−f
FIGURA 4. 4.2. Spettro del segnale di partenza e della sua versione campionata
Da questa semplice osservazione si può immediatamente dedurre qual è la con-
dizione sufficiente affinchè un segnale campionato possa essere ricostruito, cioè si
possano ottenere dai campioni il segnale di partenza analogico. La condizione da
verificare è che la banda unilatera del segnale sia inferiore a metà della frequen-za di campionamento, oppure che la banda bilatera sia inferiore alla frequenza di
campionamento:
(4.4.4) 2Bs ≤ f c
Bt ≤ f c
La metà della frequenza di campionamento è detta frequenza di Nyquist. Lo spettro
di un segnale campionato esiste quindi solo all’interno dell’intervallo [−f c/2, f c/2],
poi si ripete periodicamente uguale a sè stesso. Se la condizione precedente non è ver-
ificata il segnale di partenza non può essere più ricostruito poichè le repliche spettrali
si sovrappongono in modo tale da non poter essere più distinte tra loro. In tal caso
si dice che il segnale è stato aliasato o che lo spettro del segnale campionato presenta
aliasing (equivocazione). Si veda a tale proposito la figura 4.4.3.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 126/152
4.4. IL CAMPIONAMENTO 126
aliasing
f
f
S(f)
cS (f)
0
0
−f c f c 2f c
FIGURA 4. 4.3 . Spettro del segnale di partenza e della sua versione
campionata in presenza di alias
Dato un segnale analogico si supponga di volerlo trasmettere in forma numerica. Il
primo problema che ci dobbiamo porre è: a quale frequenza lo devo campionare ? E’
infatti molto probabile che lo spettro del segnale non sia limitato come negli esempi.
A rigore quindi la frequenza di campionamento dovrebbe essere infinita. In realtà,
sulla base di considerazioni energetiche, si riesce comunque a stabilire una frequenza
di campionamento.
Ad esempio il segnale vocale è compreso in una banda che va da circa 20 Hz a
circa 20 K Hz . Quindi se si sceglie una frequenza di campionamento di, per esem-
pio, 50 K Hz , si è sicuri di non commettere equivocazione sullo spettro del segnale
campionato.
Un modo per evitare sicuramente aliasing è quello di filtrare il segnale prima di
campionarlo. Facendo passare il segnale attraverso un filtro passa basso di banda B ,
si è sicuri che tutte le frequenze al di là di B sono state abbattute. Successivamente il
segnale può essere campionato ad una qualunque frequenza purchè questa sia ≥ 2B.
Si supponga ora che il segnale numerico sia arrivato al ricevitore il quale si pone
il problema di riottenere il segnale analogico dai campioni di partenza. A questa oper-
azione è dato il nome di ricostruzione del segnale analogico. Se si osserva la figura,
la cosa più ovvia è quella di filtrare via, dallo spettro del segnale campionato, tutte
le repliche spettrali che non fanno parte dello spettro del segnale di partenza. A tale
proposito, per manterere inalterato lo spettro del segnale di partenza, si usa il filtro
passa basso ideale (cioè un rettangolo di ampiezza 1) di banda f c/2 (vedi in figura
4.4.4).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 127/152
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 128/152
4.4. IL CAMPIONAMENTO 128
il valore che assume la somma dei prodotti che si ottengono moltiplicando i campioni
del segnale per la funzione seno cardinale centrata in ciascuno dei campioni. Poichè
inotre la funzione seno cardinale è pari, la formula precedente può anche essere scritta
come:
sr(t) = 1
T
+∞Xn=−∞
s(nT ) · sinc(nT − t
T )
il cui significato può anche essere inteso nel modo seguente: il segnale ricostruito nella
posizione generica t si ottiene come somma dei prodotti tra i campioni e il valore che
assume la funzione seno cardinale nelle posizioni di campionamento quando questa è
posta in t. Entrambe le interpretazioni sono riassunte in figura 4.4.5.
t
s(3)
s(2)
s(1)
s(0)
s(−1)
s(−2)
s(−3)
−0.52 4−2−4
2
1.5
1
0.5
0
0 4
−0.5
0
0.5
1
1.5
2
−4 −2 0 2−1
FIGURA 4.4. 5. Rappresentazione grafica della ricostruzione delsegnale analogico a partire dai suoi campioni
La casistica e le difficoltà nel campionamento di un segnale analogico non si esauriscono
qui: infatti si è considerato solo il caso più semplice di segnale di partenza con banda
concentrata dalla frequenza zero sino ad un certo valore massimo (segnale passa bas-
so). Nel caso di segnali passa banda le cose sono leggermente differenti, anche se il
teorema del campionamento continua a valere.
Infine si osservi che, a rigore, un campionamento perfetto è impossibile dato che
dovrebbe esistere un sistema in grado di “estrarre” l’informazione del segnale in una
posizione istantanea. La maggior parte dei campionatori funziona approssimando il
comportamento sopra descritto: l’istante di campionamento diventa in realtà un pe-
riodo di osservazione del segnale, durante il quale si effettua una sorta di media del
segnale stesso. Se questo periodo è molto più piccolo del periodo di campionamento
si può ritenere corretta l’approssimazione di campionamento ideale. In figura 4.4.6 è
mostrato un campionamento reale.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 129/152
4.5. LA QUANTIZZAZIONE 129
s(t)
tT
0
FIGURA 4.4 .6. Campionamento reale
Un campionamento reale si può sempre schematizzare quindi come un campionamento
ideale preceduto da un filtro la cui risposta all’impulso è il rettangolo alto 1 e di durata
τ , con τ T . Poichè la trasformata di questo rettangolo è un sinc con il primo zero
in 1/τ , l’effetto di un campionamento reale è quello di fare leggero un filtraggio passa
basso del segnale prima di campionarlo.
4.5. La Quantizzazione
Dopo il campionamento si ha la serie di campioni del segnale. Questi altro non
sono che numeri reali, e quindi come tali, non rappresentabili su calcolatore o in
un sistema a logica digitale. L’operazione successiva al campionamento è la quan-
tizzazione. La quantizzazione consiste nel trasformare un numero reale in un altro
numero, scelto con un certo criterio, tra un certo insieme finito di valori. Poichè in-
fatti l’aritmetica del calcolatore è finita, essa è in grado di descrivere solo numeri con
una precisione finita. E’ necessario allora trasformare il numero reale estratto dal
campionatore in un numero a precisione finita, tra un certo insieme di valori possibili.
Da qui si capisce bene che la quantizzazione è un’operazione irreversibile: infatti
una volta trasformato, il numero reale non può più essere ricostruito con precisione, da-
to che la sua informazione è perduta per sempre. Naturalmente la trasmissione numeri-
ca è possibile e funziona perchè la quantizzazione viene fatta con criterio. Cominciamo
con l’analizzare quindi gli elementi della quantizzazione.
Il principio su cui si basa la quantizzazione è il seguente: se i campioni del segnale
si quantizzano con un numero sufficiente di livelli (i possibili valori che il campione
può assumere), allora l’effetto di perdita che si ha a causa dell’irreversibilità della
quantizzazione è accettabile. Naturalmente si tratta di mettere in relazione questo
effetto di perdita con il numero di livelli e con le caratteristiche del segnale se si vuole
quantificare l’effetto distorsivo della quantizzazione.
La quantizzazione è caratterizzata dalla massima escursione dei campioni del seg-
nale (o dinamica) e dal numero di livelli con i quali si vuole effettuare la quantizzazione
stessa. Poichè la quantizzazione è legata sempre all’elaborazione del segnale all’inter-
no di sistemi a logica binaria, è conveniente quantizzare con un numero di livelli pari
ad una potenza del due: infatti in questo modo è possibile descrivere un campione
come una sequenza di bit sempre della stessa lunghezza. Se ad esempio decidiamo di
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 130/152
4.5. LA QUANTIZZAZIONE 130
descrivere un campione con 8 bit, non ha senso utilizzare, ad esempio, solo 180 livel-
li per descrivere il segnale: sarebbe meglio utilizzarne il numero massimo consentito
dal numero di bit utilizzato (28 = 256). In questo modo usiamo comunque 8 bit per
descrivere i singoli campioni, e allo stesso tempo la descrizione del campione risulterà
più precisa.La cosa più logica da fare quando si effettua la descrizione del campione con i
livelli, è quella di approssimarlo con il livello più vicino, in modo da minimizzare
l’errore che inevitabilmente si commette nel quantizzare un segnale. In figura 4.5.1 è
risportato lo schema generale della quantizzazione
...
dinamica
Q
000
001
010
011
100
...
FIGURA 4.5.1. Schema della quantizzazione
I livelli sono codificati con una sequenza di bit scelta opportunamente. Ad esempio si
può decidere di partire dal livello più basso numerandolo come livello 0 e di giungere
a quello più alto che avrà valore 2n − 1. Quindi i bit assegnati ai singoli livelli altro
non sono che la trasformazione binaria dei numeri assegnati ai livelli. Tale tipo di
corrispondenza, almeno teoricamente, è puramente convenzionale, ma in realtà per
motivi di convenienza si effettuano sempre e solo alcuni tipi di trasformazione, poichè
questi permettono, in fase di ricezione, una più veloce ricostruzione del livello da
assegnare al campione.
Anche la dinamica del segnale e la sua statistica ha la sua influenza sulla scelta
del numero di livelli e sulla dimensione del salto. Infatti si supponga di avere a che
fare con un segnale che per la maggior parte del tempo si mantiene a valori bassi
e che saltuariamente presenta picchi elevati. Se si volesse quantizzare tale segnale,
cercando di descrivere anche i picchi più alti, si perderebbe inevitabilmente parte della
precisione nel descrivere il segnale quando questo presenta livelli bassi. Meglio in
tale situazione rinunciare alla descrizione del segnale quando salta e descrivere con
più precisione la dinamica che il segnale occupa per la maggior parte del tempo. I
picchi saranno descritti con il livello massimo del segnale, e quindi una volta ricostruiti
risulteranno “mozzati”. Tale effetto è noto con il nome di saturazione.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 131/152
4.5. LA QUANTIZZAZIONE 131
Si supponga ora di avere a che fare con un processo aleatorio e stazionario, a media
nulla. Il campionamento di una delle sue realizzazioni dà luogo, per ogni campione,
ad una variabile aleatoria, la cui densità di probabilità sia f (x). Si supponga inoltre
che la dinamica della variabile aleatoria sia [−a, a]. Detto allora Q il numero di livelli,
l’ampiezza del quanto o intervallino di quantizzazione è:
(4.5.1) ∆ = 2a
Q
I bordi degli intervallini si trovano in xi = −a + i · ∆, i = 0,...,Q, mentre i singoli
livelli hanno valore:
(4.5.2) xq = xi + xi−1
2
= −a + i ·∆−∆
2
i = 1,...,Q
In questo modo minimizzo l’errore di quantizzazione, dato che, ponendo il livello a
metà tra due salti l’errore di quantizzazione massimo si commette se al più il campione
ha un valore pari ad uno dei bordi. In questo caso estremo l’errore di quantizzazione è
pari a metà livello: ∆2
.
Per rendere quantitativo l’effetto “distorcitivo” della quantizzazione è possibile
misurare l’errore quadratico medio che si commette nello scegliere i livelli di quan-
tizzazione piuttosto che il valore dei campioni (l’errore medio ci si aspetta sia nullo,
dato che c’è pari probabilità del campione di presentarsi poco più sopra o poco più
sotto del livello):
N q = E
(x− xq)2
=
Z +a−a
(x− xq)2f (x)dx =
QXi=1
Z xixi−1
(x− xq)2f (x)dx =
A questo punto la risoluzione dell’integrale si può effettuare solo se si conosce la sta-
tistica del processo. Una delle ipotesi semplificatrici che si fa molte volte è quella di
supporre la statistica del segnale uniforme sulla dinamica considerata. Cioè si suppone
f (x) una v.a. uniforme nell’intervallo [−a, a]:
f (x) =
12a x ∈ [−a, a]0 altrove
N q =QXi=1
Z −a+i∆
−a+(i−1)∆
(x + a− i∆ +∆
2 )2
1
2adx =
(4.5.3) =
QXi=1
Z +∆/2
−∆/2
y2 1
2ady =
∆2
12
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 132/152
4.5. LA QUANTIZZAZIONE 132
Questa quantità va confrontata con la potenza del segnale, dato che, essendo un dis-
turbo, esso è più o meno forte a seconda del livello di potenza che il segnale possiede
(non ha senso chiedersi il livello di un disturbo se non lo si confronta con il livello del
segnale disturbato):
(4.5.4) S x =
Z +a−a
x2 1
2adx =
a2
3
Poichè risulta: a = Q∆2 , allora S x = Q2∆2
12 . Il rapporto tra la potenza del segnale e
il valore quadratico medio dell’errore di quantizzazione è detto rapporto segnale ru-
more di quantizzazione e vale:
(4.5.5) S xN q
= Q2
é uguale quindi al quadrato del numero di intervalli. Questo conferma quanto già
qualitativamente si era intuito: aumentando il numero di intervalli la descrizione dei
campioni del segnale avviene sempre più precisamente. Se poi il numero di intervalli
è una potenza del due il rapporto segnale rumore di quantizzazione vale: S xN q
= 22n,
che espresso in dB è:
S x
N qdB
= 10 log10 22n ' 6.02 · n dB
Il rapporto segnale rumore aumenta in conclusione di circa 6dB per ogni bit di quan-
tizzazione in più.
4.5.1. Quantizzazione non lineare. Per il calcolo del rapporto segnale rumore di
quantizzazione si è supposto precedentemente che la statistica del processo sia uni-
forme nella dinamica in cui si suppongono presenti i campioni del segnale. Tuttavia
questo normalmente non è vero. Si pone quindi il problema di trovare il rappor-
to segnale rumore nel caso generale, e, ancora prima, di verificare se il metodo di
quantizzazione proposto è l’ottimale.
Si supponga di avere un processo a media nulla e con una densità di probabilità
molto concentrata attorno all’origine, come potrebbe essere ad esempio un processo
gaussiano con varianza molto piccola. In tal caso le singole realizzazioni del pro-
cesso, pur potendo in linea teorica avere una dinamica molto elevata, nella maggior
parte del tempo non si discosteranno in modo significativo dallo zero. Per le realiz-
zazioni (e quindi per i campioni) di quel processo, è più probabile un valore piccolo
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 133/152
4.5. LA QUANTIZZAZIONE 133
che uno grande. Si tenga inoltre conto che, essendo il processo un processo gaus-
siano, la dinamica del segnale è infinita, il segnale cioè può avere una escursione an-
che estremamente grande, sebbene questo evento ha una probabilità molto remota di
accadere.
Si tratta allora di trovare qual è la quantizzazione ottima per questo tipo di proces-so, dove l’ottimo sta nella massimizzazione del rapporto segnale rumore di quantiz-
zazione.
Quando si quantizzano i campioni di questo processo necessariamente si dovrà
scegliere una dinamica finita entro cui far variare il processo, pur essendo questo a
dinamica teoricamente infinita. La descrizione che daremo del processo è una de-
scrizione in qualche modo “mozzata”: quando il campione assume cioè un valore che
è maggiore del valore della dinamica scelta, esso viene posto pari al valore massimo.
Questa descrizione è ragionevole, purchè questo evento sia molto remoto.
Per un processo gaussiano per esempio possiamo porre la dinamica pari a 3 volte la
deviazione standard, dato che un processo con densità di probabilità gaussiana ha una
probabilità di superare in escursione 3σ pari ad appena lo 0.03%. Scelta la dinamicasi devono scegliere il numero di livelli. Questa normalmente è una scelta legata alle
caratteristiche dell’hardware, ed è quindi limitata da altre considerazioni (il numero di
bit del sistema che effettua la transizione analogico-digitale).
FIGURA 4. 5. 2. Confronto tra una quantizzazione lineare ed una non lineare
Infine si deve decidere come dividere la dinamica tra i vari livelli. Infatti finora
si è implicitamente supposto che la dinamica sia divisa equamente tra i vari livelli,
ma questa è solo una possibilità. Un’altra possibilità sta nel dividere i livelli in mo-
do da assegnare livelli più piccoli dove il segnale è più probabile. In questo modo
la descrizione dei campioni che più probabilmente occorrono è più precisa, mentre la
descrizione dei campioni più rari perde di precisione. Complessivamente però ques-
ta quantizzazione, detta non lineare, risulta vantaggiosa e permette di migliorare il
rapporto segnale rumore di quantizzazione.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 134/152
4.6. IL CANALE BINARIO 134
Più precisamente la divisione tra livelli si fa in modo tale da suddividere l’escur-
sione della dinamica in intervalli che contengano la stessa area della funzione densità
di probabilità. Dove la densità di probabilità risulta elevata (evento più probabile) sarà
necessaria una suddivisione più fine e quindi livelli più piccoli; al contrario dove la
densità di probabilità è più bassa livelli più ampi (vedi in figura 4.5.3 l’esempio peruna gaussiana).
8
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
−8 −6 −4 −2 0 2 4 60
FIGURA 4. 5. 3. Quantizzazione non lineare di un processo gaussiano
4.6. Il Canale Binario
In un sistema di trasmissione numerico, i vari blocchi funzionali introdotti (fil-
traggio, campionamento, quantizzazione) servono a generare bit, che poi sono l’in-
formazione che si trasmette. Generalizzando questo concetto potremmo dire che in
un sistema di trasmissione numerico sono generati N differenti simboli, mentre al
ricevitore ne giungono M (vedi figura 4.6.1).
1a
a
...
a
b
b
...
b
1
2
N
2
1
M
...
...
P(b R/a T)1
FIGURA 4.6. 1. Schematizzazione della trasmissione numerica
Se il canale fosse senza errori, avremmo N = M ed inoltre, alla trasmissione di aiavremmo la ricezione con probabilità 1 di bi: P (biR/aiT ) = 1 e P (biR/a jT ) = 0 se
j 6= i. In un canale ideale l’alfabeto dei simboli in ingresso è uguale in numero a quello
dei simboli in uscita, dato che il canale non introduce equivocazione e quindi non c’è
possibilità di scambiare un simbolo per un altro o di dover introdurre altri simboli per
indicare situazioni indecidibili (simboli di “cancellazione”).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 135/152
4.6. IL CANALE BINARIO 135
Se il numero di simboli trasmessi e ricevuti è pari a due, allora il sistema si sem-
plifica e si ha il canale binario (figura 4.6.2). Nel canale binario ideale si suppone di
avere due soli simboli in ingresso (che possono essere lo 0 e l’1) e due soli simboli in
uscita.
p
a b
a b
0 0
1 1
q
q
p0
1
0
1
FIGURA 4.6 .2. Canale binario ideale
Senza perdere di generalità si può supporre che a0 = 0 e a1 = 1, inoltre che b0 = 0 e
b1 = 1. Le probabilità di trasmissione corretta o errata sono quindi:
(4.6.1)
q 0 = P (0R/0T )q 1 = P (1R/1T )
p0 = P (1R/0T ) p1 = P (0R/1T )
Le probabilità di errore, dette anche probabilità di transizione, si devono supporre
genericamente differenti. Inoltre i simboli in trasmissione sono emessi con proba-
bilità pari a: P (0T ) = P 0 e P (1T ) = P 1. Il canale si dice binario e simmetrico
quando la probabilità d’errore è uguale, cioè non fa distizioni tra i simboli trasmessi:
p0 = p1 = p. Poichè ogni simbolo trasmesso può essere ricevuto in uno di due modi
possibili, si ha:
(4.6.2)
q 0 + p0 = 1q 1 + p1 = 1
Per un canale binario la probabilità d’errore è la probabilità che, trasmesso un simbolo,
il simbolo ricevuto sia differente:
P (E ) = P (E
\0T ) + P (E
\1T ) = P (E/0T ) · P (0T ) + P (E/1T ) · P (1T ) =
(4.6.3) = P (1R/0T ) · P (0T ) + P (0R/1T ) · P (1T ) = p0P 0 + p1P 1
Se il canale è simmetrico si ha:
(4.6.4) P (E ) = p(P 0 + P 1) = p
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 136/152
4.6. IL CANALE BINARIO 136
Vediamo invece quali sono le probabilità di ricevere i due simboli:
(4.6.5) P (0R) = P (0R/0T ) · P (0T ) + P (0R/1T ) · P (1T ) = q 0P 0 + p1P 1
(4.6.6) P (1R) = P (1R/0T ) · P (0T ) + P (1R/1T ) · P (1T ) = p0P 0 + q 1P 1
L’errore sul canale binario può essere abbassato ricorrendo in trasmissione ad alcuni
accorgimenti, che consistono generalmente nel modificare il bit trasmesso (o una se-
quenza di bit) in modo che questo risulti meno “equivocabile” con l’altro simbolo. A
tale sistema si dà il nome generico di codifica di sorgente. Lo schema di un sistema di
trasmissione numerico può quindi riassumersi nella figura 4.6.3, dove ad ogni blocco
funzionale in trasmissione ne corrisponde uno in ricezione.Per sorgente si suppone un qualche sistema che emetta bit, comunque questi siano
stati generati (campionando e quantizzando un segnale analogico o da un generatore
di dati binari come potrebbe essere la porta di un calcolatore). La codifica di sorgente
è, come già detto, un qualche sistema che dato un certo numero di bit, decide quale
sequenza di bit o quale simbolo trasmettere. Il suo scopo è di rendere minimo l’errore
di trasmissione senza rendere troppo complessa l’implementazione. Infine la codifica
di canale è l’insieme di sistemi che, presi i singoli simboli, ne associano la forma
d’onda corrispondente da mandare nel mezzo trasmissivo. In ricezione si fanno le
operazioni contrarie sino ad ottenere l’informazione trasmessa.
sorgenteS RCodifica di
sorgente canaleCodifica di
Canale Decodifica di
canaleDecodifica di
FIGURA 4.6. 3. Schema a blocchi di una trasmissione numerica
In figura è stato quadrettata la parte che riguarda direttamente un canale binario:
per un canale binario la complessità che sta dietro la trasmissione attraverso il mezzo
trasmissivo è nascosta, dato che esso vede solo bit trasmessi e ricevuti.
4.6.1. Codice a ripetizione. Tra i vari metodi di codifica di sorgente vi è quello
della codifica a ripetizione. Supponiamo di avere un canale binario simmetrico. Per
ogni bit emesso dalla sorgente, nel canale sono trasmessi 2n + 1 bit. La velocità
di trasmissione è evidentemente ridotta di un fattore 2n + 1, tuttavia anche l’errore è
notevolmente minimizzato, dato che il ricevitore lavorerà a maggioranza: esso attende
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 137/152
4.6. IL CANALE BINARIO 137
i 2n + 1 bit e poi decide il simbolo in base a quello che in questa sequenza si presenta
più spesso. la probabilità di sbagliare è la probabilità che nella sequenza siano stati
sbagliati almeno n + 1 bit tra i 2n + 1 trasmessi.
Esempio: sequenza da trasmettere: 0 1 1 0 1, sequenza effettivamente trasmes-
sa con n = 1: 000 111 111 000 111.La sequenza di bit in ricezione si può vedere come un processo di Bernoulli, dato
che i simboli arrivano indipedentemente uno dall’altro e possono assumere solo due
valori (0 e 1). In realtà una certa dipendenza statistica c’è, dato che 2n + 1 bit dovreb-
bero avere lo stesso valore. Tuttavia la presenza del rumore sul canale rende del tutto
casuale il valore che il bit assumerà in ricezione.
La probabilità di errore su un bit è allora la probabilità che siano stati sbagliati o
n + 1 bit, oppure n + 2 bit, e così via sino a 2n + 1:
(4.6.7) P (E 1) =2n+1Xk=n+1
2n + 1
k
pk(1− p)2n+1−k
4.6.2. Codice a controllo di parità. Nel codice a controllo di parità il codificatore
di sorgente aspetta di ricevere n− 1 bit per trasmetterne n: esso cioè ne aggiunge solo
uno in più, diminuendo la velocità di trasmissione di n/(n− 1). La regola con cui tale
bit è aggiunto è la seguente: se il numero di bit pari ad 1 nella sequenza lunga n − 1è dispari, si aggiunge un 1, in modo da renderlo pari, altrimenti si aggiunge uno zero.
Questa codifica è detta a parità pari, dato che assicura sempre un numero di 1 pari
nella sequenza di n bit. L’alternativa consiste nell’avere un numero sempre dispari di
1 nella sequenza di n bit ed è chiamata parità dispari.
Ad esempio sia n = 7 e si abbia la sequenza: 0011010. Se vogliamo trasmettere a
parità pari dovremo trasmettere la sequenza: 00110101. Supponiamo ora che durante
la trasmissione sul mezzo l’errore sia avvenuto su un solo bit, ad esempio il terzo:
00010101. In ricezione ci si accorge dell’errore, dato che il ricevitore aspetta la se-
quenza di n bit per verificare se il numero di 1 è pari (per poi scartare l’ultimo bit che
serve solo da controllo e non rappresenta informazione). Tuttavia questo sistema è un
sistema di rivelazione e non correzione dell’errore, dato che, dopo la scoperta dell’er-
rore il ricevitore non è in grado di stabilire quale tra i bit trasmessi è errato. A questo
punto però ha varie alternative: richiesta di trasmissione, scartare la sequenza, e così
via. L’errore inoltre si scopre solo perchè nella sequenza è stato sbagliato un solo bit
(o in generale un numero dispari). Se i bit sbagliati fossero stati due (o in generale un
numero pari) il ricevitore non è in grado di stabilire nemmeno che c’è un errore, nello
stesso modo in cui nel codice a ripetizione se l’errore avviene su un numero sufficiente
di bit il ricevitore equivoca il simbolo trasmesso.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 138/152
4.6. IL CANALE BINARIO 138
Tuttavia il sistema di codifica a parità funziona molto bene dato che normalmente
l’errore di trasmissione su singolo bit è molto minore di 1. Questo comporta che a
fronte di un sistema di codifica molto semplice ed efficiente l’errore su più di un bit in
una sequenza è un evento molto più remoto dell’errore sul singolo bit.
La probabilità che l’errore non sia rivelato dal ricevitore è la probabilità che il nu-mero di errori sui singoli bit sia pari. Supponendo n pari si ha:
(4.6.8) P (Er) =
n/2Xk=1
n2k
p2k(1− p)n−2k
Se il numero di errori è dispari invece il ricevitore può chiedere la ritrasmissione.
Questo evento ha probabilità di accadere pari a:
(4.6.9) P (Rt) =
n/2Xk=1
n
2k − 1
p2k−1(1− p)n−2k+1
Infine la probabilità che la trasmissione sia corretta è:
(4.6.10) P (C ) = (1− p)n
Poichè possono risultare solo una di quste tre alternative, si ha: P (Er) + P (Rt) +
P (C ) = 1. Le politiche di decisione a questo punto possono essere varie: ad esempioil ricevitore può chiedere la ritrasmissione sino a che non riceve una sequenza corretta
(o meglio una sequenza in cui esso non riesce a rivelare l’errore), oppure può richiedere
la ritrasmissione solo per un numero di volte fissato e poi scartare la sequenza se questa
è ancora corrotta, o non richiedere affatto la ritrasmissione.
Facciamo l’esempio in cui il ricevitore richiede continuamente la ritrasmissione,
sino a che non rivela più errore. In tal caso l’errore totale può capitare se, in prima
trasmissione il ricevitore non si accorge della sequenza corrotta, oppure se, accorgen-
dosi della sequenza corrotta in prima trasmissione, richiede la trasmissione e non si
accorge della sequenza corrotta in seconda trasmissione, o se le prime due trasmis-
sioni sono corrotte in modo che il ricevitore se ne accorga e la terza è corrotta in modo
che non se ne accorga e così via. Quindi l’errore è l’unione di tutti questi eventi, datoche questi possibili eventi sono tra loro disgiunti. La probabilità d’errore totale è quin-
di:
P (E ) = P (Er) + P (Rt)P (Er) + P (Rt)2P (Er) + ... =
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 139/152
4.6. IL CANALE BINARIO 139
(4.6.11) = P (Er) ·∞
Xk=0
P (Rt)k = P (Er)
1− P (Rt)
A questo punto anche il numero di ritrasmissioni che si possono richiedere è una vari-
abile casuale. Infatti il numero di ritrasmissioni è zero se la sequenza è corretta o se
il ricevitore non è in grado di accorgersi dell’errore, è uno se in prima trasmissione ci
si accorge dell’errore ma in seconda trasmissione no (oppure non c’è affatto) e così via:
(4.6.12)
P (nR = 0) = P (Er) + P (C ) = 1− P (Rt)P (nR = 1) = P (Rt) · (1− P (Rt))P (nR = 2) = P (Rt)2 · (1− P (Rt))
...
P (nR = k) = P (Rt)k · (1− P (Rt))
Il numero medio di ritrasmissioni è allora:
E [nR] =∞Xk=0
k · P (nR = k) =∞Xk=0
k · P (Rt)k · (1− P (Rt)) =
= (1− P (Rt)) · P (Rt) ·∞Xk=1
k · P (Rt)k−1 = (1− P (Rt)) · P (Rt) · 1
(1− P (Rt))2 =
(4.6.13) = P (Rt)
1− P (Rt)
Il numero totale di trasmissioni è anch’esso una variabile aleatoria, pari a: nT = nR+1.
Quindi il suo valor medio vale:
(4.6.14) E [nT ] = E [nR] + 1 = 1
1− P (Rt)
Il canale binario può essere soggetto a numerose varianti che rendono lo schema com-
plesso quanto si vuole. Ad esempio è sempre possibile immaginare situazioni in cui la
legge di ritrasmissione sia più semplice del caso teorico di infinite ritrasmissioni: per
esempio si può chiedere di ritrasmettere solo un certo numero di volte e poi accettare
ciò che arriva eventualmente alla trasmissione n-sima.
Inoltre anche l’ipotesi di simmetria del canale può cadere: si può sempre pensare
ad un canale che tratta gli errori sull’uno diversamente da quelli sullo zero, attribuendo
così una probabilità d’errore differente a seconda che si sbaglino gli uno o gli zero.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 140/152
4.7. TEORIA DELL’INFORMAZIONE 140
Infine un’altra situazione comune è quella in cui in ricezione si introduce un terzo
simbolo, detto di cancellazione, che rappresenta l’indecidibilità tra i due simboli attesi.
Lo schema del canale binario diventa allora quello proposto in figura 4.6.4.
2
a b0 0
q0
b1a
1 q1
p1 1r
0r
p0
b
FIGURA 4. 6.4. Canale binario con il simbolo di cancellazione in ricezione
In ricezione, se si trasmette il simbolo a0 si può avere corretta ricezione (b0), ricezione
sbagliata (b1) oppure un simbolo che non è nè corretto nè sbagliato ma che risulta in-decidibile (b2). In questa situazione il sistema non è in grado di decidere correttamente
e quindi può adottare politiche del tipo: lo scarta comunque, oppure lo prende co-
munque, oppure lo scarta per il 50% delle volte, oppure lo prende pari al valore prece-
dentemente arrivato e così via. La situazione simmetrica si ha trasmettendo l’altro
simbolo (a1).
4.7. Teoria dell’Informazione
Lo scopo della teoria dell’informazione è di valutare i limiti teorici dell’infor-
mazione che si può trasmettere su di un canale preassegnato sotto forma di trasmis-
sione numerica. Dati infatti un insieme di sistemi reali differenti tra loro, un confronto
per valutarne l’efficienza relativa è molte volte impossibile. L’unica via sta nel rius-
cire a determinare un limite teorico di “informazione” trasmissibile: in questo modo i
sistemi reali si confrontano tutti con il sistema teorico. Questo problema fu posto (e
brillantemente risolto) per la prima volta da Shannon nel 1948.
Si supponga di avere uno schema ideale di trasmissione numerica. Per schema
ideale si suppone uno schema in cui i dettagli implementativi sono omessi ed inoltre la
parte che converte i dati numerici in forme d’onda da trasmettere sul mezzo trasmissi-
vo, in trasmissione e la parte che riceve le forme d’onda e decide quale tra i possibili
simboli è stato trasmesso, in ricezione, è tutta racchiusa in una scatola che indicheremo
come canale numerico o binario.
Si consideri dunque una sorgente discreta che emette continuamente, indipendente-
mente tra loro e a velocità costante, una serie di simboli scelti tra quelli di un possibile
alfabeto. L’alfabeto sia composto da M simboli, per codificare i quali si ha necessità
di log2 M bit/simbolo. Questo è dunque il rate di informazione trasmesso dalla sor-
gente. La legge con la quale si assegna ad ogni simbolo una determinata sequenza
di bit è detta codifica. Se i simboli fossero equiprobabili è ragionevole supporre una
codifica a lunghezza fissa. Se i simboli non sono più equiprobabili è più ragionevole
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 141/152
4.7. TEORIA DELL’INFORMAZIONE 141
utilizzare una codifica a lunghezza variabile, dato che è più conveniente utilizzare pa-
role (stringhe di bit che codificano un simbolo) più corte per i simboli più probabili,
in modo da minimizzare il numero di bit che per unità di tempo transitano sul canale
binario.
Genericamente quindi la quantità di informazione media che transita sul canale sipuò ritenere pari ad una media pesata della lunghezza delle parole di bit, i pesi essendo
le probabilità di presentarsi da parte dei simboli che quelle parole codificano (pratica-
mente il numero medio di bit che transitano su canale):
(4.7.1)Xi
p(xi) · ni
dove xi è il simbolo i-simo, p(xi) la sua probabilità di occorrere e ni il numero di bit
per codificare quel simbolo.
L’informazione emessa dalla sorgente si può determinare utilizzando il cosiddettoteorema dell’equipartizione. Supponiamo la sorgente ergodica. Questo significa che
è stazionaria e quindi che le sue proprietà statistiche non variano nel tempo ed inoltre
che queste si possono desumere dall’osservazione di una sola realizzazione per tem-
pi via via più lunghi (la sorgente passa per tutti i possibili stati). Questo ci consente
allora di dire che un messaggio formato da N simboli, con N molto grande, conterrà
mediamente Np1 simboli x1, Np2 simboli x2 e così via, sino ad NpM simboli xM .Per N tendente ad infinito la probabilità che tali simboli si presentino quel numero
di volte è praticamente 1. Con questi N simboli si può effettuare la costruzione di
tantissimi possibili messaggi: tutti quelli che hanno N p1 simboli x1, N p2 simboli x2
,..., N pM simboli xM . Questi messaggi si differenziano tra loro per la posizione dei
simboli all’interno del messaggio stesso. La probabilità di un singolo messaggio dipresentarsi si può determinare basandosi sull’assunto che i simboli sono emessi tutti
in modo indipendente:
pmess = pNp11 · pNp22 · .... · pNpM
M (4.7.2)
Per la supposta ergodicità della sorgente tutti i messaggi leciti emessi dalla sorgente
sono equiprobabili, quindi i possibili messaggi con N simboli sono: 1/pmess.Il numero minimo di bit necessari per descrivere tutto il messaggio è, a questo pun-
to:
n = log2
1
pmess= − log2 pmess
e quindi il numero medio di bit necessari per descrivere il singolo simbolo è:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 142/152
4.7. TEORIA DELL’INFORMAZIONE 142
(4.7.3) H (x) = n
N = −
1
N log2
M
Yi=1
pNpii = −M
Xi=1
pi · log2 pi
A tale quantità si dà il nome di entropia della sorgente e si misura in bit/simbolo.
Il suo nome, strettamente legato al concetto di entropia fisica (che è una misura dello
stato termodinamico di un sistema fisico), dice qual è l’informazione media legata alla
sorgente, cioè la parte non predicibile del messaggio.
La quantità − log2 pi, confrontando la (4.7.1) con la (4.7.3), rappresenta il mini-
mo numero di bit teoricamente necessari per descrivere un simbolo. L’informazione
emessa da un simbolo si può allora definire come:
(4.7.4) I (xi) = − log2
p(xi)
L’entropia rappresenta quindi il numero minimo di bit per simbolo mediamente neces-
sari a descrivere un messaggio. Se descriviamo in questo modo l’informazione legata
alla sorgente allora valgono le seguenti proprietà.
(1) Se p(xi) → 1 allora I (xi) → 0Concettualmente, quanto più probabile è l’emissione di un simbolo, tanto
meno informazione esso trasporta. Al limite, se esso è certo, la quantità di
informazione trasportata è nulla.
(2) I (xi) > I (x j) se p(xi) < p(x j)
(3) Se l’emissione di simboli successivi è indipendente, allora: I (xiT
x j) =I (xi) + I (x j). Infatti si ha: P (xiT
x j) = P (xi) · P (x j) ⇒I (xiT
x j) =log2
1P (xi
Txj)
= log21
P (xi)·P (xj) = log2
1P (xi)
+ log21P (xj)
= I (xi) + I (x j)
In conclusione, se ci si vuole avvicinare ad una trasmissione numerica ottimale, si deve
trasmettere codificando i simboli con parole a lunghezza variabile.
EXAMPLE 4.7.1. Si supponga che la sorgente possa emettere solo una coppia di
simboli (come accade nel caso di sorgente binaria), x1 e x2, con probabilità di emis-
sione rispettivamente p e 1− p:
x1 , px2 , 1 − p
L’entropia in tal caso vale: H (S ) = p · log21 p
+ (1− p) · log21
1− p. La funzione è rappre-
sentata in figura 4.7.1. Come si vede il massimo dell’entropia, e cioè dell’informazione
emessa dalla sorgente si ha quando i simboli sono equiprobabili.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 143/152
4.7. TEORIA DELL’INFORMAZIONE 143
1
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.80
FIGURA 4.7 .1. Entropia di una sorgente binaria
Dimostriamo adesso che: H (s) ≤ log2 M , dove M è il numero totale di simboli
dell’alfabeto. Cioè se si tenta di codificare i simboli nel modo più ovvio, si sprecano
bit per simbolo, dato che c’è sempre una codifica migliore che permetterebbe maggior
efficienza e quindi di avvicinarsi di più al limite teorico che è rappresentato da H (s).
(4.7.5) H (s)− log2 M ≤ 0 ⇐⇒M Xi=1
pi log2
1
pi− log2 M ≤ 0
tuttavia si haM Xi=1
pi = 1 ⇒M Xi=1
pi log2
1
pi−M Xi=1
pi · log2 M =M Xi=1
pi · (log2
1
pi− log2 M ) ≤ 0
M
Xi=1
pi · (log
2
1
Mpi) ≤ 0
Si fa vedere facilmente che ln y ≤ y− 1. Applicando tale risultato alla disuguaglianza
precedente si ha:
M Xi=1
pi ·
1
Mpi− 1
log2 e = log2 e ·
M Xi=1
1
M − pi
= 0
Quindi la disuguaglianza in (4.7.5) è dimostrata. L’uguaglianza vale solo nel caso in
cui gli elementi emessi sono equiprobabili.
4.7.1. Codifica di Huffmann. Si è visto precedentemente che una codifica effi-
ciente implica una codifica a lunghezza variabile. Al ricevitore, tuttavia, arrivano i
bit in sequenza e quindi senza soluzione di continuità. In ricezione si pone allora un
problema fondamentale: come fare a capire quando termina la sequenza di bit che cod-
ifica un simbolo e inizia la sequenza che codifica il simbolo successivo ? E’ evidente
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 144/152
4.7. TEORIA DELL’INFORMAZIONE 144
infatti che, al contrario della codifica a lunghezza fissa, in questa situazione si deve es-
sere in grado di comprendere la fine di un simbolo, altrimenti si rischia di equivocare
l’interpretazione.
Facciamo il seguente esempio. La sorgente S emetta quattro simboli differenti
x1, x2, x3, x4 (scritti in ordine dal più probabile al meno probabile) e i simboli sianocodificati con le seguenti parole:
x1 0x2 01x3 010x4 100
Al ricevitore arrivi la seguente sequenza di bit: 100010010 che può essere interpreta-
ta in modo equivoco, dato che può essere: x4, x3, x3, ma anche x4, x1, x4,... oppure
ancora x4, x2, x1, x1,.... Situazioni del genere devono essere evitate.
THEOREM 4.7.2. Siano M i simboli x1, x2,...,xM e siano n1, n2,...,nM le lunghezze
delle parole di bit che codificano tali simboli. Condizione necessaria affinchè un
codice sia univocamente decodificabile è che risulti vera la seguente disuguaglian-
za (disuguaglianza di Kraft):
(4.7.6)
M
Xi=1
2−ni ≤ 1
E’ evidente che tale disuguaglianza non può fornire una condizione sufficiente, dato
che non dice come costruire il codice, nè qual è la lunghezza delle singole parole. L’u-
nica cosa che può fare è di verificare a posteriori che un codice sia univocamente de-
codificabile. Codici con parole di lunghezza grande verificheranno facilmente la con-
dizione di cui sopra. Ovviamente noi siamo tuttavia interessati a codici con parole di
lunghezza quanto più piccola possibile e che siano ancora univocamente decodificabili.
In linea di principio potremmo costruire un codice con una lunghezza di parola
pari a
(4.7.7) ni = d− log pie
dato che non possiamo costruirlo di lunghezza ni = − log pi poichè non è una
quantità intera. La relazione precedente ci dice anche che:
(4.7.8) − log pi ≤ ni ≤ − log pi + 1
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 145/152
4.7. TEORIA DELL’INFORMAZIONE 145
Sommando tutti i termini (per i = 1,...,M ) moltiplicati per la quantità positiva pisi ha dunque:
−
M Xi=1
pi log pi ≤
M Xi=1
pini ≤ −
M Xi=1
pi log pi +
M Xi=1
pi
(4.7.9) H (X ) ≤ n ≤ H (X ) + 1
La condizione nella Eq. (4.7.8) implica la disuguaglianza di Kraft, dato che:
I (xi) ≤ ni ≤ I (xi) + 1 ⇒
ni ≥ I (xi) = log2
1
pi⇒ ni ≥ log2
1
pi⇒ pi ≥ 2−ni
che è proprio la (4.7.6) quando si estende la disuguaglianza a tutti i simboli (i =1,...,M ).
La struttura base che si utilizza per produrre sequenze univocamente decodificabili
è l’albero binario. Le codifiche prodotte con tale metodo sono dette di Huffmann.
EXAMPLE 4.7.3. Sia data una sorgente che emette simboli in modo indipendente,
x1, x2, x3, x4 con probabilità rispettivamente di: p1 = 0.6, p2 = 0.25, p3 = 0.1 e
p4 = 0.05. Costruiamo l’albero binario, procedendo dal simbolo meno probabile al
più probabile (vedi figura 4.7.2).
0
x 0.6
x 0.1
x 0.05
x 0.25
1
2
3
4
1
1
00.15
0.41
0
FIGURA 4. 7.2. L’albero binario della codifica alla Huffmann
La codifica che ne risulta è:
(4.7.10)
x1 1x2 01x3 001x4 000
La tecnica consiste nell’accoppiare sempre le due probabilità più piccole. Per val-
utare l’efficienza del codice, basta confrontare la quantità media di informazione con
l’entropia della sorgente:
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 146/152
4.7. TEORIA DELL’INFORMAZIONE 146
H (s) = −0.6log2 0.6−0.25log2 0.25−0.1log2 0.1−0.05log2 0.05 = 1.49 bit/simbolo
n = 1 · 0.6 + 2 · 0.25 + 3 · 0.1 + 3 · 0.05 = 1.55 bit/simbolo
Come si vede la codifica di Huffmann risulta molto efficiente poichè porta all’uso di un
numero medio di bit per simbolo ragionevolmente vicino all’entropia. In una codifica
tradizionale (con 2 bit/simbolo) si sarebbe ottenuto n = 2 bit/simbolo.
Vediamo ora l’esempio notevole dalla trasmissione fax.
EXAMPLE 4.7.4. Nella trasmissione fax la sorgente emette due simboli, il nero
(N ) e il bianco (B). La probabilità di emissione del bianco è enormemente più grande
di quella del nero. Per semplicità si supponga che le probabilità di emissione siano:
pN = 0.1 e pB = 0.9. Si suppone inoltre che l’emissione dei simboli sia indipendente,cosa nella realtà non vera e che viene anzi sfruttata per migliorare ulteriormente la
codifica. Se codificassimo con un bit per simbolo, avremmo che la quantità di infor-
mazione media varrebbe: n = 1 bit/simbolo, molto lontana dal limite teorico, dato
dall’entropia:
H (s) = −0.9log2 0.9− 0.1log2 0.1 = 0.47 bit/simbolo
Sprechiamo quindi il 53% dell’informazione trasmessa. La situazione migliora un po’
se si effettua una codifica a coppie. Siccome si è supposto che i simboli sono emessi
in modo indipendente l’uno dall’altro (cosa, ripetiamo, non vera nella realtà), si ha che
la probabilità di emissione delle quattro possibili coppie vale:
(4.7.11)
BB 0.81BN 0.09NB 0.09N N 0.01
e codificando con l’albero binario (si veda in figura 4.7.3)
0
1
01
0
BB 0.81
BN 0.09
NN 0.01
NB 0.090.1
1
FIGURA 4.7. 3. Codifica binaria per la trasmissione fax
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 147/152
4.7. TEORIA DELL’INFORMAZIONE 147
La codifica che si ottiene è la seguente:
(4.7.12)
BB 1BN 00NB 011N N 010
Il numero medio di bit necessari per codificare una coppia vale: n = 1 · 0.81 + 2 ·0.09 + 3 · 0.09 + 3 · 0.01 = 1.29 bit/coppia e quindi 0.645 bit/simbolo. Come si
vede ci si è già avvicinati al valore teorico fornito dall’entropia. Si potrebbero anche
considerare blocchi più lunghi, a patto che la complessità del sistema in ricezione lo
permetta: infatti conviene non aumentare più la complessità quando l’incremento di
efficienza diventa piccolo in confronto all’incremento di complessità circuitale.
Una codifica a lunghezza variabile può tuttavia creare qualche problema. Prima di
tutto si suppone che la sorgente emetta i simboli a tasso costante. Se il codificatoredi sorgente codifica ogni simbolo con un numero differente di bit, allora il numero di
bit trasmessi per unità di tempo potrebbe essere variabile. A tale problema si pone
rimedio con un blocco di memoria sufficientemente lungo sia in trasmissione che in
ricezione: nel blocco di memoria in trasmissione si pongono una serie di simboli che
sono codificati, in modo che la trasmissione avvenga sempre a bit rate costante. In
ricezione i bit sono posti nel registro e quindi prelevati simbolo per simbolo. Quan-
do i bit in ingresso tuttavia riempiono la memoria vi sarà overflow e andranno persi.
Viceversa, se la memoria si svuota si ricorre al bit stuffing: si riempie la memoria con
bit privi di informazione unicamente per mantenere occupato il canale.
Un altro problema sta nella più facile propagazione degli errori. Infatti in una
codifica alla Huffmann l’errore su di un bit non fa equivocare soltanto il simbolo acui è associato, ma anche il successivo (e forse anche oltre), dato che sbagliando un
simbolo non si è più in grado di riconoscere l’inizio del successivo/i.
4.7.2. Codifica a blocchi. Nel caso della trasmissione fax si è visto che codifi-
cando i singoli bit si è molto lontani dal limite teorico imposto dall’entropia. Per far
fronte a questo problema si è pensato di codificare insieme due simboli. In questo mo-
do il limite dell’entropia si è avicinato un po’ di più. Questo approccio di codifica può
essere formalizzato. Quando infatti il numero medio di bit trasmessi, n è abbastanza
lontano da H (S ) si può pensare di codificare insieme una coppia, una terna, ... oppure
una ν -pla di simboli. In questo modo la sorgente S diventa, formalmente, la sorgente
Y = S × S × ...× S = S
ν
.Se l’emissione dei simboli è indipendente, allora si dimostra che:
(4.7.13) H (Y ) = ν · H (S )
Dimostriamo che è vero per ν = 2.
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 148/152
4.7. TEORIA DELL’INFORMAZIONE 148
H (Y ) =Xi,j
p(si, s j)·log2
1
p(si, s j) =Xi
X j
p(si) p(s j)
log2
1
p(si) + log2
1
p(s j)
=
=Xi
X j
p(si) p(s j)log2 1 p(si)
+Xi
X j
p(si) p(s j)log2 1 p(s j)
=
X j
p(s j)
"Xi
p(si)log21
p(si)
#+Xi
p(si)
"X j
p(s j)log21
p(s j)
#=
=X j
p(s j) · H (S ) +Xi
p(si) · H (S ) = 2 · H (S )
Inoltre, poichè risulta anche: H (Y ) ≤ nY ≤ H (Y ) + 1, allora:
(4.7.14) H (S ) ≤ nY ν ≤ H (S ) + 1
ν
Se quindi nY è il numero medio di bit associati alla sorgente Y = S ν , nY /ν è il
numero medio di bit associati ai simboli della sorgente S . All’aumentare di ν questo
numero medio tende più o meno velocemente al’entropia (vedi la convergenza della
doppia disuguaglianza in 4.7.14).
4.7.3. Sorgenti discrete con memoria. Sinora si è supposto che i simboli emessi
dalla sorgente siano tutti statisticamente indipendenti tra loro. Questa è un’approssi-
mazione inaccettabile nella maggior parte dei casi e quindi vediamo se è possibile
estendere i ragionamenti precedenti a sorgenti con memoria.Nell’ipotesi di sorgente con memoria la definizione di entropia data precedente-
mente non è più sufficiente a descrivere l’informazione emessa dalla sorgente stessa,
dato che il simbolo corrente, dipendendo dai precedenti, perde parte dell’informazione
che trasporta poichè questa poteva essere desunta dai simboli precedenti. La statistica
dipendenza costituisce informazione aggiuntiva di cui non si tiene conto nel calcolo
dell’entropia come è stata definita sinora.
Data l’emissione di un simbolo s1, la sua informazione è legata all’emissione del
simbolo precedente s0:
(4.7.15) I (s1/s
0) = log
2
1
p(s1/s0)
L’informazione media, legata alla condizione che il simbolo precedente sia s0 è:
(4.7.16) H (S/s0) =Xi
p(si/s0) · log2
1
p(si/s0)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 149/152
4.7. TEORIA DELL’INFORMAZIONE 149
L’informazione media, o anche entropia del primo ordine, è allora la media pesata di
tutte le possibili emissioni del simbolo precedente, con pesi le probabilità che i simboli
precedenti hanno di essere emessi:
(4.7.17)
H (S/s) =X j
Xi
p(si/s j) · log2
1
p(si/s j) · p(s j) =
Xi,j
p(si, s j) · log2
1
p(si/s j)
L’entropia condizionata rappresenta l’ulteriore contenuto informativo che si ottiene
dall’emissione del simbolo nuovo, tolta la conoscenza che il simbolo precedente è in
grado di dare. A questo punto però si può supporre che la sorgente abbia una “memo-
ria” più estesa, e quindi si passa a definire l’entropia del secondo ordine, del terzo e
così via, sino a che la sorgente non esaurisce la sua memoria:
H (si/si−1, si−2,...,si−n) =
(4.7.18) =Xsi
Xsi−1
...Xsi−n
p(si, si−1, si−2,...,si−n) · log2
1
p(si/si−1,...,si−n)
L’entropia vera di una sorgente è, in conclusione:
(4.7.19) H (S ) = limn→∞H (sn/sn−1, sn−2,...,s0)
Tenendo conto della statistica dipendenza tra i simboli si possono ottenere prestazioni
notevolmente migliori. Ad esempio nella codifica fax è evidente una dipendenza sta-
tistica tra i simboli. Infatti la presenza di un evento ’nero’ rende molto più probabile
l’arrivo di un altro evento ’nero’, dato che lo spessore della traccia di scrittura non è
nullo. Questo discorso è ancora più valido per il ’bianco’. In conclusione sequenze
anche molto lunghe di 1 o di 0 possono essere codificate con stringhe molto corte di
bit, tanto più che alcune di esse sono anche molto probabili (ad esempio una sequenza
di eventi ’bianco’ che copre tutta la pagina è quella corrispondente a una riga tutta
bianca, come ad esempio si trova al termine di un foglio).Sfruttando quindi la conoscenza sui simboli precedenti si riesce a predire qualcosa
sui simboli in arrivo e quindi l’entropia di ordine n ci si aspetta che sia minore di quella
di ordine n − 1. Dimostriamo che questo è vero per:
(4.7.20) H (s1/s0) ≤ H (s1)
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 150/152
4.7. TEORIA DELL’INFORMAZIONE 150
Xs1
Xs0
p(s1, s0) · log2
1
p(s1/s0) −Xs1
p(s1) · log2
1
p(s1) =
=Xs1
Xs0
p(s1, s0) · log2
1
p(s1/s0) −Xs1
Xs0
p(s1, s0) · log2
1
p(s1) =
dove l’ultima uguaglianza discende dal fatto che: p(s1) =Ps0
p(s1, s0)
=Xs1
Xs0
p(s1, s0) · log2
p(s1)
p(s1/s0) ≤Xs1
Xs0
p(s1, s0) ·
p(s1)
p(s1/s0) − 1
· log2 e =
(si ricordi infatti la disuguaglianza ln y ≤ y − 1)
=Xs1
Xs0
p(s1/s0) p(s0) · p(s1)− p(s1/s0)
p(s1/s0) · log2 e =
"Xs1
Xs0
p(s0) p(s1)−Xs1
Xs0
p(s0) p(s1/s0)
#· log2 e = 0
da cui la tesi. Da ciò si deduce facilmente che:
(4.7.21) 0 ≤ H (S ) ≤ H (sn/sn−1,...,s0) ≤ H (sn) ≤ log2 M
4.7.4. Capacità del canale. Caratterizzata la sorgente rimane il problema di come
caratterizzare il canale trasmissivo. Supponiamo di avere un canale binario ideale, cioè
in grado di far passare bit al suo interno senza commettere errori. Detto allora N (t) il
numero di possibili messaggi leciti in grado di trasitare in un intervallo di tempo t, per
codificarli sarà necessario utilizzare al minimo log2 N (t). Facendo tendere il tempo di
osservazione all’infinito si definisce capacità del canale la quantità:
(4.7.22) C = limt→∞log2 N (t)
t
misurata in bit/s. Nel caso di un canale reale i simboli in uscita da un mezzo trasmis-
sivo sono in parte sbagliati. Consideriamo la sorgente e il canale binario reale come
un’unica sorgente che emette un messaggio Y , generalmente diverso (a causa dei bit
errati) dal messaggio X emesso dalla sorgente originaria (vedi figura 4.7.4).
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 151/152
4.7. TEORIA DELL’INFORMAZIONE 151
Y
Sorgente X Canale Binario
H(X)
X
H(Y)
FIGURA 4.7.4. Schematizzazione di un canale binario reale
Considerata l’entropia della sorgente Y , H (Y ), se il canale fosse ideale, allora si
avrebbe: H (Y ) = H (X ). Nel caso di canale reale H (Y ) contiene anche informazione
errata a causa della presenza di errori nei bit trasmessi. L’informazione in uscita dal
canale non è quindi H (Y ), ma H (Y ) depurata di quella parte di informazione falsa
che il canale introduce a causa degli errori. L’informazione vera che emerge dal canale
è in conclusione:
(4.7.23) I (X, Y ) = H (Y )−H (Y /X )
dove H (Y /X ) è l’equivocazione, cioè quella parte di informazione dovuta alla non
idealità del canale. Al variare della statistica della sorgente il canale può essere più o
meno in grado di trasmettere informazione. A questo punto la capacità del canale può
essere definita anche in base alla seguente:
(4.7.24) C = maxX I (X, Y )
dove il massimo è preso rispetto a tutte le possibili statistiche di emissione della
sorgente.
In questo modo si mette meglio in evidenza che C rappresenta una misura dell’in-
formazione vera che il canale è in grado di convogliare, poichè fa riferimento ai bit per
unità di tempo che riescono a transitare correttamente sul canale.
Tra tutte le sorgenti con una data varianza, quella che permette di ottenere la mas-
sima capacità di canale a parità di statistica d’errore del canale stesso (che si suppone
gaussiana) è la sorgente con densità di probabilità di emissione di simboli gaussiana.
Supponendo la statistica della sorgente e quella del canale a media nulla, si dimostra
che la capacità del canale (calcolata in bit/simbolo) in tali ipotesi vale:
C = 1
2 · log2(1 +
S
N )(4.7.25)
essendo S ed N rispettivamente la potenza delle statistiche di sorgente e del rumore
7/21/2019 Teoria dei Segnali
http://slidepdf.com/reader/full/teoria-dei-segnali 152/152
4.7. TEORIA DELL’INFORMAZIONE 152
di canale. Questo teorema, noto anche come teorema di Shannon, permette di sta-
bilire un limite superiore alla capacità di trasmettere bit su un canale, fissato che sia
il rapporto tra la potenza del segnale emesso dalla sorgente e il rumore presente sul
canale.