Codifiche Audio Percettive

28
Le codifiche percettive ...... ... e la codifica MPEG_Audio 1.. Caratteristiche del fenomeno suono 2.. Introduzione alla percezione del suono 3.. Richiami di audio digitale ... la codifica PCM 4.. Le codifiche percettive... . ...MPEG_Audio ... Caratteristiche ... Applicazioni ... Sintassi

description

Basi delel codifiche audio percettive. Fenomeno suono, sua percezione, codifica e compressione digitale

Transcript of Codifiche Audio Percettive

Page 1: Codifiche Audio Percettive

Le codifiche percettive......

... e la codifica MPEG_Audio�

1.. Caratteristiche del fenomeno suono2.. Introduzione alla percezione del suono3.. Richiami di audio digitale

... la codifica PCM4.. Le codifiche percettive... . ...MPEG_Audio

... Caratteristiche

... Applicazioni

... Sintassi

Page 2: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

2

1.. Caratteristiche del fenomenosuono

Il fenomeno acustico dal punto di vista fisicocoinvolge sempre tre elementi:

.... la sorgente corpo vibrante .... il mezzo qualsiasi mezzo elastico .... il ricevitore l'apparato uditivo

SorgenteTrasformazionein altra forma energetica

TrasmissioneTrasformazionein variazionidi pressione

Page 3: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

3

INTERVALLODI FREQUENZA

Hz

FENOMENOPERCEPITO

0 ... 20 Vibrazioni20 ... 20000 Suoni

20000 ... 40000 Ultrasuoni

..... tali limiti sono solo indicativi in quanto i valorireali dipendono da molti fattori sia fisici che

psicologici :

.. le caratteristiche genetiche dell'individuo

.. la "dotazione fisica" dell'apparato uditivo

.. l'età

.. l'affaticamento acustico

.. l'esperienza in ascolto

Il suono è un particolare tipo di segnale che puòessere rilevato dall'apparato uditivo umano ed è

caratterizzato da :

... intensità o ampiezza

... acutezza o frequenza

... timbro carattere che distingue lo stesso suono generato da sorgenti diverse

Page 4: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

4

INTENSITÀ

Può essere misurata in deciBel

Nel caso si usi il valore della minima intensità udibile diIRif=10-12 W/m2

o della minima pressione rilevabile di2x10-5N/m2

prende il nome didB SPL (Sound Pressure Level)

rifrif IILog

ppLogBEL 10

2

10 =�

��

�=

rifrifrif IILog

ppLog

ppLogDECIBEL 1010

2

10 102010 ==�

��

�=

140 dBSPL Aereo130 dBSPL Soglia del dolore110 dBSPL Moto in accelerazione 90 dBSPL Strada urbana 80 dBSPL Locale pubblico 60 dBSPL Traffico automobilistico 50 dBSPL Voce di conversazione 20 dBSPL Ticchettio orologio 10 dBSPL Fruscio foglie

Page 5: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

5

RUMOREIl rumore è definito [ANSI S 1.1] come la somma dioscillazioni irregolari, intermittenti o statisticamente

casuali. Percettivamente è un suono innaturale edisturbante.

La soglia di percezione del rumore dipendedall'intensità, dalla frequenza e , per rumori di tipo

impulsivo anche dalla durata.

Un suono si differenzia dal rumore solo per lesensazioni di piacere o sgradevolezza che suscita e

non ne esiste una distinzione oggettiva.

Page 6: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

6

COMPONENTITONALI e NON TONALI

Le componenti tonali sono quelle componenti di untono complesso che più assomigliano a toni puri.

Un metodo semplificato per valutare la presenza dicomponenti TONALI in una emissione sonora è dieffettuarne una analisi per bande di 1/3 di ottava:

"se il livello di pressione sonora diuna o più bande di 1/3 di ottava

dello spettro sonoro supera per piùdi 5 dB quello delle due bandeadiacenti, si è in presenza di

componenti tonali."

Tutte le componenti del segnale sonoro chedall'analisi non risultano essere TONALI vengonodette NON TONALI e possono essere assimilate a

rumore.

Page 7: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

7

2.. Introduzione alla percezionedel suono

.. orecchio esterno .. padiglione auricolare .. condotto uditivo esterno .. membrana timpanica

.. orecchio medio .. cavità ossea con tre ossicini : martello, incudine e staffa .. finestra ovale .. due muscoli di smorzamento dei movimenti dei tre ossicini .. un canale di comunicazione con l'atmosfera per compensare le

pressioni sulle due superfici della membrana timpanica (Tromba diEustacchio)

.. orecchio interno .. vestibolo .. canali semicircolari detti labirinto .. coclea , canale colmo di un materiale elastico

Page 8: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

8

Orecchio Esterno Orecchio Medio Orecchio Interno

-- l'orecchio esterno funzionando da risonatore per le frequenze tra 1000e 7000 Hz produce un incremento di circa 10-12dB della pressionesonora

-- nell'orecchio medio la membrana timpanica mette in vibrazionemartello, incudine e staffa, che, funzionando come un sistema di levetriplicano la forza applicata sulla finestra ovale

-- a questo punto la pressione originaria esercitata sul timpano è stataamplificata di circa 90 volte e viene impressa sulla finestra ovale

-- dalla finestra ovale il suono (sotto forma di variazione di pressione)giunge all'orecchio interno dove attraverso il movimento del liquidococleare dei canali vestibolare e timpanico la membrana base mettein risonanza le cellule situate nell'organo di Corti.

Page 9: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

9

-- le cellule del Corti producono dei segnali di tipo elettrochimico cheattraverso il nervo uditivo giungono al cervello secondo un processonon ancora ben conosciuto.

In tutto il processo di percezione uditiva vengonocoinvolti numerosi fenomeni soggettivi.

La percezione di un suono può avvenire anche per viaossea (soprattutto per quello auto prodotto).

Caratteristica FISICA Fenomeno PERCEPITOFrequenza PitchIntensità Livello percepito o

LoudnessForma spettrale,

Modulazione, FrequenzaIntensità, Fluttuazioni,

RigidezzaTempo Durata soggettiva

Page 10: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

10

Page 11: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

11

BANDE CRITICHEIl concetto delle bande critiche è basato sulla

comprovata assunzione che il nostro sistema uditivoanalizza lo spettro di un segnale audio dividendolo

in sottobande (dette bande critiche).Banda Critica [Aarts]: La banda di frequenze più larga in

cui l'intensità di un rumore distribuito casualmentenella stessa banda di intensità energetica costante(SPL) è indipendente dalla sua larghezza dibanda.

B a n d e C r it ic h e

0 5 0 0 0 1 0 0 0 0 1 5 0 0 0 2 0 0 0 0 2 5 0 0 0

Page 12: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

12

LOUDNESSIndica l'intensità percepita di un suono e dipende dall'intensità energetica

e dalla frequenza, in particolare le definizioni sono [Aarts]:

Loudness: Attributo di sensazione uditiva secondo cui unsuono può essere ordinato in una scala da lieve aintenso

Livello di Loudness: livello della pressione sonora diriferimento, scelta come un'onda sinusoidale difrequenza 1KHz proveniente dal frontedell'ascoltatore e che è giudicato da unapersona con udito sano di uguale intensità alsuono di raffronto.

Il loudness può essere misurato in Phon

Page 13: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

13

IL MASCHERAMENTOIl mascheramento è definito come il livello di pressione sonora o dBSPL di un tono di riferimento necessario perché questo possa essere

udito in presenza di un mascherante.

La percettibilità di un tono puro in assenza di altri segnali dipendeprincipalmente da :

.. intensità

.. frequenza

.. durata

.. dotazione fisica dell'individuo

.. età

.. affaticamento

.. stato fisico

.. stato psichico dell'individuo

SOGLIA STATICA

Page 14: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

14

SOGLIA DINAMICA

.... nella frequenza

Page 15: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

15

... nel tempo

Il mascheramento temporale si distingue insimultaneo e NON simultaneo.

NON SIMULTANEOFenomeno secondo cui un tono "copre" quelli vicini nel tempo sia

passato che futuro.

SIMULTANEOI contributi di mascheramento si sommano secondo criteri non ancora

del tutto noti.

Page 16: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

16

... nella frequenza e tempo

PERCEZIONE DI VARIAZIONI DIINTENSITÀ

Le variazioni in intensità vengono percepite solo se superioria 5 dB

(più di un raddoppio dell'energia sonora).

La sensazione di raddoppio dell'intensità soggettivacorrisponde ad un incremento di 10 dB (corrispondente a

un'amplificazione dell'energia iniziale di 10 volte !).

Page 17: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

17

3.. Richiami codifica di audiodigitale

L'SNR (Signal to Noise Ratio)

Il rumore di quantizzazione può essere più o meno udibile aseconda della sua intensità rispetto a quella del segnale audio in

ogni intervallo di campionamento.

SNR Log SegnaleRumore

dB= 20 10

Se si usa un numero B di Bit per la quantizzazione su livelliequiampi, l'SNR vale:

SNR B dB≅ +6 1 74.

Si noti che per quantizzare un segnale analogico caratterizzato da unrumore intrinseco di 20 dB sarebbe del tutto inutile usare più di 4 bit

per la quantizzazione digitale.

Condizione sufficiente affinché il rumore diquantizzazione non sia udibile è che il valore di SNR sia

superiore al valore in dB tra segnale e soglia dimascheramento per ogni banda critica.

Page 18: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

18

La rappresentazione numerica ottenuta campionando e quantizzandoun segnale analogico può essere codificata secondo una qualsiasi

sintassi.

Ogni rappresentazione permette però una diversa accuratezza neiprocessi di quantizzazione e campionamento determinando

l'efficienza del sistema in termini di:

... larghezza di banda ... rapporto segnale rumore ... accuratezza ... sensibilità agli errori

Page 19: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

19

Il sistema PCM

... viene universalmente accettato come una codifica efficiente peraudio ad alta qualità, offrendo buoni parametri in termini di larghezzadi banda, intervallo di dinamica e dimensioni della rappresentazione.

N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit N Bit

Sinistro

Destro Sinistro Destro Sinistro Destro Sinistro Destro Sinistro

Destro Sinistro Destro

Capacità di canale richiesta:

Se la larghezza di banda del segnale è di 20000Hz e si vuole usare larappresentazione PCM con un rapporto segnale-rumore (SNR) di

almeno 90dB (16 Bit) è necessario una capacità di 768KBit/sec. perogni canale monofonico:

16(Bit) *48000 (frequenza di Campionamento) = 768 000 Bit/sec.

... la memorizzazione in PCM necessita di costose apparecchiature ecanali trasmissivi di complessa progettazione.

Si è dovuto ricorrere a dispositivi ottici (Compact Disc) e magnetici(DAT: Digital Audio Tape) di alta precisione.

La distribuzione radiofonica in formato PCM rimane pressochéirrealizzabile a bassi costi.

Page 20: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

20

Necessità di codifiche compresse

Page 21: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

21

4.. Le codifiche percettive ..........codifica MPEG_Audio

La codifica MUSICAM (alias MPEG_Audio layer II) èstata sviluppata per il DAB.

MUSICAM è stata definita all'interno del progettoEUREKA EU 147 da :

CCETT (Centre Commun d' Ètudes de Télédiffusion et Télécommunications -Francia-)

IRT (Institut fùr Rundfunktechnik -Germania-)PHILIPS Consumer Electronics (-Olanda-).

il cui sviluppo è stato iniziato nel 1986 ed ha richiesto 4 anni (1987-1991) per untotale di 360 anni-uomo.

Grazie alle sue caratteristiche è stata adottata e standardizzata da MPEGper la diffusione su larga scala dell'audio associato alle immagini (ISO-

IEC/JCT1/SC29/WG11, 1992)

Page 22: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

22

I concetti alla base della codifica sono:

-- La compressione avviene per gruppi di 1152 campioni per ognicanale monofonico.

-- Il processo di codifica trova la rappresentazione dei 1152campioni PCM con altrettante componenti divise su 32sottobande equiampie.

-- Per ogni banda si ottengono 1152:32=36 componenti disottobanda.

-- La sequenza codificata memorizza i valori dei campioni e alcuneinformazioni per la loro corretta interpretazione.

STRUTTURE DATI

BIT ALLOCATION INTERO SENZASEGNO

[CH][SBLIMIT] Indici della tabella contenente ilivelli di quantizzazione per ogni

sottobanda

SCFSI INTERO SENZASEGNO

[CH][SBLIMIT] Codifica dei fattori di scala pereliminarne la irrilevanza

percettiva entro 6 dB

SCALEFACTORO

FATTORE DI SCALA

INTERO SENZASEGNO

[CH][3][SBLIMIT] Indice della tabella contenente ivalori quantizzati dei fattori di

scala

SAMPLE INTERO SENZASEGNO

[CH][3][SCALE_BLOCK][SBLIMIT] Campioni di sottobanda

Osservazioni Sulle Strutture DatiDal valore dei BIT_ALLOCATION in ogni sottobanda dipende :

.. il numero di livelli di quantizzazione dei campioni di sottobanda

.. l'occupazione in bit di ogni campione nella sequenza compressa

.. i coefficienti da usare per la quantizzazione e dequantizzazione

.. la presenza delle informazioni SCFSI

Page 23: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

23

.. la presenza degli indici di scalamento

IL FRAMEFRAME AUDIO

HEADER [CRC_ERRORI] DATI_AUDIO [DATI AUSILIARI]

La sua dimensione è fissa in quanto i campioni PCM vengono ricevuti edevono essere forniti ad una frequenza uguale a quella di campionamento, per ilfunzionamento in tempo reale.

Tradotto in formule......1

480001152 24* sec.= m

cioè ogni secondo di musica viene codificato su un numero di1

0 02441 666667

.,= Frame .

Ad esempio per un bitrate di 256KBit/sec. e modalità Single_Channel si hanno adisposizione 256.000 Bit al secondo per produrre i 41,666667 Frame ovvero ogniFrame ha dimensione di

25600041 666667

6144 768,

= =Bit Byte

Semplificando e generalizzando le formule precedenti si può esprimere ladimensione di ogni Frame in una nuova unità di misura detta SLOT che equivalea 1 Byte per i layer II,III e a 4 Byte per il layer I:

SlotCampFreq

BitrateIlayerframeDimensione�

���

�=

._.12___

SlotCampFreq

BitrateIIIIIlayerframeDimensione�

���

�=

._.144____

Page 24: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

24

Le differenze principali della sintassi di codifica del layer II rispetto aglialtri livelli sono:

LAYER I- non si usa la codifica dei fattori di scala con la struttura SCFSI- i livelli di quantizzazione non seguono nessuna tabella di

transcodifica e quindi non si fa nessun grouping di campionidato che il numero di passi di quantizzazione è sempre unmultiplo di due ed è indicato direttamente da2^(bit_alloc[CH][i])

- la BIT_ALLOCATION ha sempre dimensione di 4 bit indipendentementedalla sottobanda

LAYER III- viene usata una codifica addizionale di Huffmann per i campioni di

sottobanda- vengono utilizzate strutture dati aggiuntive che rendono la sintassi

di codifica completamente diversa da quella esposta

Page 25: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

25

SNR : Signal to Noise RatioIl valore di SNR dipende esclusivamente dal numero di bit usatiper quantizzare il segnale e quindi, solo dal valore di bitallocation.

SMR : Signal to Mask Ratio _Differenza in dB tra il segnale ed il valore di soglia dimascheramento.

MNR : Mask to Noise Ratio _Differenza in dB tra il valore dimaschera e rumore di quantizzazione.

MNR = SNR - SMR

Segnale

Maschera

Noise

SMR ( b_a)

MNR = SNR - SMR

SNR [quant]

Page 26: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

26

Banda N-1 Banda N Banda N+1

dB SPL

Minimo della soglia nella banda

Massimo segnale nella banda

SMRBanda N

Funzionedimascheramento

Soglia staticaSoglia statica Soglia statica A

B

C

= D

EF

Funzione dieccitazione

G

A - funzione di mascheramentoB - minimo della funzione di mascheramentoC - minimo della soglia staticaD - massimo tra i due valori dei punti B e CE - massimo livello del segnaleF - valore di SMR.G - impulso di eccitazione

Page 27: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

27

MODELLO

PERCETTIVO

Ingresso di 1152

campioni PCMUscita 32 valori di SMR

Nel modello psicoacustico 1 il calcolo dell' SMR procede comedi seguito:

1.. Calcolo della FFT per la rappresentazione frequenziale deicampioni PCM

2.. Calcolo livello del segnale (in deciBel SPL) in ogni sottobanda3.. Confronto con la soglia statica in quiete (tabulata)4.. Identificazione delle componenti tonali (simili al seno) e non

tonali (simili a rumore)5.. Decimazione dei toni di mascheramento per ottenerne solo i

rilevanti6.. Calcolo soglia di mascheramento individuale per ogni

componente spettrale7.. Calcolo soglia globale8.. Calcolo minimo della soglia di mascheramento in ogni

sottobanda9.. Calcolo dell'SMR in ogni sottobanda.

Page 28: Codifiche Audio Percettive

1.. Caratteristiche del fenomeno suono

28