Messa in onda e loudness.

Gruppo Tematico per la Cinematografia Sonora

Messa in onda e loudness.a cura del dott. Simone Corelli

(GTCS, AES, Post in Europe, AIFM, ATIC)

28 giugno 2008

Sommario

Questo documento1 descrive sinteticamente gli esitidi una tavola rotonda via e-mail avvenuta tra il 27novembre 2006 e il 13 maggio 2008 a proposito delleproblematiche della messa in onda di film e di au-diovisivi in genere, pubblicità comprese. Il discorsoè ancora aperto ma riteniamo sia il caso di por-re un. . . punto e virgola documentato e disponibilepubblicamente.Tale discussione è stata voluta e organizzata dal

Gruppo Tematico per la Cinematografia Sonora diAES Italia sotto la guida di Simone Corelli ed è sta-ta particolarmente intensa tra quest’ultimo, Ales-sandro Travaglini, Senior Sound Designer per FOXChannels Italy e Broadcast Audio Consultant perSKY Italia, e Mauro Falcone, ricercatore presso laFondazione Ugo Bordoni; è stata altresì seguita al-meno in parte anche dal professor Aurelio Uncini deLa Sapienza, Carlo Perretta di Mediaset, GianlucaSpecchia di Sky, Gianni Monciotti, Alberto Cola-jacomo, Fabio Felici, Gilberto Martinelli, AngeloBonanni, Maurizio Argentieri di AITS, GiovanniBelletti della RAI.

Sarebbe certamente stata utile una maggior par-tecipazione da parte di RAI e Mediaset che invitia-mo ad intervenire al più presto, insieme a tutti glialtri broadcaster italiani.

1Il nome del file è “MessainondaGTCS.pdf” e può essererichiesto scrivendo al Gruppo Tematico per la Cinemato-grafia Sonora all’indirizzo di posta elettronica [email protected] ocollegandosi al sito web www.gtcs.it.

1 Sintesi

Il problema principale riscontrato nella messa inonda televisiva di materiale di varia provenienza èrelativo alle variazioni di “loudness”, ovvero d’in-tensità percepita, di volume, anche tra stazione te-levisiva e stazione televisiva, rendendo necessarioper lo spettatore il ricorso al telecomando, con re-lativa distrazione, disappunto, scomodità, possibili-tà di disturbare, specialmente nelle ore tardo-seralio notturne qualora si passi ad un canale dal vo-lume notevolmente più alto e non si provveda convelocità ad attenuarlo.

Esiste un preciso limite tecnico (EBU R-68) chefissa un tetto per i picchi del materiale audio con-segnato per la messa in onda, pari a non più di 9dB (misura quasi-peak) rispetto al livello di allinea-mento, in genere identificato da un tono sinusoidalea 1000 Hz di picco digitale pari a −18 dB FS.Ciò non risulta sufficiente per evitare che i pub-blicitari consegnino materiale particolarmente ag-gressivo e disturbante, complici i sempre più poten-ti compressori multibanda disponibili sul mercato,che riescono ad aumentare il livello RMS mante-nendo invariato il picco. A titolo di curiosità si puòcitare l’onda quadra a circa 3’500 Hz con picco alsuddetto valore di −9 dB FS come il segnale piùintenso che si possa trasmettere pur rimanendo neilimiti di picco imposti.

D’altra parte ammesso di trovare un modo pervalutare il livello percepito — il loudness appunto— in modo affidabile e conveniente (molto validoad esempio il recente algoritmo proposto nel docu-

1

mailto:[email protected]

www.gtcs.it

mento ITU-R BS 1770 ([8]), che ha introdotto leLU, Loudness Units), ciò non garantirebbe affattoun allineamento di programmi differenti portandolial giusto livello: perché mai un concerto d’arpa do-vrebbe suonare come una pubblicità che inizi condue trombe in primissimo piano o come un film d’a-zione molto intenso e rumoroso?! Pareggiandone illoudness medio, senza quindi prenderne in conside-razione la tipologia, il livello di un dialogo normalerisulterebbe, nel caso di un presentatore nel concer-to d’arpa, molto più alto di quello del film d’azione,essendo rispettivamente il dialogo più alto della me-dia nel caso del concerto d’arpa, e più basso dellamedia nel caso del film d’azione.Sembrerebbe perciò che sia necessario identifica-

re il livello del parlato, ed utilizzarlo come riferi-mento per allineare i vari programmi (Dolby Dial-norm). E’ ovvio che l’estrema dinamica della vocenon permette affidabilità assoluta, specie in pro-grammi particolari o di breve durata: tra un bi-sbiglio ed un grido, specie considerando il tipo diinquadratura (primissimo piano, campo lungo), esi-ste una differenza di livello di alcune decine di deci-bels; tuttavia statisticamente il parlato, alla lungae quindi certamente su un film, risulta abbastanzastabile, ed equivalente, nel punto d’ascolto, a circa70 dB SPL.Risolto il non facile compito di identificare au-

tomaticamente il parlato, operazione di cui sem-bra capace ad esempio l’LM100 della Dolby, restada capire se l’allineamento a livello realisticamenteproporzionato sia sufficiente a garantire un ascol-to soddisfacente per lo spettatore televisivo medio;probabilmente e purtroppo no: un’ampia e reali-stica dinamica, ascoltando a volume più basso deldovuto e con un sistema d’ascolto inadeguato chedistorce “presto”, ossia proprio quel che succede perla maggior parte dei casi d’ascolto televisivo rappre-sentando insomma il collo di bottiglia qualitativo,risulta in tal caso dannosissima.Anche qui Dolby ha proposto un intelligente si-

stema di riduzione della dinamica automatico, cen-trato attorno al livello del parlato, che potrebberisolvere buona parte del problema; ma come al so-lito i sistemi automatici non sono (ancora) lonta-namente paragonabili a quanto possa fare un esse-re umano esperto, e in più se si potesse lavoraread un mixage dedicato alla fruizione televisiva (siveda certamente [2]) già poche ore dopo la realiz-zazione del mixage cinematografico e con lo stesso

personale tecnico si avrebbero enormi vantaggi intermini di gradi di libertà: già la sola separazionedi dialoghi, rumori, musica e riverberi, trattabiliin maniera differenziata, è di indubbia utilità perottenere un risultato ottimizzato ed efficace. Si po-trebbe procedere ad una misura delle prestazionimedie degli apparati televisivi, e definire un “tele-visore di riferimento” da utilizzare in tutte le sa-le mix. In verità bisognerebbe distinguere il casodell’ascolto da televisore da quello dell’ascolto dasistema home-theater.Per “Pompei”, di Paolo Poeti, lo scrivente ha

realizzato oltre al mix per il mercato anglofono eper quello nostrano, anche il relativo mix televisivoagendo sugli stems separati con una combinazionedi equalizzazione dinamica, aggiunta di armonicheper simulare basse frequenze su sistemi poco dotatisotto quell’aspetto, e di correzione manuale.Sulla base di questa istruttiva esperienza sul cam-po egli può dichiarare che il costo di un mix, anzidi un semplice adattamento del mix, dedicato allafruizione televisiva “tranquilla” è stimabile in circadue turni in sala mix, ossia per un costo di circa1000 euro, che a fronte del costo totale della post-produzione di un qualsiasi film non rappresentaprobabilmente un reale problema.

2 Estratti dalla tavola roton-da

Per approfondire e documentare quanto sopra espo-sto, riteniamo utile riportare stralci della tavolarotonda sull’argomento, ossia parti di e-mail tra ipartecipanti. Quasi tutte le e-mail, pressoché dasubito, sono state nominate in oggetto nel seguen-te modo: “AES 2 MO YYMMDDhhmmss” seguitoeventualmente da uno spazio e da alcune parole perriassumere sinteticamente il merito dell’intervento.Con YYMMDDhhmmss si intendono 12 cifre cherappresentino nell’ordine l’anno, il mese, il giorno,l’ora, i minuti e i secondi della spedizione dell’e-mail. In verità all’inizio l’argomento non era laMessa in Onda (MO appunto), ma la Presa Diret-ta (PD), e perciò alcune email risultano con titolimisti.Per iniziare ecco l’e-mail del 27 novembre 2008,

di Simone Corelli, dal titolo “AES 1 PD nonchéAES 2 MO: tre zone”:

2

E’ utile scomporre l’intervallo dinamicocoperto dalla colonna sonora in tre zone:1) quella interessata dal segnale indispensa-bile per la narrazione;2) quella interessata dal segnale non stret-tamente indispensabile, seppur utile, eimmediatamente sottostante alla zona 1;3) quella posta sotto alla zona 2, includendoquindi il silenzio e il rumore (ossia segnaleindesiderato) di fondo di varia origine, chenon subiscono particolare danno se si effet-tua una riduzione della dinamica a loro spe-se, o vengono posti sotto la soglia di udibili-ta’ da un abbassamento del livello d’ascoltoo da un previsto rumore di disturbo sul latofruitore (le case di oggi sono rumorose). An-zi potremmo dire che giovano di una certaattenuazione.Potremmo forse chiamare queste tre banderispettivamente zona indispensabile, zona diarricchimento, zona di fondo o silenzio (pe-rò non dimentichiamo che contiene le codedei riverberi e quindi delicata informazionesull’acustica dei luoghi).La prima importante osservazione quando sicalcola il livello medio di una colonna so-nora è che non bisogna tener conto dellazona di silenzio, e per la messa in onda, opiù in generale per la fruizione, su sistemid’ascolto di bassa qualità, va garantita lacomprensibilità a tutti della sola zona indi-spensabile. La zona di arricchimento è cer-tamente gradito sia resa udibile, ma qui vafatto un discorso di qualità: rendere que-sta zona forzatamente udibile a chi ascoltaad un livello estremamente basso con un si-stema d’ascolto pessimo richiede per forzadi cose una modifica (ossia distorsione) delmix originale che lo allontana dall’optimumriducendone proporzionalmente la fruibilita’su sistemi di buona qualità e ad un livellocorretto.E’ una questione di scelte e compromessiche va lasciata alla sensibilita’ del fonico dimix originale. Solo sulla zona indispensabi-le è lecito che le stazioni di messa in ondapretendano la totale comprensibilità anchea basso volume d’ascolto (-15 dB) e con

estensione in frequenza ridotta (200 Hz-8kHz).Chi decide cosa debba rientrare nella zonaindispensabile e cosa no? Regista, monta-tore scena e fonico di mix. E’ assurdo che ilbisbiglio di decine di persone in un bar, purcomprensibile in una sala mix di qualità, va-da faticosaemente e forzosamente trattatoin modo che sia comprensibile anche in si-tuazioni non ottimali se il significato narra-tivo di quella scena è molto semplicementeche “gente chiacchiera in un bar rumoroso”.Si osservi che quando la produzione di unaudiovisivo è fin dall’inizio dedicata ad unsistema a bassa qualità è consigliabile at-tuare strategie per ridurre la dinamica dellazona 1, e preferibilmente anche della zona2, gia’ in fase di ripresa e montaggio dellascena: se qualcuno grida lo si riprenda incampo lungo, se qualcuno bisbiglia lo si ri-prenda in primissimo piano. Ovviamente iltutto compatibilmente con le esigenze nar-rative ed espressive. Potremmo chiamar-la riduzione NATURALE della dinamica, amonte.

In seguito Alessandro Travaglini ci fornì copiadel documento con cui SKY definisce le specifichedi consegna da parte di terzi. Il documento, moltointeressante e valido, prodotto proprio da Travagli-ni, si intitola “Sky Italia - Technical specificationsfor external tape material”, ma è anche pubblicatocon altro nome ([1]):

Ecco ora una parte della risposta di Travaglini aMaurizio Argentieri:

La produzione e divulgazione di quel docu-mento del quale sono ideatore e responsabi-le, è avvenuta per definire standard che po-tessero aiutare i nostri colleghi fonici di mixnella realizzazione di mix destinati alla diffu-sione broadcast, siano essi programmi, do-cumentari, film, pubblicità, talk show, clipmusicali, etc etc. . . L’obiettivo è avere tra-smissioni audio percepite a volume costanteed eliminare l’uso di compressori sulla catenadi trasmissione, che come sappiamo posso-no veramente modificare il mix prodotto insala.

3

Devi sapere che molti programmi vengo-no mixati frettolosamente, senza molta curaper i livelli di mastering.Come ha giustamente precisato Simone, nonesisteva prima nessuna guida, se non la ge-nerica indicazione di non superare un de-terminato livello di picco, che affrontasse ilproblema della percettibilità dei mix, o chedistinguesse il livello giusto riservato ad unfilm o ad una pubblicità, che come sapraipresentano caratteristiche dinamiche moltodifferenti.Ebbene, l’innovazione introdotta in quel do-cumento consiste proprio nel differenziarecategorie di contenuti ed indicare per ognu-na di esse, o meglio, a seconda dell’escursio-ne dinamica che presenta, dei margini entroi quali quel mix verrà percepito a volume co-stante, ovvero senza indurre il telespettatoread impugnare il telecomando ed agire dra-sticamente sul volume del tv (Vedi pubblici-tà). In allegato trovi anche la delibera del-la Agenzia delle Comunicazioni che OBBLI-GA le emittenti radiotelevise a trasmetterepubblicità allo stesso volume dei programmi.Per far ciò, quindi bisogna definire dei mar-gini, altrimenti si naviga nell’anarchia piùtotale.Altre gravi problematiche che ho riscontratodurante la mia lunga analisi, derivano, peresempio, dai mix di documentari. In moltecase di doppiaggio sembra consuetudine te-nere basso il livello della colonna internazio-nale e non prestare molta attenzione all’an-damento della voce narrante. Capisci beneche non è questo il giusto modo di creare unmix valido e costante2. Da qui la necessitàdi regolamentare il prodotto indicando deimargini minimi e massimi....Ho altresì suddiviso il concetto di segnalein tre categorie: picco, loudness generale eloudness dei dialoghi.E per ogni tipologia di contenuto ho indi-tato dei valori minimi e massimi da soddi-

2Nota di Simone: qui però si va ben oltre il difetto tec-nico che tra l’altro non risulterà identificabile con misureautomatiche sul risultato finito.

sfare. Ho poi sottolineato che questi limitiin realtà sono dipendenti dalla compressionedel segnale audio (vedi differenza tra film einterstitial). Il documento citato, che vi al-lego, è ora utilizzato in tutte le sedi SKYe da tutte le case di produzione ed edizio-ne che forniscono materiale per la messa inonda a tutti i canali presenti sulla piattafor-ma. Altri grandi broadcasters internaziona-li (DISCOVERY, BBC) utilizzano specificheaudio basate sugli stessi proncipi. Vi possogarantire che l’utilizzo delle nuove specificheha migliorato enormemente la qualità audiodella programmazione e tutelano il lavoro dichi ha missato bene in sala.

Sempre Travaglini continua in altra email, in que-sto caso “re: AES 1 PD 061128142935 (anche AES2 MO)”:

Confermo che purtroppo ho potuto consta-tare che in molti casi i mix vengono eseguitifrettolosamente, come per moltissimi docu-mentari doppiati (non mi riferisco a produ-zioni di film per cinema o per TV) ed in altricasi l’unico obiettivo è quello di schiacciaretutta la dinamica il più possibile in modo dainnalzare il volume del segnale, a discapitodella qualità (pubblicità). Tutto ciò generalivelli di trasmissione molto distanti tra lo-ro e difficile comprensione di alcuni tratti didialoghi.Purtroppo l’utilizzo del Dialnorm oltre cheessere condizionato dal alcuni fattori (inse-rimento nei programmi dei Metadata, capa-cità del sistema di trasmissione di legger-li, precisione nell’interpretazione delle misu-re ed inserimento dei valori) non garantisceil contenimento dei livelli entro margini disicurezza, in modo da evitare i problemi sue-sposti. In poche parole, un mix fatto malenon verrà corretto dal Dialnorm.Nell’adattamento sonoro per TV, un bisbi-glio ed un grido si differenziano soprattuttoper timbro, più che per livello (nonostante cisia una componente di volume, che però nondeve essere predominante tanto da indurreil telespettatore ad alzare il volume quan-do c’è un bisbiglio o ad abbassarlo quando

4

c’è un grido, a ciò penserà il fonico di mix,tenendo presente la finalizzazione per TV).Le tabelle indicate servono esclusivamentea questo, a dare dei margini entro i quali cisi può muovere e si ha garanzia che tuttoil contenuto sonoro venga percepito senzaperdita di elementi importanti.E’ per questo che esistono varie tipologiedi contenuti, proprio per concedere maggiorlibertà ai film e meno alle pubblicità, chetendono a ridurre al massimo la dinamicaper avere livelli di emissione superiori.La delibera della AGCOM è, secondo me,lacunosa perchè non analizza i segnali audiodal punto di vista psicoacustico, ma anco-ra puramente elettrico. Rimane valida pe-rò l’intenzione del documento. Il caso dellapoesia turca e delle trombe può sempre veri-ficarsi, ma mi sembra molto meno probabiledi altri episodi a noi tristemente noti.Il silenzio è silenzio e non va consideratosilenzio nei margini descritti nelle tabelle. Laparte più importante è il valore di DialogueLoudness. Ti garantisco che purtroppo nellamaggior parte dei casi i mix italiano e quelliin lingua originali sono molto differenti.Ho detto “Un mix valido e costante”, non“valido cioè costante”.Cioè ben equilibrato e che abbia un volumemedio costante. 20 db di intervallo medioper diffusione broadcast credo sia un buonmargine, magari andando avanti scopriamoche sarebbe meglio averne 25 o 30, tenen-do sempre presente che più allarghiamo imargini più qualche furbo o pigro si sentiràautorizzato a missare frettolosamente.Sono ben accetti suggerimenti.

A seguire, dopo osservazioni di Simone, procedecon “AES 1 PD 061128211123 (anche AES 2 MO)”:

OTTIMO. Mi sembra che stiamo sontan-zialmente dicendo le stesse cose. Quindi,ricapitolando:E’ giusto individuare elementi sonori princi-pali (DIALOGHI, MUSICA e SFX), secon-dari (altri SFX) e di sfondo (AMBIENTE)

ed attribuire ad ognuno di questi dei mar-gini entro i quali dover far rientrare i livel-li di emissione del mix. Bada bene, parlodi valori espressi in dBLeq(A) ovvero Loud-ness Level, non livelli elettrici del segnale.Ciò significa che a determinati intervalli diLoudness potrebbero corrispondere interval-li elettrici maggiori. Non ci dimentichia-mo di questo quando analizziamo le tabelle.Introdurre l’intervento di un normalizzato-re esterno tipo Dolby è inattuabile perchèrichiede la modifica strutturale di tutte learee di PlayOut delle TV d’Italia, oltre chel’equipaggiamento di apparati simili nelle sa-le mix di migliaia di studi. Impossibile. Lespecifiche SKY sono invece si facile appli-cazione. Basta scaricare il plug-in gratuitodi DigiDesign per ProTools SignalTools3, ètutto lì. Basta poi monitorare il livello dimix e controllare che rientri entro i valoridelle tabelle.Esiste piuttosto un altro apparecchio Dolbychiamato DP600 che entrerà in commercioall’inizio del 2007. Questo dispositivo è ca-pace di analizzare il loudness medio di unprogramma audiovisivo presente nel video-server e di modificarne il livello di masteringin modo da ottenere un prefigurato targetlevel. Questo sistema funziona solo su mixgià ben equilibrati, per i quali il valore me-dio corrisponde comunque ad oscillazioni dilivello motivate da reali esigenze estetiche enon da superficialità e approssimazione. Inmolti casi non è così.Sono d’accordo che in un mondo ideale po-tremmo non avere limiti nell’uso della di-namica. Comunque dovremo sempre fa-re i conti con le esigenze di trasmissione(EBUR68) anche se devo dire che sarebbeil momento di innalzare la soglia di MPLda - 9dBFS a, per esempio, -6dBFS, co-me è in Francia. Ciò ci permetterebbe diguadagnare 3 dB di headroom4.

3Attenzione: fornisce un risultato 3 dB più basso di moltialtri strumenti di misura Leq(A) in quanto non utilizza unasinusoide a piena scala come riferimento per il 100%=0 dBcome suggerisce AES.

4Nota di Simone Corelli: In verità la misura quasi-peakche andrebbe adottata fornisce già circa 3 dB di meno delreale picco misurato a livello di campione digitale, e inoltre

5

NON VOGLIO ASSOLUTAMENTE limitarei fonici di pubblicità. Anzi, li voglio stimo-lare a produrre mix decenti, con la giustaescursione dinamica e la necessaria quali-tà. Ma purtroppo, dobbiamo tutti consta-tare che l’attitudine dei pubblicitari non èdare priorità alla qualità, ma preoccuparsiesclusivamente di “suonare forte”.Analizzando numerosi mix di pubblicità hoavuto conferma che la dinamica utilizzata èspesse volte di pochi dB, con dialoghi chesuonano quasi telefonici. Come è scrittobene nel documento, invece, è vero che siindividuano dei margini più ristretti per lepubblicità, ma è anche spiegato bene chepiù è ampia la dinamica del segnale più am-pi sono i margini tollerati. Al contrario piùe compressa la dinamica, più stretti sonoi limiti (nella parte alta) richiesti. Sta alfonico di mix spingere ad un uso più este-so della dinamica, e combattere la tendenzaopposta. Infatti, condivido la tua speranzadi poter avere audio di qualità nei film cosìcome nelle pubblicità.La realtà attuale non spinge in questa dire-zione. Appena i pubblicitari avranno capitoche non gli conviene schiacciare la dinami-ca perchè non ottengono il risultato speratodi avere più volume ma semplicemente per-dono qualità, allora si che cominceranno aprodurre pubblicità con mix di qualità supe-riore, e forse un giorno paragonabile a quallacinematografica.Secondo me dovrebbero essere questi iprossimi passi:

• partendo dal documento SKY, perfe-zionare i valori delle tabelle

• esplicitare — come hai suggerito —che gli ambienti (silenzi) esulano dailimiti imposti

• innalzare i limiti della R68 (a -6dBFS?)• stimolare i pubblicitari ad utilizzaremaggiore escursione dinamica

sono tollerati esplicitamente 3 dB ulteriori per errori umani.Infine: tra un campione digitale e il successivo, il segnalepuò risultare notevolmente più alto di entrambi, addiritturadi un valore infinito.

Una volta fatto tutto ciò, e applicate capil-larmente le specifiche finali, potremmo otte-nere la rimozione di processori di dinamicanei TX ed essere (quasi) certi che i nostrimix arriveranno nelle case dei telespettatoricosì come li abbiamo prodotti in sala mix.

Simone Corelli propone quindi di misurare cosasuccede nelle famiglie quando si guarda la tv, conalcuni esperimenti da effettuarsi ovviamente a cam-pione. Così giustifica tale necessità nell’email “AES2 MO 061206233123”:

Se si verifica che il livello d’ascolto è, nellesituazioni normali dei film, 15 dB più bassodel previsto in sala mix, si può ad esempiofissare la giusta correzione timbrica compen-sativa (enfasi su bassi e acuti). Si capisceanche da che livello in giu’ si perderanno in-formazioni sonore per loro discesa sotto lasoglia di rumore o di udibilità. Credo pro-prio sia importante scoprire questo dato...no?

A seguire Corelli ha elaborato alcune osservazionisulla differenza tra fruizione di un film al cinema e acasa (ben trattato in [2]), proposte nell’email “AES2 MO 061214233950”:

“Mix di musica per l’ascolto stereofonico ca-salingo e mix della stessa musica per usocinematografico: analisi delle differenze ediscussione sul modo di affrontarle.”I sistemi d’ascolto e le abitudini d’ascolto re-lative alla fruizione di musica stereo in am-biente domestico rispetto alla fruizione del-la stessa musica come colonna sonora di unfilm visto e ascoltato in sala cinematograficasono diversi per più motivi:

1. La dinamica e l’estensione in frequen-za sulle basse frequenze nel primo casosono tipicamente inferiori.

2. L’angolo coperto frontalmente dal pri-mo caso è di 60 gradi contro i tipici 45del cinematografico.

3. La posizione d’ascolto prevista nel pri-mo caso è centrale, mentre nel secondocaso è normale che buona parte degli

6

ascoltatori siano fuori asse anche no-tevolmente, potendo quindi dichiara-re che mentre l’ascolto stereo classicosfruttando la psicoacustica può gene-rare un’ottima illusione di provenienzadei suoni da qualsiasi punto interno al-l’angolo di 60 gradi poco sopra citato,nel caso cinematografico le provenien-ze robuste sono da soli tre punti pre-cisi: centrale, sinistro e destro. Spo-stamenti (panpot) tra i tre punti sonotalora possibili, ma rapidi, anche perevitare udibili problemi di phasing.

4. Il livello d’ascolto casalingo è a discre-zione dell’ascoltatore e spesso limitatodalla bassa qualità del sistema di diffu-sione, spingendo ad un ascolto circa 15dB più basso di quello previsto dal fo-nico di mix all’origine. Al contrario lesale cinematografiche hanno un livel-lo d’ascolto standardizzato, identico aquello riprodotto nel punto dove lavorail fonico di mix....

5. La timbrica dei due sistemi è differen-te per definizione: l’equalizzazione ci-nematografica definita dalla cosiddet-ta X-curve, standard ufficiale, prevedeun calo sugli acuti da tenere in buonconto nell’adattare mix per un sistemaper l’ascolto sull’altro sistema. Di so-lito basta una correzione di un paio didecibels sopra i 2 KHz.

Detto questo è già ovvio che il mixage peri due sistemi debba essere differente, otti-mizzato per ciascuno di essi. Risulta ancorapiù d’obbligo se si considera che la musicain un film interagisce con gli altri elemen-ti che ne compongono la colonna sonora,dialoghi ed effetti, spesso interferendo an-che negativamente sulla comprensibilità delparlato.Ecco quindi nascere l’esigenza di poter con-trollare indipendentemente almeno melodiaed accompagnamento, in genere ponendola melodia (canto, o strumento solista) suuna pista apposita, di solito destinata for-malmente al canale centrale, per poterne

calibrare meglio l’interazione con i dialoghi,senza generare effetto pompaggio sulla basemusicale che l’accompagna. Risulterà anchepossibile, in casi estremi, bucare tale melo-dia sulle frequenze particolarmente in com-petizione con la comprensibilità del parla-to, ossia sulle componenti tipiche delle con-sonanti, nonché zona di massima efficienzadell’orecchio umano, ossia attorno ai 3500Hz.Il discorso non si conclude qui, ma almenoun’idea speriamo di averla data.

Gilberto Martinelli il 2 gennaio 2007 ci scrive ine-mail nominata“AES 2 MO”:

Auguro buon anno a tutti. Con l’occasione,una riflessione:Ho ascoltato il messaggio del Presidente del-la Repubblica. Un bell’esercizio per capire iproblemi della messa in onda.In diretta tra Rai 1, Rai 2, Rai 3, Canale 5,LA7.Beh, se passavate da un canale all’altroavreste notato con evidenza che:

Rai 1: Spettro piuttosto completo ma condinamica molto compressa.

Rai 2: Ottimo il range di frequenza ricco dibasse e poco compresso (il migliore).

Rai 3: Tagliato sulle basse ma con pocacompressione.

Canale 5: Tagliato sopra e sotto dinamicacompressa anche se meno di RAI 2.

LA7: Filtro tagliabasso come una scure,mal compresso, distorsione leggera,insomma il peggiore.

Il giorno dopo il concerto di capodanno suRAI 1, meglio stendere un velo pietoso,meglio in RF chiaro che sul digitale terrestre....Saluti

Corelli a seguire scrive nell’e-mail “AES 2 MO070111000600”:

7

Egregi, buon anno!

Il tempo a disposizione durante le festivi-tà mi ha permesso di ripensare al problemache stiamo trattando, ovvero alla destina-zione televisiva dell’audio, e di approciarlosecondo un’ottica che ritengo più corretta.Vado quindi ad esporVi il mio pensiero.

Innanzitutto va chiarito una volta per tut-te il concetto di missaggio ad un certo li-vello di pressione acustica: normalmente lepossibilità sono racchiuse tra due estremi,rappresentati

1. dallo standard cinematografico (rp-200smpte), che prevede che un rumore ro-sa di livello pari (secondo VU-meter) aquello di una sinusoide a 1 KHz il cuipicco sia -20 dB FS nel dominio digita-le faccia misurare, per ciascun canalefrontale escluso l’LFE, 85 dB SPL (pes.C) nel punto di ascolto (ossia di mix),3 dB in meno per i canali surround,10 dB in più (nella banda di funziona-mento prevista ossia sotto i 120 Hz)per il canale LFE. Il tutto, non dimen-tichiamolo, su un sistema equalizzatosecondo la curva X;

2. dal tipico livello broadcast di 79 dBSPL (pes. C) (non è uno standard ve-ro e proprio e i valori riscontrabili sonoanche superiori, o lievemente inferioricome nel caso della tv nazionale belgaVRT che ha scelto 77 dB SPL (pes.C)) per un rumore rosa di livello pa-ri (secondo misuratore RMS) a quellodi una sinusoide ad 1 KHz il cui piccosia pari all’allineamento in uso, ossia-18.06 dB FS (circa, in realtà un otta-vo del massimo livello codificabile) inEuropa, e -20 dB FS negli Stati Uniti.Esiste anche uno standard lievementediverso, definito in Giappone se non er-ro, per l’HDTV, che si rifà al livello dipressione acustica totale raggiungibilecon l’insieme dei canali a disposizio-ne, ma in sostanza non ci si discostausualmente dal valore che ho indicato.

Riguardo alla banda occupata dal rumore ro-sa di cui ai due punti precedenti rimando perora la trattazione.

Si noti però che per destinazione broad-cast è quasi sempre richiesta una limitazionedel livello affinché non superi di oltre 9 dBil livello di allineamento fissato, misurandocon un quasi peak meter (PPM), riducendoquindi la dinamica possibile e il massimo li-vello di pressione raggiungibile, già ridottadall’allineamento indicato.

Osserviamo che anche l’allineamento cine-matografico, apparentemente (e anche peresperienza di spettatori) capace di ricrearepressioni acustiche notevolissime, non è pe-rò sufficiente, a meno di artifici poco elegan-ti, a garantire la straordinaria dinamica deisuoni reali, dal rumore di due piatti che si ur-tano in cucina all’urlo di un uomo in primopiano, non volendo citare casi più estremicome un’esplosione o un semplice sparo inscena di guerra, la fanfara dei Bersaglieri, unpiatto infranto contro un muro, il lancio diun missile, l’esplosione di una città colpitadagli alieni. E’ stimabile che sia necessarioaggiungere quindi una dozzina di dB di hea-droom al sonoro di domani, per un maggiorerealismo sui picchi.

Tornando ai problemi di oggi, esiste, co-me dicevo, una certa confusione sull’allinea-mento al mix e non è raro sentir chiederea che livello si stia missando, e quindi al-la risposta 85 dB sentir commentare “chealto!”. Si confonde insomma l’allineamentocol livello che si decide di raggiungere: mis-sare a 85 dB (come meglio descritto sopra)non significa che il suono che ci raggiunge-rà sarà a 85 dB: significa che applicando unben determinato segnale test, come già spie-gato, si otterrà quella pressione acustica; siè fissata insomma una scala, un rapportocausa-effetto.

Una normale voce narrante sarà quasi cer-tamente ad una settantina di dB SPL, i bi-sbigli 10 dB più bassi e così via, e ciò siache si missi secondo un certo allineamen-to che secondo un cert’altro: l’importante èche il livello di mix e quello di riascolto siano

8

identici. Tra l’altro, a parità di livello di ria-scolto, materiale missato a 85 dB suoneràpiù debole di quello missato a 79, come do-vrebbe essere ovvio per chiunque si occupidi suono e/o abbia un minimo di capacitàdi ragionamento.Consigliare dunque ad un fonico di mix diallinearsi ad un livello domestico non signi-fica affatto indurlo a generare un mix chesuoni più debole! Il fonico cercherà sempredi missare ricreando il livello naturalmentesuggerito dall’immagine.Dunque si tratterebbe invece di riascoltare ilproprio normale mix al livello probabilmentescelto dal fruitore televisivo medio e verifi-care se in seguito a tale attenuazione (di 15dB normalmente) vada perduta la compren-sibilità di qualche passaggio narrativamenteimportante, o se l’apparente calo di bassi eacuti dovuto alle ben note non linearità del-l’orecchio umano sia tale da suggerire unacompensazione.E’ anche prevedibile che l’ascoltatore me-dio mal tollererà livelli superiori a 75 dBSPL (C) se non per brevissimi istanti, pervari motivi (inclusa la bassa qualità ossiala grande distorsione introdotta dal sistemad’ascolto medio televisivo) e che scompariràsotto la soglia del rumore di fondo del mon-do moderno molto materiale di arricchimen-to quali gli ambienti più delicati (stormire difronde, cinguettii, avvicinarsi di un tempo-rale, chiacchiericcio in strade lontane et ce-tera) e le code di riverberazione, con conse-guente perdita di informazione sullo spazioarchitettonico che ospita le vicende. Anchequi è consigliabile un’azione tecnica di re-cupero, rialzando questi ingredienti sonorisopra la prevedibile tipica curva di rumore osoglia di udibilità.Ripetiamo: lavorare già al livello di fruizio-ne medio porterà a rialzare tutto il mate-riale, probabilmente schiacciandolo controla soglia imposta per materiale broadcast equindi introducendo con i limiters distorsio-ne non lineare... indi l’ascoltatore riabbasse-rà ulteriormente il livello d’ascolto! Si lavoria dinamica e livelli naturali, e poi si effettui-no manualmente o in automatico (vedremo

come) le correzioni necessarie per rendereaccettabile un ascolto con le caratteristichepeggiorative che abbiamo illustrato.Proprio questo argomento va ora affronta-to, ma è necessaria un’indagine seria permisurare in modo affidabile:

1. Qual’è il livello d’ascolto e l’interval-lo dinamico graditi dal fruitore televisi-vo medio (e ci piacerebbe capire ancheil perché, pur avendo buone ipotesi dirisposta al quesito);

2. Qual’è la banda di frequenze che cidobbiamo aspettare realisticamente. . .anzi: qual’è in generale la rispostain frequenza che dobbiamo aspettar-ci, facendo anche attenzione alla va-riabilità nella banda e alla fastidiosi-tà di picchi/valli nella risposta (infat-ti basta un picco di risposta a causadi un’onda stazionaria ad esempio a400 Hz per spingere ad abbassare il li-vello d’ascolto per non essere troppodisturbati.Sulla base di ciò se, proseguendo inquesto esempio, scoprissimo che il 20%dei televisori presentano tale difettomentre il rimanente 80% lo compen-sasse saremmo indotti ad attenuarequesta frequenza anche se la mediadei televisori mostrasse una risposta -MEDIA APPUNTO - lineare);

3. Qual’è la distorsione tipicamente in-trodotta e secondo quali leggi sigenera.

E qui mi fermo in attesa della Vostra col-laborazione: va organizzato un test serio sualmeno una dozzina di casi reali.Io posso mettere a disposizione materia-le audiovisivo test, ben conoscendo il li-vello d’ascolto ritenuto naturale in fase dimix avendo io stesso missato tale materiale.Uomini di buona volontà fatevi avanti!...

Travaglini risponde in “re: AES 2 MO070111000600”:

9

Sono pienamente in accordo con quantoscrivi.Vorrei solamente suggerire di non tendere adappiattire la qualità dei mix al fine di render-li fruibili necessariamente anche ai sistemi diriproduzione più scadenti, considerando an-che il fatto che inevitabilmente il mercatotende ad innalzare la qualità dei prodotti invendita (vedesi l’aumento di TV stereo e disistemi Home-Theatre, anche se spesso diqualità medio-bassa). Sarebbe inoltre pena-lizzante per chi ha scelto di godere appienodel contenuto sonoro trasmesso.Per ciò che riguarda l’intervallo di di-namica tollerato in ambiente domesticosuggerirei di applicare le indicazioni ([11])dell’Ing.Thomas Lund della T.C.Electronic,http://www.tcelectronic.com/media/lund_2006_loudness_nab2006.pdf men-tre riproporrei le mie tabelle, ovviamentemodificabili e migliorabili se necessario, perciò che concerne i limiti minimi e massimiper categorie sonore (dialoghi, effetti, fondi,ecc.). Non lo dico per vanagloria ma perchèfrutto di un lungo lavoro di analisi che cipuò far giungere ad un risultato positivo inbreve tempo.

In “AES 2 MO 070112222538” Corelli scrive:

Note sparse:

1. L’ascolto casalingo di materiale di va-ria provenienza tramite sistema televi-sivo o home theater risulta effettuatoda buona parte dell’utenza, e in spe-cial modo per il materiale tipicamentebroadcast come telegiornali, pubblici-tà, programmi di varietà, soap, ad unlivello di ascolto più basso di quellorealistico (ossia previsto da un buonfonico di mix su sistemi ad alta di-namica come quelli cinematografici),ad un livello insomma che potremmochiamare comfortevole in quanto per-mette di alternare visione+ascolto achiacchiere con i familiari, altre atti-vità, telefonate anche solo spostandosidi pochi metri o nella stanza attigua. . .

permette anche agli altri abitanti del-l’appartamento di proseguire le proprieattività senza essere troppo distratti odisturbati.Altro motivo per un livello d’ascoltobasso è rappresentato dalla bassa qua-lità dei sistemi di riproduzione MEDIpresenti nelle case, specie amplifica-zione+casse incorporate nei televisori,anche in quelli di ultima generazione.Ciò induce appunto ad un livello bas-so per non essere troppo disturbati dadistorsioni varie. Va incluso nel discor-so anche l’ambiente d’ascolto che èsempre affetto dal problema delle ondestazionarie, anche molto intense, gene-rando picchi nella risposta in frequen-za che inducono ad abbassare l’interoprogramma (è il motivo per cui in cuf-fia si ascolta ad un livello decisamentesuperiore mancando questo problema).A tale diversità di livello non si può rea-gire abbassando il livello di calibrazio-ne nella sala mix, in quanto tale ope-razione indurrebbe il fonico ad incide-re ancora più forte. . . Il livello finalecomfortevole va testato dopo aver ef-fettuato il mix, ed applicando quindiazioni d’ottimizzazione che vedremo inseguito di consigliare. Tra l’altro buo-na parte del materiale che va in ondaè di derivazione cinematografica. . .

2. I limiti dell’ascolto casalingo tipico sepresi troppo in considerazione portanoa mix che poi si riveleranno di bassaqualità una volta che il prodotto ven-ga ascoltato con sistemi buoni, e consi-derando il probabile miglioramento (tvdigitale, multicanale) futuro dei siste-mi casalinghi, porterebbe ad un’occa-sione persa nelle repliche della messain onda. Meglio creare un buon mixe poi ridurlo e ottimizzarlo per le va-rie destinazioni in modo preferibilmen-te automatico (quindi con una riduzio-ne di costo), archiviando comunque ilmix originale di buona qualità per ilfuturo.

3. Tra i limiti tipici dell’ascolto casalin-

10

http://www.tcelectronic.com/media/lund_2006_loudness_nab2006.pdf

http://www.tcelectronic.com/media/lund_2006_loudness_nab2006.pdf

go va considerata la scarsa estensionesopratutto sulle basse frequenza (cir-ca 150 Hz invece dei 16 Hz necessariad esempio per la nota più bassa chepuò emettere un organo a canne, asso-lutamente udibile pressoché da chiun-que dal vivo e di grande impatto emo-zionale). Questo limite va consideratoper gli elementi narrativi fondamenta-li (terremoto in un film...) e risoltoin questo caso introducendo artificial-mente componenti sonore di frequenzapiù alta, ad esempio con tecniche di si-mulazione percettiva (introduzione diarmoniche che suggeriscano al cervel-lo l’esistenza di una fondamentale cheinvece non si ode) (maxxbass...).

4. Il livello d’ascolto basso (circa -15 dB,da verificare con esperimenti al più pre-sto) implica la necessità di compensarela timbrica (effetto loudness) con pa-rametri da studiare, purtroppo variabilicol livello istantaneo del programma inascolto (differenza tra equal loudnesscontour originale e quello del segnaleattenuato a livello casalingo).

5. Chi deve effettuare l’adattamento? Ilfonico originale o la stazione di messain onda, o ancor meglio il dispositivoricevente se è in grado di ricevere qua-lità alta da rielaborare? Si potrebbepensare anche ad una trasmissione inparallelo di due versioni, tra le qualiogni utente possa scegliere.

6. Rimane da considerare la differenzaangolare sulla stereofonia, e sul campovisivo abbracciato ([2])!

Il professor Uncini può inviarci qualche tesi-sta per acquisire dati utili a risolvere questipunti?

E ancora, nel tentativo di riassumere il tutto in“AES 2 MO 070205212109 dolby volume”:

Ritengo che possiamo cominciare a scrivere,in attesa di qualche volenteroso che facciaper noi alcuni test... per ora lasceremo inbianco alcuni dati.

Ecco:Esigenze di ordine pratico per la messa inonda di materiale di varia provenienza daparte di una stazione televisiva, e como-dità per l’utente televisivo stesso affinchénon debba scegliere un volume d’ascolto di-verso per ogni stazione trasmittente, e perogni programma, suggeriscono certamenteuna standardizzazione tecnica, ovvero un al-lineamento tra segnale, in forma analogica(elettrico, magnetico...) o digitale che sia,e pressione acustica da generare nel puntod’ascolto. Sarebbe altresì importante stan-dardizzare almeno i parametri fondamenta-li che caratterizzano la qualità d’ascolto:estensione in frequenza, curva di risposta,rapporto tra segnale diretto e riverberazionetipica che realisticamente ci si deve aspet-tare dal locale in cui si ascolta, massimapotenza indistorta, livello di rumore di fon-do, posizione geometrica dei diffusori attor-no all’ascoltatore, dimensione e posizionedello schermo contenente l’immagine. . . inquanto condizionante anche l’audio.Il mondo del cinema ha fissato le sue regoleda tempo.Il televisivo si è dimostrato invece menoserio, fissando in modo troppo semplicisticolimiti di picco nel livello nella modulazione,ma non dichiarando esplicitamente null’al-tro di quanto sopra esposto, o facendolosenza essere ascoltato. In particolare il li-vello d’ascolto di riferimento non è definito,e varia in genere da 77 a 87 dB SPL (pesatiC) per canale, alimentando con un rumorerosa limitato in banda audio e di livelloRMS (o vumeter?) pari a quello della notadi allineamento a 1 KHz, a sua volta paria -18.06 dB FS di picco nel digitale per ilbroadcast europeo, -20 dB FS in quello discuola statunitense. 10 dB di variabilitàsono ovviamente troppi. . .inoltre la disponibilità di compresso-ri/limitatori multibanda di grande potenza,ha portato in questi ultimi 10 anni ad unincremento del livello medio rispetto allivello di picco permesso, e quindi risultache gli spot pubblicitari, o la musica,modulano talmente “hot” da risultare in un

11

livello ottimale d’ascolto ancora inferiore,ossia circa 70 dB SPL (C) sullo stimolo diallineamento poc’anzi citato (e conseguenteriduzione della dinamica).La variabilità di livello quindi, già alla fonte,raggiunge il ragguardevole valore di 17 dB.Segue poi la trasmissione (specie analogica),che porta ad ulteriore variabilità da stazionetelevisiva a stazione televisiva.In ogni caso pur risolvendo il problema conuna standardizzazione seria del livello, rima-ne da affrontare il problema della scelta agusto del livello d’ascolto da parte del te-lespettatore. Nella maggior parte dei casile cause per un ascolto a livello inferiore diquello corretto, deciso dal fonico di mix incondizioni controllate, sono due:

• Scarsa qualità del sistema d’ascolto,che porta a non tollerare troppa distor-sione, e quindi a mantenere il livellobasso.

• Desiderio di non disturbare vicini o fa-migliari, di poter in ogni momento con-versare con i famigliari o permettere lo-ro di farlo senza essere troppo distur-bati dal suono proveniente dal televi-sore... ciò porta al concetto di volu-me d’ascolto comfortevole in condizio-ni casalinghe di convivenza con altri, econ sé stessi ossia all’ascolto DI SOT-TOFONDO, non disturbante, ma pursempre tale da permettere la compren-sione dell’evento, ossia soprattutto lacomprensione dei dialoghi. Si parla dicirca 55 dB SPL (C) in media invecedi circa 75 (misurerò meglio domani).

...

da cui deriva un documento dal nome “Livel-li080207.pdf” che viene inviato agli altri ne “AES 2MO 070215205510 testo bozza iniziale”.Poi in “aes 2 mo 070421003920” sempre Corelli

scrive:

Se si decide che il loudness medio deve starein certi limiti, preferibilmente bassi, si per-mette un guadagno di dinamica, e si evitache i pubblicitari facciano spiattellare il mix

verso l’alto con conseguente riduzione deipicchi rispetto al valor medio. Certo! Sareb-be un bene per il suono. Un grande passoavanti.Ma, sempre rimanendo nell’ambito dellapubblicità, rimane da valutare il rapporto traloudness misurato, e loudness giusto, natu-rale: perché una pubblicità bisbigliata e deli-cata musicalmente dovrebbe essere manda-ta in onda allo stesso livello di una pubblicitàdove suona una banda militare con trombein primo piano? Tarando il livello d’ascol-to nella propria abitazione in modo che siaadeguato per la banda militare, ipotizzandoche vada in onda per prima, ascolteremo lapubblicità bisbigliata ad un livello UGUALEa quello della banda, ossia infinitamente piùalto di quel che sarebbe NATURALE udire.Ovviamente ho fatto un esempio estremo.Purtroppo il livello NATURALE lo può co-noscere solo un essere umano, non una mac-china che non distingue tra grida, bisbigli,voce che esce da un telefonino o da un’u-gola in primo piano et cetera. E’ quel chefa il fonico di mix: decide il livello natura-le, giusto, adatto. Se lo fa in un ambientecontrollato, con un guadagno d’amplifica-zione standardizzato e fisso, come succedenel cinema, possiamo mandare in onda quelmateriale senza problemi: sarà tutta NA-TURALE, da film a film, da spot a spot. Seinvece lo fa un fonico televisivo, dove nonesiste un vero e proprio standard ma soloabitudini approssimative, è il disastro: ma-teriale imprevedibile, da fonico a fonico, daanno ad anno...Basterebbe fissare il rapporto segnale digi-tale vs. pressione acustica come nel cine-ma! Poi se al controllo tecnico Mediaseto chi volete voi ascolta il materiale, con lostesso rapporto nel sistema di riproduzione,e scopre che è AGGRESSIVO, FASTIDIO-SAMENTE sproporzionato e innaturale, lorimanda indietro con giustificazione comela seguente: Siamo spiacenti di comunicar-Le che lo spot da Lei consegnato, ascolta-to al livello previsto dal documento tal deitali, firmato da tutte le emittenti naziona-li, risulta innaturalmente troppo intenso, di

12

TOT decibels, infatti la voce, decisa ma nongridata, si situa ad un livello di TOT deci-bels sopra a quanto indicato nel suddettodocumento.

Insomma questo documento dovrebbe dire,per esempio:

• voce narrante: -25 dB FS, misuraLeq(A)

• grido di persona in primo piano: maxXXX dB FS

Insomma vanno fissati, semplicemente conuna giornata di lavori in cui invitare 10 fo-nici di mix d’esperienza, parametri, almenoper la VOCE, che farà da appiglio, da riferi-mento, per proporzionare gli altri ingredientisonori.

Lo so, si possono fare esempi estremi, ipo-tizzare difficoltà varie... ma sarebbe già uninizio. Anche perché in Italia le pubblicità lemissano POCHISSIMI studi. Basta andarelà con un fonometro e un rumore rosa test,e regolargli una volta per tutte l’amplifica-zione secondo quanto si deciderà (diciamodi seguire il cinema, il che semplifica tantecose!). Dopodiché egli saprà che il controlloqualità userà lo stesso standard, e se missaroba troppo, troppo, troppo aggressiva, glitorna indietro con scritto AGGRESSIVA.

Scusate se ho scritto di getto, malamente.Prendeteli per appunti da sgrossare. Atten-diamo che Travaglini termini il suo impe-gno in AES a Vienna e poi riprendiamo ildiscorso.

Travaglini in “aes 2 mo 070422225153”:

In un contesto di ascolto televisivo in am-biente domestico, i margini tra livelli minimie livelli massimi sono molto ridotti.

A causa delle esigenze di trasmissione, è sen-sato ipotizzare uno scenario in cui anche lesonorità più estreme (come quelle portatead esempio da Simone) verranno comun-que riprodotte a livelli di loudness che nonavranno differenze superiori ai 10dB Leq(A).Dalle mie ricerche il levello medio, pari a

-25dBLeq(A), è un’ottimo punto di riferi-mento. Su questo valore si può standar-dizzare il livello di riproduzione dei dialoghi(è tarato così il canale di informazione SKYTG24). In termini di livelli di picco, gene-ralmente qualsiasi tipo di programma audionon raggiunge i -10dBFS. Pertanto gli at-tuali limiti pari a QPPM -9dBFS (True Peak-6dB) sono più che sufficienti per qualsiasiesigenza produttiva.

Rimane il problema della normalizzazionedel Loudness per segnali codificati con Me-tadata, per i quali gli attuali decoder au-tomaticamente riportano l’emissione a -31dBLeq(A). La Dolby sta lavorando amodificare questo parametro in modo daguadagnare qualche dB.

Il problema con i pubblicitari è facilmente ri-solvibile. Basta richiedere la masterizzazio-ne degli spot a specifici livelli di loudness.Nel caso SKY Italia, ad esempio, pubblicitàe promo devono avere loudness tra -25 e -23dBLeq(A).

Ci sono ottimi segnali positivi che alimen-tano la mia fiducia per il prossimo futuro:SKY Italia e FOX Channels Italy hanno in-serito le specifiche Loudness in tutti i con-tratti con i fornitori di materiale audiovisivo.Altre emittenti televisive in onda sulla piat-taforma (Universal, Jimmy, Alice, Nuvola-ri, etc...) hanno investito, o stanno pianifi-cando di farlo, risorse per equipaggiarsi construmenti di misura e processori di loudnessadeguati, in modo da allinearsi con gli altricanali del gruppo. Molte società audiovisivesi stanno attrezzando con loudness meter estanno cercando di capire di cosa si sta par-lando e come ciò potra modificare il loroprodotto.

Travaglini poi, a seguito di osservazioni diCorelli, risponde in “aes 2 mo 070423160502”:

Rispondendo ai tuoi questiti ecco le risposte.

1. Le esigenze televisive probabilmentesono differenti da quelle cinematogra-fiche e non richiedono una dinamica

13

così ampia. La consuetudine di uti-lizzare limitatori sul master permet-te di disporre di headroom più chesufficiente.

2. Tutti i ricevitori satellitari sono in gra-do di decodificare Metadata e tra que-sti il parametro Dialnorm (DialogueNormalization). Per impostazione difabbrica, al momento NON modifi-cabile, il segnale audio viene norma-lizzato ad un valore equivalente ai -31dBLeq(A). Ovvero, se il Dialnormè -25, il mix audio viene ridotto di 6dB. Se il Dialnorm è -29 viene ridottodi 2 dB, e così via. In questo modotutti i programmi vengono riprodottiallo stesso valore di loudness equiva-lente, pari a -31 dB. Come detto, va-ri broadcasters stanno segnalando allaDolby che questo genera discontinui-tà di volume tra programmi con Me-tadata e programmi senza (questi ul-timi generalmente hanno loudness paria -25): Pertanto la Dolby sta lavoran-do alla possibilità di introdurre una re-golazione di guadagno sui decoder do-mestici in modo da compensare questedifferenze.

3. Nelle specifiche SKY Italia, si richiededi masterizzare pubblicità e promo conloudness Short Term incluso tra -25 e-23 Leq(A). E’ fondamentale ricorda-re che lo Short Term misura gli ultimi10 secondi del segnale, e di questi dàuna media, aggiornando continuamen-te la sua misura. Oltre alle misurazio-ni Loudness, le specifiche impongonodi contenere anche i livelli elettrici en-tro precisi margini, rispettando i quali èimpossibile fare ciò che ipotizzavi nellatua mail. Sono comunque consentiteescursioni di volume, a patto che rien-trino nei margini stabiliti. Escludo co-munque uno scenario come quello de-scritto, dato che il primo e solo obiet-tivo dei pubblicitari è quello di vende-re bene il loro prodotto nel brevissimotempo messo a loro disposizione.

Successivamente, dopo una fase di studio di un

documento fornitoci da Mauro Falcone, si pensa dianalizzare statisticamente la distribuzione dei livelliin un film, e Corelli in “aes 2 mo 070605210230”scrive:

Riguardo al problema della finestra (e li-mitiamoci a quella rettangolare, perché cisarebbe da discutere anche su questo) del-la misura RMS (o altro tipo) per ottene-re il grafico della distribuzione dei livelli diun programma audio, ho pensato a lungo.Per dimostrare quanto sia importante e in-fluente sulla forma del grafico che si ottiene,considerate ad esempio i seguenti casi:

• Una sinusoide a 20 Hz, a livello y,udibilissima se il sistema d’ascolto lopermette, con una finestra ben su-periore a 50 millisecondi mi porteràad un istogramma che indica appun-to una componente sola a livello y ebasta. Bene. Se la finestra è inferioreavremo un disastro, ovvero tutt’altradistribuzione!

• Se la finestra di tempo è pari all’in-tero programma abbiamo un solo va-lore, ossia una distribuzione piatta dilivello pari all’RMS medio dell’interoprogramma. Viceversa se la finestradi tempo è grande quanto un singo-lo campione, abbiamo una distribuzio-ne molto variegata anche con una solasinusoide.

Quel che dobbiamo chiederci è: qual’è lafinestra giusta per i nostri scopi? Sicura-mente superiore a 50-70 ms per evitare checomponenti audio possibilissime (come unDO basso di un organo a canne (16 Hz))creino problemi.Scendiamo più in profondità... a noi serveuna finestra tale che renda MOLTO similii grafici di programmi audio di varia prove-nienza, a meno di una traslazione, che è ilvalore di normalizzazione che cerchiamo!E il Travaglini pare averlo trovato, con fi-nestra appunto ESAGERATA, pari all’interoprogramma, e pari a -25 dB FS. Tuttavia lamedia RMS su tutto il programma, pesato

14

A, vale per buona parte dei programmi au-dio, ma non per quelli un po’ estremi... tipofilm MOLTO AGITATI.Penso che si potrebbe perfezionare il tuttose prelevassimo solo il canale centrale, even-tualmente estraendolo con dolby decoder dasegnali stereo LR, perché esclude buona par-te della musica e un po’ di effetti (tipo terre-moti o roba imprevedibile che va sull’LFE).Insomma contiene quasi soprattutto dialo-ghi e quindi è un canale maggiormente utilecome riferimento per dedurre il livello a cuideve stare il programma.Allora urge un test: prendere una decina difilm, tutti missati di norma nelle stesse con-dizioni di livello e di timbrica, cosa verifica-bile ascoltandoli ad orecchio, e verificare sehanno tutti lo stesso valore RMS medio pe-sato A sul canale CENTRALE. In tal casoprendere tale tecnica come valida proceduranormalizzante.Poi bisogna adattare i programmi alla dina-mica del mezzo, e all’abitudine ad ascoltarea 15 dB di attenuazione. Ovvero bisognaapplicare la compressione sui segnali forti eun innalzamento sui segnali deboli. Cosache Dolby prevede e rende possibile nei let-tori DVD. Più un po’ di effetto LOUDNESSgonfiando soprattutto i bassi.Ok, erano un po’ di ragionamenti post ce-nam... appunti al volo da discutere e su cuiragionare meglio.

Mauro Falcone ci informa riguardo agli studi diAGCOM per il loudness televisivo in “R: aes 2 mo070726103000 delibera AGCOM su volume TV”:

Gentilissimi Colleghi,vi informo che l’Agenzia per le garanzie nel-le Comunicazioni (AGCOM), ha finalmentedeliberato relativamente al problema del vo-lume televisivo delle pubblicità, instaurandoun tavolo tecnico sull’argomento.L’Agenzia tipicamente contatta le direzio-ni delle Emittenti che conseguentemente in-staurano internamente le procedure di ade-sione. Tuttavia credo sia bene da parte ditutti voi, seguire questa cosa nell’interesse

di tutta la comunità tecnica scientifica, espero di trovarvi numerosi a contribuire intale ambito istituzionale. nel testo della de-libera trovate tutte le indicazioni e le perso-ne da contattare in AGCOM per eventualiinformazioni.Vi comunico infine che la delibera AGCOMè stata pubblicata sulla Gazzetta UfficialeGU n.170 del 24 Luglio 2007, e che quindii 30 giorni citati nella delibera scattano datale data.Anche sulla base di questo interesse vor-rei rilanciare l’idea di organizzare un work-shop sull’argomento in AES ed eventual-mente estenderlo ad altre associazioni inte-ressate. Ovviamente a maggior ragione ri-lancio la volontà di organizzare un incontroinformale tra tutti noi per parlare un po-co a ruota libera sul problema e su comeaffrontarlo.Vi auguro un felice periodo di vacanza, o dilavoro per chi avesse gia usufruito o avessespostato in tarda estate il meritato riposo.Qui trovate la delibera in questione, sitoAGCOM: http://www.agcom.it/provv/d_50_07_CSP.htm

...Se volete, per vostra convenienza, qui trova-te un mio zip con tutti i documenti AGCOMe della GU già organizzati. http://www.fub.it/voice/temp/AGCOMSPOT.zip

Il 13 maggio 2008 le comunicazioni (per ora) siconcludono, con una segnalazione da parte di Si-mone del sito web http://www.orban.com/meter/dove sono presenti softwares di misura (pare stiaper rendersi disponibile anche un Dolby Digital Me-ter, versione software del LM100, disponibile sia instand-alone che come plug-in RTAS, e va citato an-che TC Electronic LM5, plug-in Pro Tools TDM)ed alcuni interessanti documenti sulla proble-matica (http://www.orban.com/support/orban/techtopics/). In uno di questi leggiamo:

1. L’attuale tecnologia per il controllo automa-tico del loudness può controllare efficacemen-te tale parametro, ma introduce inevitabil-mente come effetto secondario una notevolelimitazione della dinamica.

15

http://www.agcom.it/provv/d_50_07_CSP.htm

http://www.agcom.it/provv/d_50_07_CSP.htm

http://www.fub.it/voice/temp/AGCOMSPOT.zip

http://www.fub.it/voice/temp/AGCOMSPOT.zip

http://www.orban.com/meter/

http://www.orban.com/support/orban/techtopics/

http://www.orban.com/support/orban/techtopics/

2. Per il materiale ben missato si consiglia di di-sinserire il controllo automatico di loudness.Altro materiale, come le news o i programmisportivi, non possono essere curati non aven-do tempo a disposizione, e perciò un controlloautomatico del loudness è consigliabile.

3. In generale, quando è richiesto un risultato divalore, non è per ora possibile fare a menodell’intervento umano, in quanto solo gli uma-ni sono in grado di valutare le sottigliezze delcontesto.

L’ultima osservazione suggerirebbe di studiare lapossibilità di sostituire i processori di loudness conalcune persone che a turno valutino ogni program-ma ascoltandone alcuni punti a campione per de-ciderne il volume corretto. Dato che per ogni pro-gramma sono probabilmente necessari non più di30 secondi per effettuare l’operazione, in media, sideduce che l’ipotesi non sia affatto da trascurare.Per la prosecuzione dei lavori è necessario che un

tesista con capacità informatiche ci coadiuvi svilup-pando un semplice software per rilevare la distribu-zione statistica di picchi, RMS e altri tipi di misuraaudio, con finestra d’integrazione a scelta, di filesaudio mono o stereo. L’utilizzo di tale software ap-plicato a mix e premix vari porterà a conclusioniimportanti.

Riferimenti bibliografici[1] Alessandro Travaglini - Sky Italia, “Specifiche

tecniche per materiale audio-video”.

[2] G. Martinelli, S. Corelli, “La costruzione delsuono per l’immagine cinematografica: dallapresa diretta al mixage, ed il rapporto conl’ambiente home-theater”, paper 05001 AESitaliana, presentato al SIB di Rimini nell’ambi-to della conferenza “Multichannel Audio: perl’immagine e per il suono”, Marzo 2006.

[3] S. Klar, G. Spikofski, “On levelling and loud-ness problems at television and radio broad-cast studios”, AES Paper 5538 - Presentato al-la 112esima Convention AES del Maggio 2002,Monaco, Germania.

[4] N.H.C. Gilchrist, “DRACULA: Dynamic Ran-ge Control for Broadcasting and Other Ap-

plications”, BBC Research and DevelopmentReport no. 1994/13 (1994).

[5] N.A.F. Cutmore, “Dynamic range control ina multichannel environment”, JAES, aprile1998, volume 46, numero 4, pp.341-347.

[6] Neville Thiele, “Some thoughts on the dy-namics of reproduced sound”, JAES, Gen-naio/Febbraio 2005, volume 53, numero1/2.

[7] J. Couling, “TV Loudness: Time for a NewApproach?”.

[8] Raccomandazione ITU-R BS.17705, “Algori-thms to measure audio programme loudnessand true-peak audio level”.

[9] J. P. Moerman, “Program Loudness: Nuts &Bolts”, Convention Paper 6436, presentato al-la 118esima AES Convention, Maggio 2005,Barcellona, Spagna.

[10] J. Couling e D. Pope, “Reducing LoudnessVariation on Broadcast Services by UtilisingAutomatic Speech Detection”.

[11] T. Lund, “Control of Loudness in Digital TV”.

[12] J. C. Riedmiller, S. Lyman, C. Robin-son, “Intelligent Program Loudness Measu-rement and Control: What Satisfies Liste-ners?”, presentato alla 115esima Conventiondell’AES - Ottobre 2003, New York, StatiUniti d’America.

[13] M. Falcone, A. Barone, A. Bonomi, G. Mo-naco, D. Ciavatta,“Abbassa quello spot, perfavore!”.

[14] Alessandro Travaglini, “Broadcast Loudness:Mixing, Monitoring and Control”, Conven-tion Paper 7044, presentato alla 122esima AESConvention, Maggio 2007, Vienna, Austria.

[15] S. Corelli, F. Felici, G. Martinelli, “Elementidi Cinematografia Sonora”, Edizioni Lambda,(Italia, 2006).

5A fine Maggio il gruppo ITU che cura il tema Loudnesssi è riunito ed ha prodotto due nuovi draft documents, le cuiversioni definitive integreranno la 1770.

16

Messa in onda e loudness.

Documents

Transcript of Messa in onda e loudness.