Tesi di Laurea - CORE · Nei Paesi occidentali rappresenta, per incidenza e ... dopo quello della...

114
1 UNIVERSITÀ DEGLI STUDI DI PISA Facoltà di Ingegneria Corso di Laurea Magistrale in Ingegneria Biomedica Tesi di Laurea Sviluppo di metodi per l’analisi in real-time di immagini endoscopiche Relatore: Candidato: Ing. Nicola Vanello Domenico Colella Anno Accademico 2012/2013

Transcript of Tesi di Laurea - CORE · Nei Paesi occidentali rappresenta, per incidenza e ... dopo quello della...

1

UNIVERSITÀ DEGLI STUDI DI PISA

Facoltà di Ingegneria

Corso di Laurea Magistrale in Ingegneria Biomedica

Tesi di Laurea

Sviluppo di metodi per l’analisi in real-time di

immagini endoscopiche

Relatore: Candidato:

Ing. Nicola Vanello Domenico Colella

Anno Accademico 2012/2013

2

INDICE

INDICE ................................................................................................................ 2

INTRODUZIONE .................................................................................................. 5

CAPITOLO 1

Endoscopia e tecniche di image enhancement ................................................... 8

1.1 Cancro del colon-retto .................................................................................. 8

1.2 Endoscopia ................................................................................................. 10

1.2.1 Colonscopia .......................................................................................... 10

1.3 Endoscopia potenziata o image-enhanced endoscopy (IEE) ........................ 12

1.3.1 Cromoendoscopia (CE) ......................................................................... 13

1.3.2 Endoscopia zoom e con magnificazione d’immagine ........................... 14

1.3.3 Cromoendoscopia virtuale (CVC) .......................................................... 15

1.3.3.1 Narrow Band Imaging (NBI) ........................................................... 16

1.3.3.2 Fujinon Intelligent Color Enhancement (FICE) ................................. 18

1.3.3.3 I-Scan.............................................................................................. 20

1.3.4 Endoscopia ad autofluorescenza (AFI) .................................................. 22

1.3.5 Endomicroscopia confocale laser (CLE) ................................................ 23

1.3.6 Endocitoscopia ..................................................................................... 24

CAPITOLO 2

Il sistema di acquisizione .................................................................................. 25

2.1 Sonda ......................................................................................................... 26

2.2 Software ..................................................................................................... 28

2.2.1 Visual Studio ........................................................................................ 28

2.2.2 Librerie ................................................................................................. 28

2.2.2.1 Qt ................................................................................................... 29

2.2.2.1.1 Qt in Visual Studio ..................................................................... 29

2.2.2.1.2 Signals and slots ....................................................................... 30

3

2.2.2.2 OpenCV .......................................................................................... 32

2.2.2.3 Da Qt a OpenCV .............................................................................. 33

CAPITOLO 3

Realizzazione dell’interfaccia grafica ................................................................ 36

3.1 GUI per analisi statica ................................................................................. 36

3.1.1 Label e immagini .................................................................................. 36

3.1.2 Caricamento, pulizia e salvataggio ....................................................... 37

3.1.3 Luminosità ........................................................................................... 38

3.1.4 Sfocatura e affilatura ............................................................................ 40

3.1.5 Rilevamento di bordi ............................................................................ 42

3.1.6 Sogliatura ............................................................................................. 47

3.1.7 Divisione e unione dei canali ................................................................ 49

3.1.8 Istogramma .......................................................................................... 55

3.1.9 Sottocampionamento .......................................................................... 56

3.1.10 Tempo e dimensioni ........................................................................... 56

3.2 GUI per analisi in real-time ......................................................................... 58

3.2.1 Concetto di tempo reale ...................................................................... 58

3.2.2 Struttura della GUI ............................................................................... 60

3.2.3 Pulsanti e operazioni ............................................................................ 61

3.2.3.1 Screenshot ...................................................................................... 62

3.2.3.2 Modalità A e B ................................................................................ 62

CAPITOLO 4

Proprietà ottiche del colon ed enhancement dell’immagine ............................ 64

4.1 Interazione della luce con il colon .............................................................. 64

4.3 Effetto dei parametri del modello sullo spettro riflesso ............................. 67

4.3 Immagine digitale a colori .......................................................................... 70

4.4 Enhancement dell’immagine ...................................................................... 73

4.4.1 Canale R ............................................................................................... 73

4

4.4.2 Canali G e B .......................................................................................... 79

4.5 Contrasto nelle immagini a colori ............................................................... 84

4.5.1 Criterio di ottimizzazione ..................................................................... 85

4.6 Enhancement dei dettagli ........................................................................... 88

CAPITOLO 5

Validazione e risultati ....................................................................................... 90

5.1 Test sperimentale ....................................................................................... 90

5.2 Domande .................................................................................................... 92

5.3 Raccolta dei dati ......................................................................................... 93

5.4 Presentazione dei dati ................................................................................ 93

5.4.1 Anomalie superficiali ............................................................................ 94

5.4.2 Trama vascolare ................................................................................... 96

5.4.3 Aspetto generale .................................................................................. 99

5.5 Analisi statistica ........................................................................................ 101

5.5.1 Test di Kruskal-Wallis ......................................................................... 102

5.5.2 Test dei ranghi con segno di Wilcoxon ............................................... 104

5.6 Discussione ............................................................................................... 105

CONCLUSIONI ................................................................................................ 108

BIBLIOGRAFIA ................................................................................................ 112

RINGRAZIAMENTI .......................................................................................... 114

5

INTRODUZIONE

L’obiettivo del presente lavoro è di sviluppare un sistema per l’elaborazione di

immagini endoscopiche in tempo reale, cioè in contemporanea all’esecuzione

della procedura diagnostica.

La tesi è stata svolta in collaborazione con l’azienda Era Endoscopy S.r.l., con

sede a Peccioli (Pisa), specializzata nella ricerca, lo sviluppo e la

commercializzazione di dispositivi medicali dalle eccellenti performance in

termini di sicurezza e assenza di dolore.

Il cancro del colon-retto è la più frequente neoplasia (tumore maligno)

dell'apparato gastrointestinale e in assoluto una delle principali cause di morte

per cancro. Nei Paesi occidentali rappresenta, per incidenza e mortalità, il

secondo tumore maligno nella donna, dopo quello della mammella, e il terzo

nell'uomo, dopo quello del polmone e della prostata. Si stima che in Italia

colpisca circa 40.000 donne e 70.000 uomini ogni anno.

L'evoluzione del cancro del colon-retto è lenta, per questo motivo lo screening

è uno strumento importante per la diagnosi precoce e per l’organizzazione

della strategia terapeutica. In questo senso l’endoscopia convenzionale svolge

un ruolo decisivo.

Tuttavia, la necessità di una precocità sempre crescente nel rilevamento di

neoplasie, unita al desiderio di un migliore riconoscimento di tali lesioni

maligne, talvolta difficili da distinguere da analoghe manifestazioni cliniche

come infiammazioni o traumi, ha accelerato lo sviluppo di nuove tecnologie

nell’ambito dell’endoscopia digestiva. Ciò ha portato alla nascita della

cosiddetta “endoscopia potenziata” o image-enhanced endoscopy (IEE).

In questo contesto di progresso tecnologico si inserisce il presente lavoro, che

ha come oggetto il sistema Endotics, un rivoluzionario dispositivo endoscopico

6

completamente monouso e dall’esclusivo meccanismo di avanzamento

robotico. In particolare, l’attività di sviluppo si concentra sulla componente

software, cioè sull’elaborazione digitale di immagini allo scopo di creare un

sistema di visione migliorata che possa aiutare il medico nella caratterizzazione

delle lesioni del colon e quindi in una diagnosi differenziale e precoce.

Inizialmente è stata creata un’interfaccia grafica (GUI) che permettesse di

lavorare con immagini “statiche”, cioè con fotogrammi (frame) estratti da un

esame video-endoscopico, allo scopo di consentire un’analisi preliminare del

problema.

In seguito, la collaborazione con medici endoscopisti ha permesso di

individuare alcuni criteri per la realizzazione di un’interfaccia semplice e

funzionale da utilizzare durante la scansione endoscopica sul paziente. Ciò ha

condotto allo sviluppo dell’interfaccia grafica per l’elaborazione in tempo reale.

Prima di intervenire su quest’ultima è stato necessario approfondire la

conoscenza del colon e delle sue proprietà ottiche. A tale scopo è stata svolta

un’accurata ricerca sull’argomento in letteratura, da cui sono emerse le

principali caratteristiche del tessuto dal punto di vista clinico, e si è appreso

come modellizzarlo affinché le sue proprietà ottiche dipendessero da pochi

semplici parametri.

Alla luce di queste conoscenze fisico-anatomiche e dei principi di acquisizione

dell’immagine digitale a colori, è stato proposto un metodo di elaborazione in

real-time basato sull’applicazione di curve di tono ai tre canali dell’immagine

digitale (RGB).

Tale metodo tiene conto sia degli aspetti teorici, legati alle diverse proprietà di

penetrazione e assorbimento nel colon delle varie regioni spettrali della luce,

sia di un criterio sperimentale di ottimizzazione delle suddette curve, basato

sulla massimizzazione di un indice di contrasto.

7

Una volta definito e ottimizzato il sistema di elaborazione, è stato necessario

validarlo, verificando che la soluzione proposta apportasse reali miglioramenti

all’immagine, nella prospettiva di fornire un concreto supporto diagnostico.

Si è imposta quindi la necessità di intervistare un certo numero di medici

endoscopisti, sottoponendoli a un test opportunamente sviluppato. A tal fine,

ci si è recati al 20° Congresso Nazionale delle Malattie Digestive, svoltosi a

Napoli dal 14 al 22 marzo 2014 presso la Mostra d’Oltremare.

Complessivamente sono stati intervistati quattro medici endoscopisti. Le

risposte sono state raccolte e presentate sotto forma di tabelle, grafici e

istogrammi. Infine, i dati sono stati sottoposti a test statistici.

Il Capitolo 1 introduce il problema del cancro del colon-retto, descrive la

procedura endoscopica in ambito digestivo e le tecnologie attualmente

esistenti di endoscopia potenziata (image-enhanced endoscopy).

Nel Capitolo 2 è descritto il sistema di acquisizione, con un accenno alla sonda

endoscopica e particolare attenzione al software, costituito dall’ambiente di

sviluppo e dalle librerie necessarie all’acquisizione ed elaborazione delle

immagini.

Nel Capitolo 3 è esposta la procedura di realizzazione delle due interfacce

grafiche (quella per analisi “statica” e quella in real-time) e sono analizzati in

dettaglio i singoli componenti (widget) e la loro funzione.

Il Capitolo 4 descrive le proprietà ottiche della mucosa colica, i principi di

acquisizione dell’immagine digitale e il problema del contrasto nelle immagini a

colori. Nello stesso capitolo è presentato un metodo di elaborazione in real-

time basato sull’applicazione di curve di tono ai tre canali dell’immagine (RGB)

ed è proposto un criterio sperimentale di ottimizzazione delle suddette curve.

Nel Capitolo 5, infine, è descritto il test sperimentale di validazione sottoposto

ai medici endoscopisti e sono mostrati i dati raccolti e i risultati dei test

statistici, accompagnati da relativa analisi e discussione.

8

CAPITOLO1

Endoscopiaetecnichediimageenhancement

Per affrontare al meglio le sfide che il presente lavoro impone, è importante

conoscere a grandi linee il background medico e tecnologico su cui esso si

innesta. Innanzitutto, è necessario comprendere la patologia di interesse,

ovvero il cancro del colon-retto, con particolare riguardo alla sua formazione,

evoluzione e ai problemi connessi con la sua diagnosi precoce. In secondo

luogo, è essenziale avere un quadro generico completo delle tecnologie

attualmente in uso nelle aziende ospedaliere, e quelle ancora in fase di ricerca

o sviluppo.

1.1Cancrodelcolon-retto

Il carcinoma del colon-retto (CRC) è il tumore maligno più frequente originato

nel colon, nel retto e nell'appendice. Con 610.000 morti all'anno nel mondo, è

la quarta più comune forma di cancro. La malattia, abbastanza rara prima dei

40 anni, è sempre più frequente a partire dai 60 anni, raggiunge il picco

massimo verso gli 80 anni e colpisce in egual misura uomini e donne.

L'incidenza del cancro del colon-retto è più alta nei paesi sviluppati

(occidentali) e più bassa in paesi come Africa e Asia. Secondo l’American Colon

Cancer Society, ciò è dovuto principalmente allo stile di vita, cioè a fattori come

obesità, alto consumo di grassi, fumo e alcool, che ne aumentano

drasticamente il rischio. Tuttavia anche altri elementi, come la storia medica

della famiglia e il patrimonio genetico, possono aumentare le probabilità di

contrarre questa patologia.

9

La quasi totalità dei carcinomi del colon-retto si sviluppa da una lesione

preesistente, inizialmente benigna, chiamata polipo adenomatoso (adenoma).

Esso è una protrusione della mucosa del colon ed è formato dalle stesse sue

cellule che si moltiplicano in maniera incontrollata. Il polipo inizia come

benigno per poi evolvere in maligno quando, oltre la mucosa, questa

proliferazione spontanea comincia a invadere anche gli strati sottostanti

(sottomucosa, muscolare, sierosa) e gli organi vicini. È stato calcolato che

occorre un periodo dai 10 ai 15 anni perché un adenoma si trasformi in cancro

invasivo.

Figura 1 Evoluzione del cancro del colon-retto.

Attualmente, il gold standard per la diagnosi precoce di questo tumore, oltre

che per il trattamento non invasivo (non chirurgico) degli stessi polipi non

ancora degenerati, è costituito da un esame molto diffuso, nonché molto

potente, cioè l’endoscopia.

10

1.2 Endoscopia

L’endoscopia (dal greco èndon, “dentro” e skopê, “osservazione”) è, in

generale, una tecnica di esplorazione che permette al medico di visualizzare

cavità interne del corpo. Essa si serve di uno strumento, chiamato endoscopio,

definibile in prima approssimazione come un tubo, rigido o flessibile, munito di

una telecamera che trasmette le immagini a uno schermo.

L'endoscopia è normalmente impiegata in diagnostica, ma può essere utilizzata

anche per l'esecuzione di piccoli interventi terapeutici (in questo caso

l’endoscopio dovrà essere dotato di attuatori), oppure come strumento di

supporto durante un intervento chirurgico.

In base al particolare organo o apparato d’indagine, l’endoscopia assume un

nome specifico, ad esempio: la laringoscopia permette di visualizzare la laringe

e le corde vocali; la fibroscopia consente di osservare la trachea e i bronchi; la

laparoscopia esplora la membrana che riveste la cavità addominale, la

superficie del fegato e la cistifellea; l’amnioscopia è l’esame del liquido

amniotico nel quale è immerso il feto; l'artroscopia permette di osservare le

articolazioni; infine, l’esofagogastroduodenoscopia e la colonscopia consentono

di osservare il tubo digerente superiore e inferiore.

1.2.1 Colonscopia

La colonscopia (o coloscopia) è una procedura diagnostica finalizzata alla

visione diretta delle pareti interne del colon. A tale scopo si utilizza una piccola

sonda flessibile (chiamata colonscopio) munita di telecamera all'apice, inserita

previa lubrificazione per via anale e poi fatta risalire pian piano nel retto e negli

altri tratti dell'intestino crasso fino all'ultimo tratto dell'intestino tenue,

chiamato ileo, per poi essere ritirata con delicatezza.

11

Figura 2 Strumenti e procedura colonscopica.

Per garantire una migliore visualizzazione della mucosa, durante la colonscopia

si rende necessaria la distensione delle pareti intestinali. Questo effetto è

ottenuto insufflando anidride carbonica attraverso il colonscopio, un

procedimento che può risultare in alcuni casi fastidioso o doloroso.

Il colonscopio, oltre a fungere da videocamera e insufflare aria, può

all’occorrenza pulire le pareti del colon con acqua, aspirare il contenuto

intestinale o fungere da veicolo di strumenti chirurgici con cui eseguire prelievi

di tessuto o asportare polipi. La colonscopia, quindi, non ha fini esclusivamente

diagnostici, ma può essere utilizzata anche per eseguire biopsie e piccoli

interventi terapeutici. Tuttavia, la sua applicazione principale rimane l'indagine

dello stato di salute delle pareti interne della mucosa, al fine di individuare

eventuali lesioni, ulcerazioni, occlusioni o masse tumorali.

Durante l’esame il paziente si mantiene sdraiato sul fianco, ma può essere

invitato dal medico a eseguire piccoli movimenti. Vengono generalmente

somministrati antidolorifici e tranquillanti per rendere più confortevole l'esame

e attenuare le sensazioni spiacevoli. Nel complesso, l'indagine si protrae per

circa 30-40 minuti.

12

La colonscopia è un esame diagnostico a basso rischio, ma possono comunque

verificarsi complicazioni a causa dei sedativi utilizzati durante l'esame,

dell'accidentale perforazione del colon o dell'eventuale sanguinamento in

seguito alla rimozione di polipi o altri tessuti anomali. La complicanza più grave

è la perforazione del colon, che richiede un immediato intervento di chirurgia.

Eventuali perdite di sangue possono invece essere arrestate mediante

cauterizzazione già durante la colonscopia. Le altre complicazioni riguardano

l'effetto dei farmaci sedativi su persone a rischio, come i cardiopatici.

1.3 Endoscopia potenziata o image-enhanced

endoscopy (IEE)

I recenti progressi tecnologici applicati al campo dell’endoscopia digestiva

hanno consentito un notevole potenziamento dell’immagine che ha permesso,

a sua volta, di migliorare lo studio sia di superficie (visione magnificata della

mucosa e delle sue lesioni) che di profondità (valutazione della trama vascolare

sottomucosa e delle sue anomalie), con il fine ultimo di perfezionare

l’identificazione e la caratterizzazione delle lesioni neoplastiche (maligne)

precoci dell’apparato digerente [1] [2].

L’endoscopia potenziata richiede apparecchiature più costose di quelle

ordinarie e una specifica esperienza dell’operatore che tuttavia non possono

prescindere da un’accurata esplorazione endoscopica volta a identificare già

con la visione standard (senza ingrandimento di alcun genere e in luce bianca)

quelle minime alterazioni mucosali come aree di discromia (pallore focale,

eritema), di irregolarità della superficie (rilevate o depresse), convergenze

plicali o aree in cui il pattern vascolare della mucosa appare interrotto. In tali

casi l’operatore può spingersi in uno studio più approfondito mediante

tecniche di imaging avanzato.

13

Sebbene alcune ricerche, su casistiche limitate, suggeriscano un vantaggio

nell’identificazione di lesioni polipoidi di piccole dimensioni, importanti studi

prospettici più recenti hanno dimostrato che con le tecniche di magnificazione

e cromoendoscopia virtuale non c’è un vantaggio nell’identificazione di lesioni

adenomatose rispetto alla colonscopia standard. Pertanto, si può affermare

che il principale campo di applicazione delle tecnologie alla base

dell’endoscopia potenziata, più che l’identificazione delle lesioni precoci del

colon, sia soprattutto la loro caratterizzazione (diagnosi differenziale fra lesioni

neoplastiche e non neoplastiche, presunzione di malignità e infiltrazione

sottomucosa della parete).

Le tecnologie in questione, che consentono di migliorare la visione endoscopica

standard aumentando il contrasto tra una lesione e la mucosa circostante o

enfatizzando la microvascolarizzazione sottomucosa, comprendono l’ormai

consolidata Cromoendoscopia con zoom o magnificazione, la Cromoendoscopia

Virtuale (o Computed Virtual Chromoendoscopy), l’Autofluorescenza,

l’Endomicroscopia Confocale Laser e l’Endocitoscopia [3] [4] [5] [6].

1.3.1 Cromoendoscopia (CE)

La cromoendoscopia (CE) è una tecnica di imaging endoscopico tradizionale

che si serve di coloranti applicati per via topica durante la colonscopia, in modo

da facilitare la caratterizzazione e differenziazione dei tessuti.

Diversi coloranti sono stati utilizzati nei trial clinici, ma quelli più noti sono il blu

di metilene e l'indigo carminio. Il blu di metilene è assorbito dalla mucosa

normale ma non da quella infiammata o neoplastica, e perciò le distingue,

mentre l’indigo carminio non viene assorbito dai colociti ma si distribuisce tra le

cripte del colon mettendo in risalto le alterazioni infiammatorie o neoplastiche

della mucosa.

14

Figura 3 Cromoendoscopia.

La distinzione delle aree sospette permette l'esecuzione di biopsie mirate,

limitandone in tal modo il numero.

I limiti di questa tecnica, la cui validità è stata dimostrata invariabilmente da

numerosi studi prospettici randomizzati, risiedono nell’allungamento della

durata dell’esame, nella necessità di adeguata formazione da parte

dell’operatore e in alcune problematiche legate ai coloranti, come il fatto che

non sempre si distribuiscono equamente in tutta la superficie della mucosa.

1.3.2 Endoscopia zoom e con magnificazione

d’immagine

Questa forma di endoscopia può essere realizzata con strumenti dedicati di due

differenti tipi: gli endoscopi zoom e quelli a magnificazione.

Gli endoscopi zoom hanno la capacità di eseguire un ingrandimento ottico

dell’immagine fino a 150 volte attraverso l’impiego di un sistema di lenti mobili

controllate dall’operatore e sono dotati di un sistema di messa a fuoco

regolabile. Il meccanismo riproduce, in pratica, quanto avviene in un obiettivo

fotografico zoom, modificando la distanza focale, o quanto avviene in un

15

microscopio ottico. L’ingrandimento avviene quindi prima che l’immagine vada

a impressionare i pixel del CCD (Charge Coupled Device) dell’endoscopio.

Gli endoscopi a magnificazione d’immagine, invece, generano un

ingrandimento elettronico, partendo dall’immagine già registrata in precedenza

dal CCD nelle sue dimensioni reali e ingrandendola in seguito.

In conclusione, la tecnologia ottica (zoom) produce immagini a maggior

risoluzione, mentre quella elettronica (magnificazione) ha la tendenza a

generare immagini più sgranate. Ad ogni modo, quale che sia la tecnologia

(ottica o elettronica) che genera le immagini magnificate, queste permettono

una dettagliata visualizzazione della microstruttura superficiale della mucosa,

consentendo lo studio della disposizione spaziale degli orifizi delle cripte

ghiandolari (pit pattern).

Sebbene i risultati diagnostici endoscopici non sostituiscano la valutazione

istologica, sono tuttavia in grado di anticipare la natura istologica della lesione

studiata e quindi di orientare l’approccio terapeutico. Esiste, infatti, un

notevole agreement in mani esperte fra morfologia degli sbocchi delle cripte

ghiandolari e caratteristiche istologiche della lesione studiata.

1.3.3 Cromoendoscopia virtuale (CVC)

Il successo e i limiti della cromoendoscopia classica hanno portato allo sviluppo

della cosiddetta “cromoendoscopia virtuale o digitale”, ovvero di tecnologie

che cercano di ottenere una simile risoluzione e contrasto della mucosa, senza

tuttavia ricorrere all'utilizzo di coloranti topici [7].

La Computed Virtual Chromoendoscopy (CVC) è una metodica di imaging

endoscopico real-time on-demand che, modificando le caratteristiche

spettroscopiche del sistema di video-endoscopia utilizzato, consente di

16

migliorare la visualizzazione del network vascolare sottomucoso e della trama

mucosale superficiale.

Il grosso vantaggio della CVC rispetto alla cromoendoscopia tradizionale

consiste in una più semplice e rapida valutazione, giacché richiede solo la

pressione di un pulsante che attiva o disattiva la funzione. Vengono così

notevolmente ridotti i tempi dell'esame endoscopico mantenendo la stessa

qualità d’immagine e gli stessi risultati in termini di rilevamento delle lesioni.

Diversi studi hanno dimostrato la capacità della CVC nel differenziare una

lesione neoplastica da una non neoplastica, e nel predire il livello di

infiltrazione sottomucosa di lesioni neoplastiche precoci.

Attualmente si hanno a disposizione tre sistemi di CVC: il Narrow Band Imaging

(NBI) della Olympus Corporation (Giappone), il Fujinon Intelligent Color

Enhancement (FICE) della Fujinon (Giappone) e l’I-Scan della Pentax

(Giappone).

1.3.3.1 Narrow Band Imaging (NBI)

Il Narrow Band Imaging (NBI), cioè “imaging a banda ristretta”, è un innovativo

sistema di tecnologia ottica che sfrutta le caratteristiche delle diverse

componenti spettrali della luce [8] [9] [10].

Rispetto a un normale apparato di video-endoscopia, esso possiede un sistema

di illuminazione dotato di filtri ottici che restringono il range frequenziale della

luce emessa nelle bande 400-430 nm (centrata a 415 nm, nel blu) e 525-555 nm

(centrata a 540 nm, nel verde).

Il principio fisico è quello della profondità di penetrazione della luce: a

differenza della banda rossa, la banda blu e quella verde hanno una minore

penetrazione nel tessuto e un minore scattering, determinando un’immagine

con risoluzione migliore. Inoltre, i due filtri sono progettati per corrispondere ai

17

due principali picchi di assorbimento dell’emoglobina (415 e 540 nm), in modo

tale che le strutture ad alto contenuto di questa proteina, come i capillari e le

vene, appaiano più scure rispetto alla mucosa circostante, che riflette la luce.

In particolare la luce blu, che ha una profondità di penetrazione minore,

migliora la visione della rete capillare superficiale, mentre la luce verde, che

penetra più in profondità, evidenzia la trama vascolare sottomucosa.

La luce riflessa è catturata dal charge-coupled device (CCD) e il processore

genera un’immagine a pseudo-colori in cui i capillari dello strato mucosale

superficiale vengono visualizzati in marrone mentre le vene della sottomucosa

vengono visualizzate in ciano.

Figura 4 Principio fisico del Narrow Band Imaging.

Poiché il cancro gastrointestinale si origina nella mucosa, l’utilizzo di luce a

banda ristretta e a corta lunghezza d’onda, che penetra esclusivamente nella

mucosa stessa, può essere di grande aiuto nell’individuazione di lesioni

potenzialmente pericolose. Tuttavia, il principale vantaggio di questa potente

tecnologia è di riuscire a enfatizzare l’architettura vascolare della mucosa.

Infatti, poiché i tumori hanno abbondanti vasi sanguigni e inducono

18

angiogenesi, il riconoscimento di un letto vascolare anormale può fornire

un’assistenza decisiva nella diagnosi precoce.

Figura 5 Immagine potenziata NBI.

1.3.3.2 Fujinon Intelligent Color Enhancement (FICE)

Il sistema FICE, piuttosto che filtri hardware, utilizza la tecnologia SET (Spectral

Extimation Technology), sviluppata dal prof. Yoichi Miyake della Facoltà di

Informatica dell’Università di Chiba, in Giappone [11]. I punti salienti

dell’applicazione endoscopica di tale tecnologia sono i seguenti:

• L’endoscopio produce un’immagine sul monitor dirigendo sul tessuto la luce

bianca proveniente da una lampada allo xeno e catturando la luce riflessa

con un dispositivo CCD.

• L’immagine endoscopica standard (RGB) è inviata allo Spectral Extimation

Matrix Processing Circuit del processore.

• Il processo di stima spettrale produce immagini di una determinata

lunghezza d’onda e le assegna selettivamente a uno dei canali RGB, secondo

la modalità di scansione prescelta.

• La ricostruzione dell’immagine finale dalle sue componenti RGB va a

costituire l’immagine potenziata FICE.

19

Figura 6 Principio del FICE.

L’elemento fondamentale e innovativo di questa metodica è costituito dal fatto

che, selezionando la lunghezza d’onda delle immagini da assegnare ai singoli

canali RGB, si possono ottenere teoricamente infiniti passa-banda.

Di default, il sistema FICE offre dieci set preimpostati, ognuno costituito da tre

lunghezze d’onda scelte per R, G, e B. Tuttavia, è possibile intervenire

manualmente modulando le singole lunghezze d’onda con un

incremento/decremento di 5 nm per volta, in modo da creare filtri

personalizzati da adattare alle specifiche necessità dell’impiego.

Dal momento che la diffusione e l’assorbimento della luce sono funzioni della

profondità del tessuto e della lunghezza d’onda, la modulabilità dei passa-

banda rende il sistema FICE l’unico in grado di lavorare, in maniera selettiva e

differenziata, sia a studi di superficie (range di 400-500 nm) sia a studi di

profondità (range di 550-695 nm).

20

Figura 7 Immagine potenziata FICE.

1.3.3.3 I-Scan

La tecnologia I-Scan, sviluppata dalla Pentax (Tokyo, Giappone), è una delle più

recenti tecniche di Image Enhancement [12] [13] [14] [15] [16].

Essa combina tre modalità di potenziamento dell’immagine: Surface

Enhancement (SE), Contrast Enhancement (CE), e Tone Enhancement (TE),

ovvero miglioramento di superficie, di contrasto e di tono.

• Con il Surface Enhancement è calcolata la differenza d’intensità tra i pixel

d’interesse e i pixel circostanti, cercando di esaltare le componenti di bordo.

Ciò consente un’osservazione più dettagliata della superficie della mucosa e

facilita l’individuazione di pericolosi cambiamenti strutturali.

• Con il Contrast Enhancement sono identificate le aree a bassa luminosità,

sulla base dell’intensità di alcuni pixel rispetto a quelli circostanti, e in tali

aree la componente B dell’immagine è esaltata tramite la leggera

soppressione delle componenti R e G. Come risultato, queste aree a bassa

luminosità (aree depresse) risultano caratterizzate da un colore bianco-

bluastro, evidenziando lievi irregolarità sulla superficie della mucosa.

• Con il Tone Enhancement l’immagine è scomposta digitalmente nelle sue tre

componenti (R, G e B). Ciascuna componente, così isolata, subisce una

conversione lungo una curva di tono. La re-sintesi delle tre componenti

modificate produce l’immagine finale migliorata. La curva di tono può

21

assumere varie forme, modificabili attraverso la variazione di alcuni

parametri. Attualmente, sono disponibili sei modalità di TE: TE-p (pattern),

TE-v (vascular), TE-b (Barrett), TE-e per l’esofago, TE-g per lo stomaco e TE-c

per gli intestini.

Figura 8 Principio del Tone Enhancement nell’I-Scan.

Grazie a un elaborato software di algoritmi funzionali in real-time, queste tre

modalità possono essere utilizzate singolarmente oppure abbinate tra loro.

Le tre funzioni, attraverso l'enfatizzazione dei bordi, del contrasto e la

colorazione virtuale, permettono una migliore osservazione della superficie

della mucosa (pattern) e della trama vascolare. Ciò facilita l’individuazione di

lievi irregolarità nell’architettura vascolare e mucosale che possono essere

indice di lesioni precancerose, anche di piccole dimensioni.

22

Figura 9 Immagine potenziata I-Scan.

1.3.4 Endoscopia ad autofluorescenza (AFI)

La tecnica di Autofluorescence Imaging (AFI), è basata sul fenomeno

dell’autofluorescenza: quando un tessuto è esposto a una luce a corta

lunghezza d’onda (390-470 nm), questa determina l’eccitazione di determinate

sostanze biologiche endogene (fluorofori), come ad esempio il collagene, con

conseguente emissione di una luce fluorescente di lunghezza d’onda maggiore.

In diversi processi patologici (flogosi, neoplasia) cambiano la concentrazione e

la distribuzione dei fluorofori nei tessuti e, di conseguenza, viene alterata la

fluorescenza endogena.

Sfruttando questo fenomeno in endoscopia digestiva, il sistema riproduce

un’immagine in cui il tessuto normale e i vasi appaiono di colore verde e verde

chiaro, mentre una lesione pre-cancerosa risulta di colore magenta.

Figura 10 Immagine potenziata AFI.

23

L’AFI è una tecnica molto affascinante, ma avendo molte limitazioni tecniche,

economiche e formative, attualmente è disponibile solo in alcuni centri terziari

di riferimento e può essere utilizzata solo all’interno di studi clinici.

1.3.5 Endomicroscopia confocale laser (CLE)

La Confocal Laser Endomicroscopy (CLE) è la più recente tra le tecniche di

imaging endoscopico.

Il termine “confocale” allude all’allineamento di entrambi i sistemi di

illuminazione e acquisizione, che giacciono, per l’appunto, sullo stesso piano

focale. Quindi, emettendo una luce laser monocromatica a bassa potenza è

possibile catturare immagini focalizzate su piani paralleli della mucosa.

La CLE viene anche chiamata “biopsia virtuale” perché permette

l’identificazione in vivo delle microstrutture cellulari e subcellulari e consente,

dunque, una diagnosi istologica in tempo reale.

Figura 11 Immagine potenziata CLE.

La CLE è una tecnica molto promettente per il futuro dei programmi di

screening. Tuttavia, uno dei maggiori limiti di questa metodica è il fatto che

analizza solo una piccola parte della mucosa alla volta, per cui deve essere

sempre associata ad altre tecniche e venire utilizzata in modo mirato su lesioni

sospette. Alcuni degli altri principali fattori che attualmente limitano questa

24

tecnica al solo uso in trial clinici in centri altamente specializzati sono i lunghi

tempi necessari per eseguire gli esami, il costo degli apparecchi, l'alta

esperienza richiesta, sia in endoscopia che in istologia, e gli aspetti medico-

legali legati alla diagnosi istologica fatta da un gastroenterologo non

confermata da un anatomopatologo.

1.3.6 Endocitoscopia

L'endocitoscopia è una nuovissima tecnica endoscopica che permette di

visualizzare strati più superficiali della mucosa, previa colorazione della stessa

con coloranti assorbibili come il blu di metilene o il cristal violetto.

L'endocitoscopo può essere integrato nello strumento endoscopico oppure

essere parte di una sonda che può passare attraverso il canale operativo.

Questa tecnica non è ancora disponibile commercialmente in Europa o negli

Stati Uniti, ma è ancora in fase di valutazione da parte degli endoscopisti

giapponesi.

25

CAPITOLO2

Ilsistemadiacquisizione

Il sistema che consente di ottenere le immagini si compone di tre elementi

fondamentali che costituiscono la catena di acquisizione: una sonda

endoscopica dotata di telecamera, un processore d’immagine e il terminale

finale costituito dal pc.

Tralasciando il processore d’immagine, che non riveste importanza nel

presente lavoro, ci si concentrerà sugli altri due. In particolare, in questo

capitolo è descritta la componente hardware, costituita dalla sonda

endoscopica, e la componente software, costituita dall’ambiente di sviluppo e

dalle librerie necessarie all’acquisizione ed elaborazione delle immagini.

Figura 12 Sistema di acquisizione.

26

2.1 Sonda

Come accade in robotica, dove spesso si trae ispirazione dalla cinematica delle

piante e degli animali, la sonda Endotics è stata ideata osservando i bruchi

geometridi. Essa procede autonomamente all’interno del colon mimando il loro

movimento, cioè adattando dinamicamente la sua forma alle pareti muscolari e

minimizzando le deformazioni violente e innaturali, inevitabili in un esame

endoscopico convenzionale.

Questo particolare tipo di locomozione soddisfa, al contempo, sia le esigenze

del paziente, eliminando il dolore e i rischi d’infezione e perforazione, sia quelle

del medico, limitando lo sforzo e prevenendo le malattie professionali.

Figura 13 Sonda Endotics.

Il dispositivo è monouso, morbido e flessibile. Un sistema elettro-pneumatico,

controllato via software, guida la sonda attraverso le anse intestinali,

eseguendo i comandi impartiti dall’utilizzatore tramite una console di

comando. La parte distale della sonda può essere orientata in ogni direzione ed

è dotata di telecamera CMOS integrata ad alta risoluzione che permette

un’ottima visione frontale e posteriore.

27

Le caratteristiche che rendono il dispositivo Endotics unico e innovativo nel

settore si riassumono in pochi semplici aggettivi:

• Indolore

Esso rende possibile una colonscopia non dolorosa senza ricorrere alla

sedazione. Poiché estremamente flessibile, avanza senza deformare il colon,

senza creare loop o provocare lo stiramento dei mesenteri. Inoltre, utilizza

la quantità minima di aria necessaria alla sola diagnosi.

• Sicuro

Poiché semiautonomo, esso previene i rischi di perforazione strettamente

correlati all’azione di spinta tipica dei colonscopi convenzionali. Giacché

sterile e monouso, garantisce l’eliminazione dei rischi di contaminazione

crociata. Inoltre, il sistema di guida, basato su tecnologia joystick, permette

al medico di assumere una postura corretta durante l’ispezione

endoscopica.

• Facile

Il dispositivo è monouso e pronto da usare grazie ad un connettore a

innesto rapido alla workstation. La curva di apprendimento è veloce poiché

si acquisiscono facilmente la perizia e l'abilità necessarie a un utilizzo

ottimale.

• Efficiente

La procedura endoscopica non richiede assistenza ed elimina i costi relativi

ai casi di perforazione, contaminazione e malattie professionali, oltre a

quelli che concernono la sterilizzazione e la sedazione, aumentando così il

numero di pazienti visitati quotidianamente.

28

2.2 Software

L’ambiente di sviluppo software mediante il quale le immagini fornite dalla

telecamera sono acquisite, elaborate e rese disponibili per l’utente è costituito

dal software Visual Studio (VS), integrato con le librerie necessarie alla

creazione dell’interfaccia grafica e al trattamento delle immagini.

2.2.1 Visual Studio

Visual Studio è un ambiente di sviluppo integrato (IDE) sviluppato da Microsoft,

che supporta attualmente diversi tipi di linguaggio, quali C, C++, C#, F#, Visual

Basic .Net e ASP .Net. Come ogni IDE, esso è costituito da una serie di tool che

aiutano a sviluppare programmi, evitando di aprire un editor di testo, scrivere il

codice e lanciare un compilatore per creare un’applicazione eseguibile.

Figura 14 Logo Visual Studio.

Nel caso specifico del presente lavoro è stato utilizzato il software Visual C++

Professional nella sua versione 2010.

2.2.2 Librerie

L’ambiente di sviluppo Visual C++ Professional 2010 è stato integrato con le

librerie Qt nella loro versione 4.8.4. e con le librerie OpenCV nella loro versione

2.4.2.

29

2.2.2.1 Qt

Originariamente sviluppato dalla norvegese Trolltech (acquistata dalla Nokia

nel 2008), Qt, da pronunciare “cute”, è un insieme di librerie multipiattaforma

e multifunzione, che vanno dalle librerie di gestione delle GUI (Graphical User

Interface) fino a quelle per i database, passando per network, animazioni e

multithread.

Figura 15 Logo Qt.

Nell’ambito del presente lavoro, ci si è serviti delle librerie Qt allo scopo di

creare un’interfaccia grafica che permettesse di elaborare, in modo semplice e

intuitivo, immagini statiche e dinamiche (real-time) relative a un’indagine

endoscopica. Tale interfaccia si serve di widget, cioè di componenti grafici

(come cursori o pulsanti) che facilitano all'utente l'interazione con il

programma.

2.2.2.1.1 Qt in Visual Studio

Per potersi servire efficacemente delle librerie Qt in ambiente Visual C++ è

necessario acquisire alcuni concetti fondamentali.

Previa corretta installazione dell’Add-in Qt, è possibile creare in Visual C++ un

progetto di tipo Qt Application. Rispetto a un normale progetto, come una

Win32 Console Application o un Empty Project, esso possiede un form file.ui

contenente le informazioni circa l’interfaccia grafica che si sta realizzando.

30

Aprendo questo file compare il tool di sviluppo, chiamato Qt Designer, che

permette di creare GUI aggiungendo widget e personalizzandole secondo il

proprio gradimento. In particolare, nella Widget Box sulla sinistra sono

disponibili i vari oggetti grafici (quali pulsanti, label, cursori, check box ecc.)

mentre nella Property Editor sulla destra sono descritte le proprietà di tali

oggetti ed è possibile modificarne dimensione, forma e stile.

Figura 16 Widget Box.

Le widget create con Qt Designer sono strettamente collegate al codice di

programmazione e, utilizzando il meccanismo signals and slots, è possibile

assegnare compiti specifici agli elementi grafici.

2.2.2.1.2 Signals and slots

Il meccanismo signals and slots è un elemento centrale di Qt e forse quello che

maggiormente lo distingue da altri framework.

Quando si progettano GUI, solitamente si desidera che gli elementi grafici

comunichino tra loro, cioè che, se uno di essi cambia stato, un altro sia

modificato di conseguenza. Ad esempio, se l’utente clicca sul pulsante Chiudi,

deve essere chiamata la funzione close(). Alcuni tool di sviluppo realizzano

questo tipo di comunicazione usando le callback.

31

In genere, una callback (“richiamo”) è una funzione, o un blocco di codice, che

viene passata come parametro ad un'altra funzione (detta chiamante). In

questo modo la funzione chiamante può realizzare un compito specifico oppure

gestire particolari eventi.

Le callback, però, hanno due difetti fondamentali: in primo luogo, non sono

type-safe, cioè non si è mai certi che la funzione chiamante chiamerà la

callback con gli argomenti corretti; in secondo luogo, esse sono strettamente

legate alla funzione chiamante, in quanto quest’ultima deve sapere quale

callback chiamare.

Il meccanismo signals and slots di Qt è alternativo alle callback. Quando si

verifica un particolare evento, ad esempio l’oggetto cambia stato in seguito

all’intervento dell’utente, viene emesso un segnale (signal). Uno slot è una

funzione che viene chiamata in risposta ad un particolare segnale.

Figura 17 Rappresentazione schematica del meccanismo signals and slots.

32

Le widget di Qt possiedono numerosi segnali e slot predefiniti, ma è possibile

aggiungerne di propri e gestire il flusso in modo personalizzato.

Il meccanismo signals and slots è type-safe: il tipo del segnale deve

corrispondere al tipo dello slot. Inoltre segnali e slot sono debolmente

associati: una classe che emette un segnale non sa e non si preoccupa di quali

slot riceveranno il segnale. Allo stesso modo, uno slot non sa se ci sono segnali

a esso collegati.

Questo assicura che i componenti grafici creati con Qt siano veramente

indipendenti. Infine, un segnale può essere collegato al numero di slot che si

desidera, così come uno slot può essere chiamato da un numero illimitato di

segnali.

2.2.2.2 OpenCV

OpenCV (Open Source Computer Vision Library) è una libreria orientata alla

Computer Vision, un campo che include metodi per l’acquisizione,

l’elaborazione e l’analisi di dati multidimensionali provenienti dal mondo reale,

allo scopo di tradurli in informazione numerica o simbolica.

Figura 18 Logo OpenCV.

33

Essa è stata originariamente sviluppata da Intel, mentre attualmente è sotto

licenza open source BSD. È scritta in C e C++ ed è costituita da oltre cinquecento

funzioni utili nel campo dell’image processing.

Il fatto di essere liberamente distribuita garantisce sicurezza al codice e la

possibilità di apportare modifiche, assicurandone, così, una continua

evoluzione. OpenCV costituisce, quindi, un’infrastruttura aperta e gratuita,

compatibile con la Intel Image Processing Library (IPL), dalla quale ha ereditato

originariamente alcune strutture dati. Infine, la portabilità della libreria OpenCV

è completa: sono disponibili versioni per i sistemi Windows, Linux, BSD, Unix e

MacOSX.

2.2.2.3 Da Qt a OpenCV

Dovendo lavorare servendosi di due librerie differenti, è necessario poter

convertire l’immagine da un oggetto di un tipo a un oggetto dell’altro. In altre

parole, occorre trovare un modo per trasformare un’istanza della classe

QPixmap, gestibile in Qt, in un’istanza della classe Mat, gestibile in OpenCV.

Naturalmente, al termine dell’elaborazione, è essenziale eseguire la

trasformazione inversa.

In ambito Qt, sono disponibili quattro classi per la gestione di dati-immagine:

Qimage, QPixmap, QBitmap e QPicture. In particolare, limitandosi al presente

lavoro, la classe QImage è progettata per l'I/O e la manipolazione diretta dei

pixel mentre la classe QPixmap è ottimizzata per la visualizzazione di immagini

sullo schermo.

Dal canto suo, la classe Mat, fornita da OpenCV, si compone

fondamentalmente di due parti: l'intestazione della matrice (contenente

informazioni quali le dimensioni, il metodo utilizzato per la memorizzazione,

l’indirizzo in cui è salvata, e così via) e un puntatore alla matrice contenente i

34

valori dei pixel. Di seguito è descritto il metodo adottato nel presente lavoro

per ottenere la conversione desiderata.

Quando un file è caricato, o viene ricevuto da uno streaming di dati, esso

diventa automaticamente un oggetto QPixmap, ma su di esso non si hanno

informazioni dettagliate. La classe QPixmap fornisce un insieme di funzioni che

possono essere utilizzate per ottenere informazioni sull’istanza-immagine,

come dimensioni, profondità, presenza o meno del canale α ecc. Tuttavia, è

preferibile avere un formato costante per far sì che la conversione abbia esito

positivo in ogni caso. Per questo motivo, l’oggetto QPixmap è stato

innanzitutto convertito in QImage, nel formato RGB888, vale a dire RGB a 24

bit (8-8-8).

A questo punto, si è reso necessario un nuovo passaggio, dovuto al fatto che la

classe Mat memorizza le immagini multicanale con un ordine diverso delle sue

componenti, ossia B-G-R invece di R-G-B. A tal proposito, è stata usata la

funzione QImage::rgbSwapped(), la quale restituisce una QImage in cui i valori

delle componenti rossa e blu di tutti i pixel risultano scambiati.

Infine, è stata creata l’istanza della classe Mat, costruendo una matrice 3D a

partire dai valori dei pixel e dalle informazioni estratte dall’oggetto QImage. Il

processo inverso è piuttosto simile, se non per l’ordine delle operazioni.

Poiché è indispensabile eseguire i passaggi appena descritti tutte le volte che

bisogna lavorare su un’immagine, per semplificare il tutto e rendere il codice

più leggibile, sono state implementate due funzioni, QPixmap2Mat e

Mat2QPixmap, che operano automaticamente la conversione quando

necessario:

35

Mat QPixmap2Mat(const QPixmap& pixmap) { QImage image= pixmap.toImage(); QImage image2= image.convertToFormat(QImage::Format_RGB888);

QImage swapped = image2.rgbSwapped(); Mat mat= Mat( swapped.height(), swapped.width(), CV_8UC3, (uchar*)swapped.bits(), swapped.bytesPerLine() ).clone();

return mat; }

QPixmap Mat2QPixmapRGB(const Mat& mat){ QImage image( (uchar*)mat.data, mat.cols, mat.rows, mat.step,

QImage::Format_RGB888 ); QImage newImage= image.rgbSwapped(); QPixmap newPixmap= newPixmap.fromImage(newImage);

return newPixmap; }

36

CAPITOLO3

Realizzazionedell’interfacciagrafica

L’obiettivo del presente lavoro è di sviluppare un sistema per l’elaborazione di

immagini endoscopiche in tempo reale. Inizialmente è stata realizzata

un’interfaccia che permettesse di lavorare con immagini “statiche”, cioè con

fotogrammi (frame) estratti da un esame video-endoscopico. Ciò è stato fatto

per consentire un’analisi preliminare delle immagini, approfondendo le loro

caratteristiche e individuando gli elementi su cui poter agire, anche in real-

time, per migliorarne la visualizzazione e incrementarne le potenzialità

diagnostiche. In seguito, dopo un’intervista al dottor Emanuele Tumino, medico

endoscopista presso l’ospedale di Cisanello (Pisa), che ha suggerito alcuni

criteri per la realizzazione di un’interfaccia utile e semplice da usare, è stata

sviluppata la GUI per l’elaborazione in tempo reale.

3.1GUIperanalisistatica

L’interfaccia grafica per l’analisi dei fotogrammi si compone di una serie di

pulsanti e finestre di dialogo che offrono all’utente la possibilità di caricare

un’immagine ed eseguire svariate elaborazioni, osservando in modo diretto le

modifiche apportate e gli eventuali miglioramenti ottenuti.

3.1.1Labeleimmagini

L’elemento centrale dell’interfaccia è costituito dai due “contenitori” di

immagini. La GUI è progettata per fare in modo che l’immagine originale e

quella elaborata appaiano l’una accanto all’altra, affinché si possano facilmente

37

confrontare. In particolare, l’immagine sulla sinistra resta immutata durante

l’elaborazione mentre quella sulla destra esprime le modifiche cui è sottoposta,

che sono state rese cumulabili.

Figura 19 Label e immagini.

I “contenitori” sono semplicemente due label (oggetto QLabel) in cui è stato

abilitato il campo scaledContents, necessario per scalare l’immagine e fare in

modo che non venga tagliata.

3.1.2 Caricamento, pulizia e salvataggio

Per cominciare con l’elaborazione, l’immagine deve prima essere caricata. A

questo proposito è stato inserito un pulsante (oggetto QPushButton) che

permette di cercare il file tra le cartelle del computer e, una volta selezionato,

di caricare l’immagine nella label.

Figura 20 Pulsanti per caricamento, pulizia e salvataggio.

38

Il suo funzionamento è un tipico esempio del meccanismo signals and slots

descritto nel capitolo precedente.

L’objectName del pulsante creato, che lo identifica nell’ambiente di sviluppo, è

pushButtonLoad. Quando questo pulsante è premuto dall’utente, esso lancia

un segnale che dovrà essere recapitato da qualcosa: lo slot. Affinché tutto

funzioni correttamente, lo slot va prima dichiarato nel file.h del progetto Visual

C++ in questo modo:

public slots: void on_pushButtonLoad_clicked();

Poi va definito nel file.cpp in questo modo:

void provaQtOpenCV::on_pushButtonLoad_clicked() {

(…) }

Tra le parentesi graffe è espresso il codice della funzione scritta per esteso, che

descrive il compito da eseguire a seguito della pressione del pulsante. Il

processo appena descritto è valido per ciascuno dei pulsanti dell’interfaccia

creata; la sua descrizione non sarà quindi ripetuta in futuro.

Il pulsante Clear permette di cancellare tutte le modifiche apportate

all’immagine, facendola tornare com’era quando è stata caricata.

Il pulsante Save, infine, permette di salvare l’immagine al termine delle varie

elaborazioni.

3.1.3 Luminosità

Per consentire all’utente di cambiare la luminosità dell’immagine sono stati

inseriti due pulsanti, identificati con “+” e “-“, dalla funzione evidente.

39

Figura 21 Pulsanti per la regolazione della luminosità.

L’elemento che si vede sulla sinistra in figura 20 è una casella di controllo, o

check box (oggetto QCheckBox), chiamata in questo caso QCheckBoxBrightness.

Anch’esso funziona con lo stesso meccanismo signals and slots descritto per i

pulsanti. In questo caso non va dichiarato nulla nel file.h ma va inserito il

seguente comando all’interno degli slot relativi ai pulsanti che aumentano e

diminuiscono la luminosità (pushButtonMinus e pushButtonPlus):

ui.checkBoxBrightness->setChecked(true);

In questo modo, quando uno dei due pulsanti è premuto dall’utente, la check

box è spuntata automaticamente, ricordandogli che è stata modificata la

luminosità dell’immagine. Anche questo processo è valido per ciascuna delle

check box presenti nell’interfaccia creata.

L’elemento che si vede sulla destra, invece, è un’altra label (chiamata

labelBrightness), del tutto simile a quelle che contengono le immagini con la

differenza che, in questo caso, serve per quantificare l’aumento o la

diminuzione di luminosità. Ancora una volta, con lo stesso meccanismo, si

inserisce il seguente comando all’interno degli slot relativi ai due pulsanti:

ui.labelBrightness->setNum(c);

Così facendo, è possibile conoscere in qualunque momento di quanto è stata

aumentata o diminuita la luminosità dell’immagine.

40

L’effettivo aumento o diminuzione della luminosità è stato invece ottenuto con

la funzione convertTo() di OpenCV, che implementa una duplice operazione di

moltiplicazione e addizione con una costante:

La funzione f(x) rappresenta i valori di intensità dei pixel dell’immagine in

ingresso, g(x) quelli dell’immagine in uscita, mentre i parametri α e β sono

rispettivamente il guadagno e l’offset. Ponendo α costantemente a 1 e β

alternativamente a 1 o -1, a seconda che si stia aumentando o diminuendo la

luminosità, si riesce a ottenere l’effetto desiderato.

3.1.4 Sfocatura e affilatura

Per sfocare o affilare l’immagine (smoothing e sharpening) sono stati inseriti

quattro pulsanti diversi che richiamano un’operazione di filtraggio spaziale.

Figura 22. Pulsanti per smoothing e sharpening.

Un filtro spaziale, detto anche maschera o kernel, è una matrice quadrata che si

sovrappone all’immagine, scorrendo da sinistra verso destra e dall’alto verso il

basso, modificandone i valori. Ciascun pixel dell’immagine è ricalcolato come

somma dei prodotti di ciascun elemento del kernel con il corrispondente pixel

dell’immagine. In termini matematici ciò corrisponde a un’operazione di

convoluzione.

41

I filtri di smoothing si utilizzano generalmente per sfocare le immagini e per

ridurre l’eventuale presenza di rumore. Ne esistono diversi ma per gli scopi del

presente lavoro ne sono stati implementati due:

• Filtro medio

Detto anche Normalized Box Filter, il filtro medio è il più semplice di tutti.

Ciascun pixel risultante è la media dei suoi vicini giacché ogni elemento del

kernel contribuisce con lo stesso peso.

• Filtro Gaussiano

Probabilmente il più utile, esegue la convoluzione tra l’immagine e un kernel di

tipo gaussiano.

Figura 23 Kernel gaussiano.

Le funzioni di OpenCV che implementano i filtraggi appena descritti sono

rispettivamente blur() e GaussianBlur().

42

Al contrario, l’operazione di sharpening produce un’immagine più nitida

dell’originale, evidenziando i dettagli offuscati durante il processo di

acquisizione.

Esistono diversi operatori convolutivi di sharpening ma tutte queste matrici

hanno in comune il valore positivo dell’elemento centrale, corrispondente al

pixel oggetto di calcolo, e i valori negativi degli elementi relativi ai pixel

adiacenti. Per gli scopi del presente lavoro ne sono stati implementati due,

identificati con il nome “Min” e “Max”, a sottolineare la maggiore o minore

incisività del filtraggio. Le maschere corrispondenti sono le due seguenti:

La funzione utilizzata per questo scopo è filter2D() di OpenCV, la quale

semplicemente convolve l’immagine con un kernel definito manualmente

dall’utente.

3.1.5 Rilevamento di bordi

Per permettere all’utente di individuare i bordi dell’immagine, ossia gli insiemi

di pixel connessi tra loro in cui la funzione d’intensità cambia bruscamente,

sono stati inseriti tre pulsanti che richiamano tre diverse operazioni di edge

detection.

Figura 24 Pulsanti per il rilevamento di bordi.

43

Queste funzioni non hanno un’utilità diretta per gli scopi del presente lavoro

(l’aumento della qualità e delle potenzialità diagnostiche dell’immagine), ma

sono utili per fare delle considerazioni generali e probabilmente svolgeranno

un ruolo decisivo per gli sviluppi futuri del sistema di elaborazione. I tre

operatori di edge detection scelti sono i seguenti:

• Derivate di Sobel

Poiché, come si è accennato, nei bordi dell’immagine l’intensità dei pixel

cambia valore bruscamente, un ottimo modo di ottenere un edge detector è

usare le derivate spaziali. Il filtro di Sobel è, quindi, un operatore di

differenziazione discreta, cioè calcola il gradiente della funzione d’intensità

dell'immagine. Un elevato valore di gradiente indica la presenza di un bordo.

Figura 25 Funzione f(t) e derivata di f(t).

In particolare, si calcolano due derivate, una orizzontale e una verticale, con

due kernel diversi:

Poi si approssima il gradiente in ciascun punto combinando i risultati ottenuti

secondo la seguente formula:

44

Per calcolare le due derivate e il gradiente sono state utilizzate le funzioni

Sobel() e addWeighted() di OpenCV.

È importante far notare che tutte le funzioni che lavorano sul rilevamento dei

bordi richiedono in ingresso un’immagine in scala di grigi, cosa che si ottiene

facilmente applicando la funzione cvtColor() all’immagine a colori di partenza.

Figura 26 Immagine originale e bordi rilevati con l’operatore di Sobel.

• Operatore di Laplace

In matematica, il laplaciano della funzione bidimensionale f(x,y) è espresso

dalla seguente formula:

Questa equazione calcola la derivata seconda nelle due dimensioni e

corrisponde alla seguente maschera di convoluzione:

45

Essa è isotropa ma non direzionalmente invariante rispetto all’orientazione

degli edge da rilevare, per cui talvolta si preferisce usare la maschera seguente,

cui sono stati aggiunti due termini diagonali:

L’utilizzo del laplaciano come edge detector è giustificato dal fatto che la

derivata prima e seconda di un profilo sono diverse da zero solo in

corrispondenza delle transizioni. In particolare, la derivata seconda è positiva in

prossimità della parte scura di un bordo, negativa dalla parte chiara e nulla

nelle zone a livello di grigio costante. Essa ammette un passaggio per lo zero

(zero crossing) esattamente in corrispondenza delle transizioni, e ciò consente

la localizzazione degli edge.

Figura 27 Derivata seconda di f(t).

46

Il limite del laplaciano consiste nella sua eccessiva sensibilità al rumore. La

corrispondente funzione in OpenCV è Laplacian().

• Operatore di Canny

È conosciuto anche come “rivelatore ottimale” perché soddisfa tre criteri

principali, cioè basso errore, buona localizzazione e risposta minima. Senza

entrare in dettaglio, quest’algoritmo richiede la definizione di due soglie, una

bassa (TL) e una alta (TH), le quali vengono confrontate con i punti

dell’immagine: se il valore è inferiore alla soglia bassa TL, il punto viene

scartato, se è superiore alla soglia alta TH, il punto viene accettato come edge,

se invece è compreso tra le due soglie, il punto è accettato solo se contiguo ad

un punto precedentemente accettato.

L’uso delle soglie TL e TH permette di ridurre la presenza di falsi edge rispetto a

una soglia singola T. L’algoritmo suggerisce che i risultati migliori si ottengono

scegliendo il valore TH due o tre volte più grande del valore TL, e ciò è stato

implementato nel presente lavoro.

Nell’interfaccia realizzata è offerta all’utente la possibilità di scegliere la soglia

attraverso un cursore (oggetto QSlider) e una label che ne visualizza il valore

lateralmente. A questo proposito è stato inserito il seguente slot nel file.cpp,

previa dichiarazione nel file.h:

void provaQtOpenCV::on_horizontalCanny_valueChanged(){ double sliderValue= ui.horizontalCanny->value(); ui.labelCanny->setNum(sliderValue);

}

La funzione precedente prende il valore attuale dal cursore e lo colloca nella

label affinché possa essere visualizzato. Inoltre, inserendo la seguente riga di

codice nello slot relativo al pulsante che lancia l’edge detector

47

(pushButtonCanny), l’algoritmo di rilevamento dei bordi prende come soglia

proprio quella scelta dall’utente modificando il cursore.

double sliderValue= ui.horizontalCanny->value();

Figura 28 Immagine originale e bordi rilevati con l'operatore di Canny.

La funzione di OpenCV che implementa questo algoritmo è Canny().

3.1.6 Sogliatura

Un discorso simile a quello appena fatto per l’algoritmo di Canny si può fare per

l’operazione di sogliatura (o thresholding).

Figura 29 Pulsante e cursore per la sogliatura.

La sogliatura è il più semplice metodo di segmentazione (slicing), processo

mediante il quale le regioni di un’immagine, corrispondenti agli oggetti che si

vogliono analizzare, sono separate dallo sfondo.

48

La separazione è basata sulla variazione d’intensità dei pixel, per questo si

esegue un confronto tra ciascun valore d’intensità e una data soglia,

determinata secondo il problema da risolvere.

Una volta che i pixel sono stati adeguatamente separati, essi si pongono a un

determinato valore per identificarli, che può essere 0 (nero), 255 (bianco) o

qualsiasi altro valore.

Esistono varie tipologie di sogliatura, ma per gli scopi del presente lavoro è

stata utilizzata la sogliatura binaria (binary thresholding), che consiste

nell’impostare l’intensità del pixel a un valore massimo, se supera la soglia,

altrimenti a zero.

Figura 30 Rappresentazione grafica dell'operazione di sogliatura.

Questa operazione può essere utile per separare dal resto dell’immagine le

zone corrispondenti agli spot di luce, e quindi escluderle dalle varie

elaborazioni, come ad esempio l’equalizzazione, oppure per separare le zone di

assorbimento e riflessione della luce.

Anche in questo caso si è offerta all’utente la possibilità di scegliere la soglia

tramite un cursore e di applicare l’algoritmo di thresholding mediante

l’apposito pulsante.

49

Figura 31 Immagine originale e spot di luce rilevati con la segmentazione.

La funzione di OpenCV utilizzata è threshold().

3.1.7 Divisione e unione dei canali

Per consentire all’utente di agire, oltre che sui valori d’intensità, anche sul

colore, è stata introdotta la possibilità di “spezzare” le immagini nei singoli

canali che le compongono, ossia R, G e B.

Figura 32 Pulsanti per la divisione e unione dei canali.

Come è noto, nelle immagini monocromatiche ciascun elemento della matrice

è un valore intero compreso tra 0 e 255 e rappresenta uno dei 256 livelli di

grigio. Nelle immagini a colori ogni elemento della matrice corrisponde a una

terna ordinata di interi (RGB), dove R, G, e B indicano rispettivamente le

intensità di rosso, verde e blu e assumono valori compresi tra 0 e 255,

corrispondenti ai 256 diversi livelli d’intensità delle tre sorgenti di colore. In tal

caso un’immagine può essere vista come una terna di matrici, dove ognuna

rappresenta uno dei colori fondamentali.

50

Figura 33 Immagine digitale a colori.

Nell’ambito dell’interfaccia realizzata, non solo è possibile separare l’immagine

nei tre canali che la compongono, ma è consentito anche visualizzarli,

modificarli e in seguito rifonderli nuovamente.

Le operazioni possibili su ciascuno di essi sono: la soppressione,

l’equalizzazione dell’istogramma e la conversione secondo curve di tono.

Naturalmente, per ognuna di esse è presente un pulsante, mentre i tre canali

sono collocati e visualizzati in tre diverse label.

Figura 34 Pulsanti e label per la divisione, la modifica e l'unione dei canali.

Le funzioni di OpenCV utilizzate per dividere e unire i canali sono split() e

merge().

51

• Soppressione

La soppressione del canale consiste nella sua totale rimozione, in maniera che

quando l’immagine è ricostruita, essa risulta priva di un componente.

Figura 35 Immagine originale e immagine in cui è stato soppresso il canale rosso.

In OpenCV ciò è stato implementato ponendo a zero la matrice relativa al

canale da sopprimere.

• Equalizzazione

L'istogramma di un'immagine digitale, con livelli di intensità nell'intervallo [0,L-

1], è il grafico di una funzione discreta h(rk)=nk, dove rk è il k-esimo livello di

grigio e nk è il numero di pixel nell'immagine con intensità rk. Essendo le

immagini dei singoli canali bidimensionali, è possibile considerarle formalmente

come matrici di livelli di grigio (in bianco e nero), anche se il loro significato è

diverso.

L'equalizzazione dell'istogramma, o Histogram Equalization (HE), ha come

scopo l'aumento del contrasto dell'immagine di partenza, o equivalentemente

l'aumento del range dinamico dell'immagine. Per contrasto s’intende la

differenza in intensità tra il livello di grigio maggiore e quello minore, mentre si

52

definisce range dinamico il rapporto tra il massimo valore misurabile

d’intensità (detto saturazione) e il minimo livello distinguibile (detto rumore).

Quando un'immagine ha un apprezzabile numero di pixel con grande range

dinamico, ci si può aspettare che essa abbia un elevato contrasto; quando

invece un'immagine ha un piccolo range dinamico, tipicamente presenta un

basso contrasto.

Tralasciando la dimostrazione matematica, l'idea che sta alla base

dell'equalizzazione è operare una trasformazione che, nell'immagine elaborata,

distribuisca uniformemente i livelli di grigio, cioè aumenti il contrasto

appiattendo l'istogramma di partenza e aumentando il range dinamico.

Figura 36 Istogramma prima e dopo l'equalizzazione.

In concreto, ciò viene fatto interpretando il livello di grigio assunto da un

generico punto dell’immagine come una variabile aleatoria discreta x avente

valori 0, 1, ..., (L−1) e convertendo i valori dell’istogramma h(i) nei

corrispondenti valori di probabilità px(i):

La trasformazione discreta che consente di ottenere i livelli di grigio trasformati

(j) è la seguente:

53

Dove la moltiplicazione per (L-1) è necessaria per estendere la dinamica dei

valori trasformati dal range [0,1] al range [0,L-1].

Il vantaggio di questa tecnica è che permette di migliorare il contrasto in modo

semplice, automatico e poco costoso, ottenendo però dei buoni risultati.

Inoltre, essa utilizza solamente informazioni contenute nell'immagine.

Tuttavia, l’equalizzazione presenta anche degli svantaggi non trascurabili, ad

esempio può cambiare eccessivamente la luminosità dell'immagine. Un altro

svantaggio consiste nel fatto che all’incremento del contrasto si possono

aggiungere effetti sgradevoli quali lo sgranamento dell’immagine o la comparsa

di false regioni, soprattutto quando il contrasto dell’immagine originale è molto

basso.

Figura 37 Immagine originale e immagine in cui sono stati equalizzati i tre canali.

La funzione di OpenCV utilizzata è equalizeHist().

54

• Curve di tono

Le curve di tono sono semplicemente la rappresentazione grafica

dell’andamento dell’output in funzione dell’input, dove in input si hanno le

intensità dei pixel della matrice di ingresso (quella originale) e in output le

intensità dei pixel della matrice di uscita (quella modificata).

Le curve di tono possono assumere varie forme, che è possibile cambiare

modificando alcuni parametri, ma ciò può essere fatto solo dal progettista

dell’interfaccia. Per l’utente, invece, è stata offerta la possibilità di utilizzare

due sole curve, una di tipo cubico e l’altra di tipo sigmoide, quest’ultima

espressa dalla seguente funzione matematica:

Figura 38 Curve di tono.

In OpenCV, queste trasformazioni sono state realizzate convertendo le matrici

dell’immagine, inizialmente in formato CV_8UC1, cioè unsigned char a 8 bit a

singolo canale, nel formato CV_32FC1, cioè float a 32 bit a singolo canale, e

55

modificando i livelli d’intensità dei pixel secondo le funzioni matematiche

scelte, implementate combinando le operazioni algebriche elementari fornite

dalla libreria.

3.1.8 Istogramma

Un’ulteriore possibilità offerta all’utente nell’interfaccia realizzata è quella di

visualizzare l’istogramma dell’immagine, o per meglio dire, gli istogrammi

dell’immagine, poiché, come esposto nel paragrafo precedente, le immagini a

colori sono composte da tre diversi canali.

Figura 39 Pulsante per visualizzare gli istogrammi.

Cliccando sull’apposito pulsante, la seconda immagine cede il posto a un

grafico che mostra tre diverse curve, la cui ampiezza rappresenta il numero di

pixel corrispondente a ciascun valore di intensità. Le curve sono di tre colori

diversi, a sottolineare il rispettivo canale di riferimento.

Figura 40 Immagine originale e istogrammi dei tre canali.

56

L’importanza di conoscere gli istogrammi dell’immagine sarà chiara nel

prossimo capitolo, poiché essi consentiranno di determinare i parametri delle

curve di tono che saranno impiegate nel corso dell’elaborazione in real-time. La

funzione di OpenCV utilizzata è calcHist().

3.1.9 Sottocampionamento

Il sottocampionamento (downsample) è un’operazione che riduce le

dimensioni di un’immagine. Nel caso specifico, agisce prendendo la metà delle

righe e delle colonne della matrice iniziale.

Figura 41 Pulsante per il sottocampionamento.

Generalmente, è sconsigliabile servirsi di questa funzionalità poiché riduce

notevolmente il contenuto informativo dell’immagine. Tuttavia, essa è stata

inserita nell’interfaccia perché, in determinate circostanze, può avere una

precisa utilità. In particolare, può essere utile nell’ambito dell’elaborazione in

real-time, dove è di fondamentale importanza ridurre il costo computazionale e

un’immagine troppo grossa può aumentare severamente i tempi di calcolo. La

funzione di OpenCV utilizzata è pyrDown().

3.1.10 Tempo e dimensioni

Per concludere, sono state inserite due label che danno all’utente la possibilità

di conoscere le dimensioni dell’immagine caricata e i tempi di calcolo impiegati

per eseguire una determinata operazione.

57

Figura 42 Label che visualizzano tempo e dimensioni.

Le dimensioni della matrice sono calcolate e mostrate non appena la matrice è

caricata e da quel momento restano costanti. I tempi delle operazioni, invece,

si riferiscono all’ultima funzione eseguita e si modificano di volta in volta.

Per conoscere il tempo impiegato da una certa elaborazione, sono state usate

le funzioni getTickCount() e getTickFrequency() di OpenCV. La prima restituisce

il numero di cicli di clock da un determinato evento, ad esempio

dall’accensione della macchina; la seconda restituisce la frequenza di clock,

cioè il numero di cicli al secondo della macchina.

Calcolando il numero di cicli di clock, con getTickCount(), prima e dopo

l’esecuzione della funzione, facendone la differenza e dividendo per la

frequenza di clock, calcolata con getTickFrequency(), si ottiene il tempo

impiegato nell’elaborazione.

double freq= getTickFrequency(); double t1= getTickCount();

(…) double t2= getTickCount(); double sec= (t2-t1)/freq;

ui.labelTime->setNum(sec);

L’aspetto finale dell’interfaccia grafica realizzata, comprendente tutte le widget

descritte in questo capitolo, è il seguente.

58

Figura 43 Interfaccia grafica per analisi statica.

3.2 GUI per analisi in real-time

L’interfaccia grafica per l’elaborazione dei frame in tempo reale è del tutto

simile a quella appena descritta per le immagini statiche, ma ha un aspetto più

essenziale, giacché comprende meno strumenti e alcune delle sue operazioni

sono raggruppate in forma più compatta.

Anche in questo caso, i due frame sono presentati affiancati, in modo da

consentire all’utente di fare un confronto tra la scena originale ripresa dalla

telecamera e la scena come risulta in seguito all’elaborazione, con un ritardo

trascurabile.

3.2.1 Concetto di tempo reale

Il concetto di real-time non è da intendersi in senso assoluto, ma relativo

all’applicazione. Non ha senso parlare di real-time vincolandovi un limite di

tempo assoluto (es. dell’ordine dei ns), bensì è ragionevole ritenere che un

59

sistema lavori in tempo reale se i suoi tempi di risposta sono adeguati

all’applicazione corrente.

La definizione rigorosa di elaborazione in tempo reale è la seguente:

“Un’applicazione è in tempo reale se il tempo di elaborazione (processing time)

è inferiore al tempo di campionamento (tempo che intercorre tra il campione n

e quello n+1) e quindi si ha un tempo di attesa (waiting time) maggiore o

uguale a zero”.

Figura 44 Tempo di campionamento, di elaborazione e di attesa.

Nel caso del presente lavoro la considerazione da fare è la seguente: la

telecamera digitale invia al sistema di acquisizione 30 frame al secondo, vale a

dire un frame ogni 0.0333 (periodico) secondi. Ciò significa che, per ciascun

frame, il tempo di elaborazione non deve superare i 3 centesimi di secondo

affinché l’applicazione possa essere considerata in real-time, ovvero non vi sia

un ritardo apprezzabile tra l’immagine originale e quella elaborata.

Questo risultato è stato raggiunto riducendo al minimo il numero di operazioni

necessarie a ottenere una certa elaborazione dell’immagine, cercando di

utilizzare sempre funzioni ottimizzate (di libreria) e computazionalmente non

troppo onerose.

60

3.2.2 Struttura della GUI

Per comprendere al meglio il funzionamento dell’interfaccia, bisogna prima

guardare com’è fatto il rispettivo progetto in Visual C++.

La Solution si compone di due progetti diversi: quello su cui si lavora e il

progetto cameraVideoPlugin, realizzato da dipendenti dell’azienda.

Quest’ultimo implementa la classe cameraVideo, dotata di una serie di funzioni

che permettono di acquisire e visualizzare immagini in tempo reale.

Grazie a queste funzionalità preesistenti, nell’interfaccia realizzata è stato

sufficiente inserire una widget di tipo cameraVideo, per avere a monitor il

flusso di immagini riprese dalla telecamera endoscopica.

Schematizzando il flusso d’istruzioni, quando il progetto è lanciato sono

chiamati i seguenti comandi:

ui.cameraVideo1->initCamera(); ui.cameraVideo1->playCamera();

connect(ui.cameraVideo1,SIGNAL(fillImage(QImage)),this, SLOT(getStream(QImage)));

Questi inizializzano l’oggetto, fanno partire lo streaming di dati e connettono il

segnale associato all’arrivo del frame allo slot chiamato getStream, dove è

concentrata la grande maggioranza delle elaborazioni da eseguire.

All’interno della funzione getStream, l’immagine è prima di tutto convertita da

oggetto QImage a oggetto Mat, secondo un metodo molto simile a quello

descritto nel capitolo precedente. L’unica differenza sta nel fatto che, in questo

caso, l’immagine è disponibile direttamente come oggetto QImage, cioè senza

la necessità di prelevarla all’interno di una label sotto forma di istanza della

classe QPixmap.

61

Questo fatto è di fondamentale importanza perché consente di operare una

conversione in meno rispetto al caso della GUI statica e, dovendo lavorare in

real-time, permette un discreto risparmio di tempo di calcolo.

3.2.3 Pulsanti e operazioni

Una volta che l’immagine è stata convertita, è possibile eseguire quasi tutte le

operazioni viste per il caso dell’analisi statica. Esse sono definite all’esterno

della funzione getStream e vengono chiamate all’interno.

Per permettere all’utente di scegliere quali modifiche apportare all’immagine,

sono state inserite anche qui delle check box. Tuttavia, in questo caso, esse non

hanno semplicemente la funzione di “promemoria”, ma devono essere

spuntate dall’utente qualora esso voglia adoperare la funzione corrispondente.

Figura 45 Pulsanti, cursori e check box per analisi in real-time.

62

Le novità, rispetto alla GUI statica, si limitano all’assenza di alcuni pulsanti e alla

presenza di tre operazioni nuove: A-Mode, B-Mode e Screenshot.

3.2.3.1 Screenshot

Il pulsante screenshot (“schermata”) è stato inserito per permettere all’utente

di catturare un fotogramma (frame) della scena visualizzata, che può essere un

particolare d’interesse o un settore del colon di cui si vuole tenere traccia in

memoria. Il frame catturato è visualizzato in una terza label appositamente

inserita nell’interfaccia.

Quest’operazione è già implementata all’interno della classe cameraVideo, è

stato quindi sufficiente richiamarla all’interno di uno slot.

QPixmap pixmap= ui.cameraVideo1->takeScreenshot();

3.2.3.2 Modalità A e B

I due pulsanti “A Mode” e “B Mode” lanciano operazioni che riguardano il

colore dell’immagine, cioè eseguono un’elaborazione del tono secondo quanto

esposto nei precedenti paragrafi. In particolare, si è scelto di includere nella

modalità A la conversione cubica del canale R e nella modalità B la

combinazione dell’A Mode con l’adattamento sigmoide dei canali verde e blu.

Il “B Mode” è, dal punto di vista computazionale, la funzionalità più onerosa,

per cui si rende necessario approfondirne l’aspetto del real-time, in quanto

potrebbe determinare un ritardo non trascurabile tra le immagini.

Servendosi della GUI per analisi statica, utilizzando le funzioni OpenCV

getTickCount() e getTickFrequency() e lanciando il progetto in modalità Release

(molto più veloce di quella Debug) si sono calcolati i tempi impiegati dal

63

sistema per ciascun passaggio. I valori dei tempi così ottenuti, approssimati

sempre per eccesso, sono qui elencati schematicamente:

� QPixmap → Mat 0.006 sec (conversione)

� Split 0.002 sec (divisione in canali)

� Cubic (x1) 0.003 sec (curva cubica per il canale R)

� Sigmoid (x2) 0.012 sec (curva sigmoide per i canali G e B)

� Merge 0.002 sec (unione dei canali)

� Mat → QPixmap 0.002 sec (riconversione)

� Totale 0.027 sec < 0.0333 sec

Si ricorda che nella GUI real-time i tempi sono ulteriormente ridotti poiché

l’immagine è già in formato QImage, e dunque si necessita di una conversione

in meno.

Si può osservare che il tempo totale impiegato dall’elaborazione è inferiore al

tempo che intercorre tra un frame e l’altro. Inoltre, avanzano ancora 0.006 sec

che possono essere “spesi” per uno o due filtraggi spaziali (0.003 sec ciascuno),

come un filtro di smoothing o di sharpening.

In conclusione, si specifica che l’interfaccia per analisi dinamica appena

descritta non costituisce la GUI finale utilizzata dal sistema Endotics per le

scansioni endoscopiche. Essa rappresenta un prototipo, necessario a verificare

il funzionamento e l’utilità degli algoritmi implementati in real-time.

Negli sviluppi futuri del presente lavoro, vi è la possibilità di integrare gli

elementi di questo prototipo con l’effettiva interfaccia del sistema Endotics.

64

CAPITOLO4

Proprietàottichedelcoloned

enhancementdell’immagine

Per riuscire nel difficile compito di migliorare l’immagine, in maniera che possa

fornire al medico un aiuto concreto nella diagnosi differenziale e nella

caratterizzazione delle lesioni, è necessaria una profonda conoscenza del colon

e delle sue proprietà ottiche. A tale scopo è stata svolta un’accurata ricerca

sull’argomento in letteratura, da cui sono emerse le principali caratteristiche

del tessuto dal punto di vista clinico, e si è appreso come modellizzarlo affinché

le sue proprietà ottiche dipendessero da pochi semplici parametri.

Alla luce di queste conoscenze fisico-anatomiche e dei principi di acquisizione

dell’immagine digitale a colori, è stato proposto un metodo di elaborazione in

real-time basato sull’applicazione di curve di tono ai tre canali dell’immagine

digitale (RGB). Tale metodo tiene conto sia degli aspetti teorici, legati alle

diverse proprietà di penetrazione e assorbimento nel colon delle varie regioni

spettrali della luce, sia di un criterio sperimentale di ottimizzazione delle

suddette curve, basato sulla massimizzazione di un indice di contrasto.

4.1Interazionedellaluceconilcolon

La telecamera digitale illumina la superficie del colon con luce bianca, cioè con

un range frequenziale che comprende tutte le lunghezze d’onda visibili. Lo

spettro elettromagnetico che genera l’immagine, derivante dall’interazione

della luce con il colon, dipende dalla struttura del tessuto, cioè dal suo

spessore, dalla sua forma e dalla quantità di pigmenti in esso presenti [17].

65

Anatomicamente, il colon è costituito da quattro strati, ciascuno caratterizzato

da diverse proprietà ottiche. Partendo dallo strato più interno, cioè quello a

contatto con l’aria, vi sono: la mucosa, la sottomucosa, la muscolare e la

sierosa.

Figura 46 Anatomia e istologia del colon.

• Epitelio

La luce bianca che incide sulla superficie del colon interagisce inizialmente con

lo strato epiteliale, composto di un singolo piano di cellule. I nuclei delle cellule

epiteliali hanno un elevato indice di rifrazione rispetto al citoplasma circostante

e quindi agiscono come scatteratori.

La dimensione dei nuclei in un epitelio normale è 4-7 μm, causando la

diffusione della luce in avanti (forward scattering). Ciò, unito al fatto che

l’epitelio è uno strato particolarmente sottile, determina che la grande

maggioranza della luce incidente sia trasmessa negli strati più profondi. Di

conseguenza, l’inclusione dello strato epiteliale nel modello del colon non

modifica significativamente lo spettro riflesso.

66

• Mucosa

La luce bianca che penetra nella mucosa è diffusa da una larga rete di sottili

fibre di collagene e organelli subcellulari come i mitocondri. Le ridotte

dimensioni di queste strutture (diametro inferiore al μm) determinano che la

luce sia diffusa a piccoli angoli, cioè retrodiffusa (back scattering).

All’interno della mucosa vi è poi una sottile rete di capillari che si sviluppa in un

certo numero di strutture a nido d’ape che avvolgono le ghiandole intestinali. I

capillari trasportano i globuli rossi che contengono emoglobina ossigenata e

non ossigenata. Sia l’ossiemoglobina, sia la deossiemoglobina, assorbono

fortemente la luce nel range visibile.

• Sottomucosa

Al confine tra la mucosa e la sottomucosa, una piccola frazione della luce è

riflessa a causa del brusco cambiamento nell’indice di rifrazione. La maggior

parte di essa penetra nella sottomucosa, la quale è composta quasi

interamente da una fitta rete di larghe fibre di collagene. Il diametro di queste

ultime è tipicamente di pochi micron, rendendo lo strato altamente diffusivo in

avanti (forward scattering).

Vi sono inoltre grossi vasi sanguigni (arterie e vene) che forniscono alla mucosa

emoglobina ossigenata e deossigenata. Il volume totale di sangue che circola

nella sottomucosa è superiore a quello presente nella mucosa, causando un

maggiore assorbimento di luce.

• Muscolare

La frazione di luce non assorbita o diffusa nei primi due livelli del tessuto entra

nello strato muscolare. Il fattore di anisotropia di questo mezzo è molto alto,

facendo sì che lo scattering, ancora una volta, sia fortemente diretto in avanti

(forward scattering).

67

La maggior parte della luce che penetra in questo strato non riemerge sulla

superficie del tessuto, non portando così alcuna informazione all’immagine.

Tuttavia, una discreta quantità di fotoni appartenenti alla banda rossa, che

penetra più profondamente nel tessuto, riesce a riaffiorare in superficie,

incidendo sulla parte finale dello spettro riflesso.

• Sierosa

La luce trasmessa anche attraverso lo strato muscolare, che finisce nella tonaca

sierosa, costituisce una frazione molto piccola di quella incidente. Essa è

principalmente confinata nella regione rossa dello spettro e non influisce

significativamente sulle sue caratteristiche. Ciò significa che lo spettro riflesso

dipende esclusivamente dall’interazione della luce con i primi tre strati.

Pertanto, il modello del colon può ragionevolmente contenere solo la mucosa,

la sottomucosa e lo strato muscolare.

4.3 Effetto dei parametri del modello sullo

spettro riflesso

Variando i parametri caratteristici del modello del colon si modifica la forma

dello spettro riflesso. Ciò fornisce interessanti informazioni sulle sue proprietà

ottiche, che possono essere sfruttate per l’elaborazione. Per esempio, i

parametri specifici della mucosa hanno un’influenza maggiore rispetto a quelli

della sottomucosa. Uno su tutti, che sarà preso in considerazione per gli scopi

del presente lavoro, è la frazione di volume di sangue.

Nelle regioni blu e verde dello spettro, l’assorbimento della luce da parte

dell’emoglobina si traduce in un grafico fatto di “picchi” e “buche”. Queste

ultime, centrate attorno a 420 nm e 540-580 nm, diventano ancora più

accentuate con l’incremento del contenuto di sangue (frazione di volume).

68

Nella parte rossa dello spettro, invece, dove l’assorbimento da parte

dell’emoglobina è trascurabile, sono visibili solo piccoli cambiamenti. Un

maggiore contenuto di sangue si traduce semplicemente in una minore

quantità di luce riflessa poiché ne aumenta la frazione assorbita all’interno del

tessuto. Ciò determina un lieve abbassamento della curva nella parte terminale

del grafico, come è visibile nell’immagine seguente.

Figura 47 Spettro riflesso dal colon per diversi valori di frazione di volume di sangue nella mucosa.

Diversamente dalla mucosa, modificare i parametri della sottomucosa non si

traduce in grossi cambiamenti della riflessione globale, bensì in piccole

variazioni limitate alla regione rossa dello spettro. Ciò è piuttosto ragionevole

in quanto i fotoni di lunghezza d’onda nel blu e nel verde sondano il volume di

tessuto a una profondità minore.

In particolare, mentre la luce blu e quella verde viaggiano per lo più nello strato

della mucosa, la luce rossa penetra ben oltre la sottomucosa. Una sua frazione,

che sopravvive all’assorbimento e alla diffusione, riemerge in superficie,

modificando lievemente lo spettro riflesso nella sua parte terminale, come

evidenzia il grafico seguente.

69

Figura 48 Spettro riflesso dal colon per diversi valori di frazione di volume di sangue nella sottomucosa.

Questo fenomeno è ancora più evidente confrontando lo spettro riflesso solo

dal primo strato con lo spettro ottenuto modellando il colon con due o tre

strati. Negli ultimi due casi si ha un notevole incremento dello spettro totale

riflesso nella regione rossa.

Figura 49 Spettro riflesso dalla sola mucosa (linea punteggiata); spettro riflesso da mucosa e sottomucosa (linea tratteggiata); spettro riflesso da mucosa, sottomucosa e strato muscolare (linea continua).

Sintetizzando quanto appena detto e riportandolo su un piano pratico, si hanno

due elementi su cui focalizzare l’attenzione: il primo è che la luce di lunghezza

d’onda nel rosso ha una profondità di penetrazione maggiore rispetto a quella

nel blu e nel verde, quindi l’informazione che porta all’immagine riguarda

anche gli strati più profondi del colon; il secondo è che i picchi di assorbimento

70

dell’emoglobina, che si traducono nelle “buche” dello spettro riflesso, risiedono

nella banda blu e verde, quindi la maggior parte contrasto tra tessuto perfuso e

non perfuso si ottiene concentrandosi su queste due bande.

4.3 Immagine digitale a colori

Senza entrare in dettaglio, giacché non costituisce argomento del presente

lavoro, è importante accennare al meccanismo di formazione dell’immagine

digitale a colori perché è fondamentale per comprendere i metodi di

elaborazione adottati e rapportarli alla trattazione teorica.

Una telecamera digitale, sia essa a sensori CMOS o CCD, per registrare

un’immagine si serve di una matrice di minuscole cavità di luce o photosite, che

servono per “raccogliere” fotoni. In base alla quantità di fotoni che penetrano

in ciascuna cavità, il sensore produce un segnale di maggiore o minore

intensità, la cui precisione è determinata da un parametro chiamato

“profondità”, espresso in numero di bit (0-255 per un'immagine a 8-bit).

Figura 50 Matrice di photosite.

Tuttavia questo meccanismo, da solo, creerebbe immagini in scala di grigi,

poiché le cavità non sono in grado di distinguere i colori. Per registrare

immagini a colori, su ogni photosite deve essere sistemato un filtro che

permette il passaggio selettivo di luce a una particolare lunghezza d’onda.

Attualmente, la maggior parte delle telecamere digitali è progettata in modo

71

che ogni cavità catturi solo uno dei tre colori primari, scartando circa i 2/3 della

luce in entrata.

Figura 51 Principio di funzionamento dei filtri ottici.

Come risultato, ogni pixel misura solo un colore, mentre l’informazione

mancante relativa agli altri due primari deve essere estrapolata dai pixel vicini.

Il modo più comune di combinare i filtri colorati è disporli in una matrice

chiamata griglia di Bayer o Bayer array:

Figura 52 Griglia di Bayer.

Una griglia di Bayer è costituita da righe alterne di filtri verde-rosso e verde-blu.

Essa contiene il doppio di sensori verdi rispetto a quelli rossi o blu, cioè ogni

colore primario non riceve un'uguale frazione della superficie totale (50%

verde, 25% rosso, 25% blu). Ciò è dovuto al fatto che l'occhio umano è più

sensibile alla luce verde che a quella rossa o blu, per cui la ridondanza dei pixel

verdi produce un'immagine che appare meno rumorosa e dai dettagli più fini

72

rispetto a quella che verrebbe generata se ogni colore fosse trattato

equamente.

Si è detto che ogni pixel cattura solo uno dei tre colori primari, quindi, per

ottenere un’immagine finale che contenga tutte le informazioni a colori per

ogni pixel, si utilizza un particolare processo chiamato "demosaicizzazione". La

demosaicizzazione consiste in un’interpolazione dei colori che può essere

implementata in diversi modi e con svariati algoritmi, ma non sarà

approfondita in questa sede.

Quello che invece interessa, per gli scopi del presente lavoro, è che l’immagine

a colori di cui si dispone è costituita da tre componenti (RGB), ciascuna

acquisita in una banda spettrale diversa, e ciò giustifica pienamente la strada

intrapresa di lavorare separatamente sui tre canali. Allo stesso tempo, però, le

bande in questione, oltre ad essere piuttosto larghe, presentano ampie regioni

di sovrapposizione, e questo fa sì che l’informazione spaziale fornita da ogni

canale non sia particolarmente selettiva. Questo fenomeno è dovuto ai profili

di trasmissione spettrale tipici dei coloranti utilizzati nella costruzione dei filtri

Bayer.

Figura 53 Profili di trasmissione spettrale dei filtri Bayer.

73

Pertanto, per quanto il metodo di elaborazione proposto abbia un valido

fondamento teorico e, ancor più, una sorprendente evidenza pratica, esso si

configura comunque come un metodo semi-empirico, che non pretende di

raggiungere le vette di precisione spaziale tipiche dei sistemi a banda ristretta

come l’NBI.

4.4 Enhancement dell’immagine

Come già detto, le due principali caratteristiche associate alla presenza di

lesioni maligne o pre-maligne del colon sono l’incremento del volume di

sangue, dovuto a neovascolarizzazione o angiogenesi, e l’aumento dello

spessore e della disorganizzazione della rete fibrosa di collagene nella matrice

extracellulare. In aggiunta, si ricorda che le alterazioni precoci del tessuto,

dovute a patologie come il cancro del colon, sono confinate allo strato della

mucosa.

Quanto appena detto, unito a quanto visto nel precedente paragrafo,

suggerisce alcuni criteri per fornire una visione alternativa e migliorata al

medico, in altre parole un possibile enhancement.

4.4.1 Canale R

Risulta ormai abbastanza chiaro, alla luce delle conoscenze acquisite, che la

banda spettrale rossa è quella che fornisce la minore quantità di informazioni

rilevanti. Questo per due motivi principali: il primo è che penetra più in

profondità, e quindi fornisce meno indicazioni sulla mucosa e le sue eventuali

anomalie; il secondo è che presenta meno assorbimento, e quindi non

consente di operare una distinzione tra tessuto perfuso e non perfuso.

74

A conferma di ciò si guardi la seguente immagine, che costituisce un caso molto

indicativo poiché mostra una lesione superficiale piuttosto evidente e ricca di

sangue.

Figura 54 Immagine originale e canale rosso (R).

L’immagine sulla sinistra è quella originale in luce bianca, mentre quella sulla

destra rappresenta il canale rosso, ottenuto sopprimendo gli altri due canali

grazie alle funzionalità dell’interfaccia realizzata. È evidente come l’immagine a

destra fornisca pochissima informazione sia per quanto riguarda la visione di

superficie, sia per quanto concerne la presenza del sangue. Al contrario, le

componenti verde e blu della stessa immagine sono molto più contrastate e

ricche di dettagli, come si può notare nelle immagini seguenti.

75

Figura 55 Immagine originale e canale verde (G).

Figura 56 Immagine originale e canale blu (B).

Analizzando gli istogrammi delle componenti rosse delle immagini si ha

conferma di quanto osservato nel grafico dello spettro riflesso, dove, nella

parte terminale, cioè verso le lunghezze d’onda maggiori, si ha un valore

elevato e pressoché costante. Gli istogrammi, infatti, sono centrati verso livelli

d’intensità alti e le immagini stesse hanno una tonalità complessiva

prevalentemente rosea, cosa che uniforma la visione e riduce il contrasto.

76

Figura 57 Immagine originale e istogramma del canale rosso (R).

Per tutti questi motivi si è deciso di eseguire una trasformazione che riducesse

il peso del canale rosso nell’immagine globale. Inoltre, per ottenere il maggior

beneficio possibile dalla conversione, si è preferito compiere una

trasformazione non uniforme (non lineare), che agisse differentemente sui

livelli di grigio inferiori e superiori. La scelta è caduta quindi su una curva

cubica.

Figura 58 Curva cubica per il canale rosso (R).

77

La retta in nero rappresenta l’equazione y=x (output=input), chiamata anche

bisettrice del quadrante. Ciò significa che nella regione del grafico al di sopra di

essa i livelli di output sono maggiori rispetto a quelli di input, viceversa al di

sotto. È chiaro, quindi, che tutti i valori d’intensità del canale rosso sono in

qualche modo ridotti da questa trasformazione rispetto all’immagine originale.

La modifica dei livelli d’intensità secondo una curva cubica corrisponde

all’applicazione di un operatore di elevazione a potenza.

In genere, se l’immagine è sottoesposta, i particolari interessanti sono poco

evidenti e concentrati nelle zone scure; in tal caso può essere utile espandere la

dinamica associata ai livelli scuri e comprimere quella dei livelli chiari.

Viceversa, se l’immagine è sovraesposta, i particolari interessanti sono poco

evidenti e concentrati nelle zone chiare; in tal caso può essere utile espandere

la dinamica associata ai livelli chiari e comprimere quella dei livelli scuri.

Nel caso in esame, l’immagine è piuttosto sovraesposta, con valori d’intensità

concentrati nella parte alta. Di base, quindi, la conversione espande la dinamica

associata ai livelli alti e comprime i livelli scuri. In aggiunta a questo, è noto che

i valori più bassi d’intensità corrispondono alle zone dove c’è maggiore

assorbimento da parte della luce. La compressione, ovvero l’ulteriore

attenuazione di questi valori, determina un aumento del contrasto tra tessuto

dove c’è perfusione sanguigna e tessuto non irrorato.

L’immagine seguente è la stessa analizzata in precedenza così come appare al

termine della conversione cubica.

78

Figura 59 Immagine originale e immagine sottoposta a conversione cubica per il canale R.

In questo caso i vantaggi della trasformazione non sono lampanti, ma è già

piuttosto evidente come la macchia di sangue appaia più contrastata rispetto al

resto, così come sembrano meglio definiti i suoi margini. Inoltre, è abbastanza

chiaro che il range dinamico dei livelli alti è aumentato; infatti, escludendo la

macchia, su tutta la superficie si spazia da una tonalità rosea al bluastro.

Per apprezzarne maggiormente l’effetto, si guardi il risultato della stessa

trasformazione sull’immagine seguente, scaricata dal sito Gastrolab e di qualità

decisamente superiore alla precedente.

Figura 60 Immagine originale e immagine sottoposta a conversione cubica per il canale R.

79

Si può concludere affermando che la conversione cubica ha un duplice effetto:

migliorare la visione degli strati superficiali del tessuto ed enfatizzare il pattern

vascolare di mucosa e sottomucosa. Tuttavia, si è propensi a ritenere che il suo

principale vantaggio sia proprio il secondo, ossia la trama vascolare, poiché in

questo caso l’effetto di enhancement è diretto, con un’attenuazione maggiore

dei livelli già scuri; il primo, al contrario, è un vantaggio che si ottiene

indirettamente, giacché, diminuendo il peso della componente rossa, si

aumenta indirettamente il peso di quella verde e blu, che provvedono

all’informazione superficiale e ai particolari.

4.4.2 Canali G e B

Le componenti spettrali verde e blu, a differenza della rossa, forniscono

informazioni dettagliate sulla superficie della mucosa e sulla trama vascolare.

Questo accade sostanzialmente per due motivi: il primo è che la lunghezza

d’onda minore fa sì che i fotoni sondino il tessuto più superficialmente, dando

modo all’immagine di arricchirsi di particolari sullo strato di maggiore interesse

clinico, ossia la mucosa.

Figura 61 Profondità di penetrazione al variare della lunghezza d’onda.

80

Il secondo motivo è che all’interno delle bande frequenziali verde e blu vi sono i

due principali picchi di assorbimento dell’emoglobina, ossia 415 nm e 540 nm, e

ciò massimizza il contrasto tra il tessuto dove è presente sangue e dove invece

è assente.

Figura 62 Assorbimento di luce da parte di emoglobina ossigenata e deossigenata al variare della lunghezza d’onda.

Per tali motivi, si è deciso di aumentare il peso di queste due componenti

all’interno dell’immagine. Come nel caso precedente, si è optato per una

trasformazione non lineare che modificasse i valori d’intensità dei pixel sul

canale, ma in questa circostanza è stata scelta una curva sigmoide.

81

Figura 63 Curva sigmoide per i canali verde (G) e blu (B).

Come si vede dal grafico, questo tipo di curva presenta un punto d’intersezione

con la retta y=x, cioè con la bisettrice del quadrante. Ciò significa che tutti i

livelli d’intensità che cadono prima dell’intersezione, sono attenuati dalla

trasformazione, quelli che invece vengono dopo, sono amplificati.

Modificare i valori di intensità dei pixel secondo una curva sigmoide

corrisponde ad applicare un operatore di contrast stretching o histogram

stretching (espansione dell’istogramma). Questo operatore è utilizzato per

migliorare il contrasto dell’immagine, espandendo la dinamica dei livelli di

grigio su un intervallo più ampio. Solitamente l’espansione è realizzata con una

funzione lineare o lineare a tratti, ma nel caso in esame è stata scelta una

funzione non lineare.

L’immagine seguente è la stessa già vista più volte in precedenza, sottoposta

alla conversione cubica per la componente rossa e sigmoide per quella verde e

blu.

82

Figura 64 Immagine originale e immagine sottoposta a conversione cubica per il canale R e conversione sigmoide per i canali G e B.

Si può notare, in maniera abbastanza evidente, come l’immagine sia ancor più

ricca di particolari superficiali e come la macchia di sangue sia estremamente in

evidenza rispetto al resto. Ancora una volta, un’immagine di qualità migliore,

scaricata dal sito Gastrolab, può mettere in risalto i vantaggi di questa

trasformazione.

Figura 65 Immagine originale e immagine sottoposta a conversione cubica per il canale R e conversione sigmoide per i canali G e B.

Una volta individuato il tipo di curva che occorre per gli scopi prefissati, bisogna

ottimizzarla per ottenere il massimo dei benefici possibile. In modo particolare,

bisogna scegliere il punto che segna il confine tra l’attenuazione e

83

l’amplificazione, in altre parole, il punto d’intersezione della curva sigmoide con

la bisettrice.

Gli istogrammi dei canali verde e blu sono centrati verso valori d’intensità

medio-bassi, e sono, almeno per le immagini acquisite con il sistema Endotics,

piuttosto simili.

Figura 66 Immagine originale e istogrammi dei canali G e B.

Una scelta sensata potrebbe essere quella di prendere il punto d’intersezione

esattamente nel punto medio dei valori d’intensità dell’immagine, il che

equivarrebbe a “spezzare” l’istogramma nel mezzo. Questa soluzione, tuttavia,

presenta due svantaggi: il primo è che determina un’immagine generalmente

troppo chiara, che sicuramente non è utile allo scopo; il secondo è che,

trattandosi di elaborazione in real-time, i frame sono tutti diversi, e come tali

presentano differenti istogrammi, il che rende difficile individuare un punto che

vada bene per ciascuno di essi.

A causa di questi svantaggi, si è deciso di compiere uno studio più approfondito

del problema, che prendesse in considerazione qualche criterio quantitativo,

come ad esempio il contrasto.

84

4.5 Contrasto nelle immagini a colori

Nelle immagini in bianco e nero, il contrasto è semplicemente il rapporto o

differenza tra il valore più alto (punto più chiaro) e il valore più basso (punto

più scuro) della luminosità. Nelle immagini a colori, invece, il contrasto è una

caratteristica difficilmente definibile perché è un attributo sia fisico che

percettivo. Una possibile definizione di contrasto potrebbe essere: “Differenza

nelle proprietà visive che rendono un oggetto distinguibile da un altro oggetto

o dallo sfondo”.

Esistono numerosi algoritmi per l'aumento del contrasto delle immagini a livelli

di grigio, come lo stretching dell’istogramma, la segmentazione e

l’equalizzazione dell'istogramma, ma tutte queste tecniche non possono essere

applicate, così come sono, alle immagini a colori. Allo stesso modo, non esiste

un indice quantitativo univoco e universalmente accettato che possa esprimere

il livello di contrasto in un’immagine a colori. Per questo l’enhancement delle

immagini a colori è più difficile e molte questioni sono tuttora oggetto di

ricerca.

Nonostante le difficoltà sopra citate, svolgendo ricerche in letteratura ci si è

imbattuti in una proposta di quantificazione apparsa piuttosto convincente [18].

Tale metodo esige di trasformare l’immagine dallo spazio di colore RGB a

quello HSV (Hue Saturation Value) e di calcolare poi il contrasto, o meglio

l’incremento relativo del contrasto tra l’immagine elaborata e quella originale,

con la seguente formula:

85

Dove σout e σin sono rispettivamente la varianza dei livelli di “V” (valori di

luminosità) dell’immagine di output e la varianza degli stessi livelli

nell’immagine di input.

Il limite di questo indice sta nel fatto che esprime il livello di contrasto

complessivo dell’immagine, mentre per gli scopi del presente lavoro si è

interessati, più che all’immagine nella sua interezza, a specifiche regioni del

colon. L’ideale, per un’ottimizzazione ancora più robusta, sarebbe riuscire a

quantificare il contrasto tra tessuto sano e patologico, selezionando

dall’immagine una ROI che li comprenda entrambi.

4.5.1 Criterio di ottimizzazione

Facendo uso del suddetto indice, è stato individuato un criterio per stabilire in

quale punto fissare l’intersezione delle curve con la bisettrice.

Per il calcolo sono state scelte dieci immagini, estratte dal video di un esame

endoscopico registrato con il sistema di acquisizione Endotics su una cavia

suina presso il MEDDEC (Medical Device Development Center) situato a Kobe

(Giappone), da dipendenti dell’azienda. I fotogrammi sono stati scelti

accuratamente in modo da creare un set quanto più possibile eterogeneo,

comprendendo frame di settori del colon sani e altri caratterizzati dalla

presenza di lesioni, con pattern vascolare a volte più evidente, a volte meno.

Ciascuna di queste immagini è stata trattata nel seguente modo: è stata

applicata la conversione cubica per il canale rosso e la conversione sigmoide

per gli altri due canali, ma mentre la prima trasformazione è identica per tutte

le immagini, la seconda è stata applicata in modo sempre diverso, modificando

ogni volta il punto d’intersezione della curva con la bisettrice. Più

precisamente, il livello di intensità corrispondente al punto d’intersezione della

curva con la retta è stato traslato dal valore 90 al valore 180, con passo 10, in

86

modo da avere intersezione a 90, 100, 110, e così via fino a 180. In totale,

quindi, si sono ottenute, per ogni immagine, 10 sotto-immagini diverse, per un

totale di 100.

Figura 67 Set di immagini utilizzato per l’ottimizzazione delle curve.

Per ciascuna sotto-immagine, è stato poi calcolato l’incremento del contrasto

con il metodo visto. I valori ottenuti sono stati graficati e gli andamenti

analizzati per ogni sotto-immagine al variare del punto d’intersezione.

I grafici rivelano come tutte le immagini presentino un trend abbastanza simile:

in una prima fase i valori del contrasto crescono, poi raggiungono un picco

massimo e infine decrescono.

L’immagine seguente mostra le curve di crescita del contrasto rispetto al valore

minimo, evidenziando con un target il picco massimo raggiunto.

87

I livelli di intensità corrispondenti ai picchi massimi del contrasto sono stati

estrapolati e ne è stata calcolata la media aritmetica. Il valore ottenuto, cioè

141, costituisce il livello di intensità che corrisponde al punto di intersezione

ottimo, per cui in definitiva le curve utilizzate sono le seguenti.

Figura 68 Curva cubica per il canale R e curva sigmoide ottimizzata per i canali G e B.

88

Per eseguire tutte le elaborazioni appena descritte (conversione dallo spazio

RGB a HSV, calcolo del contrasto e grafici degli andamenti) è stato utilizzato il

software Matlab.

4.6 Enhancement dei dettagli

Per quanto concerne l’altro aspetto che caratterizza la presenza di lesioni

neoplastiche, ossia l’incremento del disordine della rete di fibre, la soluzione

proposta è quella di applicare all’immagine un semplice filtro di sharpening, più

o meno incisivo in base al rumore e alle esigenze del momento.

L’affilatura dell’immagine fornisce al medico una visione migliorata dei dettagli,

enfatizzando la conformazione e i margini delle anomalie superficiali, e può

quindi aiutare a caratterizzare e differenziare una lesione. L’immagine

seguente, di qualità elevata, è un chiaro esempio di come agisce un filtro di

sharpening.

Figura 69 Immagine originale e immagine sottoposta al filtro di sharpening.

Si mostra infine un’immagine in cui sono stati applicati tutti e quattro i metodi

di enhancement visti in questo capitolo (cubico R, sigmoide G, sigmoide B e

sharpening) per dare un’idea dell’effetto finale dell’elaborazione proposta.

89

Figura 70 Immagine originale e immagine potenziata.

È evidente come sia il pattern vascolare, sia la configurazione superficiale delle

“macchie”, risentano positivamente del trattamento effettuato sull’immagine

che appare inoltre, anche a uno sguardo superficiale, più nitida, contrastata e

vivace.

90

CAPITOLO5

Validazioneerisultati

Una volta definito e ottimizzato il sistema di elaborazione, è stato necessario

validarlo, verificando che la soluzione proposta apportasse reali miglioramenti

all’immagine, nella prospettiva di fornire un concreto supporto diagnostico.

Si è imposta quindi la necessità di intervistare un certo numero di medici

endoscopisti, sottoponendoli a un test opportunamente sviluppato. A tal fine,

ci si è recati al 20° Congresso Nazionale delle Malattie Digestive, svoltosi a

Napoli dal 14 al 22 marzo 2014 presso la Mostra d’Oltremare.

Complessivamente, sono stati intervistati quattro medici endoscopisti. Le

risposte sono state raccolte e presentate sotto forma di tabelle, grafici e

istogrammi. Infine, i dati sono stati sottoposti a test statistici.

5.1Testsperimentale

L’esperimento di validazione della soluzione proposta consiste in un test

sperimentale in cui un certo numero di immagini, originali ed elaborate,

vengono sottoposte al giudizio del medico endoscopista, il quale è invitato, per

ciascuna di esse, a rispondere a precise domande.

Le immagini scelte per il test sono le medesime utilizzate nel precedente

capitolo per l’ottimizzazione delle curve di tono, con qualche differenza. Ogni

immagine originale è stata sottoposta a sole due elaborazioni diverse: la prima

consistente nell’applicazione della curva cubica al canale R (A Mode); la

seconda nell’applicazione della curva cubica al canale R e della curva sigmoide

ottimizzata ai canali G e B (B Mode).

91

Trattandosi di dieci immagini, ciascuna elaborata in due modi diversi, insieme

all’originale configurano un set finale composto di trenta immagini.

Figura 71 Set di immagini utilizzato per il test di validazione.

Il test è stato concepito per rendere la valutazione da parte del medico quanto

più possibile “assoluta”, vale a dire svincolando il suo giudizio da possibili

termini di paragone tra l’immagine originale e l’immagine elaborata.

Questo aspetto ha fatto sì che la presentazione delle immagini al medico

avvenisse in modo puramente casuale. L’esperimento, quindi, consta di una

fase preliminare in cui le immagini del set sono state randomizzate e dotate di

92

un codice identificativo che permettesse di riconoscerle in sede di analisi dei

risultati.

5.2 Domande

Come già espresso più volte, le due principali caratteristiche associate alla

presenza di lesioni maligne o pre-maligne del colon sono: l’incremento del

volume di sangue e il disordine della rete connettivale. Lo stesso enhancement

proposto si fonda sull’enfatizzazione di questi fattori nell’immagine elaborata.

Anche le domande formulate al medico durante il test di validazione sono

diretta conseguenza di ciò. Esse sono tre:

• Capacità di evidenziare anomalie superficiali della mucosa

Per “anomalie superficiali” si intendono: aree di discromia (pallore focale,

eritema), di irregolarità della superficie (rilevate o depresse), convergenze

plicali o irregolarità marginali.

La risposta richiesta è un indice di gradimento espresso con un voto da 1

(minimo) a 5 (massimo).

• Capacità di evidenziare la trama vascolare

Per “trama vascolare” si intende sia il pattern vascolare della mucosa,

costituito dalla rete di capillari che avvolge le ghiandole della mucosa,

quando visibile, sia l’architettura di arteriole e venule sottomucosa.

Anche in questo caso, la risposta richiesta è un indice di gradimento

espresso con un voto da 1 (minimo) a 5 (massimo).

• Aspetto generale

Si intende un giudizio che racchiuda l’immagine nella sua totalità, che

comprenda cioè diversi fattori, come la cromaticità, la profondità di campo,

la luminosità e ogni altro aspetto che possa attingere a parametri soggettivi

o gusti personali.

93

In questo caso la risposta richiesta è un indice di gradimento espresso con

un aggettivo da scegliere tra: “scarso” (valore 1), “medio” (valore 2),

“buono” (valore 3).

5.3 Raccolta dei dati

Una volta intervistati i quattro medici, i dati sono stati raccolti e organizzati per

la successiva analisi. Innanzitutto, i voti sono stati suddivisi in tre gruppi:

• Anomalie superficiali (Gruppo 1, “AS”)

• Trama vascolare (Gruppo 2, “TV”)

• Aspetto generale (Gruppo 3, “AG”)

Per ciascun gruppo sono state create 4 tabelle, ognuna relativa ad un medico,

identificato come: “Medico 1”, “2”, “3”, o “4”. Le dimensioni delle tabelle sono

3x10, dove 3 corrisponde al numero di voti espressi per ciascuna immagine

(originale, A Mode e B Mode) mentre 10 è il numero di immagini (identificate

con una lettera da A a J). La quantità complessiva di dati da analizzare consiste

in 12 tabelle composte da 30 voti ciascuna, per un totale di 360 dati.

5.4 Presentazione dei dati

Una volta raccolti, i dati sono stati analizzati all’interno dei singoli gruppi in cui

sono stati divisi. Ciò è stato fatto allo scopo di separare gli effetti

dell’enhancement (superficie e trama vascolare), valutando individualmente

quale avesse avuto un riscontro positivo e in che misura.

Per ciascun gruppo, quindi, è stata calcolata la media aritmetica dei voti

espressi dai quattro medici. Ciò significa che da 4 tabelle per gruppo se n’è

ottenuta una sola, per un totale di 3 tabelle. Sintetizzando in questo modo i

dati raccolti è stato possibile introdurre un’analisi di tipo grafico.

94

5.4.1 Anomalie superficiali

Di seguito si riporta la tabella contenente i voti medi relativi all’analisi di

superficie (Gruppo 1) con il rispettivo grafico che mostra gli andamenti della

media-voto nel passaggio dall’immagine originale a quella elaborata con l’A

Mode, fino a quella elaborata con il B Mode.

Figura 72 Gruppo 1 (AS) - Andamenti della media voto, per ciascuna immagine, al variare della modalità di elaborazione.

Analizzando visivamente gli andamenti, è piuttosto evidente come vi sia, in

tutte le immagini, un netto incremento della media-voto nel passaggio

dall’originale al B Mode. La situazione è meno chiara nel passaggio intermedio,

ovvero nell’A Mode. Qui sembra esserci una cospicua variabilità tra le immagini

Originale A Mode B Mode

A 3,5 3,75 5

B 3,75 3,5 4,75

C 3 3,5 4,25

D 4 3,5 4,75

E 3,5 3 4,25

F 4,25 4 4,25

G 1,5 1,75 2

H 3,5 4 4

I 2,75 2,5 3,75

J 4 4,25 4,5

0

1

2

3

4

5

6

Me

dia

vo

to

Anomalie Superficiali

95

che presentano un incremento, altre che lo mantengono costante, altre ancora

che subiscono un decremento.

Per andare oltre un’analisi puramente qualitativa, sono stati calcolati gli

incrementi relativi percentuali della media-voto nel passaggio dall’immagine

originale a quelle elaborate. Il grafico seguente mostra l’incremento nel

passaggio intermedio (A Mode):

Figura 73 Gruppo 1 (AS) - Incremento relativo percentuale della media voto nel passaggio dall’immagine originale a quella elaborata in A Mode.

Come previsto, i dati quantitativi confermano l’analisi visiva degli andamenti.

Circa la metà delle immagini presenta un incremento, l’altra metà un

decremento.

Nel grafico seguente questa variabilità non è presente. Una sola immagine non

presenta incremento, tutte le altre evidenziano una crescita della media-voto.

-15

-10

-5

0

5

10

15

20

7,14

-6,67

16,67

-12,5-14,28

-5,88

16,6714,28

-9,09

6,25

Incr

em

en

to r

ela

tiv

o p

erc

en

tua

le

Immagini

A Mode

A

B

C

D

E

F

G

H

I

J

96

Figura 74 Gruppo 1 (AS) - Incremento relativo percentuale della media voto nel passaggio dall’immagine originale a quella elaborata in B Mode.

5.4.2 Trama vascolare

Le stesse considerazioni possono essere fatte per l’analisi della trama vascolare

(Gruppo 2). Si riporta dunque la tabella contenente i voti medi con il rispettivo

grafico che ne mostra gli andamenti.

0

5

10

15

20

25

30

35

40

4542,85

26,67

41,67

18,7521,43

0

33,33

14,29

36,36

12,5

Incr

em

en

to r

ela

tiv

o p

erc

en

tua

le

Immagini

B Mode

A

B

C

D

E

F

G

H

I

J

97

Figura 75 Gruppo 2 (TV) - Andamenti della media voto, per ciascuna immagine, al variare della modalità di elaborazione.

Anche in questo caso, a una semplice analisi visiva, la situazione è piuttosto

chiara. In tutte le immagini si rileva un deciso incremento della media-voto nel

passaggio dall’originale al B Mode, anche più evidente rispetto al caso

precedente. Di nuovo, lo stato dell’A Mode è meno definito, anche se stavolta

sembra esserci una maggiore propensione all’incremento.

I grafici seguenti, mostrando gli incrementi relativi percentuali della media-

voto, chiariscono ogni dubbio.

Originale A Mode B Mode

A 3,25 4 4,75

B 2 2 2

C 3,5 4 4,5

D 3 2,75 4,25

E 1,75 1,75 2

F 3,5 3,5 4

G 1,5 1,75 2,25

H 2 2,25 3,25

I 1,75 1,75 2,75

J 2,5 3,25 4

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5M

ed

ia v

oto

Trama Vascolare

98

Figura 76 Gruppo 2 (TV) - Incremento relativo percentuale della media voto nel passaggio dall’immagine originale a quella elaborata in A Mode.

Nel caso dell’A Mode, la metà delle immagini presenta una crescita della media

voto, come nel caso precedente. La differenza, questa volta, sta nel fatto che

solo un’immagine mostra una diminuzione della media-voto, mentre le

rimanenti non presentano alcuna variazione.

Figura 77 Gruppo 2 (TV) - Incremento relativo percentuale della media voto nel passaggio dall’immagine originale a quella elaborata in B Mode.

-10

-5

0

5

10

15

20

25

3023,08

0

14,29

-8,33

0 0

16,67

12,5

0

30

Incr

em

en

to r

ela

tiv

o p

erc

en

tua

le

Immagini

A Mode

A

B

C

D

E

F

G

H

I

J

0

10

20

30

40

50

60

70

46,15

0

28,57

41,67

14,2914,29

50

62,557,14

60

Incr

em

en

to r

ela

tiv

o p

erc

en

tua

le

Immagini

B Mode

A

B

C

D

E

F

G

H

I

J

99

Nel caso del B Mode, di nuovo, tutte le immagini, tranne una, mostrano una

crescita consistente della media-voto, con livelli percentuali ancora maggiori

rispetto al caso precedente, toccando quote del 50-60%.

5.4.3 Aspetto generale

L’ultimo gruppo in esame (Gruppo 3) contiene i voti riguardanti l’aspetto

generale dell’immagine. Anche in questo caso se ne mostrano le tabelle e i

rispettivi grafici.

Figura 78 Gruppo 3 (AG) - Andamenti della media voto, per ciascuna immagine, al variare della modalità di elaborazione.

Originale A Mode B Mode

A 2,5 2,5 3

B 2,5 2,25 3

C 1,75 1,5 2,75

D 2,75 2 3

E 2,25 2 2,5

F 2,25 1,75 2,75

G 1 1,25 1

H 2,25 2,25 2,25

I 1 1 1,75

J 2,25 2,75 3

0

0,5

1

1,5

2

2,5

3

3,5

Me

dia

vo

to

Aspetto Generale

100

A un’analisi qualitativa la situazione non è di facile interpretazione. Sembra

esserci, come sempre, un aumento della media voto tra l’originale e il B Mode,

mentre per l’A Mode si ripresenta una condizione altalenante, stavolta persino

propensa alla riduzione.

Figura 79 Gruppo 3 (AG) - Incremento relativo percentuale della media voto nel passaggio dall’immagine originale a quella elaborata in A Mode.

L’istogramma non lascia dubbi: 5 immagini su 10 subiscono una diminuzione

della media-voto, 2 sole immagini un aumento, le restanti 3 non risentono

dell’elaborazione.

-30

-20

-10

0

10

20

30

0

-10-14,28

-27,27

-11,11

-22,22

25

0 0

22,22

Incr

em

en

to r

ela

tiv

o p

erc

en

tua

le

Immagini

A Mode

A

B

C

D

E

F

G

H

I

J

101

Figura 80 Gruppo 3 (AG) - Incremento relativo percentuale della media voto nel passaggio dall’immagine originale a quella elaborata in B Mode.

5.5 Analisi statistica

Per dare consistenza all’analisi e trarre solide conclusioni sulla validità del

metodo proposto, sono stati applicati metodi di analisi statistica ai dati. In

particolare sono stati scelti test statistici non parametrici basati sui ranghi.

I test parametrici (z-test, t-test e analisi di varianza) sono basati sul presupposto

che le osservazioni siano tratte da popolazioni di valori normalmente distribuiti,

nelle quali le varianze sono approssimativamente uguali. Essi sono detti

parametrici perché si basano sulla stima dei due parametri della popolazione, la

media e la varianza, che definiscono completamente una distribuzione

normale.

Tuttavia, se i dati sperimentali non sono compatibili con queste condizioni

preliminari o se, addirittura, le osservazioni sono misurate su una scala

qualitativa ordinale, i metodi parametrici diventano poco attendibili poiché la

media e la varianza non sono sufficienti per una completa descrizione della

popolazione.

0

10

20

30

40

50

60

70

80

20 20

57,14

9,09 11,11

22,22

0 0

75

33,33

Incr

em

en

to r

ela

tiv

o p

erc

en

tua

le

Immagini

B Mode

A

B

C

D

E

F

G

H

I

J

102

In questi casi è possibile utilizzare, invece delle osservazioni, i ranghi, cioè i

numeri d’ordine delle osservazioni stesse, al fine di calcolare test non

parametrici (ovvero test liberi da distribuzione) nella verifica delle ipotesi.

Per gli scopi del presente lavoro sono stati utilizzati il test dei ranghi con segno

di Wilcoxon e il test di Kruskal-Wallis.

5.5.1 Test di Kruskal-Wallis

Il test di Kruskal-Wallis è utilizzato per analizzare esperimenti nei quali almeno

tre gruppi di soggetti sono esposti a differenti trattamenti, ma le osservazioni

non rispettano le condizioni di applicabilità dell’analisi di varianza a un criterio

di classificazione. Esso è un’immediata generalizzazione del test di Mann-

Whitney¸ in cui si confrontano due campioni indipendenti.

Nel caso in esame i campioni da analizzare sono le tre modalità di

presentazione delle immagini ai medici, ossia originale, A Mode e B Mode, e le

osservazioni sono i voti medi calcolati per ciascun gruppo. Il limite

dell’applicabilità di questo test in tale circostanza risiede nel suo considerare i

dati indipendenti e non appaiati.

Per il calcolo è stato utilizzato il software Matlab. La funzione Kruskalwallis()

restituisce il p-value per l'ipotesi nulla che tutti i campioni siano tratti dalla

stessa popolazione (o, equivalentemente, da diverse popolazioni con la stessa

distribuzione). Se p è vicino allo zero, ciò mette in dubbio la validità dell'ipotesi

nulla e suggerisce che almeno una mediana campionaria è significativamente

diversa dalle altre. La scelta del valore critico di p per giudicare se il risultato è

statisticamente rilevante o meno è lasciata all’utente. È comune dichiarare un

risultato significativo se il p-value è inferiore a 0.05 o 0.01 (5% o 1% di

significatività).

103

Per quanto concerne le anomalie superficiali, il test di Kruskal-Wallis restituisce

un p-value di 0.0105. Ciò significa che c’è una probabilità dell’1.05% che sia

valida l’ipotesi nulla, ovvero che i tre campioni (originale, A Mode e B Mode)

provengano dalla stessa popolazione.

Ecco anche un box-plot (diagramma a scatola e baffi), che descrive la

distribuzione dei tre campioni mediante semplici indici di dispersione e di

posizione.

Figura 81 Gruppo 1 (AS) – Distribuzione dei voti medi all’interno delle 3 modalità di elaborazione.

È chiaro quindi che il campione che maggiormente si discosta dagli altri è quello

relativo al B Mode.

Lo stesso procedimento è stato seguito per l’analisi di trama vascolare. In

questo caso il test fornisce un p-value di 0.0916, vale a dire che la probabilità

che i tre campioni provengano dalla stessa popolazione è del 9.16%,

decisamente più alta della precedente.

In effetti, in questa circostanza la situazione è meno definita, come mostra il

box-plot seguente.

104

Figura 82 Gruppo 2 (TV) – Distribuzione dei voti medi all’interno delle 3 modalità di elaborazione.

5.5.2 Test dei ranghi con segno di Wilcoxon

Dal test di Kruskal-Wallis si è appreso che i tre campioni, con una discreta

probabilità, non appartengono alla stessa popolazione. Tuttavia, per maggiore

chiarezza, giacchè il secondo e il terzo campione (rispettivamente l’A Mode e il

B Mode) hanno una distribuzione molto diversa, si è deciso di applicare anche

un altro test.

Analogamente al t di Student, il test dei ranghi con segno di Wilcoxon (signed

rank test) è utilizzato negli esperimenti in cui i dati sono appaiati (ad esempio

nel caso di esperimenti che prevedono un unico gruppo di soggetti osservati

prima e dopo un certo trattamento) ma in cui non siano rispettate le condizioni

di applicabilità dei test parametrici.

Dati in ingresso i due campioni x e y, la funzione di Matlab signrank() esegue il

test dell'ipotesi nulla che i dati nel vettore x-y provengano da una distribuzione

continua e simmetrica di mediana zero, contro l'ipotesi alternativa che la

distribuzione non abbia mediana nulla.

105

Poiché questo test è utilizzabile al massimo su due misure accoppiate, esso è

stato applicato a coppie, vale a dire: originale/A Mode, originale/B Mode.

Per quanto riguarda le anomalie superficiali, nel confronto tra immagine

originale e A Mode il test ha fornito un p-value di 1, cioè al 100% il trattamento

non ha avuto alcun effetto; nel confronto tra immagine originale e B Mode, al

contrario, il test ha restituito un p-value di 0.0039, ovvero la probabilità che

non si abbia avuto effetto è solo dello 0.39%.

Per quanto concerne il pattern vascolare, nel confronto tra immagine originale

e A Mode il test ha fornito un p-value di 0.125, cioè al 12.5% il trattamento non

ha avuto alcun effetto; invece, nel confronto tra immagine originale e B Mode,

il test ha restituito di nuovo un p-value di 0.0039, ovvero la probabilità che non

si abbia avuto alcun effetto è solo dello 0.39%.

5.6 Discussione

Prima di procedere all’analisi dei risultati è fondamentale soffermarsi su un

punto. Le immagini utilizzate per il test, per quanto eterogenee, non

presentano tutte le caratteristiche necessarie per permettere al medico una

valida risposta a ogni domanda. In altre parole, alcune immagini mostrano un

ricco pattern vascolare, altre un pattern meno evidente, altre ancora ne sono

completamente prive. Lo stesso discorso vale per le lesioni superficiali.

Questo non rappresenta un problema perché ciò che interessa valutare non è

la media-voto in assoluto bensì l’incremento della media-voto.

In fase di analisi dei risultati, bisogna tenere ben presente questo fattore

giacché un’immagine che non mostra miglioramento (0%) non

necessariamente è sintomo di scarsa efficacia dell’elaborazione, ma

probabilmente non contiene elementi per consentire di essere migliorata.

106

Diverso è il caso in cui l’immagine subisce un decremento della media-voto,

perché allora vuol dire che c’è stato un peggioramento.

Chiarito questo punto, alla luce dei risultati ottenuti è possibile trarre qualche

conclusione.

In primo luogo, si può affermare con assoluta certezza che il B Mode ha avuto

un impatto di gradimento eccezionale, persino superiore alle attese, come

dimostrano invariabilmente tutti i grafici e i test statistici.

Gli istogrammi che mostrano l’incremento relativo percentuale della media-

voto dell’immagine elaborata rispetto all’originale presentano tutti valori

positivi, anche quelli che concernono l’aspetto generale dell’immagine, con

picchi, nell’analisi di trama vascolare, del 60-70%. Allo stesso modo, il test di

Wilcoxon, per entrambi i gruppi AS e TV, fornisce una probabilità del solo 0.39%

che possa essere valida l’ipotesi nulla, cioè che i due campioni (media-voto

dell’immagine originale e media-voto dell’immagine in B Mode) appartengano

alla stessa popolazione.

L’A Mode, nonostante qualche miglioramento riscontrato in alcune immagini,

non ha conseguito in genere lo stesso successo, generando un gradimento

piuttosto alterno e incostante.

Nell’ambito delle anomalie superficiali ciò non desta preoccupazione, giacché

non era atteso un miglioramento rilevante. Infatti, il numero di incrementi è

uguale a quello dei decrementi, mentre il test di Wilcoxon rimuove ogni dubbio

con la certezza di validità dell’ipotesi nulla. Per quanto riguarda l’analisi di

trama vascolare, invece, si attendeva qualcosa di più. Di fatto, i risultati sono

più incoraggianti, con 5 immagini che mostrano un miglioramento e 1 soltanto

che mostra un peggioramento. Tuttavia, anche in questo caso l’incremento non

è schiacciante, come evidenzia il test di Wilcoxon che fornisce una probabilità

abbastanza alta (12.5%) che l’ipotesi nulla sia valida.

107

Una possibile spiegazione al mancato successo dell’A Mode può venire dal

terzo gruppo di voti, ossia quello riguardante l’aspetto generale delle immagini.

Qui si vede chiaramente come metà delle immagini subisca una diminuzione

del gradimento, contro 2 sole immagini che aumentano la media-voto. Ciò

significa che un’immagine dal tono verde-bluastro non convince

particolarmente gli endoscopisti, i quali tendono a giudicarla negativamente.

È probabile, dunque, che quando non vi siano miglioramenti macroscopici della

trama vascolare o delle anomalie superficiali i medici, nel giudicare l’immagine,

siano inclini a fare appello al gradimento personale e quindi ad esprimere un

voto di disapprovazione. In altre parole, se non c’è un miglioramento davvero

consistente essi preferiscono l’immagine originale.

C’è poi da aggiungere un’altra considerazione: le immagini “statiche”

forniscono un’informazione solo parziale al medico endoscopista. Egli, per

quanto sia invitato a rispondere a domande precise e limitate a un singolo

aspetto, è sempre mentalmente proiettato alla diagnosi. Perciò, quando

un’immagine non fornisce sufficienti elementi utili alla diagnosi, il medico

endoscopista appare disorientato, e lo è a maggior ragione quando la tonalità

dell’immagine non lo convince pienamente, per cui partorisce un voto

negativo.

Per tutti questi motivi è stato deciso di non accantonare definitivamente l’A

Mode ma di mantenere viva questa funzionalità all’interno dell’interfaccia per

l’analisi in real-time. In futuro sarà possibile studiarlo in modo approfondito,

ricorrendo eventualmente a un test mirato che faccia uso di immagini

specifiche o di spezzoni video con elaborazione in tempo reale.

108

CONCLUSIONI

L’obiettivo del presente lavoro è stato quello di sviluppare un sistema per

l’elaborazione di immagini endoscopiche in tempo reale, cioè

contemporaneamente all’esecuzione dell’esame diagnostico.

Inizialmente è stata realizzata un’interfaccia grafica (GUI) che permettesse di

lavorare con immagini “statiche”, cioè con fotogrammi (frame) estratti da un

esame video-endoscopico. Ciò è stato fatto per consentire un’analisi

preliminare del problema, approfondendo le caratteristiche dei frame e

individuando gli elementi su cui poter agire per migliorarne la visualizzazione e

incrementarne le potenzialità diagnostiche.

Tale interfaccia (definita “GUI statica”) si compone di una serie di pulsanti e

finestre di dialogo che offrono all’utente la possibilità di caricare un’immagine

ed eseguire svariate elaborazioni, osservando in modo diretto le modifiche

apportate e gli eventuali miglioramenti ottenuti.

In seguito, la collaborazione con medici endoscopisti ha permesso di

individuare alcuni criteri per lo sviluppo di un’interfaccia semplice e funzionale

da utilizzare durante la scansione endoscopica sul paziente (definita “GUI in

real-time”).

La sua realizzazione è stata preceduta da uno studio approfondito della

letteratura esistente in materia di colon e sua interazione con la luce. Da qui è

emerso che le due principali caratteristiche associate alla presenza di lesioni

maligne o pre-maligne sono l’incremento del volume di sangue, dovuto ad

angiogenesi, e l’inspessimento e la disorganizzazione della rete fibrosa di

collagene, entrambe confinate allo strato della mucosa.

109

Inoltre, si è appreso come modellizzare il tessuto affinché le sue proprietà

ottiche dipendessero da pochi semplici parametri e come, variandone alcuni, si

modifichi lo spettro riflesso.

Alla luce di queste conoscenze fisico-anatomiche e dei principi di acquisizione

dell’immagine digitale a colori, è stato proposto un metodo di elaborazione in

real-time, finalizzato a enfatizzare le caratteristiche di interesse clinico

sopraccitate. In particolare, la diversa profondità di penetrazione nel tessuto

delle varie regioni spettrali della luce (maggiore per la banda rossa, minore per

quella verde e blu) e il diverso assorbimento da parte dell’emoglobina (i cui

picchi sono a 415 nm, nel blu, e a 540 nm, nel verde) hanno suggerito

l’applicazione di curve di tono ai tre canali dell’immagine digitale a colori (RGB).

Le curve agiscono modificando i livelli di intensità dei pixel e assumono la forma

di una funzione cubica per il canale R (operatore di elevazione a potenza) e di

una sigmoide per i canali G e B (operatore di stretching dell’istogramma).

Infine, la necessità di un criterio quantitativo per la scelta della forma migliore

associata alle ultime due curve (G e B) ha portato allo sviluppo di un metodo

sperimentale di ottimizzazione, basato sulla massimizzazione di un indice di

contrasto.

Una volta definito e ottimizzato il sistema di elaborazione, esso è stato validato

presentando a quattro medici endoscopisti un test sperimentale, consistente

nel sottoporre al loro giudizio un certo numero di immagini, originali ed

elaborate, in ordine casuale, e nella formulazione di precise domande per

ciascuna di esse.

Le immagini scelte sono state estratte dal video di un esame endoscopico

registrato con il sistema di acquisizione Endotics su una cavia suina presso il

MEDDEC (Medical Device Development Center, Kobe, Giappone) da dipendenti

dell’azienda, e sono state selezionate accuratamente in modo da creare un set

quanto più possibile eterogeneo.

110

Le elaborazioni a cui sono state sottoposte le immagini si condensano in due

differenti modalità, la prima consistente nell’applicazione della curva cubica al

canale R (definita “A Mode”), la seconda nell’applicazione della curva cubica al

canale R e della curva sigmoide ottimizzata ai canali G e B (definita “B Mode”).

Le domande formulate al medico riguardano la capacità di ciascuna immagine

di evidenziare le anomalie superficiali della mucosa (“AS”) e la trama vascolare

(“TV”), oltre all’aspetto generale dell’immagine stessa (“AG”). Le risposte,

espresse con un indice di gradimento, sono state raccolte, mediate su ciascun

gruppo (AS, TV e AG) e immagine, e presentate sotto forma di tabelle, grafici e

istogrammi. Infine, i dati sono stati sottoposti ai test non parametrici di Kruskal-

Wallis e dei ranghi con segno di Wilcoxon.

I risultati ottenuti consentono di affermare con decisione che il B Mode ha

avuto un impatto di gradimento eccezionale, persino superiore alle attese,

come evidenziano invariabilmente tutti i grafici e i test statistici. Gli istogrammi

che mostrano l’incremento relativo percentuale della media-voto

dell’immagine elaborata rispetto all’originale presentano tutti valori positivi,

mentre i test statistici confermano, con livelli di significatività dello 0.39%, che i

due campioni (media-voto dell’immagine originale e in B Mode) appartengono

a due popolazioni diverse.

L’A Mode, nonostante qualche miglioramento riscontrato in alcune immagini,

non ha conseguito in genere lo stesso successo, generando un gradimento

piuttosto alterno e incostante. Gli istogrammi presentano una notevole

variabilità mentre i test statistici rivelano che vi è solo una lieve differenza, o

non ve n’è alcuna, tra immagine originale ed elaborata. Le ragioni di ciò

risiedono probabilmente nello scarso apprezzamento del medico verso

un’immagine dal tono verde-bluastro, come dimostrano i dati relativi

all’aspetto generale (AG).

111

Pertanto, è stato deciso di non accantonare definitivamente l’A Mode ma di

mantenere viva questa funzionalità all’interno dell’interfaccia per l’analisi in

real-time, con il proposito di studiarlo approfonditamente in futuro, ricorrendo

eventualmente a un test mirato che faccia uso di immagini specifiche o di

spezzoni video con elaborazione in tempo reale.

112

BIBLIOGRAFIA

[1] Magno, Luca, et al. "Endoscopia potenziata. Classificazione delle lesioni del

colon."

[2] Galloro, Giuseppe. "High technology imaging in digestive endoscopy." World

journal of gastrointestinal endoscopy 4.2 (2012): 22.

[3] Jovani, Manol, and Silvio Danese. "La sorveglianza del cancro colo-rettale

nelle malattie infiammatorie croniche intestinali."

[4] Subramanian, Venkataraman, and Krish Ragunath. "Advanced Endoscopic

Imaging: A Review of Commercially Available Technologies." Clinical

Gastroenterology and Hepatology (2013).

[5] Cho, Won Young, Jae Young Jang, and Don Haeng Lee. "Recent advances in

image-enhanced endoscopy." Clinical endoscopy 44.2 (2011): 65-75.

[6] Neumann, Helmut, Markus F. Neurath, and Jonas Mudter. "New endoscopic

approaches in IBD." World journal of gastroenterology: WJG 17.1 (2011): 63.

[7] Tontini, G. E., et al. "Review article: newer optical and digital

chromoendoscopy techniques vs. dye-based chromoendoscopy for diagnosis

and surveillance in inflammatory bowel disease." Alimentary pharmacology &

therapeutics 38.10 (2013): 1198-1208.

[8] Muto, Manabu, et al. "Narrow band imaging: a new diagnostic approach to

visualize angiogenesis in superficial neoplasia." Clinical Gastroenterology and

Hepatology 3.7 (2005): S16-S20.

[9] Hirata, Mayuko, et al. "Magnifying endoscopy with narrow band imaging for

diagnosis of colorectal tumors." Gastrointestinal endoscopy 65.7 (2007): 988-

995.

[10] Ng, Siew C., and James YW Lau. "Narrow-band imaging in the colon:

Limitations and potentials." Journal of gastroenterology and hepatology 26.11

(2011): 1589-1596.

[11] Coriat, R., et al. "Computed virtual chromoendoscopy system (FICE): A new

tool for upper endoscopy?." Gastroentérologie clinique et biologique 32.4

(2008): 363-369.

[12] Kodashima, Shinya, and Mitsuhiro Fujishiro. "Novel image-enhanced

endoscopy with i-scan technology." World journal of gastroenterology: WJG

16.9 (2010): 1043.

113

[13] Testoni, Pier Alberto, et al. "High-definition colonoscopy with i-Scan:

Better diagnosis for small polyps and flat adenomas." World journal of

gastroenterology: WJG 18.37 (2012): 5231.

[14] Hancock, Shawn, et al. "Use of i-scan Endoscopic Image Enhancement

Technology in Clinical Practice to Assist in Diagnostic and Therapeutic

Endoscopy: A Case Series and Review of the Literature." Diagnostic and

therapeutic endoscopy 2012 (2012).

[15] Masci, Enzo, et al. "Interobserver agreement among endoscopists on

evaluation of polypoid colorectal lesions visualized with the Pentax i-Scan

technique." Digestive and Liver Disease 45.3 (2013): 207-210.

[16] Neumann, Helmut, et al. "Present and future perspectives of virtual

chromoendoscopy with i-scan and optical enhancement technology." Digestive

Endoscopy 26.S1 (2014): 43-51.

[17] Hidović-Rowe, Džena, and Ela Claridge. "Modelling and validation of

spectral reflectance for the colon." Physics in medicine and biology 50.6 (2005):

1071.

[18] Xiao, Ding, and Jun Ohya. "Contrast enhancement of color images based

on wavelet transform and human visual system." Proceedings of the IASTED

International Conference on Graphics and Visualization in Engineering. ACTA

Press, 2007.

114

RINGRAZIAMENTI

Giunto al termine di questo lavoro, desidero dedicare un pensiero alle persone

che mi hanno permesso di realizzarlo: a tutte loro va la mia gratitudine.

Il professor Nicola Vanello, che mi ha offerto l’opportunità di questa tesi e che,

per la seconda volta dopo la laurea triennale, ne è stato il relatore e il punto di

riferimento nei momenti chiave.

Il personale dell’azienda Era Endoscopy S.r.l., che mi ha accolto come uno di

loro e mi ha dato le conoscenze e gli strumenti, oltre che la sede fisica, per

poter svolgere il lavoro al meglio.

Un ringraziamento particolare va all’Ing. Giuseppe Pernorio, ormai un amico

oltre che un tutor, fedele compagno e autista nelle traversate invernali Pisa-

Peccioli, che ha seguito costantemente il mio lavoro, guidandomi e

sostenendomi anche nelle sue fasi più dure e “noiose”.

Proseguo ringraziando Alberto, Giuliano e Tiziana, che mi hanno permesso di

partecipare al Congresso delle Malattie Digestive, lasciandomi alloggiare a

Napoli e accompagnandomi nell’impresa di intervistare un cospicuo numero di

medici endoscopisti.

Un pensiero va anche agli amici e colleghi che mi hanno incoraggiato e sorretto

in questa seconda parte del cammino universitario, soprattutto nei momenti

difficili, e quando il traguardo sembrava distante e intangibile.

Un grazie particolare a Monica, che da storica dell’arte ha dovuto sorbire,

volente o nolente, otto mesi e più di cento pagine di elaborazione digitale e

immagini endoscopiche.

Ringrazio infine la mia famiglia, come sempre con la speranza di riuscire a

ripagare, con una piccola gioia, gli enormi sacrifici profusi.