Face Detection using Multi-view HOGs

31
Introduzione Dataset Implementazione Risultati Conclusioni Face Detection con Multi-View HOG Andrea Barillari, Federico D’Amato Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 1/31

Transcript of Face Detection using Multi-view HOGs

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Face Detection con Multi-View HOG

Andrea Barillari, Federico D’Amato

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 1/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Face DetectionTecniche usate

Face DetectionI Insieme di tecnologie atte alla localizzazione di volti umani in

immagini digitali.I Tale problema puo essere visto come uno specifico caso di

object-class detection.

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 2/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Face DetectionTecniche usate

I Raccolta delle feature ⇒ Histogram of Oriented Gradient (HOG)

I Classificatore ⇒ Structural SVM

Immagine di input

Calcolo del Gradiente

Costruzione dei

descrittori

Raccolta degli HOG

Structural SVM

PredizioneFaccia/Non-faccia

Figura: Processo di classificazione

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 3/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Face DetectionTecniche usate

Libreria”DLIB is a general purpose cross-platform C++ library designed usingcontract programming and modern C++ techniques.”

Figura: Struttura di DLIB

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 4/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Face DetectionTecniche usate

I DLIB ⇒ Face Detection

I Obiettivo : Migliorare DLIB addestrandolo su piu pose

Figura: Yaw, Pitch e Roll di una faccia

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 5/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

Training

I Annotated Facial Landmarks in the Wild (AFLW)

Testing

I Annotated Faces in the Wild (AFW)

I GLAIVE

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 6/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

AFLW: 25,993 immagini”The motivation for the AFLW database is the need for a large-scale,multi-view, real-world face database with annotated facial features.”

I facial feature localization

I multi-view face detection

I coarse head pose estimation.

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 7/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

Annotazioni:

I Bounding Box quadrati dei volti

I 21 Landmark per volto

I Posa (Yaw, Pitch e Roll)

I Altro (Sesso, Occhiali, Occluso)

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 8/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

AFW: 205 immaginiLargamente usato per testing di Face DetectorAnnotazioni:

I Bounding Box rettangolari dei volti

I Posa (Yaw, Pitch e Roll)

I 6 Landmark

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 9/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

GLAIVE: 9546 immaginiFornito dal MICC. Pensato per task di Face RecognitionAnnotazioni:

I Bounding Box rettangolari dei volti

I 3 Landmark

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 10/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

Problemi:

I Annotazioni mancanti

I Singolo volto annotato per immagine (Face Recognition)

I Variabilita nelle dimensioni delle immagini

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 11/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

Il detector fornito da DLIB e addestrato su LFW e utilizza 5 pose:

I Frontale

I Left-Looking

I Right-Looking

I Left-Rotated

I Right-Rotated

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 12/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

DatasetsAFLWAFWGLAIVEPose

I detector da noi implementati usano un numero variabile di pose, finoad un massimo di 11

Figura: Pose utilizzate

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 13/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

HOGStructural SVMTrainingClassificazione

L’ Histogram of Oriented Gradients e un descrittore utilizzato in imageprocessing.Idea: la forma e l’aspetto di un oggetto puo essere ben descritto dalladistribuzione del gradiente locale.

Figura: HOG ottenuto da dataset di volti frontali

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 14/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

HOGStructural SVMTrainingClassificazione

HOG utilizzato da DLIB ⇒ F-HOG:

I Pixel Level Feature-Maps

I Aggregazione Spaziale

I Normalizzazione

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 15/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

HOGStructural SVMTrainingClassificazione

SVM: Genera una predizione binaria {0, 1}Structural SVM: Genera una predizione strutturata, nel nostro caso unaquadrupla y = {t, l , b, r}, che rappresenta le coordinate del bounding boxdel volto.

Il problema che risolve DLIB:

min 12‖w‖

2 + Cξ

tale che

1nw ·

n∑i=1

∑j∈Vi

[Ψ(xi , yij)−Ψ(xi , y ij)] ≥ 1n

∑j∈Vi

∆(yij , y ij)− ξ

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 16/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

HOGStructural SVMTrainingClassificazione

Parametri:

I Grandezza della finestra di scorrimento

I Numero di celle all’interno di un blocco HOG

I Posa

I Livelli della piramide

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 17/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

HOGStructural SVMTrainingClassificazione

Valutazione detection: Intersection over Union (IoU) tra i box rilevati equelli di groundtruth

IoU =area(Bp∩Bgt)area(Bp∪Bgt)

I Se IoU < threshold ⇒ false positive

I Se IoU ≥ threshold ⇒ true positive

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 18/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

HOGStructural SVMTrainingClassificazione

Non-Max Suppression:

I Intra-Detector

I Inter-Detector

Criterio utilizzato: IoU

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 19/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Criteri di valutazione:

I Precision

I Recall

I Velocita di detection

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 20/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Dimensione celle

Figura: Precision-Recall su AFW al variare della dimensione delle celle usate nelcalcolo degli HOG relativo al detector addestrato su 7 pose

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 21/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Dimensione finestra scorrimento

Figura: Precision-Recall su AFW al variare della grandezza della finestra discorrimento relativo al detector addestrato su 7 pose

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 22/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Miglior configurazione dei parametri su AFW:

I Dimensione celle: 8 ∗ 8 pixel

I Dimensione finestre: 80 ∗ 80 pixel

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 23/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Numero di pose

Figura: Precision-Recall su AFW al variare del numero di pose

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 24/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Confronto con DPM

Figura: Confronto di detections di DPM (blu) e del detector addestrato con 11pose (rosso)

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 25/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

DEMO

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 26/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Velocita

Figura: Velocita dei vari detector

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 27/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Dimensione celle

Figura: Precision-Recall su GLAIVE al variare della dimensione delle celle usatenel calcolo degli HOG

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 28/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Dimensione finestra scorrimento

Figura: Precision-Recall su GLAIVE al variare della dimensione delle celle usatenel calcolo degli HOG

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 29/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

CriteriAFWGLAIVE

Bassa Precision: molte detection legittime sono considerate falsi positivia causa della mancanza di annotazioni di groundtruth⇒ Valutazione della Recall

Numero Pose Recall

k=8,w=60 3 0.48k=8,w=80 3 0.51k=8,w=100 3 0.46k=10,w=80 3 0.49k=12,w=80 3 0.47

k=8,w=60 5 0.61k=8,w=80 5 0.61k=8,w=100 5 0.59k=10,w=80 5 0.63k=12,w=80 5 0.59

k=8,w=60 7 0.65k=8,w=80 7 0.66k=8,w=100 7 0.64k=10,w=80 7 0.68k=12,w=80 7 0.65

Tabella: Recall su GLAIVE al variare delle dimensioni di cella, finestra e delnumero di pose

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 30/31

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Conclusioni:

I Aumento pose ⇒ aumento efficacia, diminuzione efficienza

I Migliore efficacia rispetto al detector pre-addestrato di DLIB

I Migliore efficienza rispetto a DPM

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 31/31