La Visione Artificiale€¦ · La Visione e il movimentoLa Visione e il movimento Aspetti visuali:...
Transcript of La Visione Artificiale€¦ · La Visione e il movimentoLa Visione e il movimento Aspetti visuali:...
Accademia Nazione di Scienze, Lettere e Arti di Modena
La Visione Artificiale
Ovvero: le macchine possono Vedere?
5 maggio 2010
Prof. Ing. Rita CucchiaraDipartimento di Ingegneria dell’ Informazionep g gUniversità degli studi di Modena e Reggio Emilia
AgendaAgenda Introduzione alla Visione Artificiale
La Visione e la geometria : Visione Robotica
La Visione e il movimento: Video Sorveglianza
La Visione e il colore: Medical Imaging
La Visione e l’apprendimento: Artistic Digital Librarypp g y
2
La Visione ArtificialeLa Visione Artificiale La Visione Artificiale (Computer Vision) e’ una disciplina informatica che
studia come emulare al calcolatore comportamenti percettivi e visivi simili a p pquelli biologici .
S di d lli l i i i h li i i l b i d
Sistema divisione
artificiale
Studia modelli, algoritmi e tecniche e realizza sistemi, per elaborare in modo automatico singole o multiple immagini 2D e riconoscere oggetti ed eventi nel mondo 3D.
Che Dati?Che Dati? La Visione come disciplina scientifica
d ll d d ll d f l f si occupa della teoria di modellazione di sistemi artificiali per estrarre informazioni e conoscenza da immagini, quali: singole foto o immagini artificiali, frame di sequenze video viste sincronizzate da telecamere multiple e distribuite dati visuali acquisiti da range scanner 3D e altri sensori dati visuali acquisiti da range scanner 3D e altri sensori dati multi-dimensionali da scanner e strumenti medici
La Visione come disciplina tecnologica si occupa della costruzione di sistemi di visione basati sul calcolatore (machine
vision robot vision visual based multimedia systems)vision, robot vision, visual-based multimedia systems)
4
Che Dati?Che Dati?Immagini industrialiMachine visionVisione Robotica
Immagini scientifiche, fisiche, biologicheastrofisiche, mediche…
Immagini e video live per ilbroadcasting(S )(Sport, news…)
Immagini e video per la
WEB: Da www flickrcom
per la Sorveglianza e sicurezza eBiometria
WEB: Da www.flickr.comQuery”Accademia Modena”
4.219 upload nell’ultimo minuto ·10.134 contenuti provvisti di tag tigre ·
5
2,7 milione di contenuti provvisti di tagquesto mese Yahoo 1/5/2010
Visione Artificiale: la storiaVisione Artificiale: la storia 1) Studi sull’ intelligenza artificiale
2) Studi sull’ elaborazione del segnale (immagine)
3) Studi di pattern recognition
4) Studi di psicologia della percezione
5) Studi sull’ architettura dei calcolatori)
6
Studi sull’architettura dei calcolatoriStudi sull architettura dei calcolatori Ad es. Convoluzione g i j f h f i m j n h m n dmdn( , ) ( , ) ( , )
Filtro 5 x 5 c.a. 100 oper.
Requisiti Computazionali:
g i j f h f i m j n h m nnm
( , ) ( , ) ( , )
Requisiti Computazionali:
Formato 352 × 288 PAL SIF
352x288 101.376 pixelp
x 3 (RGB) 304.128 byte
Convoluzione 5 x 5
30.4 MOPs milioni di operazioni …
25 fps 760MOPS
ENIAC 19465Kops
VAX 19701MoPS
PC x86 2009
BLUGENE 2009500 T(Fl)OPS
7
70 G(Fl)OPS
Studi sull’architettura dei CalcolatoriStudi sull architettura dei Calcolatori Shot detection GP GP -- BareinBarein 20042004
I video sono spesso codificati in forma compressa. Se non codificati hanno dimensioni notevoli.
N° Frame 125.000Durata 1h 23m 20s
Risoluzione spaziale 352 x 288
Profondità colore 24 bitDimensione (compresso MPEG) 1,96 GbDi i d 35 4 GbDimensione decompresso 35,4 GbDecodifica MPEG 2 di un frame 27.1 msFrame rate (della decodifica) 37 fps
Ora analisi in real-time di video.
Frame rate (della decodifica) 37 fpsTempo per l’analisi di una transizione
1.76 s
8Tempo totale per shot detection 1h 16m 16s
Studi sull’elaborazione del SegnaleStudi sull elaborazione del Segnale L’immagine come un segnale bidimensionale nello spazio x-y
Si applicano i modelli e tecniche di elaborazione del segnale
Es Fourier, J. B. Joseph (1822)
Image Processing9
Image Processing
Studi sulla Pattern recognitionStudi sulla Pattern recognition Pattern Recognition: scienza che si occupa delle metodologie per estrarre
informazioni da dati interpretandone o riconoscendone la struttura ( Jinformazioni da dati, interpretandone o riconoscendone la struttura ( J. Bezdek).
Scienza di base nell’informatica:
1968 Primo journal “Pattern Recognition”
1970 Fondamenti : “Picture Processing by Computer” (A. Rosenfeld)
1970 ICPR 1970 ICPR
1977 CVPR (IEEE)
1978 International Association for Pattern Recognition (IAPR) (in italia il 1978 International Association for Pattern Recognition (IAPR) (in italia il GIRPR nel 1983)
1979 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)
10
Studi di psicologia della percezione*Studi di psicologia della percezione* Pitagora: teoria Emissionistica: L’occhio emette un fascio di raggi
(“tentacoli visuali”) che viaggiando nello spazio vanno a urtare gli( tentacoli visuali ) che, viaggiando nello spazio vanno a urtare gli oggetti. L’urto tra il raggio visivo e l’oggetto suscita la sensazione della visione.
Epicuro: teoria Intromissionista Gli oggetti inviano continuamente nello Epicuro: teoria Intromissionista Gli oggetti inviano continuamente nello spazio ad essi circostante le immagini di se stessi. Queste immagini (eidola-simulacra ) entrano nell’occhio attraverso la pupilla, cosi’rivelandosirivelandosi.
Platone teoria dei due fluidi : É l'incontro del fuoco visuale che è dentro di noi, emesso dagli occhi, con il fuoco esterno della luce diurna a determinare la visionea determinare la visione.
…
Keplero sviluppa la moderna teoria delle immagini retiniche.
Studio dell’ottica fisica
David C. Lindberg Theories of Vision Chicago University Press 1976
Studi di Psicologia PercettivaStudi di Psicologia Percettiva 1800 nascita della psicologia percettiva. Empirismo e nativismo: Il
problema dei fattori innati e acquisiti nella costituzione dell'oggettoproblema dei fattori innati e acquisiti nella costituzione dell oggetto percettivo;
la teoria della percezione del colore: per l’empirismo(Helmholtz Gregory) deriva dall'esistenza nella retina di tre tipi di coni che ricevono segnali poi elaborati; per il nativismo ( HeringKanizsa) esistono principi organizzatori della percezione precedenti l’esperienza,..
‘80 la teoria della Gestalt*
*Gaetano KANIZSA: La grammatica del vedere. Bologna: Il Mulino (1980).
Studi di Psicologia Percettiva TEORIA DELLA GESTALT
Studi di Psicologia Percettiva 1970 la Teoria della Gestalt
proximity similarity p y y
y
z
x t continuity closeness
“prägnanz” (structural coherence)
Introduzione
Studi di Psicologia PercettivaStudi di Psicologia PercettivaSalvador Dali 1976Gala ContemplatingGala Contemplatingthe Mediterranean Sea
1973 L H (B ll L b )1973 Leon Harmon (Bell Labs)“The Recognition of Faces”
Storia della VisioneStoria della Visione David Marr l’approccio computazionale
1982 V A C l I h H R d 1982 Vision: A Computational Investigation into the Human Representation and Processing of Visual Information
La Visione computazionale: con tre tre livelli La Visione computazionale: con tre tre livelli
di elaborazione: livello computazionale descrive il fine del sistema e le strategie che
può impiegare per conseguirlo: specifica cosa il sistema deve fare.
livello algoritmico determina le regole di input ed output del livello algoritmico determina le regole di input ed output del sistema ai differenti ordini rappresentazionali.
livello di implementazione determina quale hardware, sostanzialmente quale livello neuronale, è in grado di supportare un tale sistema.sistema.
I livelli della visione (computazionale)I livelli della visione (computazionale)
imagesData
Image acquisition
A prioriknowledge
Image processing
I l imodels Image analysis
IImageundestanding
Computational vision
16
Vision
La Visione Umana e ArtificialeLa Visione Umana e Artificialean
a VisVisione · Pre -elaborazione del segnale Elaborazione di
sione
um
a sione Artifi
Retinica · Compressione · Selezione della regione di
interesse
immagini
Vis ficiale
interesse· Focalizzazione della
attenzione
Visione Corticale
· Fotorecettori · Estrazione delle primitive
visuali (colore, forma,
Analisi di immagini
Visione · Associazione a modelli di conoscenza
Comprensione delle immagini
Tessitura, movimento..)
cortecciaNervo ottico
Sistema di
conoscenza· R iconoscimento· Ragionamento visuale· Localizzazione pianificazione
delle immagini
cervello
Sistema di elaborazione
Localizzazione pianificazione · Classificazione apprendimento
Un esempioUn esempio Cosa vediamo?
Che oggetti ci sono?
Ci sono oggetti?
Quanti oggetti?Q gg
Come sono gli oggetti?
Quanti tipi di oggetti?
Cosa sono gli oggetti?
Modelli
18
Un Esempio: Image processingUn Esempio: Image processing 1. Processi di visione di basso livello
Immagine sorgente filtro gaussiano estrazione di contorni
Selezione di contorni labeling segmentazione
Esempio: Image analysisEsempio: Image analysis 2. Processi di image analysis:
L b li f i Labeling; feature extraction
2 5
13
4
5
6
7 8
Estrazione di primitive visuali:- Misura di circolarita’ (Haralick circularity) c= /
Misura di area ( 8 connection)79
10 11
- Misura di area ( 8-connection)
120 CIRCOLARITY
Rjif
A),(1
60
80
100
120 CIRCOLARITYnutswashersbullets
0
20
40
60
AREA0100 200 300 400 500 600 700 800
Esempio: Pattern recognitionEsempio: Pattern recognition3. Processi di visione di alto livello:
clustering, ossia classificazione non supervisionata
120 CIRCOLARITY
20
40
60
80
100
AREA
nutswashersbullets
0
0
100 200 300 400 500 600 700 800
AREA
Clustering- K-means, ….- SVM-Neural networks---Bayesian networks
La Visione Artificiale
Optical physics
Perceptionpsycology
Geometry, Algebra
CElaborazione
delle ImmaginiImage processing
Signal ProcessingNeurofisiologia
del sistemavisivo
Optical physicsNeuro- physiology Elaborazionedelle ImmaginiComputer Science
VisioneComputerVision
Machine Vision
Robotics MachineLearning
RecognitionPattern
Human computerinteraction
Artificial intelligence
Learning
ComputerGraphics
Multimedia
La Visione e la GeometriaVisione Robotica
23
La Visione roboticaLa Visione robotica La Visione come un processo supervisionato
Noti i modelli a priori
Ambiente strutturato e controllato
Processi decisionali cablati Processi decisionali cablati
Facilmente impiegabile in ambiente industriale Navigazione autonomag Controllo di processo Controllo robotico Dati Visuali
Ispezione Visiva
M d ll A bi tVisione
Modello Ambienteartificiale
24
Obiettivo
Imagelab: Esperimenti di Guida AutonomaImagelab: Esperimenti di Guida Autonoma Progetto PRIITT ItalVision- ImageLab DII 2006 Impiego di telecamere stereo su robot mobili per
Riconoscimento di ostacoli in real-time Identificazione della posizione e misura delle distanze Identificazione della posizione e misura delle distanze Correzione della traiettoria in real-time
Su piattaforma PCp
Ambiente semi-strutturato
Imagelab: rilevamento ostacoliImagelab: rilevamento ostacoli Calcolo della profondità basate sulla triangolazione
stereostereo
Immagine Singola Mappa di disparità (stereo) Omografia
Imagelab: Guida AutonomaImagelab: Guida Autonoma Riconoscimento di pattern artificiali
Pattern Artificiale Pattern orizzontali
Video: Confronto di guida autonoma
27Pattern Verticali
g
La Visione e il Movimento:Video Sorveglianza
28
La Visione e il movimentoLa Visione e il movimento Aspetti visuali:
Colore,
forma,
Tessitura Tessitura
Nel video: Il movimento
Calcolo dei movimenti dei punti (optical flow) Rilevazione degli oggetti in movimento Calcolo e predizione dello stato di moto (tracking)
29
Imagelab:la videosorveglianzaImagelab:la videosorveglianzaProgetti:
2005 07 LAICA (Laboratorio di Ambient Intelligence per una Città Amica) Regione Emilia2005-07 LAICA (Laboratorio di Ambient Intelligence per una Città Amica) Regione Emilia-Romagna, Italy with Univ. Parma Bologna, Comune Reggio Emilia
2006 08 A t matic real time detecti n f infiltrated bjects f r sec rit f air rts and train2006-08 Automatic real-time detection of infiltrated objects for security of airports and trainstations (Australian Research Council with University of technlogy, Sidney)
2006 08 FREE SURF F S ill i P i R f l I li MUR PRIN P j2006-08 FREE-SURF: Free Surveillance in a Privacy Respectful way Italian MUR PRIN Project
2007-09 BE-SAFE Bheavior lEarning foir Surveillance application with feature extraction –NATO Science for Peace program (Israel Hebrew Univ)
2009-2010 Smoke detection (Bridge 129)
2010-2012 THIS European project JLS (transportation hub intelligent system)
2010-2013 Surveillance Library TECNOPOLO-SOFTECH 2
30
2010 2013 Surveillance Library TECNOPOLO SOFTECH 2
2009-2011 Surveillance at working place (PRIITT Bridge 129)
Geometrical Computer VisionGeometrical Computer Vision 4. Calibrazione della telecamera
Da specifiche tecnichedella telecamera
Dall’immagine
Da informazioni note a priori
Obj t #8Object #8Type:nutsDiameter: 22.3 mmPosition (47 38) mm VideoPosition: (47,38) mm
La Visione: Movimento e GeometriaLa Visione: Movimento e Geometria
ModenaModenaSoft‐biometryEstrazione, riconoscimento automatico di personeautomatico di persone(Sakbot ImageLab)
Prof. Rita Cucchiara – Università di Modena e Reggio Emilia
Correzione prospetticaCorrezione prospettica
altezza persona in cm: 177,43
Analisi automatica a posterioriAnalisi automatica a posteriori
Con PTZAnche Volti (Video)
Prof. Rita Cucchiara – Università di Modena e Reggio Emilia
People SurveillancePeople Surveillance
Vid Vid
35 R. Cucchiara, C. Grana, M. Piccardi, A. Prati,"Detecting Moving Objects, Ghosts and Shadows in Video Streams“ in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, n. 10, pp. 1337-1342, 2003
Video Video
Imagelab: Laica et alImagelab: Laica et al. Project Laboratorio di Ambient Intelligence per una Città Amica Piano Telematico ER
Video:Video:Public Public parkpark in Reggio Emiliain Reggio Emilia, , ModenaModena CampusCampusModena Modena CampusCampusAbandonedAbandoned PaksPaks
Il movimento per l’analisi del comportamentoIl movimento per l analisi del comportamentoVideo acquisition preprocessing
Motionsegmentationacquisition segmentation
People d t ti
Motionl i
ActiondetectionanalysisInteraction
Bheaviors..
1) studio delle traiettorie delle persone nello spazio
2) studio del movimento delle persone 2) studio del movimento delle persone (postura)
3) studio e riconoscimento delle azioni 4) i i d ll i i i 4) riconoscimento delle interazioni tra
persone Analisi del comportamento
37
Studi sulla posturaStudi sulla postura
Supervised learning
38 R. Cucchiara, C. Grana, A. Prati, R. Vezzani,"Probabilistic Posture Classification for Human Behaviour Analysis"in IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans, vol. 35, n. 1, pp. 42-54, 2005
Hidden Markov Models for action analysisHidden Markov Models for action analysis Pipelined HMMM for action analysis*
Probabilistic parameters of a hidden Markov model (example)x statesx — statesy — possible observationsa — state transition probabilitiesb output probabilities Video pipelined HMM
39
b — output probabilities
*R. Vezzani, M. Piccardi, R. Cucchiara,"An efficient Bayesian framework for on-line action recognition"in Proceedings of the IEEE International Conference on Image Processing, Cairo, Egypt, November 7-11, 2009
Video pipelined HMM
Traiettorie e movimentoTraiettorie e movimento
40 S. Calderara, C. Alaimo, A. Prati, R. Cucchiara,"A Real-Time System for Abnormal Path Detection"in Proceedings of 3rd IEE International Conference on Imaging for Crime Detection and Prevention (ICDP 2009), London, UK, 2009
La Visione e l’apprendimentoLa Visione e l apprendimento Se l’ambiente e’ complesso
Se il modello non definibile a priori:
Impiego di feature percettive Impiego di feature percettive
Machine Learning (apprendimento automatico da esempi)
41
Esempio: riconoscimento di persone con LogitBoostCl ifi Ri i M if ldClassifier on Riemannian Manifolds
Casc 1 Casc 2 Casc N
Image
Extract Pixel‐wise Feature 1
E t t Pi l i F t 2 C i
CovarianceCR
Mean, var
Mg
SubRegion R
Extract Pixel‐wise Feature 2
Extract Pixel‐wise Feature M
CovarianceDescriptor
R(MxM
matrix, sympos def)
Mean, var
Mean, var
Riconoscimento di persone in aree aperteRiconoscimento di persone in aree aperte
Sicurezza nei cantieri Imagelab 2009Dove sono gli operai?
Imagelab 2009Bridge 129Tecnopolo di Modena
Emilia Romagna
Prof. Rita Cucchiara – Università di Modena e Reggio Emilia
Riconoscimento di operaiRiconoscimento di operai
Telecamera ad alta definizione
SelezioneRegione di Interesse
Rilevamento del moto
Rilevamento delle
prospettive
Rilevamento operai
RilevamentoControllo di
Rilevamento volti e teste
sicurezza (elmetto)
Prof. Rita Cucchiara – Università di Modena e Reggio Emilia
Covariance Matrix on Riemannian ManifoldCovariance Matrix on Riemannian ManifoldCasc 1 Casc 2 Casc N
Linear Logistic Regressor on Riemannian Manifolds Euclidean Space needed
45
Machine Laarning & Pattern RecognitionMachine Laarning & Pattern Recognition
ApprendimentoPositivi Negativi Apprendimento
parametriApprendimento parametri
Estrazione di descrittori i livisuali
Prof. Rita Cucchiara – Università di Modena e Reggio Emilia
Sicurezza nei cantieriSicurezza nei cantieri
Prof. Rita Cucchiara – Università di Modena e Reggio Emilia
La Visione e il colore:Medical Imaging
48
Il Colore: l’analisi di immagini medicheIl Colore: l analisi di immagini mediche Analisi di immagini mediche in supporto alla diagnosi
Visione semi-supervisionata
Strumenti di ausilioPer la diagnosi precoce del melanoma
49C. Grana, G. Pellacani, R. Cucchiara, S. Seidenari,"A New Algorithm for Border Description of Polarized Light SurfaceMicroscopic Images of Pigmented Skin Lesions”in IEEE Transactions on Medical Imaging, vol. 22, n. 8, pp. 959-964, Aug., 2003
Percezione di colore e forma: clusteringPercezione di colore e forma: clustering La scuola della Gestalt:
“G k l ”• “Grouping is key to visual perception”• (“The whole is greater than the sum of its parts”)
• Impiego di tecniche di clustering• ( classificazione non supervisionata)
b l l l• basate sul colore e vicinanza spaziale
50
Clustering con “Mean shift”Clustering con Mean shift
51
Imagelab: l’analisi di immagini medicheImagelab: l analisi di immagini mediche
Median Cut K-Means Fuzzy C-Means Mean Shift
52
La Visione e l’apprendimentoppArtistic Digital Library
53
Apprendimento automatico per la ricerca di similaritàsimilarità Progetto Rerum Novarum (24 settembre 2010)
Franco Cosimo Panini
Biblioteca universitaria Estense
54
Rerum NovarumRerum Novarum Immagini digitali:
Pre-elaborazione
Segmentazione e labeling
Classificazione testo immagini Classificazione testo-immagini
Riconoscimento vignette
Ricerca di similarità visuale
55
Immagini digitali:
Pre-elaborazione
Segmentazione e labeling
Classificazione testo immagini Classificazione testo-immagini
Riconoscimento vignette
Ricerca di similarità visuale
56
Immagini digitali:
Pre-elaborazione
Segmentazione e labeling
Classificazione testo immagini Classificazione testo-immagini
Riconoscimento vignette
Ricerca di similarità visuale
57
Immagini digitali:
Pre-elaborazione
Segmentazione e labeling
Classificazione testo immagini Classificazione testo-immagini
Riconoscimento vignette
Ricerca di similarità visuale
58
Immagini digitali:
Pre-elaborazione
Segmentazione e labeling
Classificazione testo immagini Classificazione testo-immagini
Riconoscimento vignette
Ricerca di similarità visuale
59
Immagini digitali:
Pre-elaborazione
Segmentazione e labeling
Classificazione testo immagini Classificazione testo-immagini
Riconoscimento vignette
Ricerca di similarità visuale
Rerum Novarum: eseprienze virtuali nella Bibbia di Borso d’EsteModena, Biblioteca estense universitaria 24 Settembre 2010
DemoACM Int. Conf. on Multimedia Firenze Ottobre2010
60
LA Visione artificiale nel (prossimo) futuro:LA Visione artificiale nel (prossimo) futuro:
Gesture e posture recognition 3D vision ( face, body..) Affective Computing: visione ed emozioni Affective Computing: visione ed emozioni Video Mining A t d R lit Augmented Reality ……..
61
Grazie a Imagelab
Prof. Rita CucchiaraDi ti t di I i d ll’I f iDipartimento di Ingegneria dell’InformazioneUniversità degli Studi di Modena e Reggio EmiliaTel 059 2056136Ri hi @ i [email protected]
Imagelab dAndrea Prati e DISMI
Costantino GranaRoberto Vezzani
http://imagelab.ing.unimo.it
Simone CalderaraGiovanni GualdiPaolo PiccininiDaniele BorghesaniPaolo SantinelliDavide BaltieriSara ChiossiAnhan Rashid VISION-E srl