La Visione Artificiale€¦ · La Visione e il movimentoLa Visione e il movimento Aspetti visuali:...

Accademia Nazione di Scienze, Lettere e Arti di Modena

La Visione Artificiale

Ovvero: le macchine possono Vedere?

5 maggio 2010

Prof. Ing. Rita CucchiaraDipartimento di Ingegneria dell’ Informazionep g gUniversità degli studi di Modena e Reggio Emilia

AgendaAgenda Introduzione alla Visione Artificiale

La Visione e la geometria : Visione Robotica

La Visione e il movimento: Video Sorveglianza

La Visione e il colore: Medical Imaging

La Visione e l’apprendimento: Artistic Digital Librarypp g y

2

La Visione ArtificialeLa Visione Artificiale La Visione Artificiale (Computer Vision) e’ una disciplina informatica che

studia come emulare al calcolatore comportamenti percettivi e visivi simili a p pquelli biologici .

S di d lli l i i i h li i i l b i d

Sistema divisione

artificiale

Studia modelli, algoritmi e tecniche e realizza sistemi, per elaborare in modo automatico singole o multiple immagini 2D e riconoscere oggetti ed eventi nel mondo 3D.

Che Dati?Che Dati? La Visione come disciplina scientifica

d ll d d ll d f l f si occupa della teoria di modellazione di sistemi artificiali per estrarre informazioni e conoscenza da immagini, quali: singole foto o immagini artificiali, frame di sequenze video viste sincronizzate da telecamere multiple e distribuite dati visuali acquisiti da range scanner 3D e altri sensori dati visuali acquisiti da range scanner 3D e altri sensori dati multi-dimensionali da scanner e strumenti medici

La Visione come disciplina tecnologica si occupa della costruzione di sistemi di visione basati sul calcolatore (machine

vision robot vision visual based multimedia systems)vision, robot vision, visual-based multimedia systems)

4

Che Dati?Che Dati?Immagini industrialiMachine visionVisione Robotica

Immagini scientifiche, fisiche, biologicheastrofisiche, mediche…

Immagini e video live per ilbroadcasting(S )(Sport, news…)

Immagini e video per la

WEB: Da www flickrcom

per la Sorveglianza e sicurezza eBiometria

WEB: Da www.flickr.comQuery”Accademia Modena”

4.219 upload nell’ultimo minuto ·10.134 contenuti provvisti di tag tigre ·

5

2,7 milione di contenuti provvisti di tagquesto mese Yahoo 1/5/2010

Visione Artificiale: la storiaVisione Artificiale: la storia 1) Studi sull’ intelligenza artificiale

2) Studi sull’ elaborazione del segnale (immagine)

3) Studi di pattern recognition

4) Studi di psicologia della percezione

5) Studi sull’ architettura dei calcolatori)

6

Studi sull’architettura dei calcolatoriStudi sull architettura dei calcolatori Ad es. Convoluzione g i j f h f i m j n h m n dmdn( , ) ( , ) ( , )

Filtro 5 x 5 c.a. 100 oper.

Requisiti Computazionali:

g i j f h f i m j n h m nnm

( , ) ( , ) ( , )

Requisiti Computazionali:

Formato 352 × 288 PAL SIF

352x288 101.376 pixelp

x 3 (RGB) 304.128 byte

Convoluzione 5 x 5

30.4 MOPs milioni di operazioni …

25 fps 760MOPS

ENIAC 19465Kops

VAX 19701MoPS

PC x86 2009

BLUGENE 2009500 T(Fl)OPS

7

70 G(Fl)OPS

Studi sull’architettura dei CalcolatoriStudi sull architettura dei Calcolatori Shot detection GP GP -- BareinBarein 20042004

I video sono spesso codificati in forma compressa. Se non codificati hanno dimensioni notevoli.

N° Frame 125.000Durata 1h 23m 20s

Risoluzione spaziale 352 x 288

Profondità colore 24 bitDimensione (compresso MPEG) 1,96 GbDi i d 35 4 GbDimensione decompresso 35,4 GbDecodifica MPEG 2 di un frame 27.1 msFrame rate (della decodifica) 37 fps

Ora analisi in real-time di video.

Frame rate (della decodifica) 37 fpsTempo per l’analisi di una transizione

1.76 s

8Tempo totale per shot detection 1h 16m 16s

Studi sull’elaborazione del SegnaleStudi sull elaborazione del Segnale L’immagine come un segnale bidimensionale nello spazio x-y

Si applicano i modelli e tecniche di elaborazione del segnale

Es Fourier, J. B. Joseph (1822)

Image Processing9

Image Processing

Studi sulla Pattern recognitionStudi sulla Pattern recognition Pattern Recognition: scienza che si occupa delle metodologie per estrarre

informazioni da dati interpretandone o riconoscendone la struttura ( Jinformazioni da dati, interpretandone o riconoscendone la struttura ( J. Bezdek).

Scienza di base nell’informatica:

1968 Primo journal “Pattern Recognition”

1970 Fondamenti : “Picture Processing by Computer” (A. Rosenfeld)

1970 ICPR 1970 ICPR

1977 CVPR (IEEE)

1978 International Association for Pattern Recognition (IAPR) (in italia il 1978 International Association for Pattern Recognition (IAPR) (in italia il GIRPR nel 1983)

1979 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)

10

Studi di psicologia della percezione*Studi di psicologia della percezione* Pitagora: teoria Emissionistica: L’occhio emette un fascio di raggi

(“tentacoli visuali”) che viaggiando nello spazio vanno a urtare gli( tentacoli visuali ) che, viaggiando nello spazio vanno a urtare gli oggetti. L’urto tra il raggio visivo e l’oggetto suscita la sensazione della visione.

Epicuro: teoria Intromissionista Gli oggetti inviano continuamente nello Epicuro: teoria Intromissionista Gli oggetti inviano continuamente nello spazio ad essi circostante le immagini di se stessi. Queste immagini (eidola-simulacra ) entrano nell’occhio attraverso la pupilla, cosi’rivelandosirivelandosi.

Platone teoria dei due fluidi : É l'incontro del fuoco visuale che è dentro di noi, emesso dagli occhi, con il fuoco esterno della luce diurna a determinare la visionea determinare la visione.

…

Keplero sviluppa la moderna teoria delle immagini retiniche.

Studio dell’ottica fisica

David C. Lindberg Theories of Vision Chicago University Press 1976

Studi di Psicologia PercettivaStudi di Psicologia Percettiva 1800 nascita della psicologia percettiva. Empirismo e nativismo: Il

problema dei fattori innati e acquisiti nella costituzione dell'oggettoproblema dei fattori innati e acquisiti nella costituzione dell oggetto percettivo;

la teoria della percezione del colore: per l’empirismo(Helmholtz Gregory) deriva dall'esistenza nella retina di tre tipi di coni che ricevono segnali poi elaborati; per il nativismo ( HeringKanizsa) esistono principi organizzatori della percezione precedenti l’esperienza,..

‘80 la teoria della Gestalt*

*Gaetano KANIZSA: La grammatica del vedere. Bologna: Il Mulino (1980).

Studi di Psicologia Percettiva TEORIA DELLA GESTALT

Studi di Psicologia Percettiva 1970 la Teoria della Gestalt

proximity similarity p y y

y

z

x t continuity closeness

“prägnanz” (structural coherence)

Introduzione

Studi di Psicologia PercettivaStudi di Psicologia PercettivaSalvador Dali 1976Gala ContemplatingGala Contemplatingthe Mediterranean Sea

1973 L H (B ll L b )1973 Leon Harmon (Bell Labs)“The Recognition of Faces”

Storia della VisioneStoria della Visione David Marr l’approccio computazionale

1982 V A C l I h H R d 1982 Vision: A Computational Investigation into the Human Representation and Processing of Visual Information

La Visione computazionale: con tre tre livelli La Visione computazionale: con tre tre livelli

di elaborazione: livello computazionale descrive il fine del sistema e le strategie che

può impiegare per conseguirlo: specifica cosa il sistema deve fare.

livello algoritmico determina le regole di input ed output del livello algoritmico determina le regole di input ed output del sistema ai differenti ordini rappresentazionali.

livello di implementazione determina quale hardware, sostanzialmente quale livello neuronale, è in grado di supportare un tale sistema.sistema.

I livelli della visione (computazionale)I livelli della visione (computazionale)

imagesData

Image acquisition

A prioriknowledge

Image processing

I l imodels Image analysis

IImageundestanding

Computational vision

16

Vision

La Visione Umana e ArtificialeLa Visione Umana e Artificialean

a VisVisione · Pre -elaborazione del segnale Elaborazione di

sione

um

a sione Artifi

Retinica · Compressione · Selezione della regione di

interesse

immagini

Vis ficiale

interesse· Focalizzazione della

attenzione

Visione Corticale

· Fotorecettori · Estrazione delle primitive

visuali (colore, forma,

Analisi di immagini

Visione · Associazione a modelli di conoscenza

Comprensione delle immagini

Tessitura, movimento..)

cortecciaNervo ottico

Sistema di

conoscenza· R iconoscimento· Ragionamento visuale· Localizzazione pianificazione

delle immagini

cervello

Sistema di elaborazione

Localizzazione pianificazione · Classificazione apprendimento

Un esempioUn esempio Cosa vediamo?

Che oggetti ci sono?

Ci sono oggetti?

Quanti oggetti?Q gg

Come sono gli oggetti?

Quanti tipi di oggetti?

Cosa sono gli oggetti?

Modelli

18

Un Esempio: Image processingUn Esempio: Image processing 1. Processi di visione di basso livello

Immagine sorgente filtro gaussiano estrazione di contorni

Selezione di contorni labeling segmentazione

Esempio: Image analysisEsempio: Image analysis 2. Processi di image analysis:

L b li f i Labeling; feature extraction

2 5

13

4

5

6

7 8

Estrazione di primitive visuali:- Misura di circolarita’ (Haralick circularity) c= /

Misura di area ( 8 connection)79

10 11

- Misura di area ( 8-connection)

120 CIRCOLARITY

Rjif

A),(1

60

80

100

120 CIRCOLARITYnutswashersbullets

0

20

40

60

AREA0100 200 300 400 500 600 700 800

Esempio: Pattern recognitionEsempio: Pattern recognition3. Processi di visione di alto livello:

clustering, ossia classificazione non supervisionata

120 CIRCOLARITY

20

40

60

80

100

AREA

nutswashersbullets

0

0

100 200 300 400 500 600 700 800

AREA

Clustering- K-means, ….- SVM-Neural networks---Bayesian networks

La Visione Artificiale

Optical physics

Perceptionpsycology

Geometry, Algebra

CElaborazione

delle ImmaginiImage processing

Signal ProcessingNeurofisiologia

del sistemavisivo

Optical physicsNeuro- physiology Elaborazionedelle ImmaginiComputer Science

VisioneComputerVision

Machine Vision

Robotics MachineLearning

RecognitionPattern

Human computerinteraction

Artificial intelligence

Learning

ComputerGraphics

Multimedia

La Visione e la GeometriaVisione Robotica

23

La Visione roboticaLa Visione robotica La Visione come un processo supervisionato

Noti i modelli a priori

Ambiente strutturato e controllato

Processi decisionali cablati Processi decisionali cablati

Facilmente impiegabile in ambiente industriale Navigazione autonomag Controllo di processo Controllo robotico Dati Visuali

Ispezione Visiva

M d ll A bi tVisione

Modello Ambienteartificiale

24

Obiettivo

Imagelab: Esperimenti di Guida AutonomaImagelab: Esperimenti di Guida Autonoma Progetto PRIITT ItalVision- ImageLab DII 2006 Impiego di telecamere stereo su robot mobili per

Riconoscimento di ostacoli in real-time Identificazione della posizione e misura delle distanze Identificazione della posizione e misura delle distanze Correzione della traiettoria in real-time

Su piattaforma PCp

Ambiente semi-strutturato

Imagelab: rilevamento ostacoliImagelab: rilevamento ostacoli Calcolo della profondità basate sulla triangolazione

stereostereo

Immagine Singola Mappa di disparità (stereo) Omografia

Imagelab: Guida AutonomaImagelab: Guida Autonoma Riconoscimento di pattern artificiali

Pattern Artificiale Pattern orizzontali

Video: Confronto di guida autonoma

27Pattern Verticali

g

La Visione e il Movimento:Video Sorveglianza

28

La Visione e il movimentoLa Visione e il movimento Aspetti visuali:

Colore,

forma,

Tessitura Tessitura

Nel video: Il movimento

Calcolo dei movimenti dei punti (optical flow) Rilevazione degli oggetti in movimento Calcolo e predizione dello stato di moto (tracking)

29

Imagelab:la videosorveglianzaImagelab:la videosorveglianzaProgetti:

2005 07 LAICA (Laboratorio di Ambient Intelligence per una Città Amica) Regione Emilia2005-07 LAICA (Laboratorio di Ambient Intelligence per una Città Amica) Regione Emilia-Romagna, Italy with Univ. Parma Bologna, Comune Reggio Emilia

2006 08 A t matic real time detecti n f infiltrated bjects f r sec rit f air rts and train2006-08 Automatic real-time detection of infiltrated objects for security of airports and trainstations (Australian Research Council with University of technlogy, Sidney)

2006 08 FREE SURF F S ill i P i R f l I li MUR PRIN P j2006-08 FREE-SURF: Free Surveillance in a Privacy Respectful way Italian MUR PRIN Project

2007-09 BE-SAFE Bheavior lEarning foir Surveillance application with feature extraction –NATO Science for Peace program (Israel Hebrew Univ)

2009-2010 Smoke detection (Bridge 129)

2010-2012 THIS European project JLS (transportation hub intelligent system)

2010-2013 Surveillance Library TECNOPOLO-SOFTECH 2

30

2010 2013 Surveillance Library TECNOPOLO SOFTECH 2

2009-2011 Surveillance at working place (PRIITT Bridge 129)

Geometrical Computer VisionGeometrical Computer Vision 4. Calibrazione della telecamera

Da specifiche tecnichedella telecamera

Dall’immagine

Da informazioni note a priori

Obj t #8Object #8Type:nutsDiameter: 22.3 mmPosition (47 38) mm VideoPosition: (47,38) mm

La Visione: Movimento e GeometriaLa Visione: Movimento e Geometria

ModenaModenaSoft‐biometryEstrazione, riconoscimento automatico di personeautomatico di persone(Sakbot ImageLab)

Prof. Rita Cucchiara – Università di Modena e Reggio Emilia

Correzione prospetticaCorrezione prospettica

altezza persona in cm: 177,43

Analisi automatica a posterioriAnalisi automatica a posteriori

Con PTZAnche Volti (Video)


People SurveillancePeople Surveillance

Vid Vid

35 R. Cucchiara, C. Grana, M. Piccardi, A. Prati,"Detecting Moving Objects, Ghosts and Shadows in Video Streams“ in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, n. 10, pp. 1337-1342, 2003

Video Video

Imagelab: Laica et alImagelab: Laica et al. Project Laboratorio di Ambient Intelligence per una Città Amica Piano Telematico ER

Video:Video:Public Public parkpark in Reggio Emiliain Reggio Emilia, , ModenaModena CampusCampusModena Modena CampusCampusAbandonedAbandoned PaksPaks

Il movimento per l’analisi del comportamentoIl movimento per l analisi del comportamentoVideo acquisition preprocessing

Motionsegmentationacquisition segmentation

People d t ti

Motionl i

ActiondetectionanalysisInteraction

Bheaviors..

1) studio delle traiettorie delle persone nello spazio

2) studio del movimento delle persone 2) studio del movimento delle persone (postura)

3) studio e riconoscimento delle azioni 4) i i d ll i i i 4) riconoscimento delle interazioni tra

persone Analisi del comportamento

37

Studi sulla posturaStudi sulla postura

Supervised learning

38 R. Cucchiara, C. Grana, A. Prati, R. Vezzani,"Probabilistic Posture Classification for Human Behaviour Analysis"in IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans, vol. 35, n. 1, pp. 42-54, 2005

Hidden Markov Models for action analysisHidden Markov Models for action analysis Pipelined HMMM for action analysis*

Probabilistic parameters of a hidden Markov model (example)x statesx — statesy — possible observationsa — state transition probabilitiesb output probabilities Video pipelined HMM

39

b — output probabilities

*R. Vezzani, M. Piccardi, R. Cucchiara,"An efficient Bayesian framework for on-line action recognition"in Proceedings of the IEEE International Conference on Image Processing, Cairo, Egypt, November 7-11, 2009

Video pipelined HMM

Traiettorie e movimentoTraiettorie e movimento

40 S. Calderara, C. Alaimo, A. Prati, R. Cucchiara,"A Real-Time System for Abnormal Path Detection"in Proceedings of 3rd IEE International Conference on Imaging for Crime Detection and Prevention (ICDP 2009), London, UK, 2009

La Visione e l’apprendimentoLa Visione e l apprendimento Se l’ambiente e’ complesso

Se il modello non definibile a priori:

Impiego di feature percettive Impiego di feature percettive

Machine Learning (apprendimento automatico da esempi)

41

Esempio: riconoscimento di persone con LogitBoostCl ifi Ri i M if ldClassifier on Riemannian Manifolds

Casc 1 Casc 2 Casc N

Image

Extract Pixel‐wise Feature 1

E t t Pi l i F t 2 C i

CovarianceCR

Mean, var

Mg

SubRegion R

Extract Pixel‐wise Feature 2

Extract Pixel‐wise Feature M

CovarianceDescriptor

R(MxM

matrix, sympos def)

Mean, var

Mean, var

Riconoscimento di persone in aree aperteRiconoscimento di persone in aree aperte

Sicurezza nei cantieri Imagelab 2009Dove sono gli operai?

Imagelab 2009Bridge 129Tecnopolo di Modena

Emilia Romagna


Riconoscimento di operaiRiconoscimento di operai

Telecamera ad alta definizione

SelezioneRegione di Interesse

Rilevamento del moto

Rilevamento delle

prospettive

Rilevamento operai

RilevamentoControllo di

Rilevamento volti e teste

sicurezza (elmetto)


Covariance Matrix on Riemannian ManifoldCovariance Matrix on Riemannian ManifoldCasc 1 Casc 2 Casc N

Linear Logistic Regressor on Riemannian Manifolds Euclidean Space needed

45

Machine Laarning & Pattern RecognitionMachine Laarning & Pattern Recognition

ApprendimentoPositivi Negativi Apprendimento

parametriApprendimento parametri

Estrazione di descrittori i livisuali


Sicurezza nei cantieriSicurezza nei cantieri


La Visione e il colore:Medical Imaging

48

Il Colore: l’analisi di immagini medicheIl Colore: l analisi di immagini mediche Analisi di immagini mediche in supporto alla diagnosi

Visione semi-supervisionata

Strumenti di ausilioPer la diagnosi precoce del melanoma

49C. Grana, G. Pellacani, R. Cucchiara, S. Seidenari,"A New Algorithm for Border Description of Polarized Light SurfaceMicroscopic Images of Pigmented Skin Lesions”in IEEE Transactions on Medical Imaging, vol. 22, n. 8, pp. 959-964, Aug., 2003

Percezione di colore e forma: clusteringPercezione di colore e forma: clustering La scuola della Gestalt:

“G k l ”• “Grouping is key to visual perception”• (“The whole is greater than the sum of its parts”)

• Impiego di tecniche di clustering• ( classificazione non supervisionata)

b l l l• basate sul colore e vicinanza spaziale

50

Clustering con “Mean shift”Clustering con Mean shift

51

Imagelab: l’analisi di immagini medicheImagelab: l analisi di immagini mediche

Median Cut K-Means Fuzzy C-Means Mean Shift

52

La Visione e l’apprendimentoppArtistic Digital Library

53

Apprendimento automatico per la ricerca di similaritàsimilarità Progetto Rerum Novarum (24 settembre 2010)

Franco Cosimo Panini

Biblioteca universitaria Estense

54

Rerum NovarumRerum Novarum Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo immagini Classificazione testo-immagini

Riconoscimento vignette

Ricerca di similarità visuale

55

Immagini digitali:

Pre-elaborazione





56

Immagini digitali:

Pre-elaborazione





57

Immagini digitali:

Pre-elaborazione





58

Immagini digitali:

Pre-elaborazione





59

Immagini digitali:

Pre-elaborazione





Rerum Novarum: eseprienze virtuali nella Bibbia di Borso d’EsteModena, Biblioteca estense universitaria 24 Settembre 2010

DemoACM Int. Conf. on Multimedia Firenze Ottobre2010

60

LA Visione artificiale nel (prossimo) futuro:LA Visione artificiale nel (prossimo) futuro:

Gesture e posture recognition 3D vision ( face, body..) Affective Computing: visione ed emozioni Affective Computing: visione ed emozioni Video Mining A t d R lit Augmented Reality ……..

61

Grazie a Imagelab

Prof. Rita CucchiaraDi ti t di I i d ll’I f iDipartimento di Ingegneria dell’InformazioneUniversità degli Studi di Modena e Reggio EmiliaTel 059 2056136Ri hi @ i [email protected]

Imagelab dAndrea Prati e DISMI

Costantino GranaRoberto Vezzani

http://imagelab.ing.unimo.it

Simone CalderaraGiovanni GualdiPaolo PiccininiDaniele BorghesaniPaolo SantinelliDavide BaltieriSara ChiossiAnhan Rashid VISION-E srl

La Visione Artificiale€¦ · La Visione e il movimentoLa Visione e il movimento Aspetti visuali:...

Documents

Transcript of La Visione Artificiale€¦ · La Visione e il movimentoLa Visione e il movimento Aspetti visuali:...