Ottimizzazione ed analisi prestazionale dell ’ algoritmo Jpeg2000 su piattaforme hardware
description
Transcript of Ottimizzazione ed analisi prestazionale dell ’ algoritmo Jpeg2000 su piattaforme hardware
Ischia, 21-23 giugno 2006Riunione Annuale GE 2006
Ottimizzazione ed analisi prestazionaledell’algoritmo Jpeg2000 su piattaforme hardwarealternative per implementazioni System-on-Chip
Mauro Olivieri, Simone Smorfa – Università “La Sapienza”, Roma
Francesco Pappalardo – ST Microelectronics, Catania
Ischia, 21-23 giugno 2006Riunione Annuale GE 2006
Jpeg 2000 (1/2)
• Elevati fattori di compressione• Compressione lossless & lossy• Scalabilità in risoluzione e qualità• Region-of-Interest Coding: versatilità• Promettente per sistemi embedded
con applicazioni multimediali
Ischia, 21-23 giugno 2006Riunione Annuale GE 2006
Jpeg 2000 (2/2)
• La diffusione e commercializzazione di Jpeg2000 è vincolata alla soluzione di problemi implementativi legati al meccanismo di codifica.• Il core computazionale è estremamente oneroso (DWT & EBCOT)• Sono state proposte diverse realizzazione ASIC (ottimizzate sfruttando il parallelismo intrinseco di diversi stadi dell’encoder).• In sistemi basati su microprocessore (ad esempio System-on-Chip), le implementazioni software e relativa ottimizzazione sono di particolare interesse per l’estrema flessibilità.
Ischia, 21-23 giugno 2006Riunione Annuale GE 2006
Architetture HW
Processing Element:Processore LX-ST231
• 4 ALU, 2 moltiplicatori, 1 unità di load/ store, 1 unità di branch.
• Architettura VLIW: fino a 4 istruzioni eseguibili in parallelo.
• Schedulazione statica
Ischia, 21-23 giugno 2006Riunione Annuale GE 2006
Ottimizzazioni
• Ottimizzazione del codice -> miglioramento della gestione della memoria, minimizzazione degli stalli negli accessi alla cache dati.
• Partizionamento ed allocazione ottima dei task su architettura multiprocessore.
• Sfruttamento del supporto SIMD/vettoriale per l’esecuzione parallela di più istruzioni su architettura multicluster.
Ischia, 21-23 giugno 2006Riunione Annuale GE 2006
Risultati
• Speedup medio pari a 1.7 con l’ottimizzazione del codice per l’architettura scalare.
• Speedup medio pari a 2.6 per la codifica di immagini a colori su architettura a 4 processori (1.6 per l’architettura a 2 processori).
• Risparmio medio del 33% dei cicli di clock necessari all’esecuzione della DWT su architettura SIMD/vettoriale.