|
Il riconoscimento di volti da sequenze video è probabilmente il problema che presenta il massimo grado di difficoltà in AFR. In primo luogo, le immagini acquisite da telecamera tendono ad essere di bassa qualità; inoltre, in molte applicazioni legate alla sorveglianza, lo sfondo è estremamente complesso, il che rende molto ardua la localizzazione di un determinato volto nell'ambito di una folla di persone.
Soltanto un numero relativamente piccolo di lavori [72] [74] [76] si è misurato con il problema della segmentazione del volto in una sequenza video, e anche in questi pochi casi sono state usate tecniche forse eccessivamente semplicistiche, basate principalmente sulla sogliatura di immagini differenza per la localizzazione del volto e quindi su algoritmi bidimensionali di riconoscimento analoghi a quelli usati su immagini fisse.
Recentemente, tuttavia, è stato proposto un nuovo approccio [55] basato sulle informazioni spaziotemporali ricavabili dal volto di una persona che parla. Il soggetto viene rappresentato mediante un modello parametrico degli organi visibili di fonazione e delle variazioni temporali delle loro caratteristiche durante la produzione del parlato. Il modello è costituito da parametri di forma, che descrivono il contorno delle labbra, e da parametri di intensità, che descrivono la distribuzione della luminanza nella regione della bocca; tali parametri vengono a loro volta rappresentati mediante combinazioni di gaussiane, e le dipendenze temporali vengono codificate mediante modelli di Markov nascosti [67].
© 1997-2003 Paolo Marincola (Rome, Italy)
e-mail: pmaNOSPAM@acm.org (eliminare
i caratteri "NOSPAM" per ottenere l'indirizzo esatto)
Commenti, osservazioni e suggerimenti sono estremamente graditi.
Last revised: 2003-12-06 22:39