Metodi ibridi

Riconoscimento automatico del volto

7 Metodi ibridi

Un'area di ricerca che ha ricevuto attenzioni significative negli anni recenti è quella che utilizza da una parte la combinazione di classificatori e dall'altra, quando possibile, la fusione sensoriale, portando così alla realizzazione dei cosiddetti sistemi ibridi.

La fusione sensoriale è già comunemente ritenuta vantaggiosa nella ricostruzione delle forme da immagini video [27], nel riconoscimento automatico di caratteri e nella combinazione del riconoscimento del volto e della voce per l'identificazione di persone. In un interessante studio sui sistemi AFR [35], già altrove citato, è stata tratta la conclusione che i più promettenti sviluppi nel riconoscimento del volto siano appunto da aspettarsi dalla ricerca sui sistemi ibridi di riconoscimento.

D'altra parte, differenti tecniche di riconoscimento possono aver successo o fallire a seconda, ad esempio, delle condizioni – spesso largamente variabili – di vista e di illuminazione, il che non è di norma accettabile in un sistema AFR commerciale. Sembra dunque naturale tentare l'applicazione di vari classificatori separati ad un singolo problema, ottenendo così un punteggio distinto da ciascuno di questi processi, e progettare infine uno schema di classificazione delegato a produrre un unico punteggio globale finale. Oltre a questo approccio parallelo, è parimenti concepibile anche un approccio seriale, in cui l'uscita di ciascun classificatore venga applicata come ingresso al successivo. Qualora, in quest'ultimo caso, i singoli classificatori richiedano addestramento, possono essere studiate e messe a punto delle procedure particolari di training.

Lo schema di riconoscimento illustrato in [32] e già descritto nella Sez. 4, dove il riconoscimento frontale viene combinato con quello di profilo, potrebbe già essere considerato un primo tentativo di implementazione di un sistema ibrido. Tuttavia, questo approccio aggiunge semplicemente un ulteriore modello nella fase di confronto tra i modelli frontali, e pertanto non costituisce un metodo indipendente di riconoscimento.

Un altro sistema che potrebbe essere considerato ibrido è quello descritto in [80], che fa uso di immagini nel visibile e nell'infrarosso, già descritto nella Sez. 3. Occorre tuttavia notare che il termine "ibrido" si riferisce in questo caso alla combinazione di immagini di diversa natura (è in certo senso un esempio di fusione sensoriale), anziché alla combinazione di diversi approcci di riconoscimento, e che la combinazione non prevede per di più alcuno schema di punteggio combinato tra i due tipi di immagini.

Un esempio di schema ibrido propriamente detto è invece la tecnica seriale di classificazione con apprendimento descritta in [36], in cui viene messo in evidenza come sistemi ibridi intelligenti debbano contenere livelli specifici di conoscenza: ad esempio, livelli connessionistici in grado di manipolare input sensoriali differenti e livelli simbolici capaci di integrare i dati provenienti da differenti modalità sensoriali e cognitive. Nel lavoro in questione, rivolto al riconoscimento del volto e dell'espressione facciale, viene proposto da una parte un livello connessionistico costituito da collezioni di funzioni a base radiale (ERBF, ensemble of radial basis functions) come processo olistico di template matching capace di raggruppare immagini simili ancor prima della classificazione, e dall'altra un livello simbolico implementato mediante alberi induttivi di decisione come strumento per il confronto astratto tra caratteristiche discrete.

Nel lavoro citato vengono proposte e testate due differenti architetture di insiemi di RBF. Nella prima (ERBF1) gli stessi tre nodi RBF vengono addestrati su tre differenti insiemi di immagini, ricavati dalle immagini originali (a) senza alcuna alterazione, (b) con distorsione prodotta da rumore gaussiano, (c) con distorsione prodotta da trasformazioni geometriche (nella fattispecie, una rotazione). Nella seconda architettura (ERBF2) gli stessi tre nodi RBF vengono addestrati su una combinazione delle immagini usate in ERBF1. In entrambe le versioni, l'output è costituito da oggetti descritti da un insieme prefissato di attributi, i cui valori discreti consentono di assegnare gli oggetti a una di due possibili categorie. Lo stadio simbolico che segue il precedente ha invece il compito di derivare delle regole per la classificazione di questi oggetti, a partire da una collezione di oggetti campione appartenenti a categorie note.

Sono stati condotti due differenti esperimenti, relativi rispettivamente a un processo di identificazione del tipo "trovare la persona X con o senza gli occhiali" e a un processo di verifica di tipo legale-giudiziario. Nel primo esperimento vengono utilizzati due stadi ibridi: lo stadio di confronto (in cui è impegnata solo una delle reti RBF originali) che ha il compito di determinare l'identità del soggetto, mentre il secondo stadio verifica la presenza o l'assenza di occhiali. Nell'esperimento di tipo legale-giudiziario, invece, viene messo a confronto un gran numero di candidati con un catalogo predefinito di immagini su cui il sistema è già stato addestrato.

Il carattere ibrido del sistema, in questo caso, richiede inoltre che gli input di addestramento per il secondo stadio vengano generati dal primo stadio già addestrato. I risultati ottenuti suggeriscono che le architetture ERBF forniscono prestazioni significativamente migliori che non i semplici approcci RBF, che l'apprendimento ibrido migliora il tasso di riconoscimento, e che l'addestramento su una combinazione di dati sia originali che distorti (ERBF2) conduce a prestazioni decisamente migliori che non l'addestramento su set separati di dati (ERBF1).

Un altro sistema ibrido propriamente detto viene presentato in [1], dove viene proposta l'integrazione di tre classificatori indipendenti: il riconoscitore di profilo descritto in [84], un algoritmo HMM simile a quello presentato in [71] e il metodo delle auto-facce illustrato in [76]. Dal momento che ciascuno dei tre classificatori generano un punteggio associato a ciascuna persona del database, il classificatore finale della combinazione può allora sintetizzare un punteggio globale secondo tre diverse strategie di integrazione dei singoli punteggi:

(voting) ciascun classificatore dispone di un voto di tipo "sì/no", e la decisione viene presa in base alla maggioranza dei voti;
(ranking) il classificatore combinato calcolato un punteggio unico dipendente dai punteggi prodotti dai classificatori singoli;
(scoring) a ciascun classificatore viene assegnato un peso, e la combinazione lineare dei singoli punteggi mediante tali pesi costituisce il punteggio finale.

Delle tre strategie, viene di solito privilegiata la terza (scoring), che è quella in grado di utilizzare la maggior quantità di informazione.

In conclusione, gli esperimenti illustrati dimostrano in maniera incontrovertibile che i differenti criteri di riconoscimento usati da tecniche differenti possono essere efficacemente combinati per esaltare le prestazioni ottenibili su un dato catalogo di immagini. I test mostrano anche che – almeno sui database di immagini utilizzati – la combinazione di tre classificatori è di norma sempre superiore alla combinazione di due. La ricerca futura, in ogni caso, dovrà accertare non solo se questo comportamento vada considerato come fatto generale, ma anche di quale natura ed entità sia l'influenza della qualità delle immagini e della scelta dei classificatori componenti sui risultati del riconoscimento.

Riconoscimento automatico del volto

© 1997-2003 Paolo Marincola (Rome, Italy)
e-mail: pmaNOSPAM@acm.org (eliminare i caratteri "NOSPAM" per ottenere l'indirizzo esatto)
Commenti, osservazioni e suggerimenti sono estremamente graditi.

Last revised: 2003-12-06 22:40