minilogo.gif (2094 bytes)

Reti neurali e riconoscimento di caratteri

left.gif (1019 bytes) up.gif (1014 bytes) right.gif (1020 bytes)

5. Prestazioni dei sistemi OCR commerciali

In questa sezione cercheremo di dare un'idea dello stato attuale del mercato e delle prestazioni dei sistemi OCR. Naturalmente un'analisi veramente approfondita richiederebbe ben altro spazio che non quello qui disponibile; tuttavia riteniamo importante, ai fini della valutazione di un sistema di lettura, puntualizzare quali siano le differenze tra sistemi appartenenti a varie classi di prestazioni. Riporteremo poi alcuni dati di benchmark desunti dalla letteratura relativi ad alcuni sistemi appartenenti alla fascia di intersezione tra la classe mid-range e la classe low-end, che sono quelli che rivestono il maggiore interesse ai fini del presente Rapporto.

Alcuni esempi di sistemi OCR

Come accennato in precedenza, il costo dei sistemi OCR oscilla entro limiti molto ampi: si va dai piccoli sistemi OCR portatili, basati su scanner manuali, che hanno prezzi di mercato attorno ai $ 1000, fino ai sistemi desk-top (da tavolo) con prezzi anche di $ 10000, per finire ai sistemi di classe medio-alta, come quelli della Kurzweil Corp. che arrivano ai $ 35000 e oltre, ma sono in grado di riconoscere una gamma vastissima di font (Kurzweil, 1984). Molte nazioni, tra cui l'Italia, hanno installato grandi macchine da parecchie centinaia di migliaia di dollari per la lettura degli indirizzi postali, che devono soddisfare a requisiti molto più stringenti dei normali lettori OCR.

Un esempio di piccolo OCR portatile è il Saba HandScan (McCormick, 1987b), collegabile ad un calcolatore IBM PC compatibile, che legge una riga di testo per volta e trasmette le informazioni ricavate a programmi applicativi come word processor, database o fogli elettronici. Un altro interessante esempio è costituito dal modello RH-530 (Suen & Mori, 1982) sviluppato dalla Toshiba per leggere caratteri Katakana dattiloscritti con tecniche di template matching. Ancora un altro esempio di lettore di testo portatile è il DELTA (Badoux, 1985), sviluppato per consentire la lettura di testi a persone cieche o comunque impossibilitate ad usare normalmente la vista: quando l'operatore muove una microtelecamera lungo una riga di testo, il sistema riconosce i caratteri in tempo reale e li trasmette al cieco attraverso un display tattile in codice Braille.

La classe dei sistemi desktop è ben rappresentata dal CLL-200 (Matsumura et al., 1986), capace di riconoscere con buona accuratezza circa 2400 caratteri manoscritti, tra cui caratteri cinesi, Hirakana e Katakana; costituito da 21 microprocessori a 16 bit assemblati su schede a circuito stampato delle dimensioni di un foglio A4, questo sistema è stato progettato per essere interfacciato a word processor speciali per la lingua giapponese.

Passando alle classi superiori, si può citare il sistema DBS-3000 (AEG, 1987), sviluppato dalla AEG, in grado di leggere manoscritti, stampati, etc. anche quando i testi sono fortemente degradati; la pagina viene ripresa mediante una telecamera CCD e convertita in un'immagine da 512 x 512 pixel da 8 bit, che viene poi elaborata in tempo reale. Un altro esempio è costituito dalla Formscan TXL4 Workless Station (Vossen, 1986), sviluppato dalla Dest per il trattamento di grandi volumi di posta, capace di leggere fino a 1000 pagine al giorno. Ancora un altro sistema OCR per usi generali è il N3670G (Ishiguro et al., 1986) sviluppato dalla NEC con tecnologie innovative che rendono possibile un elevatissimo throughput computazionale.

Il sistema CSR 2610 (Kauch & Lincke, 1985) ha come applicazione principale la lettura della modulistica utilizzata nelle vendite per corrispondenza, dove si trovano solitamente un indirizzo prestampato in una zona della pagina e dei dati, manoscritti o dattiloscritti, forniti dal cliente in un'altra zona. Un altro esempio di sistema autonomo analogo per la lettura di documenti manoscritti o dattiloscritti è poi il lettore SLS9691 della Siemens (Beckmann, 1985).

Un esempio di sistema OCR ad alte prestazioni è il TO-3000 (Suen & Mori, 1982), sviluppato da ETL (Electrotechnical Laboratory), in grado di riconoscere caratteri sia stampati che manoscritti, che utilizza una tecnica messa a punto da Yamamoto e altri (Yamamoto & Mori, 1978), oppure il sistema OCR-3500C (Suen & Mori, 1982), commercializzato dalla OKI Inc. giapponese, che usa un metodo di concentrazione delle feature (Ishii et al., 1978) basato sui luoghi caratteristici (Knoll, 1969) e sulla tecnica dell'effetto di campo (Mori et al., 1974).

Valutazione di alcune unità OCR stand-alone

In questa sezione vengono ripresi da McCormick (1987a) i risultati di una serie di test a cui sono stati sottoposti cinque sistemi OCR appartenenti alla fascia bassa della classe mid-range e alla fascia alta della classe low-end (Tav. II), del tipo stand-alone, costituiti cioè da un'apparecchiatura indipendente interconnessa con il calcolatore host (solitamente un Personal Computer IBM) mediante una linea seriale o, più spesso, attraverso un'apposita scheda di interfaccia. Dopo una sommaria descrizione dei cinque sistemi presi in considerazione, esamineremo qualche dettaglio delle procedure di test e discuteremo i risultati delle prove.

Tav. II
Sistemi OCR stand-alone in prova.
Prodotto Dimensioni
(in pollici)
Risoluzione
(dpi)
Prezzo
($)
Costruttore
Canon IX-12

3.75"x13.5"11.5"

300

1190+595

Canon USA, Inc.
CompuScan PCS 230

8"x17"x19"

200

5695

CompuScan, Inc.
Dest PC Scan

4"x16"x11.5"

300

2885

Dest Corp.
EIT Personal Scanner 2000

11"x13"x13.5"

240H, 300V

2495

EIT, Inc.
IOC Reader

6"x14"x14"

100-400

4295

Intelligent Optics Corp.

Sistemi in prova

Canon IX-12 -- Questa unità, di ingombro pari a quello di una piccola stampante ad aghi, è in grado di riconoscere testi e di rivelare e ignorare la presenza di regioni grafiche. Il software di riconoscimento, venduto separatamente dall'unità, è controllato mediante una serie di menù e rende disponibili, tra l'altro, delle opzioni per far confluire su un unico file il testo riconosciuto da diversi documenti, dato che il feeder della macchina è in grado di accettare fino a 5 fogli. E' richiesta l'installazione di una scheda speciale sul PC ospite, ed è disponibile un apposito software per l'esecuzione di procedure di addestramento sui font; il software di riconoscimento è inoltre in grado di leggere diversi font presenti nella medesima pagina senza che sia necessario specificarli in precedenza. Man mano che procede la scansione della pagina, il testo riconosciuto viene visualizzato sul monitor del calcolatore ospite: l'operatore ha quindi la possibilità di individuare immediatamente eventuali dificoltà di riconoscimento ed interrompere manualmente il processo senza doverne aspettare la conclusione.

CompuScan PCS 230 -- Questo sistema, di dimensioni simili a quelle di una macchina da scrivere, si connette ad un PC IBM (anche nelle versioni XT ed AT) attraverso la porta seriale standard, e dispone di un feeder che accetta fino a 50 fogli. Equipaggiato internamente con una CPU Motorola 68000, è in grado di riconoscere solamente il testo ma non le regioni grafiche eventualmente presenti nella pagina. Contrariamente a molti altri sistemi della stessa classe, il suo software di gestione non viene utilizzato dall'interno di un word processor ma è del tutto autonomo, ed è in grado di generare in uscita sia file ASCII sia file compatibili con i più diffusi word processor. Il sistema è anche disponibile in versione più economica (PCS 235, $ 3150) con prestazioni ridotte.

Dest PC Scan -- Questa unità molto compatta, progettata per essere disposta sotto al monitor del calcolatore ospite, è anch'essa in grado di riconoscere soltanto testi. Un carattere peculiare rispetto agli altri sistemi sotto test è costituito dalla presenza di una serie di procedure diagnostiche interne, distinte dal software di riconoscimento e molto accurate, che vengono automaticamente avviate al momento dell'accensione dell'unità. Lo stato di avanzamento di tali procedure viene visualizzato su un display numerico, che nelle normali condizioni operative viene invece utilizzato per fornire informazioni sullo stato della macchina. L'unità si interconnette ad una scheda di interfaccia speciale installata sul PC ospite mediante un cavo apposito (peraltro estremamente delicato). La pagina contenente il testo da elaborare viene inserita in una fessura presente sull'unità, viene trascinata all'interno per la scansione e fuoriesce da una seconda fessura, disposta -- come la prima -- sul frontale dell'unità.

EIT Personal Scanner 2000 -- Di ingombro pari a quello di un monitor, questa unità si connette ad un PC mediante una apposita scheda di interfaccia. Lo scanner incorporato è di tipo flat-bed ma fortemente incurvato, e non è facile quindi sottoporre a scansione pagine di libri o di documenti rilegati con copertine rigide; una soluzione di questo genere rende tuttavia estremamente semplice la struttura meccanica interna, dal momento che l'unica parte in movimento rimane praticamente soltanto l'ottica dello scanner. Il software di riconoscimento è in grado di identificare e ignorare la presenza di aree grafiche, e permette l'addestramento su nuovi font; esso è tuttavia molto sensibile all'orientamento delle linee di testo, e rifiuta con eccessiva facilità pagine che invece sono abbastanza ben accette agli altri sistemi sotto test. Unica tra tutte le unità qui passate in rassegna, essa richiede l'esecuzione di una procedura di calibrazione basata sulla scansione di uno speciale foglio campione; tale procedura va tuttavia eseguita una sola volta e la sua breve durata (meno di un minuto) la rende del tutto accettabile ai fini operativi.

IOC Reader -- Questa unità è in grado di interfacciarsi ad una grande varietà di calcolatori attraverso una linea seriale RS-232-C asincrona o bisincrona, di generare file di uscita per un gran numero di word processor, e di accettare fino a 30 pagine in auto-feed. In grado di riconoscere testi e di identificare la presenza di regioni grafiche, è un apparato molto veloce ed accurato; la velocità di riconoscimento, tuttavia, dipende in maniera sostanziale dal numero di font da riconoscere. Il sistema viene fornito con 6 font residenti su ROM ed altri 3 residenti su disco, ma è possibile aggiungere altri font a questi ultimi; in ogni caso, non più di 10 font possono essere contemporaneamente mantenuti in attività in memoria. Il sistema ha tuttavia serie difficoltà a riconoscere font diversi presenti sulla stessa pagina, sebbene il costruttore abbia recentemente annunciato di voler eliminare questo tipo di problema nelle successive versioni dell'unità.

Pagine di test

Il benchmark è stato condotto sottoponendo a ciascuno dei sistemi citati una serie di 6 documenti di test, tutti costituiti da una sola pagina e costruiti in modo da risultare accettabili per tutti i sistemi.

La pagina di test n. 1 è una riproduzione in offset di un testo alfanumerico di alta qualità in caratteri Courier 10 (font compatibile con le specifiche di tutti i sistemi), con interlinea sia singola che doppia e con testo a vari livelli di indentazione. La parte superiore della pagina contiene un'intestazione costituita da un riquadro con un marchio aziendale, mentre l'ultima riga del testo, in basso nella pagina, è stampata con un font non compreso tra quelli dichiarati riconoscibili dai costruttori dei vari sistemi. Le migliori prestazioni nella lettura di questa pagina sono state fornite dal CompuScan PCS 230.

La pagina n. 2 è una fotocopia di buona qualità di un testo a larghi margini, costruito con 6 font differenti (Courier 10, Madeleine-Proportional Space, Prestige Pica, Letter Gothic, Courier 12, Prestige Elite). Anche in questo caso, il CompuScan PCS 230 ha fornito le migliori prestazioni.

La pagina n. 3 è il testo di un contratto, con interlinea semplice e doppia, alcune profonde indentazioni e alcune sottolineature; il font usato è il Prestige Elite. In termini di velocità di riconoscimento, il sistema IOC Reader è risultato il primo classificato, ma è incorso nel quadruplo degli errori rispetto al secondo, il CompuScan PCS 230; l'unico sistema in grado di generare un output senza errori è stato il Dest PC Scan.

La pagina n. 4 è un testo in Courier 10, a larghi margini, prodotto con una stampante a margherita (daisy-wheel printer); in pratica, è il tipico testo richiesto dagli editori come manoscritto per pubblicazioni. Per leggere questa pagina, il CompuScan PCS 230 ha impiegato 2 secondi meno dell'IOC Reader, commettendo per di più un solo errore mentre l'IOC Reader ne ha prodotti ben 30.

La pagina n. 5 è un testo che, oltre a frasi inglesi, contiene tutti i caratteri (maiuscole, minuscole, cifre, simboli speciali di interpunzione) suddivisi in vari gruppi da 5 caratteri. Il font usato è ancora il Courier 10, e il testo è ancora prodotto con una stampante a margherita per garantire un'ottima qualità. Il sistema più veloce è stato in questo caso l'IOC Reader, che ha però generato 30 errori; l'unico sistema con output esente da errori è stato il Dest PC Scan. Il Canon IX-12 è incorso in ben 114 errori, quasi tutti dovuti a pessima discriminazione tra maiuscole e minuscole e difficoltà a riconoscere i simboli speciali.

La pagina n. 6 è infine costituita da una breve lettera con molte sottolineature, con un'intestazione grafica in alto e una firma tracciata a mano in basso, stampata in offset di alta qualità con font Prestige Pica. La presenza di un'area grafica ha impedito all'EIT Personal Scanner e al Dest PC Scan di portare a termine la lettura della pagina; tutti gli altri sistemi hanno ignorato la firma e il logo oppure hanno prodotto simboli privi di senso. Il sistema Canon IX-12 è stato il più veloce, ma il suo output conteneva 24 errori, mentre il CompuScan PCS 230 è risultato il più lento ma anche il più accurato, con soli 7 errori.

Procedura di test

Come abbiamo accennato in precedenza, la procedura di test consiste nel sottoporre le 6 pagine standard a ciascun sistema; per ciascuna pagina, il tempo di elaborazione viene definito come il tempo che intercorre tra l'ultimo comando dato al software di pilotaggio prima dell'inizio della scansione e l'istante in cui il controllo ritorna al software; i risultati delle prove eseguite con un IBM PC/XT compatibile come calcolatore ospite, sono riportati nella Tav. III: per ogni sistema sono tabulati i tempi di lettura (in minuti:secondi) e, tra parentesi, il numero di errori commessi. Va in primo luogo sottolineato come i tempi di elaborazione misurati col metodo descritto differiscano notevolmente da quelli reclamizzati dai costruttori, in misura tale che vi è addirittura da sospettare che i tempi ufficiali si riferiscano soltanto alla scansione della pagina senza comprendere i tempi necessari per il riconoscimento vero e proprio. Per di più, salvo che sul CompuScan PCS 230, il tempo di elaborazione è risultato legato in maniera significativa alla velocità del calcolatore ospite.

Tav. III
Sistemi OCR stand-alone in prova:
tempo di esecuzione ed errori generati per 6 documenti standard.
Documento

Dimensione
(in caratteri)

CompuScan
PCS 230

Dest
PC Scan

Canon
IX-12

IOC
Reader

EIT
PS 2000

1

1559

0:39 (0)

3:05 (0)

1:37 (3)

1:33 (0)

2:28/8:44 (0)

2

1648

0:55 (2)

1:44 (10)

1:45 (10)

0:59 (1000)

--

3

2234

0:58 (2)

1:35 (0)

2:04 (4)

0:40 (8)

4:55 (7)

4

1181

0:40 (1)

1:23 (22)

1:40 (32)

0:42 (30)

10:37 (67)

5

2430

1:16 (0)

1:46 (0)

2:30 (114)

0:40 (20)

5:25 (27)

6

2007

2:28 (7)

--

1:56 (24)

1:30 (1000)

--

Alcuni sistemi, attraverso il software di controllo, consentono di delimitare l'area di pagina sottoposta a riconoscimento: l'operazione richiede ovviamente l'intervento manuale dell'operatore, ma può in molti casi servire a ridurre talvolta anche drasticamente il tempo di elaborazione.

Durante il processo di riconoscimento, su molti sistemi si è avuta l'impressione che la scansione non avvenisse a ritmo continuo, ma si arrestasse e riprendesse più volte. Un fenomeno interessante e tuttavia abbastanza frequente è stato costituito dai risultati di volta in volta diversi che si sono ottenuti sottoponendo successivamente la stessa pagina allo stesso sistema.

Discussione dei risultati

Complessivamente, tutti i sistemi in prova hanno prestazioni accettabili purché la pagina sottoposta a lettura soddisfi ai requisiti dichiarati dal costruttore. La maggior parte degli errori o, in genere, dei problemi, sorge in presenza di aree miste con testo e grafica, in particolare nelle intestazioni e nelle firme tracciate a mano. Un'altra significativa fonte di errori è la frequente incapacità di discriminazione tra maiuscole e minuscole che abbiano la stessa forma (ad esempio, v e V, oppure w e W).

Le pagine di test risultate non leggibili, o leggibili con moltissimi errori, in realtà contenevano font non dichiarati riconoscibili dal costruttore; tuttavia, è anche accaduto che venissero riconosciuti senza eccessiva difficoltà anche font non ufficialmente dichiarati accettabili. Vi è peraltro da aggiungere che molti costruttori hanno in programma l'aggiornamento e l'estensione del numero di font riconoscibili.

Le migliori prestazioni complessive sono state fornite dal sistema più costoso, il CompuScan PCS 230, che legge con velocità accettabile, produce pochi errori, ed è in grado di riconoscere molti font (alcuni anche non dichiarati) e di ignorare senza danno le aree grafiche.

Le considerazioni che, al di là delle misure quantitative riportate alla Tav. III, si possono trarre dall'analisi dei risultati del benchmark rivestono un notevole interesse, non tanto sotto l'aspetto delle prestazioni, che in definitiva non differiscono molto da quelle che, allo stato attuale della tecnologia, è lecito aspettarsi da sistemi di questa classe, quanto piuttosto sotto l'aspetto della differenza tra le prestazioni reclamizzate dai costruttori e quelle effettivamente verificate nelle applicazioni concrete. Questa discrepanza è tanto più significativa se si considera che i documenti usati per la conduzione dei test sono sotto certi aspetti meno complessi e "difficili" di quelli comunemente sottoposti a processo di lettura nelle applicazioni quotidiane dell'OCR in un normale ambiente d'ufficio. La conclusione implicita in questa osservazione è che occorre fare estrema attenzione non tanto alle prestazioni dichiarate dal costruttore, quanto piuttosto alle condizioni necessarie per il loro conseguimento, e che inoltre è indispensabile mettere in conto, nelle operazioni di routine, un livello di prestazioni nettamente inferiore a quello ufficialmente dichiarato.

Valutazione di alcuni pacchetti software per OCR

La potenza dei personal computer della classe IBM PC è oggi arrivata a tal punto che determinate tecnologie OCR, che fino a pochi anni fa potevano essere implementate solo in sistemi autonomi di riconoscimento, possono oggi essere realizzate puramente in software. Riprendiamo qui da Grunin (1990) alcuni risultati relativi a quattro prodotti di questa classe (Tav. IV), molto recenti, che danno un'idea abbastanza precisa del tipo di prestazioni che oggigiorno è possibile ottenere da un software OCR relativamente economico.

Tav. IV
Sistemi OCR software-only in prova
Prodotto Prezzo ($) Produttore
OmniPage/386

895

Caere Corp.
Perceive

795

Ocron Inc.
Recognize! v2.0

695

Dest Corp.
WordScan Plus

995

Calera Recognition Systems

Sistemi in prova

Omnipage/386 -- Adatto per calcolatori PC-compatibili equipaggiati con CPU 80386 in ambiente Windows, l'ultima versione di questo prodotto pone requisiti piuttosto pesanti alla configurazione del sistema (4 Mbyte di memoria, più almeno 7 Mbyte liberi su disco), ma può essere considerata altrettanto accurata (sebbene più economica) della sua implementazione originale, che aveva peraltro bisogno di una scheda speciale. Supporta diversi scanner tra i più diffusi ed opera con tecnologia Omnifont, per cui la lettura di una pagina non richiede praticamente alcuna operazione preparatoria. Il processo di lettura è mediamente molto veloce (meno di un minuto per tutte le pagine di test) anche se non estremamente accurato, e può essere a sua volta configurato in base a diverse opzioni: ad esempio, si può scegliere una modalità text only, in cui ogni regione grafica viene ignorata, oppure una modalità mista in cui le parti grafiche vengono identificate e trattate separatamente; è possibile addirittura selezionare una modalità invert per la lettura di caratteri bianchi su sfondo nero. La lettura non presenta particolari problemi con il testo sottolineato, né con testi organizzati su più colonne; l'unico problema serio è invece costituito dai caratteri prodotti dalle stampanti ad aghi, tanto che il costruttore fornisce un pacchetto aggiuntivo OmniDraft per questo tipo di caratteri.

Perceive -- E' un prodotto relativamente veloce e sufficiente accurato, adatto anche per PC-compatibili equipaggiati con CPU 80286 in ambiente Windows (ma richiede almeno 2.6 Mbyte di RAM e alcuni Mbyte liberi su disco); si distingue dai prodotti concorrenti per la capacità di operare sia con tecnologia Omnifont che attraverso addestramento sui font. Anch'esso presenta problemi non indifferenti con il testo sottolineato e con i caratteri prodotti da stampanti ad aghi, ma in più sembra piuttosto sensibile alle variazioni di contrasto della pagina e richiede frequenti regolazioni sullo scanner. Non è in grado di decomporre automaticamente la pagina, e la lettura di un testo organizzato su più colonne richiede l'intervento manuale dell'operatore. Il produttore ha annunciato una nuova versione, in cui dovrebbe essere eliminata una gran parte degli inconvenienti.

Recognize! -- Contrariamente al PC Scan, citato sopra, con questo prodotto la Dest ha abbandonato lo scanner autonomo decidendo di interfacciarsi ad alcuni scanner commerciali, pur se la scelta tra i vari modelli è piuttosto limitata. Il prodotto usa la tecnologia Omnifont senza possibilità di addestramento su font sconosciuti; è abbastanza accurato anche sui caratteri prodotti da stampanti ad aghi (sebbene abbia stranamente generato una gran quantità di errori col font Helvetica 10), e fornisce risultati ragionevoli anche su pagine di qualità relativamente bassa. Ha qualche problema con i caratteri in grassetto, e non supporta alcuni caratteri speciali degli alfabeti internazionali. E' in grado di decomporre la pagina in maniera automatica e di trattare senza particolari problemi testi su più colonne; tuttavia, non prevede alcun meccanismo per il salvataggio separato delle regioni grafiche.

WordScan Plus -- La prima impressione che si ha di fronte a questo prodotto, utilizzabile su un PC-compatibile equipaggiato con CPU 80286 e ambiente Windows, è quella di una velocità significativamente inferiore a quella dei prodotti concorrenti. Questa limitazione passa comunque in secondo ordine di fronte alla notevole accuratezza del processo di lettura; tuttavia, in applicazioni dove anche la velocità di elaborazione è importante, il produttore offre una scheda speciale (WordScan Plus/AT per bus ISA oppure WordScan Plus/MCA per bus MicroChannel, al prezzo di $ 3995) in grado di dimezzare i tempi di lettura. Il prodotto supporta una vastissima scelta di opzioni, e non presenta virtualmente alcun serio problema né con pagine landscape, né con testo sottolineato, né con caratteri prodotti da stampanti ad aghi. Una importante caratteristica, presente peraltro in qualche misura su alcuni prodotti concorrenti, è la sua capacità di estrarre e ritenere le informazioni relative agli attributi dei caratteri (dimensioni e tipo) e del testo (margini, interlinea, etc.), e di riversarle quindi in uno style sheet (foglio di stile) per l'immediato uso da parte di un word processor. Molto interessante è anche la sofisticata procedura per la correzione manuale degli errori di lettura.

Pagine di test

I documenti sottoposti a lettura per la prova dei prodotti citati sono i seguenti:

Testo a spaziatura fissa. E' rivolto a fornire una misura della capacità globale del sistema di trattare documenti da ufficio dattiloscritti o prodotti da una stampante. Il buon esito di questo test richiede buone prestazioni su font di piccole dimensioni, capacità di trattare pagine con orientamento landscape e con testo sottolineato, e capacità di leggere caratteri generati da stampanti ad aghi.

Testo a spaziatura proporzionale. Consente di ottenere una misura della capacità di lettura da documenti stampati mediante stampante laser con i più comuni font a spaziatura proporzionale, sia con serif (Times Roman) che sans-serif (Helvetica). La capacità di leggere pagine in orientamento landscape, di trattare correttamente i caratteri in grassetto e il testo sottolineato, come pure la possibilità di accettare diversi tipi di font presenti sulla stessa pagina e di ritenere le caratteristiche e gli attributi dei caratteri sono anche fattori importanti nell'esito di questo test.

Documenti complessi. Forniscono una misura della capacità che il prodotto possiede nel trattare documenti organizzati su più colonne, stampati in diversi font e dimensioni di carattere, e nell'identificare le aree grafiche e le altre porzioni estranee della pagina. Questo tipo di documento consente anche la misura di prestazioni aggiuntive, quali la capacità di decomposizione automatica della pagina, di estrazione e salvataggio delle porzioni grafiche, di generazione di fogli di stile con la descrizione del formato del testo e dei caratteri riconosciuti.

Risultati delle prove

I risultati del processo di test sono riportati nelle Tavv. V e VI. Il campo di variabilità dei risultati è molto ampio, ma i prodotti migliori, OmniPage/386 e WordScan Plus, sembrano fornire prestazioni relativamente stabili e significativamente superiori ai prodotti concorrenti.

Tav. V
Sistemi OCR software-only: test di accuratezza
Prodotto Errori per pagina
Stampa laser (3) Stampa ad aghi (1) Testo misto (3) Font misti (6)
OmniPage/386

23.0

20.0

2.3

48.8

Perceive

36.3

3.0

31.3

67.2

Recognize!

16.7

1.0

6.0

103.3

WordScan Plus

22.3

4.0

3.7

40.3

 

Tav. VI
Sistemi OCR software-only: tempo di lettura
Prodotto Tempo medio di lettura per pagina (sec)
Stampa laser (3) Stampa ad aghi (2) Testo misto (3) Font misti (6)
OmniPage/386

46.3

193.0

45.7

120.7

Perceive

53.3

122.5

58.3

82.3

Recognize!

96.3

94.0

75.3

131.2

WordScan Plus

97.7

115.0

92.7

146.7

Conclusioni

Sebbene la ricerca teorica abbia prodotto importanti risultati nel campo del riconoscimento di caratteri manoscritti o comunque soggetti a vincoli molto tenui, i sistemi OCR commerciali continuano ad evidenziare un certo numero di problemi non ancora del tutto risolti. La scarsità di informazioni sulle tecniche algoritmiche usate nei sistemi commerciali non consente tuttavia di stabilire con precisione se questa circostanza sia da imputare al fatto che i nuovi algoritmi hanno ottime prestazioni solo su dati opportunamente selezionati ma degradano in maniera sensibile quando devono operare sui dati tipici del mondo reale, ovvero sia dovuta all'attuale impossibilità tecnologica di implementare le nuove tecniche in maniera sufficientemente economica.

Se analizziamo le prestazioni dei sistemi OCR commerciali, possiamo facilmente notare come esse dipendano fortemente da un certo numero di condizioni operative, e come possano degradare rapidamente se tali condizioni non risultano sufficientemente soddisfatte; nel prossimo capitolo, cercheremo pertanto di comprendere la natura di tali limitazioni.

Riferimenti bibliografici

  1. AEG, "Automatic recognition of indistinct characters," Electrotechnik, vol. 69, p. 44, 26 Oct. 1987. (In tedesco.)
  2. R. D. Badoux, "DELTA [text reader for the blind], Computerized Braille production," Proc. 5th Int. Workshop, Winterthur, Switzerland, 30 Oct.-1 Nov. 1985, pp. 21-25.
  3. D. Beckmann, "Creating readable documents [Siemens SLS 9691 OCR]," COM, vol. 20, pp. 44-45, 1985. (In tedesco.)
  4. L. Grunin, "OCR software moves into mainstream," PC Magazine, vol. 9, no. 18, Oct. 30, 1990.
  5. H. Ishiguro, M. Miyamoto, K. Shigeta, K. Hiromori, A. Fukusawa, Y. Murai, F. Kawamata, K. Kondoh, "N3670G hand printed OCR system," NEC Tech. J., vol. 39, pp. 132-138, 1986. (In giapponese.)
  6. K. Ishii, N. Kanemaki, K. Komori, "Automatic design of a character recognition dictionary based on feature concentration method," Proc. 4th Int. J. Conf. Pattern Recognition, Kyoto, Japan, 7-10 Nov. 1978, pp. 804-806.
  7. A. Kauch, H. Lincke, "OCR in mail order business," COM, vol. 20, pp. 24-27, 1985. (In tedesco.)
  8. A. L. Knoll, "Experiments with `characteristic loci` for recognition of handprinted characters," IEEE Trans. Comput., vol. 18, pp. 366-372, 1969.
  9. R. C. Kurzweil, "Artificial intelligence program at CORE of scanning system," Graphic Arts Mon., vol. 56, pp. 564-566, 1984.
  10. H. Matsumura, K. Aoki, T. Iwahara, H. Oohama, K. Kogura, "Desktop optical handwritten character reader," Sanyo Tech. Rev., vol. 18, pp. 3-12, 1986. (In giapponese.)
  11. J. McCormick, "Text scanners for the IBM PC," Byte, vol. 12, no. 4, pp. 233-238, April 1987.
  12. J. McCormick, "Saba HandScan," Byte, vol. 12, pp. 165-167, Dec. 1987.
  13. T. Mori, S. Mori, K. Yamamoto, "Field effect method for feature extraction from patterns -- Extraction of concavities and enclosures," Syst. Comput. Control, vol. 5, pp. 44-50, 1974.
  14. C. Y. Suen, R. D. Mori, Eds., Computer Analysis and Perception. Vol. I: Visual Signals, CRC Press, Boca Raton, FL, 1982.
  15. M. Vossen, "Electronic page reader in use," Office Management, vol. 34, p. 1148, 1986. (In tedesco.)
  16. K. Yamamoto, S. Mori, "Recognition of handprinted characters by outermost point method," Proc. 4th Int. J. Conf. Pattern Recognition, Kyoto, Japan, 7-10 Nov. 1978, pp. 794-796.
minilogo.gif (2094 bytes)

Reti neurali e riconoscimento di caratteri

left.gif (1019 bytes) up.gif (1014 bytes) right.gif (1020 bytes)

© 1997-2003 Paolo Marincola (Rome, Italy)
e-mail:
pmaNOSPAM@acm.org (eliminare i caratteri "NOSPAM" per ottenere l'indirizzo esatto)
Commenti, osservazioni e suggerimenti sono estremamente graditi.

Last revised: 2003-11-09 00:30