|
Fin dai suoi primordi, la tecnologia del riconoscimento ottico di caratteri ha sempre utilizzato come modello primario quelli che si ritiene siano i meccanismi usati dall'uomo nella lettura. Quando leggiamo, i nostri occhi scandiscono il testo secondo linee orizzontali successive; la lente del cristallino mette a fuoco la luce incidente sulla retina, le cui cellule nervose codificano le immagini e le trasmettono al cervello attraverso il nervo ottico. Sotto questo aspetto, è interessante osservare come molti dei primi sviluppi nel riconoscimento ottico di caratteri siano stati ottenuti nel corso di ricerche dirette alla costruzione di ausili di lettura per ciechi o comunque per individui affetti da disturbi della vista: di fatto, uno dei primi brevetti concessi per una macchina di lettura per ciechi risale addirittura al 1809.
Gli studi nel campo del riconoscimento di caratteri ebbero inizio oltre 100 anni fa, essenzialmente per merito di singoli ricercatori. Il primo scanner a retina per la lettura di caratteri, messo a punto nel 1870 da C. R. Carey a Boston, Massachusetts, faceva uso di un mosaico di fotocellule; in Polonia, P. Nipkow sviluppò nel 1890 un disco per la scansione di immagini che può essere considerato il precursore delle moderne telecamere; alcuni anni dopo, E. Goldberg di Chicago riuscì per la prima volta ad acquisire un testo mediante un dispositivo di scansione ed a convertirlo in codice Morse. Da allora, le tecniche di riconoscimento conobbero rapidi progressi per merito di parecchi altri ricercatori, che raffinarono progressivamente le relative tecnologie.
L'interesse per il riconoscimento ottico di caratteri pervenne al livello del vasto pubblico nei primi anni '50, per merito del lavoro -- peraltro largamente pubblicizzato -- di M. Sheppard, inventore di un Robot Lettore-Scrittore chiamato GISMO; nel 1954, J. Rabinow sviluppò una macchina sperimentale in grado di leggere caratteri dattiloscritti maiuscoli alla velocità -- fantastica per quell'epoca -- di un carattere al minuto. Fu anche in questo periodo che molte grandi aziende, tra cui la IBM e i Bell Laboratories, si resero conto delle potenzialità connesse alla tecnologia OCR e costituirono appositi gruppi di ricerca. Sia Sheppard che Rabinow abbandonarono la ricerca pura e fondarono entrambi delle aziende proprie, che divennero ben presto un punto di riferimento nello sviluppo di vari tipi di apparecchiature per la lettura automatica, utilizzate da enti governativi, banche e case editrici.
Mentre il riconoscimento ottico di caratteri cominciava ad entrare nella fase di sviluppo vero e proprio, le tecnologie basate sul riconoscimento magnetico erano già mature ed in avanzato stadio di applicazione. Nel 1956, la American Banker's Association standardizzò un font speciale di caratteri, chiamato MICR (Magnetic Ink Character Recognition, Fig. 1), per l'impiego sugli assegni; questo tipo di carattere, ormai conosciutissimo, negli anni '60 divenne ben presto sinonimo di "computerizzazione", ed è ancor oggi usato come stile futuristico. Il carattere MICR era stato progettato per applicazioni con requisiti stringenti di lettura ad alta velocità: apposite bande di inchiostro semplificavano il compito del lettore di caratteri sia nella discriminazione di caratteri simili, ad esempio tra l'1 (uno), la l (L minuscola) e la I (I maiuscola), come pure nella minimizzazione degli errori dovuti a polvere o a falsificazione.
Il principale inconveniente del font MICR risiedeva tuttavia nel fatto che quasi nessuna delle macchine da scrivere dell'epoca (come la Selectric IBM) era in grado di generare i caratteri relativi; un altro inconveniente secondario era poi dovuto alla relativa difficoltà con cui un soggetto umano riusciva a leggere testi scritti in MICR. Di conseguenza, molti fabbricanti giunsero alla determinazione di sviluppare altri font per il riconoscimento ottico di caratteri; ad esempio, l'American National Standards Institute (ANSI) adottò nel 1966 un font standard, detto USASI-A (noto come anche OCR-A), mentre un secondo font standard, l'OCR-B, venne sviluppato in Europa; al giorno d'oggi entrambi questi font sono largamente usati su tutti i sistemi OCR (Fig. 2). Le notevoli prestazioni raggiunte dai lettori OCR che accettavano questi font specializzati, tuttavia, testimoniarono sotto certi aspetti il sostanziale fallimento degli sforzi fatti fino a quel momento nella lettura automatica dei font convenzionali.
Durante gli ultimi anni '60 vi furono poi molti importanti sviluppi nella tecnologia OCR, ma i sistemi in cui essi vennero incorporati rimasero per lo più relegati tra le apparecchiature considerate esotiche e futuristiche. La maggior parte delle innovazioni attuali nei sistemi OCR è in realtà dovuta a ricerche condotte nel corso degli anni '70, principalmente nel campo del riconoscimento omnifont (cioè senza limitazioni di font). Tuttavia, i sistemi che sfruttavano i risultati di tali ricerche rimasero per lo più nello stadio sperimentale, e soltanto tra la fine degli anni '70 e l'inizio degli anni '80 il grande pubblico venne a contatto con la lettura automatica per via della rapidissima diffusione, principalmente nei supermercati, di un semplice ed economico dispositivo di lettura ottica, chiamato bar-code reader (lettore di codice a barre). In un lettore di bar-code, un sensore luminoso esplora un'area costituita da bande bianche e nere alternate (Fig. 3); le larghezze delle varie bande compongono un codice con cui vengono rappresentate informazioni come il nome del prodotto, il prezzo o il numero d'inventario; il lettore elabora questi dati direttamente alla cassa del supermercato, e consente così di fornire in tempi brevissimi sia la ricevuta del pagamento al cliente, sia i dati della transazione al calcolatore dedicato alla contabilità.
Come dicevamo poc'anzi, i principali sviluppi nella tecnologia OCR videro la luce nel corso degli anni '70; in questo periodo furono affrontate per la prima volta le problematiche relative al riconoscimento di caratteri non latini (cinesi, giapponesi, indiani, coreani, ebraici, etc.), e apparvero anche i primi tentativi significativi di riconoscimento ottico di caratteri manoscritti. Il riconoscimento del manoscritto presenta ovviamente difficoltà molto maggiori che non quello di testi stampati o dattiloscritti, ma ha in certi campi (come ad esempio la lettura automatica degli indirizzi postali) potenzialità applicative enormi. Negli anni '70 vennero così sviluppati sia sistemi OCR del costo di milioni di dollari come pure apparati dal costo relativamente basso ($ 50 000); ma solo negli anni '80 questi ultimi divennero di impiego comune negli ambienti di ufficio, quando la vastissima diffusione dei personal computer portò finalmente i sistemi di lettura automatica ad assumere un ruolo di estrema importanza. Al giorno d'oggi, vi è una vastissima disponibilità di sistemi OCR con un'ampia gamma sia di costi che di prestazioni; un'analisi completa ed accurata di tutti i prodotti del settore rimane comunque al di là degli scopi del presente Rapporto, e ci limiteremo pertanto a presentare nella Sez. 5 soltanto qualche breve cenno sulle caratteristiche di alcuni tra i sistemi più rappresentativi.
La tecnologia del riconoscimento ottico di caratteri ha, come è facile immaginare, un numero enorme di impieghi pratici. L'applicazione che storicamente per prima diede impulso alle ricerche nel campo è quella dell'ausilio ai ciechi e alle persone affette da limitazioni o patologie al sistema visivo: la lettura del testo viene eseguita mediante sensori ottici, e il testo riconosciuto viene restituito sotto forma di stimoli tattili oppure di onde sonore (Bliss, 1969; Smitch, 1973; Spronsen & Bruggeman, 1985); sempre in questo campo applicativo, sono stati anche proposti sistemi per la lettura e la riproduzione di originali in alfabeto Braille (Badoux, 1985).
Le applicazioni oggi più comuni sono però quelle legate all'elaborazione diretta di documenti cartacei nella fase di data entry (ad esempio, la lettura elettronica di pagine nel trattamento automatico di grandi quantità di posta), e in generale alla trasformazione di testi e grafica in formati utilizzabili da un calcolatore (Kroger, 1987; Ufer, 1970; Vossen, 1986). Un'altra importante applicazione si ha negli uffici postali, per la lettura degli indirizzi o dei codici postali, sia stampati che scritti a mano (Genchi, 1970; Notbohm & Hanisch, 1986; Swonger, 1969).
Altre applicazioni dei sistemi OCR, secondarie come diffusione ma non certo come importanza, sono le seguenti:
Le tecniche OCR sono state sfruttate in applicazioni anche piuttosto lontane da quelle classiche; oltre alla lettura dei codici a barre, della quale si è detto poc'anzi (un'applicazione tipica è illustrata in Nassimbene, 1972), esse hanno trovato impiego nell'identificazione automatica delle impronte digitali (Metropolitan, 1970), nell'ispezione automatica delle maschere per circuiti integrati e nella rivelazione dei difetti nei microcircuiti (Bojman, 1970), nell'analisi dei manoscritti per il riconoscimento automatico dello scrittore (Kupriyanov, 1972) e per la verifica delle firme (Sternberg, 1975), nella trascrizione dei testi stenografici (Leedham & Downton, 1986, 1987) e nella lettura delle informazioni visualizzate sui terminali di comunicazione dati (Genchi, 1969).
Infine, sono state proposte tecniche OCR per l'uso nell'industria editoriale (Skalski, 1967) allo scopo di ridurre il tempo di immissione dei testi nel caso di lavori urgenti, o per la copia e la conversione di materiali già stampati; nelle aziende fornitrici di informazioni e nelle banche dati, per via della possibilità di accesso immediato a informazioni stampate, e per la possibilità di integrazione di tali informazioni negli archivi in linea; in campo legale (Joshi, 1974) e forense (Perret, 1980) per la ristesura o la modifica di contratti e documenti analoghi, per l'aggiornamento di vecchi documenti, per l'acquisizione di leggi, decreti, regolamenti; in campo educativo (Hemphill, 1975), principalmente nelle scuole e nelle università, per la preparazione e la gestione del materiale didattico; nelle librerie (Smith & Merali, 1985), nelle operazioni di censimento (Ress, 1975), in cartografia (Gronmeyer, 1979), nella posta elettronica (Polizzano, 1983), nelle industrie manifatturiere elettroniche (Berger et al., 1985) e tessili (Schafer, 1973), nella distribuzione al dettaglio (Eggimann, 1974), nel trattamento di documenti bancari (Haaley, 1969).
© 1997-2003 Paolo Marincola (Rome, Italy)
e-mail: pmaNOSPAM@acm.org (eliminare
i caratteri "NOSPAM" per ottenere l'indirizzo esatto)
Commenti, osservazioni e suggerimenti sono estremamente graditi.
Last revised: 2003-11-09 00:29