Cenni storici e applicazioni

Reti neurali e riconoscimento di caratteri

1. Cenni storici e applicazioni

Fin dai suoi primordi, la tecnologia del riconoscimento ottico di caratteri ha sempre utilizzato come modello primario quelli che si ritiene siano i meccanismi usati dall'uomo nella lettura. Quando leggiamo, i nostri occhi scandiscono il testo secondo linee orizzontali successive; la lente del cristallino mette a fuoco la luce incidente sulla retina, le cui cellule nervose codificano le immagini e le trasmettono al cervello attraverso il nervo ottico. Sotto questo aspetto, è interessante osservare come molti dei primi sviluppi nel riconoscimento ottico di caratteri siano stati ottenuti nel corso di ricerche dirette alla costruzione di ausili di lettura per ciechi o comunque per individui affetti da disturbi della vista: di fatto, uno dei primi brevetti concessi per una macchina di lettura per ciechi risale addirittura al 1809.

Evoluzione dei sistemi OCR

Gli studi nel campo del riconoscimento di caratteri ebbero inizio oltre 100 anni fa, essenzialmente per merito di singoli ricercatori. Il primo scanner a retina per la lettura di caratteri, messo a punto nel 1870 da C. R. Carey a Boston, Massachusetts, faceva uso di un mosaico di fotocellule; in Polonia, P. Nipkow sviluppò nel 1890 un disco per la scansione di immagini che può essere considerato il precursore delle moderne telecamere; alcuni anni dopo, E. Goldberg di Chicago riuscì per la prima volta ad acquisire un testo mediante un dispositivo di scansione ed a convertirlo in codice Morse. Da allora, le tecniche di riconoscimento conobbero rapidi progressi per merito di parecchi altri ricercatori, che raffinarono progressivamente le relative tecnologie.

L'interesse per il riconoscimento ottico di caratteri pervenne al livello del vasto pubblico nei primi anni '50, per merito del lavoro -- peraltro largamente pubblicizzato -- di M. Sheppard, inventore di un Robot Lettore-Scrittore chiamato GISMO; nel 1954, J. Rabinow sviluppò una macchina sperimentale in grado di leggere caratteri dattiloscritti maiuscoli alla velocità -- fantastica per quell'epoca -- di un carattere al minuto. Fu anche in questo periodo che molte grandi aziende, tra cui la IBM e i Bell Laboratories, si resero conto delle potenzialità connesse alla tecnologia OCR e costituirono appositi gruppi di ricerca. Sia Sheppard che Rabinow abbandonarono la ricerca pura e fondarono entrambi delle aziende proprie, che divennero ben presto un punto di riferimento nello sviluppo di vari tipi di apparecchiature per la lettura automatica, utilizzate da enti governativi, banche e case editrici.

Mentre il riconoscimento ottico di caratteri cominciava ad entrare nella fase di sviluppo vero e proprio, le tecnologie basate sul riconoscimento magnetico erano già mature ed in avanzato stadio di applicazione. Nel 1956, la American Banker's Association standardizzò un font speciale di caratteri, chiamato MICR (Magnetic Ink Character Recognition, Fig. 1), per l'impiego sugli assegni; questo tipo di carattere, ormai conosciutissimo, negli anni '60 divenne ben presto sinonimo di "computerizzazione", ed è ancor oggi usato come stile futuristico. Il carattere MICR era stato progettato per applicazioni con requisiti stringenti di lettura ad alta velocità: apposite bande di inchiostro semplificavano il compito del lettore di caratteri sia nella discriminazione di caratteri simili, ad esempio tra l'1 (uno), la l (L minuscola) e la I (I maiuscola), come pure nella minimizzazione degli errori dovuti a polvere o a falsificazione.

Fig. 1

Il font MICR.

Il principale inconveniente del font MICR risiedeva tuttavia nel fatto che quasi nessuna delle macchine da scrivere dell'epoca (come la Selectric IBM) era in grado di generare i caratteri relativi; un altro inconveniente secondario era poi dovuto alla relativa difficoltà con cui un soggetto umano riusciva a leggere testi scritti in MICR. Di conseguenza, molti fabbricanti giunsero alla determinazione di sviluppare altri font per il riconoscimento ottico di caratteri; ad esempio, l'American National Standards Institute (ANSI) adottò nel 1966 un font standard, detto USASI-A (noto come anche OCR-A), mentre un secondo font standard, l'OCR-B, venne sviluppato in Europa; al giorno d'oggi entrambi questi font sono largamente usati su tutti i sistemi OCR (Fig. 2). Le notevoli prestazioni raggiunte dai lettori OCR che accettavano questi font specializzati, tuttavia, testimoniarono sotto certi aspetti il sostanziale fallimento degli sforzi fatti fino a quel momento nella lettura automatica dei font convenzionali.

Fig. 2

Caratteri OCR-A e OCR-B.

Durante gli ultimi anni '60 vi furono poi molti importanti sviluppi nella tecnologia OCR, ma i sistemi in cui essi vennero incorporati rimasero per lo più relegati tra le apparecchiature considerate esotiche e futuristiche. La maggior parte delle innovazioni attuali nei sistemi OCR è in realtà dovuta a ricerche condotte nel corso degli anni '70, principalmente nel campo del riconoscimento omnifont (cioè senza limitazioni di font). Tuttavia, i sistemi che sfruttavano i risultati di tali ricerche rimasero per lo più nello stadio sperimentale, e soltanto tra la fine degli anni '70 e l'inizio degli anni '80 il grande pubblico venne a contatto con la lettura automatica per via della rapidissima diffusione, principalmente nei supermercati, di un semplice ed economico dispositivo di lettura ottica, chiamato bar-code reader (lettore di codice a barre). In un lettore di bar-code, un sensore luminoso esplora un'area costituita da bande bianche e nere alternate (Fig. 3); le larghezze delle varie bande compongono un codice con cui vengono rappresentate informazioni come il nome del prodotto, il prezzo o il numero d'inventario; il lettore elabora questi dati direttamente alla cassa del supermercato, e consente così di fornire in tempi brevissimi sia la ricevuta del pagamento al cliente, sia i dati della transazione al calcolatore dedicato alla contabilità.

Fig. 3

Esempio di codice a barre.

Come dicevamo poc'anzi, i principali sviluppi nella tecnologia OCR videro la luce nel corso degli anni '70; in questo periodo furono affrontate per la prima volta le problematiche relative al riconoscimento di caratteri non latini (cinesi, giapponesi, indiani, coreani, ebraici, etc.), e apparvero anche i primi tentativi significativi di riconoscimento ottico di caratteri manoscritti. Il riconoscimento del manoscritto presenta ovviamente difficoltà molto maggiori che non quello di testi stampati o dattiloscritti, ma ha in certi campi (come ad esempio la lettura automatica degli indirizzi postali) potenzialità applicative enormi. Negli anni '70 vennero così sviluppati sia sistemi OCR del costo di milioni di dollari come pure apparati dal costo relativamente basso ($ 50 000); ma solo negli anni '80 questi ultimi divennero di impiego comune negli ambienti di ufficio, quando la vastissima diffusione dei personal computer portò finalmente i sistemi di lettura automatica ad assumere un ruolo di estrema importanza. Al giorno d'oggi, vi è una vastissima disponibilità di sistemi OCR con un'ampia gamma sia di costi che di prestazioni; un'analisi completa ed accurata di tutti i prodotti del settore rimane comunque al di là degli scopi del presente Rapporto, e ci limiteremo pertanto a presentare nella Sez. 5 soltanto qualche breve cenno sulle caratteristiche di alcuni tra i sistemi più rappresentativi.

Applicazioni dei sistemi OCR

La tecnologia del riconoscimento ottico di caratteri ha, come è facile immaginare, un numero enorme di impieghi pratici. L'applicazione che storicamente per prima diede impulso alle ricerche nel campo è quella dell'ausilio ai ciechi e alle persone affette da limitazioni o patologie al sistema visivo: la lettura del testo viene eseguita mediante sensori ottici, e il testo riconosciuto viene restituito sotto forma di stimoli tattili oppure di onde sonore (Bliss, 1969; Smitch, 1973; Spronsen & Bruggeman, 1985); sempre in questo campo applicativo, sono stati anche proposti sistemi per la lettura e la riproduzione di originali in alfabeto Braille (Badoux, 1985).

Le applicazioni oggi più comuni sono però quelle legate all'elaborazione diretta di documenti cartacei nella fase di data entry (ad esempio, la lettura elettronica di pagine nel trattamento automatico di grandi quantità di posta), e in generale alla trasformazione di testi e grafica in formati utilizzabili da un calcolatore (Kroger, 1987; Ufer, 1970; Vossen, 1986). Un'altra importante applicazione si ha negli uffici postali, per la lettura degli indirizzi o dei codici postali, sia stampati che scritti a mano (Genchi, 1970; Notbohm & Hanisch, 1986; Swonger, 1969).

Altre applicazioni dei sistemi OCR, secondarie come diffusione ma non certo come importanza, sono le seguenti:

la misura e l'analisi della qualità di stampa dei caratteri (Crawford, 1972; Throssel & Fryer, 1974);
la lettura di documenti a fini di ordinamento, classificazione e archiviazione (Burroughs, 1975);
le operazioni di prenotazione dei posti nei voli aerei (McAbee, 1967);
la lettura automatica delle targhe automobilistiche nel controllo del traffico stradale (Gyarfas, 1974);
la lettura automatica dei contatori per la fatturazione dei consumi, ad esempio nei servizi telefonici (Yoshida, 1974);
l'acquisizione e l'integrazione dei dati necessari all'emissione di ordini per materiali (Hilgert, 1970);
la lettura di tessere tipo carta di credito nei sistemi di identificazione del personale (Herbst & Liu, 1980);
l'ottimizzazione delle strategie di ordinamento e archiviazione degli assegni (Murphy & Stohr, 1975);
l'acquisizione di dati a fini previdenziali e assicurativi (Timm, 1973);
la lettura dei cartellini di presenza per il calcolo automatico degli stipendi e per la contabilità aziendale (Christ & Schrag, 1976);
la lettura automatica dei telegrammi (Inoue et al., 1973);
la lettura automatica di caratteri impressi su parti metalliche (Nakamura et al., 1986, 1987).

Le tecniche OCR sono state sfruttate in applicazioni anche piuttosto lontane da quelle classiche; oltre alla lettura dei codici a barre, della quale si è detto poc'anzi (un'applicazione tipica è illustrata in Nassimbene, 1972), esse hanno trovato impiego nell'identificazione automatica delle impronte digitali (Metropolitan, 1970), nell'ispezione automatica delle maschere per circuiti integrati e nella rivelazione dei difetti nei microcircuiti (Bojman, 1970), nell'analisi dei manoscritti per il riconoscimento automatico dello scrittore (Kupriyanov, 1972) e per la verifica delle firme (Sternberg, 1975), nella trascrizione dei testi stenografici (Leedham & Downton, 1986, 1987) e nella lettura delle informazioni visualizzate sui terminali di comunicazione dati (Genchi, 1969).

Infine, sono state proposte tecniche OCR per l'uso nell'industria editoriale (Skalski, 1967) allo scopo di ridurre il tempo di immissione dei testi nel caso di lavori urgenti, o per la copia e la conversione di materiali già stampati; nelle aziende fornitrici di informazioni e nelle banche dati, per via della possibilità di accesso immediato a informazioni stampate, e per la possibilità di integrazione di tali informazioni negli archivi in linea; in campo legale (Joshi, 1974) e forense (Perret, 1980) per la ristesura o la modifica di contratti e documenti analoghi, per l'aggiornamento di vecchi documenti, per l'acquisizione di leggi, decreti, regolamenti; in campo educativo (Hemphill, 1975), principalmente nelle scuole e nelle università, per la preparazione e la gestione del materiale didattico; nelle librerie (Smith & Merali, 1985), nelle operazioni di censimento (Ress, 1975), in cartografia (Gronmeyer, 1979), nella posta elettronica (Polizzano, 1983), nelle industrie manifatturiere elettroniche (Berger et al., 1985) e tessili (Schafer, 1973), nella distribuzione al dettaglio (Eggimann, 1974), nel trattamento di documenti bancari (Haaley, 1969).

Riferimenti bibliografici

R. D. Badoux, "DELTA [text reader for the blind], Computerized Braille production," Proc. 5th Int. Workshop, Winterthur, Switzerland, 30 Oct.--1 Nov. 1985, pp. 21-25.
A. Berger, P. Dunbar, C. Robert, "Machine vision recognition in the electronic packaging industry. Three case studies," VISION 85 Conf. Proc., Detroit, MI, 25-28 March 1985.
J. C. Bliss, "A relatively high-resolution aid for the blind", IEEE Trans. Man, Mach. System, vol. 10, pp. 1-9, 1969.
W. Bojman, "Detection and/or measurement on complex patterns," IBM Tech. Discl. Bull., vol. 13, pp. 1429-1430, 1970.
Burroughs Report, B9137 Reader Sorter, Burroughs Cleaning House, vol. 59, pp. 32-33, 1975.
E. Christ, G. Schrag, "New tasks for the mark sheet reader," Data Rep., vol. 11, pp. 27-31, 1976. (In tedesco.)
J. L. Crawford, "Pictorial information disector and analyzer system (PIDAS)," IBM Tech. Discl. Bull., vol. 15, pp. 61-62, 1972.
W. Eggimann, "Electronics in U. S. A. --The computer in the supermarket," Elektroniker, vol. 13, pp. 28-29, 1974. (In tedesco.)
H. Genchi, "Data communication terminal apparatus, optical character and mark readers," Denshi Tsushin Gakkai Zasshi, vol. 52, pp. 418-428, 1969. (In giapponese.)
H. Genchi, S. Watanabe, S. Matsunaga, M. Tamada, "Automatic reader-sorter for mail with handwritten or printed postal code numbers," Toshiba Rev. (Int. Edn.), vol. 49, pp. 7-11, 1970.
M. L. Gronmeyer, "Recognition of handprinted characters for automated cartography: A progress report," Proc. Soc. Photo-Opt. Instr. Engng, vol. 205, pp. 165-174, 1979.
A. Gyarfas, "Experiments concerning the inspection and control of car and truck in France," Koezlekedes Tud. Sz., vol. 24, pp. 85-91, 1974. (In ungherese.)
J. D. Haaley, "National giro document reading and sorting optical character recognition," Datafair 1969, Manchester, England, 25-29 Aug. 1969.
B. R. Hemphill, "Optical character recognition--The future is here," AEDS Monit., vol. 13, pp. 8-9, 1975.
N. M. Herbst, C. N. Liu, "Card-based personal identification system," IBM Tech. Discl. Bull., vol. 22, pp. 4291-4293, Feb. 1980.
G. Hilgert, "Method of dealing with orders on the IBM 1287 multifunction document reader at the decentralized sales organization of the continental Gummi-Werke Aktiengesellschaft," IBM Nachr., vol. 20, pp. 122-125, 1970. (In tedesco.)
S. Inoue, A. Kurematsu, T. Wada, S. Nakabo, "Studies on optical character recognition of international telegraph," KDD Tech. J., vol. 77, pp. 51-61, 1973. (In giapponese.)
C. P. Joshi, "Role of electronics in law enforcement," Ind. Inst. Elec. and Telecom. Engineering, vol. 20, pp. 500-503, 1974.
S. Kroger, "Scanner in practice," Chip, vol. 5, pp. 94-96, 1987. (In tedesco.)
S. Kupriyanov, "Electronic handwriting analyzer," Tekh. Misul, vol. 9, pp. 7-13, 1972. (In bulgaro.)
G. C. Leedham, A. C. Downton, "On-line recognition of Pitman's handwritten shorthand--An evaluation of potential," Int. J. Man Mach. Stud., vol. 24, pp. 375-393, 1986.
G. C. Leedham, A. C. Downton, "Automatic recognition and transcription of Pitman's handwriting shorthand--An approach to short forms," Pattern Recognition, vol. 20, pp. 341-348, 1987.
J. C. McAbee, "OCR application at United Air Lines," Data Processing XII, Proc. 1967 Int. Data Process. Conf. and Business Exposition, Boston, MA, 20-23 June 1967, pp. 362-366.
Metropolitan Atlanta Council of Local Government, GA, "Automatic identification of latent finger-prints," Report PB-192976, Apr. 1970.
F. H. Murphy, E. A. Stohr, "Optimal check sorting strategies," Bull. Oper. Res. Am., vol. 23 (Suppl. 1), p. B/145, Spring 1975.
Y. Nakamura, M. Suda, K. Sakai, Y. Takeda, M. Udaka, "Development of a high performance stamped character reader," IEEE Trans. Ind. Electron., vol. 33, pp. 144-147, 1986.
Y. Nakamura, M. Suda, T. Hayashi, A. Tanaka, S. Watanabe, "An optical character recognition system for industrial application: TOSEYE-1000," Proc. Int. Workshop on Industrial Application of Machine Vison and Machine Intelligence, Seiken Symp., Tokyo, Japan, 2-5 Feb. 1987, pp. 364-368.
E. G. Nassimbene, "Digital compare circuitry," IBM Tech. Discl. Bull., vol. 14, pp. 3421-3422, 1972.
K. Notbohm, W. Hanisch, "Automatic digit recognition in a mail sorting machine," Elektron., vol. 36, pp. 472-476, 1986. (In tedesco.)
U. Perret, "Computer assisted forensic linguistic system TEXTOR," Proc. 3rd Int. Conf. Security through Science Engng, Lexington, KY, 23-26 Sept. 1980, pp. 139-149.
P. F. Polizzano, "OCR and electronic mail," Computer World, vol. 17, pp. 49-52, 12 Oct. 1983.
Z. Ress, "Some experience with optically readable handwriting in solving the MIKROCENSUS 73," Mech. Autom. Adm., vol. 15, pp. 290-292, 1975. (In cecoslovacco.)
H. Schafer, "Mechanized document reading in a textile and clothing manufacture enterprise," IBM Nachr., vol. 23, pp. 776-782, 1973. (In tedesco.)
G. L. Skalski, "OCR in the publishing industry," Data Processing XII, Proc. 1967 Int. Data Process. Conf. and Business Exposition, Boston, MA, 20-23 June 1967, pp. 255-260.
G. C. Smitch, "The stereotoner reading aid for the blind. A progress report," 1973 Carnahan Conf. on Electronic Prosthetics, Lexington, USA, 19 Sept. 1973, pp. 74-76.
J. W. T. Smith, Z. Merali, Optical Character Recognition: The Technology and Its Applications in Information Units and Libraries--Report 33, British Library, Boston Spa, Wetherby, West Yorks, England, 1985.
C. J. V. Spronsen, F. Bruggeman, "Raised type reading," Mini and Microcomputers and their applications, Proc. ISMM Int. Symp., Sant Feliu de Guixols, Spain, 25-28 June 1985, pp. 274-277.
J. Sternberg, "Automated signature verification using handwriting pressure," 1975 WESCON Technical Papers--Western Electronics Show and Convention, San Francisco, CA, 16-19 Sept. 1975, pp. 31-34.
C. W. Swonger, "An evaluation of character normalization, feature extraction, and classification techniques for postal mail reading," Proc. Automatic Pattern Recognition,Washington, DC, 6 May 1969, pp. 67-87.
W. R. Throssel, P. R. Fryer, "The measurement of print quality for optical character recognition system," Pattern Recognition, vol. 6, pp. 141-147, 1974.
H. Timm, "Registering of health insurance data using the IBM 1288 page reader," IBM Nachr., vol 23, pp. 789-792, 1973. (In tedesco.)
J. Ufer, "Direct data processing with the IBM 1287 multipurpose document reader for standard article -- Fresh service to Joh. Jacob and Co., Breman," IBM Nachr., vol. 20, pp. 35-40, Feb. 1970. (In tedesco.)
M. Vossen, "Electronic page reader in use," Office Management, vol. 34, p. 1148, 1986. (In tedesco.)
K. Yoshida, "Optical character reader for telephone exchange charge billing system," Japan Telecom. Rev., vol. 16, pp. 105-110, 1974.

Reti neurali e riconoscimento di caratteri

© 1997-2003 Paolo Marincola (Rome, Italy)
e-mail: pmaNOSPAM@acm.org (eliminare i caratteri "NOSPAM" per ottenere l'indirizzo esatto)
Commenti, osservazioni e suggerimenti sono estremamente graditi.

Last revised: 2003-11-09 00:29