ocr-software

OCR: cos’è e come funzionano i software di riconoscimento testi

Grande alleata di chi lavora in banca, in ambito legale, nella pubblica amministrazione e in tanti altri comparti: la scansione OCR permette di risparmiare una mole davvero importante di tempo, e di compiere delle operazioni che fino a qualche tempo fa erano semplicemente impensabili.

Per creare una copia digitale di un contratto cartaceo, per acquisire digitalmente un qualsiasi documento scritto e renderlo modificabile, per estrarre velocemente tutte le informazioni importanti da un depliant o da un catalogo: un software OCR permette di fare questo e molto altro.

La differenza tra una scansione OCR e scansione classica è enorme. Nel momento in cui andiamo a scannerizzare oppure a fotografare con lo smartphone un documento stiamo creando un’immagine, qualcosa che non può essere modificato, elaborato o analizzato come un testo.

Grazie a un OCR, e quindi attraverso un software per il riconoscimento ottico dei caratteri, è invece possibile creare una copia testuale digitale, le cui informazioni potranno essere elaborate, estratte e riutilizzate. Senza un OCR per fare tutto questo sarebbe invece necessario riscrivere totalmente il documento, con una notevole perdita di tempo.

Che cos’è l’OCR? Partiamo con lo spiegare questo acronimo, che sta per Optical Character Recognition, ovvero “riconoscimento ottico dei caratteri”. Si può quindi affermare che quando si parla di una scansione OCR ci si riferisce alla combinazione di hardware e software: da una parte ci sarà una fotocamera digitale, uno scanner, un tablet o uno smartphone; dall’altra ci sarà invece il software OCR, e quindi un programma per il riconoscimento ottico dei caratteri e per la loro conversione, così da ottenere un file di testo (come per esempio un file Word o un file PDF).

Software OCR: come funziona il riconoscimento ottico dei caratteri

È interessante scoprire, perlomeno a livello superficiale, come funziona un software di riconoscimento testuale, e quindi in che modo, attraverso una scansione OCR, è possibile che un computer “capisca” quali sono i caratteri presenti su un documento cartaceo.

Va infatti sottolineato il fatto che esistono tanti tipi di formati e di font, con i caratteri che di volta in volta si presentano in modo molto differente. Per riconoscere i diversi caratteri, un software OCR può utilizzare due differenti metodi.

La modalità della pattern recognition: il documento viene scansionato, e il programma si sofferma su ogni singolo carattere, eliminando eventuali imperfezioni, per poi confrontarlo con i caratteri “noti” presenti nel proprio database, alla ricerca di una corrispondenza.

Più complessa, invece, la modalità della feature detection. In questo caso il carattere non viene valutato nel suo complesso; viene invece scomposto in diversi elementi, separando linee e trattini e valutando il tutto singolarmente, per andare così a isolare le caratteristiche peculiari del carattere. Raccolte tutte queste particolarità, il software OCR confronta i dati risultanti con quelli presenti nel proprio database, ricercando dei caratteri che presentano delle peculiarità simili.