LʼOCR: introducció
• Es tracta dʼuna de les aplicacions més comunes dels escàners.
• OCR són les sigles dʼOptical Character Recognition, reconeixement òptic de caracters, o amb una descripció més senzilla: cóm fer per a ensenyar a llegir a lʼordinador.
• El que desitjariem en definitiva seria que lʼordinador sapiguès llegir com nosaltres, doncs bé, això ho fa lʼOCR: és un programa que llegeix aquestes imatges digitals i busca conjunts de punts que sʼassemblin a lletres, a caràcters.
• Entendrà més o menys tipus de lletres, arrivant en alguns casos a interpretar lʼescritura manual, mantenint el format original (columnes, fotos entre el text...) o a aplicar regles gramaticals per a augmentar la exactitud del procés de reconeixement.
• Perquè el programa pugui realitzar aquestes tasques amb una certa fiabilitat, sense confondre «t» amb «1», per exemple, la imatge que li proporcionem ha de complir unes certes característiques.
• Fonamentalment ha de tenir una gran resolució, uns 300 ppp per a textes amb tipus de lletra clars o 600 ppp si es tracta de tipus de lletra petits u originals de poca qualitat com els diaris.
• El color: sempre serà suficient amb blanc i negre (1 bit de color), o com a màxim una escala de 256 grisos (8 bits).
• Per aquest motiu a alguns escàners de corró (molt apropiats) els hi manca suport per al color.
• Al escanejar un texte no sʼescanejen lletres, paraules i frases, sinó els punts que les formen, una mena de fotografia del texte.
• Seria desitjable que poguessim agafar totes aquestes referències tan interesants però tan feixugues i incorporar-les al nostre processador de texte no com una imatge, sinó com texte editable.
LʼOCR: optimització dels recursos
• En els últims anys la digitalització de la informació (textes, imatges, so, etc.) s’ha convertit en un punt d’interès per la societat.
• En el cas concret dels textes, existeixen i es generen contínuament grans quantitats d’informació escrita, tipogràfica o manuscrita en tot tipus de suport.
• En aquest context, poder automatitzar la introducció de caràcters evitant l’entrada per teclat, implica un important estalvi de recursos humans i un augment de la productivitat al mateix temps que es manté o fins i tot es millora la qualitat de molts serveis.
El Reconeixement Òptic de Caràcters (OCR), així com el reconeixement de text, en general són aplicacions dirigides a la digitalització de textes.
• Identifiquen automàticament símbols o caràcters, que pertanyen a un determinat alfabet, a partir d’una imatge per emmagatzemar-ho en forma de dades amb les que podrem interactuar amb un programa d’edició de text o similars.
LʼOCR: problemes en el reconeixement òptic de caracters
• El procés bàsic que es du a terme en el Reconeixement Òptic de Caràcters és convertir el text que apareix en una imatge en dades que podran ser editades i utilitzades com a tal per qualsevol programa o aplicació que les necessiti.
• Partint d’una imatge perfecta, (una imatge de dos nivells de gris), el reconeixement d’aquests caràcters es realitzara bàsicament comparant-los amb uns patrons o plantilles que contenen tots els possibles caràcters.
• Ara be, les imatges reals no són perfectes, per tant el Reconeixement Òptic Caràcters es troba amb diversos problemes:
• La connexió de dos o mes caràcters per píxels comuns també pot produir errors.
• Tots els algorismes de Reconeixement Òptic de Caràcters tenen la finalitat de poder reconèixer un text d’una imatge qualsevol per poder-lo tractar posteriorment.
Per tal de fer-ho es basen en 4 passos:
1. Binarització
• La major part d’algorismes d’OCR parteixen de la base d’una imatge binaria (dos colors) per tant és convenient convertir una imatge amb escala de grisos, o color, en una en blanc i negre, de tal manera que es preservin les propietats essencials de la imatge.
• Una forma de fer-ho es mitjançant l’histograma de la imatge on es mostra el nombre de píxels per cada nivell de gris que apareix a la imatge.
• Per binaritzar-la haurém de triar un llindar adequat, a partir del qual tots els píxels que no el superin es convertiran en negre i la resta en blanc.
2. Fragmentació o segmentació de la imatge
• Aquest és el procés més costós i necessari pel posterior reconeixement de caràcters.
• La segmentació d’una imatge implica la detecció mitjançant procediments d’etiquetat determinista o estocàstic, dels contorns o regions de la imatge, basant-se en la informació d’intensitat o informació espacial.
• Permet la descomposició d’un text en diferents entitats lògiques, que han de ser suficientment invariables, per ser independents del escriptor, i suficientment significatives pel seu reconeixement.
• No existeix un mètode genèric per du a terme aquesta segmentació de la imatge que sigui suficientment eficaç per l’anàlisi d’un text.
• Les tècniques més utilitzades són variacions dels mètodes basats en projeccions lineals.
3. Simplificació de les components
• Un cop aïllades les components connexes de la imatge s’haurà d’aplicar un procés de simplificació per a cada una d’elles.
• Aquest procediment consisteix en anar esborrant successivament els punts dels contorns de cada component, de forma que es preservi la seva tipologia.
• L’eliminació dels punts ha de seguir un esquema d’escombrats successius per tal que la imatge continuï tenin les mateixes proporcions que l’original i aconseguir que no quedi deformada.
• S’ha de fer un escombrat en paral·lel, que és assenyalar els píxels borrables per eliminar-los tots a la vegada.
4. Comparació amb patrons
• En aquesta etapa es comparen els caràcters obtinguts anteriorment amb uns caràcters teòrics (patrons) emmagatzemats en una base de dades.
• El bon funcionament de l’OCR es basa en gran mesura en una bona definició d’aquesta etapa.
• Existeixen altres mètodes com per exemple:
–Mètodes geomètrics o estadístics
–Mètodes estructurals
–Mètodes Neuro-mimètics
–Mètodes Markovians
–Mètodes de Zadeh
Reconeixement de textes manuscrits
• Tot i les dificultats que podem trobar a l’hora de reconèixer un text tipografiat no es poden comparar amb les que apareixen a l’hora de reconèixer un text manuscrit.
• El reconeixement d’un text manuscrit continua sent un desafiament.
• Tot i que el text es compon bàsicament de caràcters individuals, la majoria d’algorismes OCR no aconsegueixen bons resultats ja que la segmentació de text continu és un procediment complexe.
• Tot i això es pot arribar a comprendre una frase quan l’hem acabat de llegir.
• Això implica una operació dels nivells morfològic, lèxic i sintàctic que s’aconsegueix mitjançant el reconeixement de la parla continua.
• Una de les aplicacions més clares en les que es pot trobar l’OCR és el reconeixement de matrícules utilitzat en els radars.
• Aquests han de ser capaços de localitzar la matrícula d’un vehicle amb condicions d’il·luminació, perspectiva i entorn variables.
• En l’etapa de segmentació es busquen textures similars a la de una matrícula i s’aïlla l’àrea rectangular que la forma.
• S’aplica un procés de classificació múltiple sobre el conjunt de píxels pertanyents a la matrícula proporcionant una cadena de caràcters que s’ha d’ajustar a un model conegut, el format de les matrícules.
• Si apareix algun error, es corregit.
Indexació en bases de dades
• Amb el gran augment d’informació publicada que ha tingut lloc en els últims anys cada vegada són més els mètodes que s’utilitzen per organitzar tot aquest material emmagatzemat en bases de dades.
• Un d’aquests continguts són les imatges.
• Una de les formes més corrents de buscar imatges és a partir de les metadades introduïdes manualment pels usuaris.
• Aquesta tecnologia proporciona una nova possibilitat en les cerques d’imatges i demostra que l’OCR encara pot donar molt de si.
Cap comentari:
Publica un comentari a l'entrada