OCR

OCR (Optical Character Recognition)

Algemeen: Om een gescande tekst met OCR-software om te zetten in een computerbestand is een resolutie van 300 dpi noodzakelijk. De afbeelding die door een scanner gemaakt is wordt bitmap (ook wel: rasterbestand genoemd) genoemd.

Mogelijkheden: Denk aan copyrights!!. Met OCR-software, (b.v.: OmniPage) scanner en computer een gedrukte tekst scannen (inlezen). Daarna kunt u de tekst (her)bewerken in ieder tekstverwerking- of opmaakprogramma. (b.v.: WordPerfect, QuarkXPress, Claris enz.) De tekst kan ook meteen worden overgenomen (command-c, command-v) in de tekstvelden van REUNION, of in uw familiegeschiedenis.

OCR-software: Bij scanners wordt vaak een eenvoudig OCR-programma geleverd. De tekst hierna heeft vooral betrekking op OmniPage. OmniPage geeft o.a. aan hoeveel woorden er na het scannen zijn herkend, hoeveel woorden “bijna juist” zijn, en van hoeveel woorden het programma geen brood kan bakken. Wat niet herkend wordt zijn meestal beschadigde letters in het drukwerk, ook tekst die “doorschijnt” (krant) geeft vaak problemen.
Een score van 97% is goed. (Al is dit gemiddeld nog één fout per zin). Bij een score van 95% kunt u beter opnieuw scannen, of eerst het programma laten “leren”. De meeste fouten worden veroorzaakt doordat het origineel niet recht in de scanner ligt, en door doorschijnen van de tekst op de achterkant van de pagina waarmee u aan het werk bent.

Veel OCR-programma’s hebben (meegeleverde) woordenboeken. Is de te scannen tekst franstalig dan kiest u tevoren het woordenboek: Frans. Met “zoek-vervang” kunt u consequent fout gelezen woorden en letters vervangen.

Hebt u een tekst met een net, regelmatig lopend handschrift dan kunnen sommige OCR-programma’s daar ook mee overweg, u moet uw OCR-programma de meeste letters wel even “leren”.
Moderne OCR-programma’s kunnen ook goed overweg met de afbeeldingen die tussen de tekst staan. Persoonlijk geef ik echter de voorkeur aan Photoshop voor beeldbewerking.