Nachschlagen

OCR-Glossar

Die wichtigsten Begriffe rund um Texterkennung, kurz erklärt. Tiefer geht es in unseren Ratgebern.

OCR (Optical Character Recognition): Optische Zeichenerkennung. Verfahren, das gedruckten Text in einem Bild erkennt und in maschinenlesbaren, bearbeitbaren Text umwandelt.
ICR (Intelligent Character Recognition): Erweiterung der OCR für handgeschriebene oder gemischte Zeichen. ICR nutzt lernende Verfahren, um auch Blockschrift und variable Schreibstile zu erkennen.
HTR (Handwritten Text Recognition): Erkennung zusammenhängender Handschrift, etwa Schreibschrift oder historischer Dokumente. HTR-Systeme werden auf konkrete Schreibstile trainiert.
Texterkennung: Deutscher Oberbegriff für das automatische Auslesen von Schrift aus Bildern, Scans oder Fotos. Im Alltag meist gleichbedeutend mit OCR.
Tesseract: Quelloffene OCR-Engine, ursprünglich von HP entwickelt und später von Google gepflegt. Seit Version 4 nutzt Tesseract ein LSTM-Modell und unterstützt über 100 Sprachen.
Layout-Analyse: Schritt, in dem das System die Struktur einer Seite erkennt: Textblöcke, Spalten, Zeilen, Tabellen und Bilder werden voneinander getrennt, bevor die Zeichen gelesen werden.
Segmentierung: Zerlegung des erkannten Layouts in kleinere Einheiten bis hinunter zu einzelnen Zeilen, Wörtern und Zeichen. Grundlage für die anschließende Klassifikation.
Confidence-Score: Vertrauenswert zwischen 0 und 100, den die Engine pro Zeichen oder Wort vergibt. Niedrige Werte markieren unsichere Stellen, die man gegenlesen sollte.
Vorverarbeitung: Aufbereitung des Bildes vor der eigentlichen Erkennung. Dazu zählen Kontrastanhebung, Rauschunterdrückung, Geraderücken und Binarisierung.
Binarisierung: Umwandlung eines Bildes in reines Schwarz-Weiß. Jeder Pixel wird über einen Schwellwert entweder Vordergrund (Text) oder Hintergrund zugeordnet.
Schwellwert (Threshold): Helligkeitsgrenze, die bei der Binarisierung Text von Hintergrund trennt. Adaptive Verfahren passen den Schwellwert lokal an ungleichmäßige Beleuchtung an.
Schräglagenkorrektur (Deskew): Automatisches Geraderücken eines schief eingescannten oder fotografierten Dokuments. Schon wenige Grad Schräglage senken die Erkennungsquote spürbar.
DPI (Dots per Inch): Auflösung eines Scans, gemessen in Punkten pro Zoll. Für zuverlässige OCR werden mindestens 300 DPI empfohlen.
LSTM (Long Short-Term Memory): Typ eines neuronalen Netzes, das Zeichen im Kontext einer ganzen Zeile erkennt statt isoliert. Moderne OCR-Engines erreichen damit deutlich höhere Genauigkeit.
Nachbearbeitung: Korrektur des Roh-Ergebnisses mithilfe von Wörterbüchern und Sprachstatistik. Typische Verwechslungen wie 0 und O oder rn und m werden hier oft korrigiert.
Durchsuchbares PDF: PDF, bei dem über das gescannte Bild eine unsichtbare Textschicht aus OCR gelegt wurde. Der Inhalt lässt sich dadurch markieren und durchsuchen.