Zurück zum OCR-Tool

Nachschlagen

OCR-Glossar

Die wichtigsten Begriffe rund um Texterkennung, kurz erklärt. Tiefer geht es in unseren Ratgebern.

OCR (Optical Character Recognition)
Optische Zeichenerkennung. Verfahren, das gedruckten Text in einem Bild erkennt und in maschinenlesbaren, bearbeitbaren Text umwandelt.
ICR (Intelligent Character Recognition)
Erweiterung der OCR für handgeschriebene oder gemischte Zeichen. ICR nutzt lernende Verfahren, um auch Blockschrift und variable Schreibstile zu erkennen.
HTR (Handwritten Text Recognition)
Erkennung zusammenhängender Handschrift, etwa Schreibschrift oder historischer Dokumente. HTR-Systeme werden auf konkrete Schreibstile trainiert.
Texterkennung
Deutscher Oberbegriff für das automatische Auslesen von Schrift aus Bildern, Scans oder Fotos. Im Alltag meist gleichbedeutend mit OCR.
Tesseract
Quelloffene OCR-Engine, ursprünglich von HP entwickelt und später von Google gepflegt. Seit Version 4 nutzt Tesseract ein LSTM-Modell und unterstützt über 100 Sprachen.
Layout-Analyse
Schritt, in dem das System die Struktur einer Seite erkennt: Textblöcke, Spalten, Zeilen, Tabellen und Bilder werden voneinander getrennt, bevor die Zeichen gelesen werden.
Segmentierung
Zerlegung des erkannten Layouts in kleinere Einheiten bis hinunter zu einzelnen Zeilen, Wörtern und Zeichen. Grundlage für die anschließende Klassifikation.
Confidence-Score
Vertrauenswert zwischen 0 und 100, den die Engine pro Zeichen oder Wort vergibt. Niedrige Werte markieren unsichere Stellen, die man gegenlesen sollte.
Vorverarbeitung
Aufbereitung des Bildes vor der eigentlichen Erkennung. Dazu zählen Kontrastanhebung, Rauschunterdrückung, Geraderücken und Binarisierung.
Binarisierung
Umwandlung eines Bildes in reines Schwarz-Weiß. Jeder Pixel wird über einen Schwellwert entweder Vordergrund (Text) oder Hintergrund zugeordnet.
Schwellwert (Threshold)
Helligkeitsgrenze, die bei der Binarisierung Text von Hintergrund trennt. Adaptive Verfahren passen den Schwellwert lokal an ungleichmäßige Beleuchtung an.
Schräglagenkorrektur (Deskew)
Automatisches Geraderücken eines schief eingescannten oder fotografierten Dokuments. Schon wenige Grad Schräglage senken die Erkennungsquote spürbar.
DPI (Dots per Inch)
Auflösung eines Scans, gemessen in Punkten pro Zoll. Für zuverlässige OCR werden mindestens 300 DPI empfohlen.
LSTM (Long Short-Term Memory)
Typ eines neuronalen Netzes, das Zeichen im Kontext einer ganzen Zeile erkennt statt isoliert. Moderne OCR-Engines erreichen damit deutlich höhere Genauigkeit.
Nachbearbeitung
Korrektur des Roh-Ergebnisses mithilfe von Wörterbüchern und Sprachstatistik. Typische Verwechslungen wie 0 und O oder rn und m werden hier oft korrigiert.
Durchsuchbares PDF
PDF, bei dem über das gescannte Bild eine unsichtbare Textschicht aus OCR gelegt wurde. Der Inhalt lässt sich dadurch markieren und durchsuchen.