Nachschlagen
OCR-Glossar
Die wichtigsten Begriffe rund um Texterkennung, kurz erklärt. Tiefer geht es in unseren Ratgebern.
- OCR (Optical Character Recognition)
- Optische Zeichenerkennung. Verfahren, das gedruckten Text in einem Bild erkennt und in maschinenlesbaren, bearbeitbaren Text umwandelt.
- ICR (Intelligent Character Recognition)
- Erweiterung der OCR für handgeschriebene oder gemischte Zeichen. ICR nutzt lernende Verfahren, um auch Blockschrift und variable Schreibstile zu erkennen.
- HTR (Handwritten Text Recognition)
- Erkennung zusammenhängender Handschrift, etwa Schreibschrift oder historischer Dokumente. HTR-Systeme werden auf konkrete Schreibstile trainiert.
- Texterkennung
- Deutscher Oberbegriff für das automatische Auslesen von Schrift aus Bildern, Scans oder Fotos. Im Alltag meist gleichbedeutend mit OCR.
- Tesseract
- Quelloffene OCR-Engine, ursprünglich von HP entwickelt und später von Google gepflegt. Seit Version 4 nutzt Tesseract ein LSTM-Modell und unterstützt über 100 Sprachen.
- Layout-Analyse
- Schritt, in dem das System die Struktur einer Seite erkennt: Textblöcke, Spalten, Zeilen, Tabellen und Bilder werden voneinander getrennt, bevor die Zeichen gelesen werden.
- Segmentierung
- Zerlegung des erkannten Layouts in kleinere Einheiten bis hinunter zu einzelnen Zeilen, Wörtern und Zeichen. Grundlage für die anschließende Klassifikation.
- Confidence-Score
- Vertrauenswert zwischen 0 und 100, den die Engine pro Zeichen oder Wort vergibt. Niedrige Werte markieren unsichere Stellen, die man gegenlesen sollte.
- Vorverarbeitung
- Aufbereitung des Bildes vor der eigentlichen Erkennung. Dazu zählen Kontrastanhebung, Rauschunterdrückung, Geraderücken und Binarisierung.
- Binarisierung
- Umwandlung eines Bildes in reines Schwarz-Weiß. Jeder Pixel wird über einen Schwellwert entweder Vordergrund (Text) oder Hintergrund zugeordnet.
- Schwellwert (Threshold)
- Helligkeitsgrenze, die bei der Binarisierung Text von Hintergrund trennt. Adaptive Verfahren passen den Schwellwert lokal an ungleichmäßige Beleuchtung an.
- Schräglagenkorrektur (Deskew)
- Automatisches Geraderücken eines schief eingescannten oder fotografierten Dokuments. Schon wenige Grad Schräglage senken die Erkennungsquote spürbar.
- DPI (Dots per Inch)
- Auflösung eines Scans, gemessen in Punkten pro Zoll. Für zuverlässige OCR werden mindestens 300 DPI empfohlen.
- LSTM (Long Short-Term Memory)
- Typ eines neuronalen Netzes, das Zeichen im Kontext einer ganzen Zeile erkennt statt isoliert. Moderne OCR-Engines erreichen damit deutlich höhere Genauigkeit.
- Nachbearbeitung
- Korrektur des Roh-Ergebnisses mithilfe von Wörterbüchern und Sprachstatistik. Typische Verwechslungen wie 0 und O oder rn und m werden hier oft korrigiert.
- Durchsuchbares PDF
- PDF, bei dem über das gescannte Bild eine unsichtbare Textschicht aus OCR gelegt wurde. Der Inhalt lässt sich dadurch markieren und durchsuchen.