Grundlagen · 9 Min. Lesezeit
Was ist OCR und wie funktioniert Texterkennung?
OCR verwandelt Bilder in Text. Wie die Erkennung Schritt für Schritt arbeitet, was ein Confidence-Score ist und wo die Genauigkeit an Grenzen stößt.
OCR steht für Optical Character Recognition, also optische Zeichenerkennung. Die Technik verwandelt ein Foto oder einen Scan in bearbeitbaren, durchsuchbaren Text. Was wie Magie wirkt, ist eine Kette aus Bildverarbeitung, Mustererkennung und Sprachstatistik. Dieser Ratgeber erklärt die einzelnen Schritte und zeigt, wo die Grenzen liegen.
Was OCR genau bedeutet
OCR beschreibt jedes Verfahren, das gedruckte oder geschriebene Zeichen aus einem Rasterbild in maschinenlesbaren Text übersetzt. Eine eingescannte Rechnung ist für den Computer zunächst nur eine Ansammlung von Pixeln, also Helligkeits und Farbwerten. Ohne OCR weiß die Maschine nicht, dass an einer bestimmten Stelle der Buchstabe A oder die Ziffer 7 steht. OCR schließt genau diese Lücke. Das Ergebnis lässt sich kopieren, in einer Textverarbeitung weiterbearbeiten, durchsuchen oder per Sprachausgabe vorlesen.
Der Unterschied zu einem reinen Foto ist gewaltig. Ein Foto eines Vertrags ist nicht durchsuchbar, eine OCR Version desselben Vertrags schon. Wer ein Bild schnell ausprobieren möchte, kann es direkt im kostenlosen OCR Tool hochladen und sieht das Resultat in Sekunden. Eine ausführlichere Anleitung zum Ablauf bietet der Ratgeber Bild in Text umwandeln.
Eine kurze Geschichte der Texterkennung
Die Idee ist älter als der Computer. Bereits 1929 meldete der Deutsche Gustav Tauschek ein Patent für eine Lesemaschine an, kurz darauf folgte in den USA Paul Handel mit einem ähnlichen Konzept. Diese frühen Geräte arbeiteten rein optomechanisch, sie verglichen Schablonen mit dem Schriftbild und lösten bei einer Übereinstimmung einen Impuls aus. Mit Schrift in beliebiger Größe oder Form kamen sie nicht zurecht.
In den 1950er und 1960er Jahren kamen kommerzielle Lesegeräte für Banken und die Post auf, etwa zum Lesen von Schecknummern in der genormten Schrift OCR A. Der große Sprung kam mit Software. Tesseract, ursprünglich bei Hewlett Packard entwickelt und seit 2005 quelloffen, gehört bis heute zu den meistgenutzten freien Engines. Ab Version 4 setzt Tesseract auf neuronale Netze statt auf reine Mustervergleiche, was die Genauigkeit deutlich erhöht hat.
Die OCR Pipeline Schritt für Schritt
Moderne Texterkennung läuft nicht in einem einzigen Schritt ab, sondern als Kette spezialisierter Phasen. Jede Phase bereitet die nächste vor. Fällt eine Stufe schlecht aus, leidet das Endergebnis.
Vorverarbeitung. Zuerst wird das Bild geradegerückt, also entzerrt und gedreht, falls die Vorlage schief gescannt wurde. Rauschen wird reduziert, der Kontrast angehoben. Eine leichte Schärfung hebt die Buchstabenkanten hervor. Diese Stufe entscheidet überraschend stark über das Endergebnis.
Binarisierung. Das Bild wird auf zwei Werte reduziert, schwarz für Schrift und weiß für Hintergrund. Klassisch geschieht das mit einem festen Schwellenwert, besser arbeiten adaptive Verfahren wie die Methode nach Otsu oder Sauvola, die den Schwellenwert pro Bildbereich neu berechnen. So bleibt Text auch bei ungleichmäßiger Beleuchtung lesbar.
Segmentierung und Layout Analyse. Die Engine erkennt, wo Textblöcke, Spalten, Tabellen, Bilder und Zeilen liegen. Anschließend zerlegt sie Zeilen in Wörter und Wörter in einzelne Zeichen. Bei mehrspaltigen Zeitungen oder Formularen ist dieser Schritt anspruchsvoll, weil die Lesereihenfolge stimmen muss.
Zeichenklassifikation. Jedes isolierte Zeichen wird einem Buchstaben, einer Ziffer oder einem Symbol zugeordnet. Hier sitzt das eigentliche Erkennungsmodell. Klassische Engines verglichen Merkmale wie Linien, Bögen und Schnittpunkte. Moderne Engines nutzen neuronale Netze, die ganze Zeilen auf einmal lesen.
Nachbearbeitung. Zum Schluss korrigiert ein Sprachmodell oder ein Wörterbuch typische Fehler. Aus rn wird m, aus 0 wird O, wenn der Kontext es nahelegt. Ein deutsches Sprachmodell weiß, dass Rechnumg falsch ist und Rechnung gemeint war. Diese Stufe holt die letzten Prozentpunkte Genauigkeit heraus.
| Phase | Aufgabe | Typisches Verfahren |
|---|---|---|
| Vorverarbeitung | Entzerren, Entrauschen, Kontrast | Deskew, Gauß Filter |
| Binarisierung | Schrift von Hintergrund trennen | Otsu, Sauvola |
| Segmentierung | Blöcke, Zeilen, Zeichen finden | Connected Components |
| Klassifikation | Zeichen zuordnen | LSTM Netz (Tesseract 4/5) |
| Nachbearbeitung | Fehler korrigieren | Wörterbuch, Sprachmodell |
OCR gegen ICR: gedruckt gegen handgeschrieben
OCR im engeren Sinn meint die Erkennung von maschinell gesetztem Text, also Druckschrift aus Büchern, Rechnungen oder PDF Dateien. Sobald es um Handschrift geht, spricht man von ICR, Intelligent Character Recognition. Der Unterschied ist nicht kosmetisch. Druckschrift ist gleichförmig, jeder Buchstabe a sieht aus wie der nächste. Handschrift variiert von Person zu Person und sogar innerhalb desselben Textes.
ICR Systeme brauchen deutlich größere Trainingsdatensätze und kommen selbst dann bei Fließhandschrift schnell an Grenzen. Block und Druckbuchstaben in Formularen werden mittlerweile recht zuverlässig gelesen, verbundene Schreibschrift bleibt schwierig. Wer Handschrift digitalisieren will, findet konkrete Strategien im Ratgeber Handschrift erkennen.
Klassische gegen neuronale Erkennung
Lange Zeit arbeitete OCR mit handgebauten Merkmalsextraktoren. Programmierer definierten, woran ein B zu erkennen ist, etwa an zwei übereinanderliegenden Bögen und einer senkrechten Linie links. Solche Systeme waren schnell und nachvollziehbar, scheiterten aber an ungewohnten Schriftarten, Verzerrungen oder Rauschen.
Der Wendepunkt kam mit rekurrenten neuronalen Netzen, speziell mit LSTM Schichten, also Long Short Term Memory. Statt einzelne Zeichen isoliert zu betrachten, liest ein LSTM Netz eine ganze Zeile als Sequenz und nutzt den Kontext. Tesseract 4 führte 2018 diesen Ansatz ein, Tesseract 5 baute ihn aus. Das Ergebnis ist robuster gegen ungewohnte Schriften und schlechte Scans, kostet aber mehr Rechenzeit.
Ein praktisches Beispiel zeigt den Unterschied. Eine alte Engine las das Wort Ihnen auf einem leicht verwackelten Scan häufig als lhnen, weil das große I und das kleine l fast gleich aussehen. Ein LSTM Modell erkennt aus dem Satzzusammenhang, dass Ihnen gemeint ist, und korrigiert von selbst. Genau dieser Kontextgewinn macht moderne OCR alltagstauglich.
Confidence Score und realistische Genauigkeit
Jede Erkennung liefert nicht nur Text, sondern auch einen Confidence Score, also einen Vertrauenswert pro Zeichen oder Wort. Liegt dieser etwa bei 95 Prozent, ist die Engine sehr sicher. Fällt er unter 60 Prozent, lohnt sich eine manuelle Kontrolle. Viele Werkzeuge markieren unsichere Stellen farblich, damit man gezielt nachbessern kann.
Die tatsächliche Genauigkeit hängt stark von der Vorlage ab. Sauber gedruckter Text in einer Standardschrift wird mit 98 bis 99 Prozent korrekt gelesen. Ein schlechter Scan mit Knicken, Flecken oder zu niedriger Auflösung fällt schnell auf 70 bis 85 Prozent. Handschrift liegt nochmals darunter. Die folgende Tabelle gibt grobe Richtwerte.
| Vorlagentyp | Typische Genauigkeit | Anmerkung |
|---|---|---|
| Sauberer Druck, 300 dpi | 98 bis 99 Prozent | Idealfall, Standardschrift |
| Buchseite, leicht vergilbt | 92 bis 97 Prozent | Kontrast entscheidend |
| Schlechter Scan, 150 dpi | 70 bis 85 Prozent | Nachbearbeitung empfohlen |
| Block Handschrift | 60 bis 80 Prozent | ICR nötig |
| Verbundene Schreibschrift | 30 bis 60 Prozent | oft manuelle Prüfung |
Wer höhere Werte erreichen will, findet im Ratgeber OCR Genauigkeit verbessern konkrete Hebel von der Auflösung bis zur Sprachauswahl.
Wo OCR im Alltag steckt
Texterkennung ist längst unsichtbarer Teil vieler Abläufe. Banken lesen Überweisungsträger und Schecks automatisch ein. Die Post sortiert Briefe anhand erkannter Postleitzahlen. Buchhaltungssoftware extrahiert Beträge und Rechnungsnummern aus PDF Dateien. Bibliotheken digitalisieren historische Bestände, damit alte Zeitungen durchsuchbar werden.
Im privaten Umfeld hilft OCR, ein abfotografiertes Tafelbild in Notizen zu verwandeln, eine Speisekarte zu übersetzen oder eine gedruckte Adresse direkt ins Navigationssystem zu übernehmen. Auch Barrierefreiheit profitiert: Screenreader nutzen OCR, um gedruckte Texte für blinde Menschen vorzulesen. Der gemeinsame Nenner ist immer derselbe, ein Bild wird zu nutzbarem Text.
Ein konkretes Beispiel aus dem Büro verdeutlicht den Nutzen. Ein Sachbearbeiter erhält täglich Dutzende Lieferscheine als PDF Scan. Ohne OCR müsste er jede Position von Hand abtippen, was Zeit kostet und Tippfehler erzeugt. Mit Texterkennung werden Artikelnummern und Mengen automatisch ausgelesen und in das Warenwirtschaftssystem übernommen. Bei einer durchschnittlichen Genauigkeit von 97 Prozent bleiben nur wenige Felder zur manuellen Prüfung übrig, der Zeitaufwand sinkt von Minuten auf Sekunden pro Beleg.
Auch im Archivwesen ist der Hebel groß. Eine eingescannte Buchseite ohne OCR ist nur ein Bild und taucht in keiner Volltextsuche auf. Nach der Erkennung lassen sich ganze Bestände nach Stichworten durchsuchen, Zitate kopieren und Inhalte automatisch verschlagworten. Genau diese Durchsuchbarkeit unterscheidet ein digitales Archiv von einem reinen Bilderstapel.
Häufige Fragen zu OCR
Funktioniert OCR auch mit Fotos vom Smartphone?
Ja, sofern das Foto scharf, gut ausgeleuchtet und einigermaßen gerade ist. Moderne Engines korrigieren leichte Perspektivverzerrungen automatisch. Bei starkem Schrägwinkel oder Bewegungsunschärfe sinkt die Genauigkeit deutlich.
Welche Sprachen kann OCR lesen?
Das hängt vom installierten Sprachmodell ab. Tesseract liefert Modelle für über 100 Sprachen, darunter Deutsch mit Umlauten und Eszett. Wichtig ist, die richtige Sprache vorab auszuwählen, sonst leidet die Nachbearbeitung.
Kann OCR Tabellen und Spalten erhalten?
Teilweise. Die Layout Analyse erkennt Tabellenstrukturen, doch komplexe verschachtelte Tabellen werden oft nur als fortlaufender Text ausgegeben. Für saubere Tabellenexporte sind spezialisierte Werkzeuge nötig.
Ist OCR kostenlos nutzbar?
Es gibt leistungsfähige freie Engines wie Tesseract, und viele Online Werkzeuge bieten kostenlose Erkennung an. Das OCR Tool dieser Seite verarbeitet Bilder direkt im Browser, ohne dass Dateien dauerhaft gespeichert werden müssen.
Warum macht OCR manchmal so viele Fehler?
Meist liegt es am Eingangsbild: zu geringe Auflösung, schwacher Kontrast, Schatten oder ungewöhnliche Schriftarten. Auch falsch gewählte Sprachmodelle und fehlende Vorverarbeitung schlagen direkt auf die Trefferquote durch.
Worauf es bei guter Texterkennung ankommt
OCR ist kein einzelner Trick, sondern ein Zusammenspiel aus sauberer Aufnahme, robuster Vorverarbeitung, einem modernen Erkennungsmodell und einer cleveren sprachlichen Nachkorrektur. Wer die Kette versteht, kann gezielt an der richtigen Stelle ansetzen. Eine bessere Vorlage bringt fast immer mehr als der teuerste Algorithmus. Für den schnellen Einstieg genügt ein gerades, gut belichtetes Bild und die passende Spracheinstellung. Den Rest erledigt die Pipeline.
Quellen: github.com/tesseract-ocr/tesseract (Tesseract OCR Dokumentation), de.wikipedia.org/wiki/Texterkennung (Wikipedia Texterkennung), de.wikipedia.org/wiki/Optical_Character_Recognition
Quellen
Redaktioneller Inhalt, der öffentliche Quellen verständlich zusammenfasst.
Bild jetzt in Text umwandeln
Kostenlos, ohne Anmeldung, direkt im Browser. Deine Bilder verlassen dein Gerät nicht.