Zurück zur Ratgeber-Übersicht

Qualität · 10 Min. Lesezeit

OCR-Genauigkeit verbessern: Tipps für saubere Ergebnisse

Auflösung, Kontrast, Ausrichtung und Format entscheiden über die Trefferquote. Mit diesen Tipps steigt die OCR-Genauigkeit spürbar.

Eine Texterkennung ist nur so gut wie die Vorlage, die sie bekommt. Wer ein schiefes, dunkles Handyfoto durch die OCR jagt, erhält Buchstabensalat. Mit ein paar gezielten Eingriffen bei Aufnahme und Vorbereitung steigt die Trefferquote oft von rund 70 Prozent auf über 95 Prozent. Hier kommen die wirksamsten Stellschrauben.

Die meisten Fehler bei der Texterkennung entstehen nicht im Programm, sondern davor. Die Engine bekommt eine Vorlage, die zu klein, zu dunkel, zu schief oder zu unscharf ist, und rät dann. Aus einem O wird eine 0, aus rn ein m, aus einer ganzen Zeile Kauderwelsch. Die gute Nachricht: Fast alle dieser Probleme lassen sich mit wenig Aufwand vermeiden. In diesem Ratgeber gehe ich die wichtigsten Faktoren durch, vom Scan bis zur Nachkontrolle, und zeige an einem konkreten Beispiel, wie viel das ausmacht.

Falls du gerade erst einsteigst, lohnt vorab ein Blick auf was ist OCR und die Anleitung zum Umwandeln von Bild in Text. Wer Dokumente verarbeitet, findet im Beitrag Text aus PDF extrahieren ergänzende Hinweise. Probieren kannst du alles direkt im OCR-Tool.

Auflösung: Mindestens 300 DPI oder 30 Pixel Zeichenhöhe

Die Auflösung ist der mit Abstand häufigste Grund für schlechte Ergebnisse. Tesseract und vergleichbare Engines brauchen pro Buchstabe genug Bildpunkte, um die Form sicher zu unterscheiden. Als Faustregel sollte ein Kleinbuchstabe mindestens 20 Pixel hoch sein, besser 30. Beim Scannen entspricht das 300 DPI für normale Textgrößen von 10 bis 12 Punkt. Sehr kleine Schrift, etwa Fußnoten oder Beipackzettel, profitiert von 400 bis 600 DPI.

Bei Handyfotos ist nicht die Megapixel-Zahl entscheidend, sondern wie groß der Text im Bild landet. Geh näher heran, sodass die Seite den Sucher füllt, statt aus zwei Metern Entfernung zu knipsen und später digital zu zoomen. Digitaler Zoom fügt keine echten Details hinzu, er vergrößert nur die vorhandene Unschärfe. Wenn die Zeichen im fertigen Bild unter 20 Pixel hoch sind, hilft auch nachträgliches Hochskalieren kaum, weil die Information schlicht fehlt.

Kontrast: Dunkler Text auf hellem Grund

OCR-Engines suchen nach klaren Kanten zwischen Schrift und Hintergrund. Idealerweise liegt dunkler, fast schwarzer Text auf einem hellen, möglichst weißen Untergrund. Graue Schrift auf hellgrauem Papier, helle Schrift auf farbigem Grund oder vergilbte Dokumente mit Kaffeeflecken verwischen diese Kante und drücken die Quote.

Vor dem Erkennen lohnt es sich, den Kontrast in einem Bildbearbeiter anzuheben und die Sättigung herauszunehmen, also in Graustufen umzuwandeln. Farbe trägt zur Texterkennung nichts bei, kostet aber Rechenzeit und kann Störungen erzeugen. Wer einen Scanner nutzt, wählt am besten den Modus Graustufe oder Schwarzweiß-Dokument statt Foto.

Gerade ausrichten: Schräglagenkorrektur und Deskew

Schon eine leichte Schieflage von wenigen Grad senkt die Trefferquote spürbar, weil die Engine Textzeilen erwartet, die waagerecht verlaufen. Ein um fünf Grad gedrehtes Foto bringt die Zeilenlogik durcheinander und führt zu vertauschten oder ausgelassenen Wörtern.

Viele OCR-Programme haben eine automatische Schräglagenkorrektur eingebaut, im Englischen Deskew genannt. Sie funktioniert aber besser, wenn die Vorlage schon halbwegs gerade liegt. Beim Fotografieren hilft ein einfacher Trick: das Handy parallel zum Blatt halten, nicht schräg von der Seite, und die Hilfslinien der Kamera-App nutzen. Beim Scanner reicht es, das Blatt sauber an der Kante anzulegen.

Beleuchtung und Schärfe: Keine Schatten, kein Verwackeln

Ungleichmäßige Beleuchtung ist der typische Handyfoto-Killer. Ein Schatten der eigenen Hand über der oberen Blatthälfte, ein heller Lichtkegel von der Schreibtischlampe oder Reflexe des Kamerablitzes auf glänzendem Papier erzeugen Bereiche, in denen die Engine den Schwellwert nicht mehr sauber setzen kann. Besser ist diffuses Tageslicht oder eine breite, indirekte Lichtquelle, die das ganze Blatt gleichmäßig ausleuchtet. Den Blitz bei glänzenden Vorlagen unbedingt ausschalten.

Genauso wichtig ist die Schärfe. Ein verwackeltes Bild macht aus klaren Buchstaben einen Schmierfilm. Leg das Handy auf, stütz die Hände ab oder nutz den Selbstauslöser, damit der Tipp-Impuls auf den Auslöser nicht das Bild verwackelt. Kontrollier nach der Aufnahme, ob die Schrift gestochen scharf ist, bevor du sie verarbeitest.

Praxis-Tipp: Mach von wichtigen Dokumenten zwei oder drei Aufnahmen mit leicht anderer Halterung und Belichtung. Es kostet zehn Sekunden, und du kannst hinterher die beste auswählen, statt zu merken, dass die einzige Aufnahme unscharf war, wenn die Vorlage längst weg ist.

Sprache, Format und Hintergrund richtig wählen

Stell in der OCR die richtige Sprache ein. Eine deutsche Engine kennt Umlaute, das ß und typische deutsche Wortmuster, und nutzt dieses Wissen zur Korrektur unsicherer Stellen. Läuft ein deutscher Text durch ein englisches Sprachmodell, werden ä, ö, ü und ß regelmäßig falsch geraten. Bei gemischten Dokumenten lassen sich oft mehrere Sprachen gleichzeitig aktivieren.

Auch das Dateiformat spielt eine Rolle. Stark komprimierte JPG-Dateien zeigen rund um Buchstaben sogenannte Kompressionsartefakte, kleine Klötzchen und Schlieren, die Kanten verwischen. Für Scans sind PNG oder TIFF die bessere Wahl, weil sie verlustfrei speichern. Wenn JPG unvermeidbar ist, nimm die höchste Qualitätsstufe.

Störungen im Hintergrund verwirren die Engine zusätzlich. Linien von kariertem Papier, ein gemusterter Tisch unter einem durchscheinenden Blatt oder Stempel quer über dem Text werden mitunter als Zeichen interpretiert. Wo möglich, leg die Vorlage auf einen schlichten, hellen Untergrund und schneide den Bildausschnitt eng um den Text zu.

Binarisierung und Schwellwert

Intern wandeln die meisten Engines das Bild in reines Schwarzweiß um, jeder Pixel wird also entweder Text oder Hintergrund. Dieser Schritt heißt Binarisierung, die Trennlinie nennt man Schwellwert. Bei einem gut belichteten, kontrastreichen Bild gelingt das automatisch. Bei ungleichmäßiger Ausleuchtung greift ein globaler Schwellwert daneben: Die helle Bildhälfte wird komplett weiß, die dunkle komplett schwarz.

Hier helfen adaptive Verfahren, die den Schwellwert pro Bildbereich einzeln bestimmen, etwa die Methode nach Otsu oder die Sauvola-Binarisierung. Manche Tools bieten das als Vorverarbeitung an. Wer selbst Hand anlegt, kann in einem Bildbearbeiter mit Tonwertkorrektur den Weißpunkt und Schwarzpunkt manuell setzen, sodass Papier rein weiß und Schrift rein schwarz wird, bevor die OCR überhaupt startet.

Vorher und nachher: Von 72 auf 96 Prozent

Ein konkretes Beispiel macht den Effekt greifbar. Ich habe denselben einseitigen Brief, knapp 400 Wörter in 11-Punkt-Schrift, zweimal aufgenommen und durch dieselbe Engine geschickt.

Die erste Version war ein schnelles Handyfoto: schräg von der Seite aufgenommen, der eigene Schatten lag über dem oberen Drittel, die Beleuchtung war die warme Deckenlampe, und das Bild war leicht verwackelt. Ergebnis: rund 72 Prozent korrekt erkannte Zeichen. Etliche Zeilen waren unbrauchbar, Umlaute durchweg falsch, der Schatten erzeugte eine ganze Zone aus Phantasiezeichen.

Beispiel: Für die zweite Version habe ich das Blatt flach auf den Tisch gelegt, das Handy parallel darüber gehalten, am Fenster bei Tageslicht fotografiert und auf Schärfe geprüft. Anschließend in Graustufen umgewandelt, Kontrast angehoben, leicht zugeschnitten und als PNG gespeichert. Gleiche Engine, gleiche Spracheinstellung Deutsch. Ergebnis: 96 Prozent. Die wenigen verbleibenden Fehler waren Eigennamen, die kein Sprachmodell kennen kann. Der Mehraufwand betrug keine zwei Minuten.
Vorher-Nachher der OCR-Qualität Handgezeichnete Skizze: links ein schiefes dunkles Dokument mit niedriger Quote, rechts ein gerades helles Dokument mit hoher Quote. Vorher 72 % Nachher 96 %
Gerade ausgerichtet, hell und scharf statt schief und dunkel: derselbe Brief, andere Quote.

Typische Probleme und ihre Lösung im Überblick

Die folgende Tabelle fasst die häufigsten Fehlerquellen zusammen, was sie anrichten und wie du sie behebst. Die Prozentwerte sind grobe Richtwerte aus der Praxis und schwanken je nach Schrift und Engine.

ProblemAuswirkungLösung
Unter 150 DPI gescanntQuote fällt unter 80 Prozent, Zeichen verschmelzenMit mindestens 300 DPI scannen oder näher fotografieren
Schräglage über 3 GradZeilen werden vertauscht oder ausgelassenGerade anlegen, Deskew aktivieren
Schwacher Kontrast, graue SchriftEngine setzt Schwellwert daneben, viele LückenGraustufen, Tonwertkorrektur, Weißpunkt setzen
Schatten oder BlitzreflexGanze Zonen werden zu PhantasiezeichenDiffuses Tageslicht, Blitz aus, gleichmäßig ausleuchten
Verwackeltes FotoBuchstaben verschmieren, Quote unter 70 ProzentHandy auflegen, Selbstauslöser, Schärfe prüfen
Falsche Sprache eingestelltUmlaute und ß durchweg falschSprache Deutsch wählen, ggf. mehrere kombinieren
Stark komprimiertes JPGArtefakte verwischen BuchstabenkantenPNG oder TIFF nutzen, höchste JPG-Qualität
Unruhiger HintergrundLinien und Muster werden als Zeichen gelesenHeller, schlichter Untergrund, eng zuschneiden

Nachbearbeitung: Gegenlesen und typische Verwechslungen

Selbst bei 96 Prozent bleiben Fehler. Bei einem 400-Wörter-Brief sind das immer noch eine Handvoll falscher Zeichen. Plan deshalb immer eine kurze Kontrolle ein, besonders bei Zahlen, Namen, Beträgen und allem, was rechtlich oder finanziell zählt. Hier verzeiht kein Sprachmodell einen Tippfehler, weil es den korrekten Wert nicht kennt.

Es gibt ein festes Repertoire an Verwechslungen, die du gezielt prüfen kannst. Die Null und der Großbuchstabe O sehen in vielen Schriften fast gleich aus, ebenso die Eins, das kleine l und das große I. Eine besonders tückische Falle ist die Kombination r und n, die zusammen leicht als m gelesen wird, etwa Morgen statt Mornen oder umgekehrt. Auch die Fünf und das S, die Sechs und das kleine b sowie die Acht und die Klammern werden gern vertauscht. Wenn du diese Stellen kennst, geht die Kontrolle deutlich schneller.

Bei Tabellen und Formularen lohnt ein zweiter Blick auf die Struktur, weil OCR Spalten manchmal in die falsche Reihenfolge bringt. Ein kurzer Abgleich mit dem Original spart später Ärger. Für wiederkehrende Dokumenttypen kann sich auch eine Suchen-und-Ersetzen-Routine lohnen, etwa wenn ein bestimmter Firmenname immer gleich falsch erkannt wird.

Häufige Fragen zur OCR-Genauigkeit

Welche Auflösung brauche ich mindestens?

Für normale Textgrößen von 10 bis 12 Punkt sind 300 DPI der Richtwert. Entscheidend ist, dass ein Kleinbuchstabe im fertigen Bild mindestens 20 Pixel hoch ist, besser 30. Sehr kleine Schrift braucht 400 bis 600 DPI.

Verbessert Hochskalieren ein zu kleines Bild?

Kaum. Beim Hochskalieren werden vorhandene Pixel vergrößert, aber keine neuen Details erzeugt. Eine unscharfe oder zu niedrig aufgelöste Vorlage bleibt unscharf. Besser ist es, neu zu scannen oder näher zu fotografieren.

Warum erkennt die OCR meine Umlaute nicht?

Meist ist die falsche Sprache eingestellt. Eine englische Engine kennt ä, ö, ü und ß nicht als reguläre Zeichen und rät dann. Stell die Sprache auf Deutsch um, dann werden Umlaute korrekt verarbeitet.

Ist PNG oder JPG besser für OCR?

PNG, weil es verlustfrei speichert und keine Kompressionsartefakte rund um die Buchstaben erzeugt. TIFF ist ebenfalls gut. Stark komprimiertes JPG verwischt Kanten und senkt die Trefferquote messbar.

Hilft es, das Bild vorher in Schwarzweiß umzuwandeln?

Ja, sofern der Kontrast stimmt. Eine saubere Graustufen- oder Schwarzweiß-Umwandlung mit korrekt gesetztem Weiß- und Schwarzpunkt entspricht genau dem, was die Engine intern ohnehin tut, und liefert ihr eine klarere Vorlage.

Worauf es bei sauberen Ergebnissen ankommt

Die größten Hebel liegen vor der eigentlichen Erkennung: genug Auflösung, hoher Kontrast, gerade Ausrichtung, gleichmäßiges Licht und ein scharfes Bild. Wer diese fünf Punkte beachtet und zusätzlich die richtige Sprache wählt sowie ein verlustfreies Format nutzt, holt aus jeder Engine das Maximum heraus. Die Differenz zwischen einem nachlässigen und einem sorgfältigen Foto sind im Beispiel 24 Prozentpunkte gewesen, bei zwei Minuten Mehraufwand. Den Rest erledigt ein kurzes Gegenlesen der typischen Verwechslungsstellen. Wer regelmäßig Dokumente verarbeitet, baut sich daraus schnell eine Routine, die saubere Ergebnisse zum Normalfall macht.

Quellen: Tesseract OCR Dokumentation und Hinweise zur Bildvorverarbeitung, github.com/tesseract-ocr/tesseract; Übersicht zur Texterkennung, de.wikipedia.org/wiki/Texterkennung; Otsu-Schwellwertverfahren, de.wikipedia.org/wiki/Schwellenwertverfahren.

Quellen

Redaktioneller Inhalt, der öffentliche Quellen verständlich zusammenfasst.

Bild jetzt in Text umwandeln

Kostenlos, ohne Anmeldung, direkt im Browser. Deine Bilder verlassen dein Gerät nicht.

Zum OCR-Tool

Weiterlesen