Zurück zur Ratgeber-Übersicht

Anleitung · 11 Min. Lesezeit

Text aus gescannten Dokumenten und PDFs extrahieren

Text-PDF oder Bild-PDF? So erkennst du den Unterschied und holst mit OCR den Text aus Scans, Verträgen und mehrseitigen Dokumenten heraus.

Manche PDFs lassen sich markieren und kopieren, bei anderen klappt das einfach nicht. Der Grund liegt im inneren Aufbau der Datei: Ein PDF kann echten Text enthalten oder nur das Bild einer Seite. Diese Anleitung zeigt, wie Sie beide Typen unterscheiden und in jedem Fall an den Inhalt kommen.

Ein PDF sieht für das Auge immer gleich aus, egal ob darin Buchstaben oder nur Pixel stecken. Erst der Versuch, einen Satz zu markieren, verrät die Wahrheit. Bei einem Text-PDF färbt sich die Auswahl wortgenau ein und der Inhalt landet sauber in der Zwischenablage. Bei einem gescannten Bild-PDF passiert nichts oder es wird ein leerer, sinnloser Bereich markiert. Genau an dieser Stelle entscheidet sich, ob Sie einfach kopieren können oder ob Texterkennung (OCR) ins Spiel kommt. Was OCR überhaupt leistet, erklärt der Ratgeber Bild in Text umwandeln.

Text-PDF und Bild-PDF: zwei grundverschiedene Dateien

Ein PDF ist ein Container. Er kann Schriftarten und echte Zeichen speichern, sodass jeder Buchstabe als Datenobjekt vorliegt. Solche Dateien entstehen, wenn Sie aus Word, einem Browser oder einer Tabellenkalkulation heraus als PDF exportieren. Der Text ist durchsuchbar, kopierbar und bei jeder Vergrößerung gestochen scharf, weil er als Vektor gerendert wird.

Ein Bild-PDF dagegen enthält pro Seite nur eine Rastergrafik, also ein Foto oder einen Scan der Seite. Es gibt keine Buchstaben im Datenmodell, sondern nur eine Wolke aus schwarzen und weißen Punkten, die zufällig wie Text aussieht. Solche Dateien entstehen am Flachbettscanner, am Multifunktionsdrucker mit Scan-Funktion oder wenn jemand ein Papierdokument abfotografiert und das Bild in ein PDF packt. Für den Computer ist diese Seite genauso wenig lesbar wie ein Urlaubsfoto. Erst OCR legt eine Textebene darüber.

Der Markieren-Test: Welchen Typ haben Sie vor sich?

Die schnellste Prüfung dauert drei Sekunden und braucht keine Zusatzsoftware. Öffnen Sie das PDF in einem beliebigen Viewer, fahren Sie mit gedrückter Maustaste über einen Absatz und beobachten Sie, was passiert.

Lässt sich der Text wortweise blau markieren und mit Strg plus C kopieren, liegt ein Text-PDF vor. Springt der Mauszeiger über die Seite, ohne dass sich etwas einfärbt, oder erscheint nur ein rechteckiger Auswahlrahmen wie über einem Bild, haben Sie ein Bild-PDF. Ein zweiter Test ist die Suchfunktion: Tippen Sie ein Wort in das Suchfeld des Viewers, das sicher im Dokument steht. Findet die Suche es, ist Text vorhanden. Findet sie nichts, obwohl das Wort sichtbar auf der Seite steht, handelt es sich um einen reinen Scan.

Scan-PDF aus Pixeln gegenüber Text-PDF mit Buchstaben-Ebene Handgezeichneter Vergleich zweier Dokumentseiten. Links ein Scan aus losen Pixelpunkten, rechts eine Seite mit echter Buchstaben-Ebene. Scan-PDF (Pixel) Text-PDF (Buchstaben)
Links liegt die Seite nur als loses Pixelraster vor, rechts als echte Buchstaben-Ebene, die sich markieren und kopieren lässt.

Diese Unterscheidung ist entscheidend, weil sie den ganzen weiteren Weg bestimmt. Bei einem Text-PDF wäre OCR überflüssig und würde sogar die Qualität verschlechtern, weil aus perfektem Text ein fehleranfälliges Abbild würde. Bei einem Bild-PDF führt dagegen kein Weg an der Texterkennung vorbei.

Vier Wege, den Text aus einem PDF zu holen

Je nach Typ und Werkzeug stehen unterschiedliche Methoden zur Verfügung. Die folgende Tabelle ordnet jeden Weg dem passenden PDF-Typ zu und nennt die typische Eingabe und Ausgabe.

PDF-Typ und Methode Werkzeug Eingabe Ausgabe
Text-PDF, Copy-Paste Acrobat Reader, Browser, Vorschau Markierter Absatz Sauberer Text, fehlerfrei
Bild-PDF, Seite als Bild plus OCR PDF-Export plus OCR-Tool PNG mit 300 DPI Erkannter Text als TXT
Bild auf dem Bildschirm, Screenshot plus OCR Snipping Tool plus OCR-Tool PNG-Ausschnitt Text der sichtbaren Stelle
Bild-PDF, durchsuchbares PDF erzeugen ocrmypdf, Tesseract, Acrobat Pro Scan-PDF PDF mit unsichtbarer Textebene

Die erste Methode ist trivial: markieren, kopieren, einfügen. Sie funktioniert nur bei echtem Text und liefert das beste Ergebnis, weil gar keine Erkennung stattfindet. Die anderen drei Wege brauchen OCR und lohnen einen genaueren Blick.

Seite als Bild exportieren und durch OCR jagen

Der direkteste Weg für ein gescanntes PDF: Sie exportieren die gewünschte Seite als Bild und reichen dieses Bild an ein OCR-Tool weiter. In Acrobat Reader, im Browser oder über die Druckfunktion mit dem Ziel Als Bild speichern lässt sich eine PDF-Seite als PNG oder JPG sichern. Achten Sie dabei auf eine ausreichende Auflösung. Exportieren Sie mit mindestens 300 DPI, damit die einzelnen Buchstaben genug Pixel bekommen. Ein zu klein gerechnetes Bild kostet messbar Genauigkeit.

Anschließend laden Sie die PNG-Datei in ein OCR-Tool. Auf bild-zu-text-ocr.de läuft die Erkennung komplett im Browser über die Tesseract-Engine, das Bild verlässt Ihr Gerät also nicht. Sie wählen die Sprache Deutsch, starten die Erkennung und erhalten nach wenigen Sekunden den Inhalt als kopierbaren Text. Wie Sie die Trefferquote zusätzlich anheben, etwa durch Kontrast und Geraderücken, behandelt der Ratgeber OCR-Genauigkeit verbessern.

Praxis-Tipp: Exportieren Sie die PDF-Seite immer mit mindestens 300 DPI als verlustfreies PNG, nicht als stark komprimiertes JPG. Bei JPG verwischen die Buchstabenkanten durch die Kompression, und genau diese Kanten braucht die OCR-Engine, um ein E von einem F oder eine 8 von einer 0 zu trennen. Ein scharfes PNG mit hohem Kontrast bringt oft mehr als jede nachträgliche Bildbearbeitung.

Screenshot-Methode für einzelne Stellen

Wenn Sie nur einen Absatz oder eine Zahl aus einem nicht markierbaren PDF brauchen, ist der Screenshot der schnellste Weg. Sie zoomen im Viewer so weit hinein, dass die gewünschte Stelle groß und scharf auf dem Bildschirm liegt, und schneiden sie mit dem Snipping Tool unter Windows oder mit Umschalt plus Befehl plus 4 unter macOS aus.

Der Vorteil: Der Screenshot entsteht direkt aus den Bildschirmpixeln, es gibt keine Schräglage, keinen Schatten und keine Verzerrung wie bei einem Foto. Je weiter Sie vor dem Auslösen hineinzoomen, desto mehr Pixel landen auf jedem Buchstaben und desto sauberer wird die spätere Erkennung. Dieses PNG ziehen Sie dann ins OCR-Tool und erhalten den Text der ausgeschnittenen Stelle. Für punktuelle Aufgaben ist das oft schneller als der Export einer ganzen Seite.

Durchsuchbares PDF mit OCR-Layer erzeugen

Bei mehrseitigen Dokumenten, die Sie dauerhaft durchsuchbar machen wollen, lohnt sich ein anderer Ansatz: Statt jede Seite einzeln zu exportieren, legen Sie eine unsichtbare Textebene über das gesamte Scan-PDF. Das Bild bleibt erhalten, darunter liegt der erkannte Text, sodass Sie das Dokument durchsuchen und kopieren können, ohne dass sich das Aussehen ändert.

Drei Werkzeuge beherrschen das zuverlässig. Adobe Acrobat Pro bietet die Funktion unter Werkzeuge und Scan und OCR und Erkennen, ideal für Anwender ohne Kommandozeile. Wer offene Software bevorzugt, nutzt ocrmypdf, ein schlankes Werkzeug, das ein Scan-PDF entgegennimmt und ein durchsuchbares PDF zurückgibt, intern auf Basis von Tesseract. Der Aufruf lautet schlicht ocrmypdf scan.pdf durchsuchbar.pdf. Tesseract selbst kann ebenfalls direkt ein durchsuchbares PDF ausgeben, wenn man als Ausgabeformat pdf angibt. Diese Variante eignet sich besonders für Stapel mit vielen Dateien, weil sie sich skripten lässt.

Mehrseitige Dokumente, Tabellen und gescannte Verträge

Lange Dokumente bringen eigene Tücken mit. Ein 40-seitiger Vertrag als Scan-PDF lässt sich nicht sinnvoll Seite für Seite per Screenshot abarbeiten. Hier ist der OCR-Layer über das ganze Dokument die richtige Wahl, weil Sie anschließend einmal über das gesamte PDF suchen und kopieren können. Achten Sie bei alten Verträgen oder vergilbten Buchseiten auf den Kontrast: Graue Schrift auf bräunlichem Papier ist für jede Engine schwieriger als frischer Druck auf Weiß.

Tabellen sind der anspruchsvollste Fall. OCR erkennt zwar die Zeichen in den Zellen, verliert aber leicht die Spaltenstruktur, weil sie nur Zeilen von links nach rechts liest. Das Ergebnis ist oft eine durchlaufende Textwurst statt einer sauberen Tabelle. Ein praktikabler Umweg: Erkennen Sie die Tabelle als Text, fügen Sie das Ergebnis in eine Tabellenkalkulation ein und nutzen Sie dort die Funktion Text in Spalten, um die Werte anhand von Leerzeichen oder Tabulatoren wieder zu trennen. Bei sehr komplexen Tabellen ist eine manuelle Nachkontrolle Pflicht, gerade wenn es um Beträge geht.

Konkretes Beispiel: gescannter Mietvertrag als Bild-PDF

Angenommen, Sie haben einen Mietvertrag vom Vermieter als PDF erhalten, möchten aber die Kündigungsfristen und die Höhe der Kaution in eine eigene Notiz übernehmen. Sie öffnen das PDF, versuchen den Absatz zu markieren, und nichts färbt sich ein. Auch die Suche nach dem Wort Kaution findet nichts, obwohl es deutlich auf Seite drei steht. Damit ist klar: Es handelt sich um einen Scan, ein reines Bild-PDF.

Sie öffnen Seite drei im Viewer, zoomen auf etwa 150 Prozent und exportieren sie über die Druckfunktion als PNG mit 300 DPI. Die Datei ist rund 1,8 MB groß, die Schrift gestochen scharf, der Kontrast zwischen schwarzer Tinte und weißem Papier hoch. Dieses PNG ziehen Sie in das Upload-Feld auf bild-zu-text-ocr.de, stellen die Sprache auf Deutsch und starten die Erkennung. Nach wenigen Sekunden erscheint der vollständige Text der Seite samt der Klausel zur Kaution in Höhe von drei Monatsmieten und der Kündigungsfrist von drei Monaten zum Quartalsende. Sie prüfen die Zahlen gegen das Original, korrigieren eine Stelle, an der eine 3 als 8 gelesen wurde, und kopieren den Block in Ihre Notiz. Aus einem nicht durchsuchbaren Scan ist in unter zwei Minuten verwertbarer Text geworden.

Häufige Fragen zum Extrahieren von Text aus PDFs

Warum kann ich den Text in meinem PDF nicht markieren?

Weil es sich um ein Bild-PDF handelt, also einen Scan oder ein Foto der Seite. Darin stecken keine echten Buchstaben, sondern nur Pixel. Markieren und Kopieren funktioniert erst, wenn Sie per OCR eine Textebene erzeugen oder die Seite durch ein OCR-Tool laufen lassen.

Wie erkenne ich, ob mein PDF Text oder nur ein Bild enthält?

Machen Sie den Markieren-Test: Lässt sich ein Absatz wortweise blau markieren und kopieren, ist echter Text vorhanden. Passiert nichts oder die Suchfunktion findet ein sichtbares Wort nicht, liegt ein reines Bild-PDF vor.

Welche Auflösung sollte ich beim Export einer PDF-Seite wählen?

Mindestens 300 DPI. Bei dieser Auflösung bekommt jeder Buchstabe genug Pixel für eine zuverlässige Erkennung. Unter 200 DPI steigt die Fehlerquote spürbar, vor allem bei kleinen Schriften und Zahlen.

Bleibt mein gescanntes PDF nach OCR optisch gleich?

Beim Erzeugen eines durchsuchbaren PDFs mit Werkzeugen wie ocrmypdf oder Acrobat Pro ja. Das Originalbild bleibt sichtbar, der erkannte Text wird als unsichtbare Ebene darunter abgelegt. So bleibt das Layout unverändert, aber Suchen und Kopieren funktionieren.

Kann ich Tabellen aus einem Scan-PDF sauber übernehmen?

Die Zeichen erkennt OCR zuverlässig, die Spaltenstruktur geht aber oft verloren. Fügen Sie den erkannten Text in eine Tabellenkalkulation ein und nutzen Sie dort Text in Spalten, um die Werte wieder zu trennen. Bei Beträgen lohnt eine manuelle Kontrolle.

Welcher Weg für welches Dokument passt

Die richtige Methode hängt vom PDF-Typ und vom Ziel ab. Bei einem Text-PDF reicht markieren und kopieren, OCR wäre hier ein Rückschritt. Bei einem einzelnen Scan oder einer kurzen Stelle ist der Export als PNG oder der Screenshot mit anschließender Texterkennung am schnellsten. Bei langen, gescannten Dokumenten wie Verträgen oder Buchkapiteln ist der durchsuchbare OCR-Layer über das ganze PDF die beste Investition, weil Sie danach dauerhaft suchen und kopieren können. Welches OCR-Werkzeug dabei wann die Nase vorn hat, vergleicht der Ratgeber OCR-Tools im Vergleich. Probieren Sie den Weg über das PNG direkt mit Ihrem nächsten Scan im OCR-Tool aus.

Quellen: Tesseract OCR Engine, Dokumentation auf github.com/tesseract-ocr/tesseract; ocrmypdf, Projektdokumentation auf github.com/ocrmypdf/OCRmyPDF; Wikipedia, Artikel Texterkennung, de.wikipedia.org/wiki/Texterkennung.

Quellen

Redaktioneller Inhalt, der öffentliche Quellen verständlich zusammenfasst.

Bild jetzt in Text umwandeln

Kostenlos, ohne Anmeldung, direkt im Browser. Deine Bilder verlassen dein Gerät nicht.

Zum OCR-Tool

Weiterlesen