Anleitung · 11 Min. Lesezeit
Text aus gescannten Dokumenten und PDFs extrahieren
Text-PDF oder Bild-PDF? So erkennst du den Unterschied und holst mit OCR den Text aus Scans, Verträgen und mehrseitigen Dokumenten heraus.
Manche PDFs lassen sich markieren und kopieren, bei anderen klappt das einfach nicht. Der Grund liegt im inneren Aufbau der Datei: Ein PDF kann echten Text enthalten oder nur das Bild einer Seite. Diese Anleitung zeigt, wie Sie beide Typen unterscheiden und in jedem Fall an den Inhalt kommen.
Ein PDF sieht für das Auge immer gleich aus, egal ob darin Buchstaben oder nur Pixel stecken. Erst der Versuch, einen Satz zu markieren, verrät die Wahrheit. Bei einem Text-PDF färbt sich die Auswahl wortgenau ein und der Inhalt landet sauber in der Zwischenablage. Bei einem gescannten Bild-PDF passiert nichts oder es wird ein leerer, sinnloser Bereich markiert. Genau an dieser Stelle entscheidet sich, ob Sie einfach kopieren können oder ob Texterkennung (OCR) ins Spiel kommt. Was OCR überhaupt leistet, erklärt der Ratgeber Bild in Text umwandeln.
Text-PDF und Bild-PDF: zwei grundverschiedene Dateien
Ein PDF ist ein Container. Er kann Schriftarten und echte Zeichen speichern, sodass jeder Buchstabe als Datenobjekt vorliegt. Solche Dateien entstehen, wenn Sie aus Word, einem Browser oder einer Tabellenkalkulation heraus als PDF exportieren. Der Text ist durchsuchbar, kopierbar und bei jeder Vergrößerung gestochen scharf, weil er als Vektor gerendert wird.
Ein Bild-PDF dagegen enthält pro Seite nur eine Rastergrafik, also ein Foto oder einen Scan der Seite. Es gibt keine Buchstaben im Datenmodell, sondern nur eine Wolke aus schwarzen und weißen Punkten, die zufällig wie Text aussieht. Solche Dateien entstehen am Flachbettscanner, am Multifunktionsdrucker mit Scan-Funktion oder wenn jemand ein Papierdokument abfotografiert und das Bild in ein PDF packt. Für den Computer ist diese Seite genauso wenig lesbar wie ein Urlaubsfoto. Erst OCR legt eine Textebene darüber.
Der Markieren-Test: Welchen Typ haben Sie vor sich?
Die schnellste Prüfung dauert drei Sekunden und braucht keine Zusatzsoftware. Öffnen Sie das PDF in einem beliebigen Viewer, fahren Sie mit gedrückter Maustaste über einen Absatz und beobachten Sie, was passiert.
Lässt sich der Text wortweise blau markieren und mit Strg plus C kopieren, liegt ein Text-PDF vor. Springt der Mauszeiger über die Seite, ohne dass sich etwas einfärbt, oder erscheint nur ein rechteckiger Auswahlrahmen wie über einem Bild, haben Sie ein Bild-PDF. Ein zweiter Test ist die Suchfunktion: Tippen Sie ein Wort in das Suchfeld des Viewers, das sicher im Dokument steht. Findet die Suche es, ist Text vorhanden. Findet sie nichts, obwohl das Wort sichtbar auf der Seite steht, handelt es sich um einen reinen Scan.
Diese Unterscheidung ist entscheidend, weil sie den ganzen weiteren Weg bestimmt. Bei einem Text-PDF wäre OCR überflüssig und würde sogar die Qualität verschlechtern, weil aus perfektem Text ein fehleranfälliges Abbild würde. Bei einem Bild-PDF führt dagegen kein Weg an der Texterkennung vorbei.
Vier Wege, den Text aus einem PDF zu holen
Je nach Typ und Werkzeug stehen unterschiedliche Methoden zur Verfügung. Die folgende Tabelle ordnet jeden Weg dem passenden PDF-Typ zu und nennt die typische Eingabe und Ausgabe.
| PDF-Typ und Methode | Werkzeug | Eingabe | Ausgabe |
|---|---|---|---|
| Text-PDF, Copy-Paste | Acrobat Reader, Browser, Vorschau | Markierter Absatz | Sauberer Text, fehlerfrei |
| Bild-PDF, Seite als Bild plus OCR | PDF-Export plus OCR-Tool | PNG mit 300 DPI | Erkannter Text als TXT |
| Bild auf dem Bildschirm, Screenshot plus OCR | Snipping Tool plus OCR-Tool | PNG-Ausschnitt | Text der sichtbaren Stelle |
| Bild-PDF, durchsuchbares PDF erzeugen | ocrmypdf, Tesseract, Acrobat Pro | Scan-PDF | PDF mit unsichtbarer Textebene |
Die erste Methode ist trivial: markieren, kopieren, einfügen. Sie funktioniert nur bei echtem Text und liefert das beste Ergebnis, weil gar keine Erkennung stattfindet. Die anderen drei Wege brauchen OCR und lohnen einen genaueren Blick.
Seite als Bild exportieren und durch OCR jagen
Der direkteste Weg für ein gescanntes PDF: Sie exportieren die gewünschte Seite als Bild und reichen dieses Bild an ein OCR-Tool weiter. In Acrobat Reader, im Browser oder über die Druckfunktion mit dem Ziel Als Bild speichern lässt sich eine PDF-Seite als PNG oder JPG sichern. Achten Sie dabei auf eine ausreichende Auflösung. Exportieren Sie mit mindestens 300 DPI, damit die einzelnen Buchstaben genug Pixel bekommen. Ein zu klein gerechnetes Bild kostet messbar Genauigkeit.
Anschließend laden Sie die PNG-Datei in ein OCR-Tool. Auf bild-zu-text-ocr.de läuft die Erkennung komplett im Browser über die Tesseract-Engine, das Bild verlässt Ihr Gerät also nicht. Sie wählen die Sprache Deutsch, starten die Erkennung und erhalten nach wenigen Sekunden den Inhalt als kopierbaren Text. Wie Sie die Trefferquote zusätzlich anheben, etwa durch Kontrast und Geraderücken, behandelt der Ratgeber OCR-Genauigkeit verbessern.
Screenshot-Methode für einzelne Stellen
Wenn Sie nur einen Absatz oder eine Zahl aus einem nicht markierbaren PDF brauchen, ist der Screenshot der schnellste Weg. Sie zoomen im Viewer so weit hinein, dass die gewünschte Stelle groß und scharf auf dem Bildschirm liegt, und schneiden sie mit dem Snipping Tool unter Windows oder mit Umschalt plus Befehl plus 4 unter macOS aus.
Der Vorteil: Der Screenshot entsteht direkt aus den Bildschirmpixeln, es gibt keine Schräglage, keinen Schatten und keine Verzerrung wie bei einem Foto. Je weiter Sie vor dem Auslösen hineinzoomen, desto mehr Pixel landen auf jedem Buchstaben und desto sauberer wird die spätere Erkennung. Dieses PNG ziehen Sie dann ins OCR-Tool und erhalten den Text der ausgeschnittenen Stelle. Für punktuelle Aufgaben ist das oft schneller als der Export einer ganzen Seite.
Durchsuchbares PDF mit OCR-Layer erzeugen
Bei mehrseitigen Dokumenten, die Sie dauerhaft durchsuchbar machen wollen, lohnt sich ein anderer Ansatz: Statt jede Seite einzeln zu exportieren, legen Sie eine unsichtbare Textebene über das gesamte Scan-PDF. Das Bild bleibt erhalten, darunter liegt der erkannte Text, sodass Sie das Dokument durchsuchen und kopieren können, ohne dass sich das Aussehen ändert.
Drei Werkzeuge beherrschen das zuverlässig. Adobe Acrobat Pro bietet die Funktion unter Werkzeuge und Scan und OCR und Erkennen, ideal für Anwender ohne Kommandozeile. Wer offene Software bevorzugt, nutzt ocrmypdf, ein schlankes Werkzeug, das ein Scan-PDF entgegennimmt und ein durchsuchbares PDF zurückgibt, intern auf Basis von Tesseract. Der Aufruf lautet schlicht ocrmypdf scan.pdf durchsuchbar.pdf. Tesseract selbst kann ebenfalls direkt ein durchsuchbares PDF ausgeben, wenn man als Ausgabeformat pdf angibt. Diese Variante eignet sich besonders für Stapel mit vielen Dateien, weil sie sich skripten lässt.
Mehrseitige Dokumente, Tabellen und gescannte Verträge
Lange Dokumente bringen eigene Tücken mit. Ein 40-seitiger Vertrag als Scan-PDF lässt sich nicht sinnvoll Seite für Seite per Screenshot abarbeiten. Hier ist der OCR-Layer über das ganze Dokument die richtige Wahl, weil Sie anschließend einmal über das gesamte PDF suchen und kopieren können. Achten Sie bei alten Verträgen oder vergilbten Buchseiten auf den Kontrast: Graue Schrift auf bräunlichem Papier ist für jede Engine schwieriger als frischer Druck auf Weiß.
Tabellen sind der anspruchsvollste Fall. OCR erkennt zwar die Zeichen in den Zellen, verliert aber leicht die Spaltenstruktur, weil sie nur Zeilen von links nach rechts liest. Das Ergebnis ist oft eine durchlaufende Textwurst statt einer sauberen Tabelle. Ein praktikabler Umweg: Erkennen Sie die Tabelle als Text, fügen Sie das Ergebnis in eine Tabellenkalkulation ein und nutzen Sie dort die Funktion Text in Spalten, um die Werte anhand von Leerzeichen oder Tabulatoren wieder zu trennen. Bei sehr komplexen Tabellen ist eine manuelle Nachkontrolle Pflicht, gerade wenn es um Beträge geht.
Konkretes Beispiel: gescannter Mietvertrag als Bild-PDF
Angenommen, Sie haben einen Mietvertrag vom Vermieter als PDF erhalten, möchten aber die Kündigungsfristen und die Höhe der Kaution in eine eigene Notiz übernehmen. Sie öffnen das PDF, versuchen den Absatz zu markieren, und nichts färbt sich ein. Auch die Suche nach dem Wort Kaution findet nichts, obwohl es deutlich auf Seite drei steht. Damit ist klar: Es handelt sich um einen Scan, ein reines Bild-PDF.
Sie öffnen Seite drei im Viewer, zoomen auf etwa 150 Prozent und exportieren sie über die Druckfunktion als PNG mit 300 DPI. Die Datei ist rund 1,8 MB groß, die Schrift gestochen scharf, der Kontrast zwischen schwarzer Tinte und weißem Papier hoch. Dieses PNG ziehen Sie in das Upload-Feld auf bild-zu-text-ocr.de, stellen die Sprache auf Deutsch und starten die Erkennung. Nach wenigen Sekunden erscheint der vollständige Text der Seite samt der Klausel zur Kaution in Höhe von drei Monatsmieten und der Kündigungsfrist von drei Monaten zum Quartalsende. Sie prüfen die Zahlen gegen das Original, korrigieren eine Stelle, an der eine 3 als 8 gelesen wurde, und kopieren den Block in Ihre Notiz. Aus einem nicht durchsuchbaren Scan ist in unter zwei Minuten verwertbarer Text geworden.
Häufige Fragen zum Extrahieren von Text aus PDFs
Warum kann ich den Text in meinem PDF nicht markieren?
Weil es sich um ein Bild-PDF handelt, also einen Scan oder ein Foto der Seite. Darin stecken keine echten Buchstaben, sondern nur Pixel. Markieren und Kopieren funktioniert erst, wenn Sie per OCR eine Textebene erzeugen oder die Seite durch ein OCR-Tool laufen lassen.
Wie erkenne ich, ob mein PDF Text oder nur ein Bild enthält?
Machen Sie den Markieren-Test: Lässt sich ein Absatz wortweise blau markieren und kopieren, ist echter Text vorhanden. Passiert nichts oder die Suchfunktion findet ein sichtbares Wort nicht, liegt ein reines Bild-PDF vor.
Welche Auflösung sollte ich beim Export einer PDF-Seite wählen?
Mindestens 300 DPI. Bei dieser Auflösung bekommt jeder Buchstabe genug Pixel für eine zuverlässige Erkennung. Unter 200 DPI steigt die Fehlerquote spürbar, vor allem bei kleinen Schriften und Zahlen.
Bleibt mein gescanntes PDF nach OCR optisch gleich?
Beim Erzeugen eines durchsuchbaren PDFs mit Werkzeugen wie ocrmypdf oder Acrobat Pro ja. Das Originalbild bleibt sichtbar, der erkannte Text wird als unsichtbare Ebene darunter abgelegt. So bleibt das Layout unverändert, aber Suchen und Kopieren funktionieren.
Kann ich Tabellen aus einem Scan-PDF sauber übernehmen?
Die Zeichen erkennt OCR zuverlässig, die Spaltenstruktur geht aber oft verloren. Fügen Sie den erkannten Text in eine Tabellenkalkulation ein und nutzen Sie dort Text in Spalten, um die Werte wieder zu trennen. Bei Beträgen lohnt eine manuelle Kontrolle.
Welcher Weg für welches Dokument passt
Die richtige Methode hängt vom PDF-Typ und vom Ziel ab. Bei einem Text-PDF reicht markieren und kopieren, OCR wäre hier ein Rückschritt. Bei einem einzelnen Scan oder einer kurzen Stelle ist der Export als PNG oder der Screenshot mit anschließender Texterkennung am schnellsten. Bei langen, gescannten Dokumenten wie Verträgen oder Buchkapiteln ist der durchsuchbare OCR-Layer über das ganze PDF die beste Investition, weil Sie danach dauerhaft suchen und kopieren können. Welches OCR-Werkzeug dabei wann die Nase vorn hat, vergleicht der Ratgeber OCR-Tools im Vergleich. Probieren Sie den Weg über das PNG direkt mit Ihrem nächsten Scan im OCR-Tool aus.
Quellen: Tesseract OCR Engine, Dokumentation auf github.com/tesseract-ocr/tesseract; ocrmypdf, Projektdokumentation auf github.com/ocrmypdf/OCRmyPDF; Wikipedia, Artikel Texterkennung, de.wikipedia.org/wiki/Texterkennung.
Quellen
Redaktioneller Inhalt, der öffentliche Quellen verständlich zusammenfasst.
Bild jetzt in Text umwandeln
Kostenlos, ohne Anmeldung, direkt im Browser. Deine Bilder verlassen dein Gerät nicht.