Anleitung · 9 Min. Lesezeit

Bild in Text umwandeln: die Schritt-für-Schritt-Anleitung

Vom Foto zum bearbeitbaren Text: welche Formate funktionieren, welche Auflösung du brauchst und wie du typische Fehler beim Hochladen vermeidest.

Ein Foto von einem Vertrag, ein Screenshot einer Rechnung, eine abfotografierte Buchseite: In wenigen Sekunden lässt sich der Text daraus herauslösen, kopieren und weiterverwenden. Diese Anleitung zeigt Schritt für Schritt, wie aus einem Bild sauberer, bearbeitbarer Text wird, welche Formate funktionieren und wie Sie typische Stolperfallen umgehen.

Texterkennung, im Fachjargon OCR (Optical Character Recognition), wandelt die Pixel eines Bildes in Zeichen um, die Ihr Computer als echten Text versteht. Statt einen Absatz mühsam abzutippen, laden Sie eine Datei hoch und erhalten den Inhalt als kopierbaren Block zurück. Auf bild-zu-text-ocr.de läuft die Erkennung komplett im Browser über die Open-Source-Engine Tesseract. Ihre Datei verlässt dabei nie Ihr Gerät, es gibt keinen Upload auf einen fremden Server. Wer wissen möchte, was hinter der Technik steckt, findet die Grundlagen im Ratgeber Was ist OCR?.

Das richtige Ausgangsbild aufnehmen oder auswählen

Die Qualität des Ergebnisses entscheidet sich, bevor Sie überhaupt eine Datei hochladen. Eine OCR-Engine kann nur erkennen, was im Bild auch wirklich lesbar ist. Die wichtigste Kennzahl ist die Auflösung des Textes: Faustregel sind mindestens 300 DPI bei einem klassischen Scan oder, bei einem Foto vom Smartphone, eine Zeilenhöhe von rund 25 bis 30 Pixeln pro Textzeile. Eine ganze Buchseite sollte mindestens etwa 1000 Pixel hoch abgebildet sein, damit die einzelnen Buchstaben genug Substanz haben.

Achten Sie auf gleichmäßiges Licht. Tageslicht oder eine diffuse Schreibtischlampe liefern besseres Material als ein harter Blitz, der Reflexionen auf glänzendem Papier erzeugt. Legen Sie das Dokument flach hin, halten Sie die Kamera parallel zur Oberfläche und füllen Sie das Bild möglichst mit dem Text aus, ohne Tischkante oder Hintergrund mit einzufangen. Ein gerader, kontrastreicher Ausschnitt ist die halbe Miete.

Welche Dateiformate und Auflösungen funktionieren

Das Tool akzeptiert die gängigen Rasterformate bis zu einer Dateigröße von 10 MB. Welches Format Sie wählen, hängt vom Ausgangsmaterial ab. Screenshots speichert Ihr System meist als PNG, Smartphone-Fotos als JPG. Beide funktionieren gut, solange die Auflösung stimmt.

Format	Eignung für OCR	Hinweis
PNG	Sehr gut	Ideal für Screenshots, verlustfrei, scharfe Kanten an Buchstaben.
JPG / JPEG	Gut	Standard bei Fotos. Bei starker Kompression können Kanten verwaschen, dann lieber höher aufgelöst speichern.
WEBP	Gut	Modernes Webformat, kleiner bei gleicher Qualität. Funktioniert problemlos.
TIFF	Sehr gut	Klassisches Scan-Format, verlustfrei. Achten Sie auf die 10-MB-Grenze, TIFFs werden schnell groß.
Auflösung Scan	mind. 300 DPI	Unter 200 DPI steigt die Fehlerquote spürbar an.
Auflösung Foto	ca. 1000 px Texthöhe	Entspricht etwa 25 bis 30 px pro Textzeile, genug Substanz pro Buchstabe.

Ein häufiges Missverständnis: Eine riesige Megapixel-Zahl der Kamera nützt wenig, wenn der Text im Bild nur einen kleinen Bereich einnimmt. Entscheidend ist nicht die Gesamtauflösung, sondern wie viele Pixel auf die einzelnen Buchstaben entfallen. Gehen Sie lieber näher heran, statt nachträglich einen winzigen Ausschnitt zu vergrößern.

Bild in Text umwandeln: die fünf Schritte im Tool

Der eigentliche Vorgang ist schnell erklärt. Vom Hochladen bis zum fertigen Text vergehen je nach Bildgröße und Gerät meist nur wenige Sekunden.

Schritt	Aktion	Tipp
1	Datei hochladen (JPG, PNG, WEBP oder TIFF, max. 10 MB)	Per Klick oder Drag-and-drop in das Upload-Feld ziehen.
2	Sprache wählen	Für deutsche Dokumente Deutsch einstellen, sonst werden Umlaute oft falsch erkannt.
3	Erkennung starten	Die Engine lädt beim ersten Mal das Sprachmodell, danach geht es schneller.
4	Ergebnis prüfen	Zahlen, Eigennamen und Sonderzeichen gegen das Original abgleichen.
5	Text kopieren oder als TXT herunterladen	Ein Klick legt den ganzen Block in die Zwischenablage oder speichert ihn als Datei.

Der Ablauf in drei Stationen: Bild hochladen, Sprache wählen, fertigen Text erhalten.

Sobald die Erkennung durchgelaufen ist, erscheint der Text in einem Feld unter dem Bild. Sie können ihn direkt dort lesen, mit dem Original vergleichen und bei Bedarf kleinere Korrekturen vornehmen, bevor Sie ihn kopieren oder als TXT-Datei sichern.

Praxis-Tipp: Wählen Sie immer zuerst die richtige Sprache, bevor Sie die Erkennung starten. Steht das Modell auf Englisch und Sie verarbeiten ein deutsches Dokument, werden Wörter wie Gebühr, Straße oder für regelmäßig falsch erkannt, weil das Sprachmodell die Umlaute und das ß gar nicht erwartet. Die korrekte Spracheinstellung bringt oft mehr Genauigkeit als jede Bildverbesserung.

Konkretes Beispiel: eine Rechnung als Screenshot umwandeln

Angenommen, Sie haben eine PDF-Rechnung im Browser geöffnet und davon einen Screenshot gemacht, weil Sie nur die Positionen und den Betrag in eine Tabelle übernehmen wollen. Der Screenshot liegt als PNG mit 1400 mal 900 Pixeln vor, die Zeilen sind klar lesbar, der Kontrast zwischen schwarzer Schrift und weißem Hintergrund ist hoch.

Sie ziehen die PNG-Datei in das Upload-Feld, stellen die Sprache auf Deutsch und starten die Erkennung. Nach wenigen Sekunden erscheint der komplette Rechnungstext: Anschrift, Rechnungsnummer, die einzelnen Positionen mit Mengen und Einzelpreisen sowie der Gesamtbetrag von 249,90 Euro. Sie prüfen kurz die Zahlen, korrigieren eine Position, in der eine 8 als B erkannt wurde, und kopieren den Block mit einem Klick in Ihre Tabellenkalkulation. Was zuvor fünf Minuten Abtippen gekostet hätte, ist in unter einer Minute erledigt. Wenn Sie ohnehin oft mit Rechnungen im PDF-Format arbeiten, lohnt ein Blick in den Ratgeber Text aus PDF extrahieren, weil sich dort der Umweg über den Screenshot manchmal ganz sparen lässt.

Häufige Fehlerquellen und wie Sie sie vermeiden

Die meisten enttäuschenden Ergebnisse haben dieselben drei Ursachen. Wer sie kennt, vermeidet sie mit wenigen Handgriffen.

Schräglage. Ein Foto, das in leichtem Winkel aufgenommen wurde, bringt die Textzeilen aus der Waagerechten. OCR-Engines arbeiten zeilenweise und kommen mit gekippten Zeilen schlechter zurecht. Halten Sie die Kamera parallel zum Dokument oder richten Sie das Bild vor dem Hochladen gerade. Schon eine Schräglage von mehr als rund fünf Grad kostet messbar Genauigkeit.

Schatten und ungleichmäßiges Licht. Wenn Ihre eigene Hand oder das Smartphone einen Schatten auf das Dokument wirft, entstehen dunkle Bereiche, in denen die Engine die Buchstaben nicht mehr vom Hintergrund trennen kann. Sorgen Sie für flächiges Licht und fotografieren Sie aus einer Position, die keinen Schlagschatten erzeugt.

Niedriger Kontrast. Grauer Text auf hellgrauem Papier, ausgeblichene Thermobelege oder ein zu dunkles Foto erschweren die Trennung von Schrift und Hintergrund. Hier hilft, das Bild vor dem Hochladen aufzuhellen und den Kontrast leicht anzuheben. Tiefer in die Optimierung steigt der Ratgeber OCR-Genauigkeit verbessern ein, der Schwellwerte, Vorverarbeitung und Bildbereinigung im Detail behandelt.

Vermeiden lassen sich diese Probleme fast immer schon bei der Aufnahme. Ein zweiter Versuch mit besserem Licht und gerader Ausrichtung liefert in der Regel deutlich saubereren Text als jede nachträgliche Reparatur eines misslungenen Fotos.

Browser-Tool, Smartphone-Foto und Screenshot im Vergleich

Je nachdem, woher der Text stammt, führen unterschiedliche Wege zum Bild. Alle drei landen am Ende im selben Upload-Feld.

Das Browser-Tool ist der Kern: Sie öffnen die Seite, laden eine vorhandene Bilddatei und lassen sie verarbeiten. Da alles lokal im Browser läuft, eignet sich dieser Weg auch für vertrauliche Unterlagen wie Verträge oder Gehaltsabrechnungen, die Sie nicht auf einen fremden Server schicken möchten.

Das Smartphone-Foto ist ideal für physische Dokumente, Bücher oder Aushänge. Achten Sie auf gute Beleuchtung, eine ruhige Hand und einen geraden Aufnahmewinkel. Moderne Handykameras lösen mehr als hoch genug auf, der limitierende Faktor ist fast nie die Pixelzahl, sondern Licht und Schärfe.

Der Screenshot ist der Sonderfall, der oft die besten Ergebnisse liefert. Da er direkt aus den Bildschirmpixeln entsteht, gibt es keine Verzerrung, keine Schräglage und keinen Schatten. Für Inhalte, die als Bild auf dem Bildschirm liegen, etwa ein nicht markierbares PDF oder eine Grafik mit eingebettetem Text, ist der Screenshot meist die sauberste Quelle.

Häufige Fragen zum Umwandeln von Bild in Text

Welche Dateiformate kann ich hochladen?

Das Tool verarbeitet JPG, PNG, WEBP und TIFF bis zu einer Größe von 10 MB. PNG und TIFF sind verlustfrei und damit besonders gut für scharfen Text geeignet, JPG und WEBP funktionieren ebenfalls zuverlässig, solange die Kompression nicht zu stark ist.

Wird mein Bild auf einen Server hochgeladen?

Nein. Die Erkennung läuft vollständig in Ihrem Browser über die Tesseract-Engine. Die Bilddatei verlässt Ihr Gerät nicht, es gibt keinen Upload auf einen externen Server. Das macht das Tool auch für sensible Dokumente nutzbar.

Warum werden Umlaute oder Sonderzeichen falsch erkannt?

Meist liegt es an einer falschen Spracheinstellung. Steht das Modell auf Englisch, erwartet es kein ä, ö, ü oder ß. Stellen Sie für deutsche Texte die Sprache auf Deutsch um, dann verbessert sich die Erkennung dieser Zeichen deutlich.

Wie hoch muss die Auflösung sein?

Für Scans gelten mindestens 300 DPI, für Fotos sollte eine Textzeile rund 25 bis 30 Pixel hoch sein. Eine ganze Seite ist mit etwa 1000 Pixeln Höhe gut bedient. Wichtiger als die Megapixel der Kamera ist, wie viele Pixel auf die einzelnen Buchstaben entfallen.

Kann ich auch Handschrift in Text umwandeln?

Klassische OCR ist auf gedruckte Schrift ausgelegt und erkennt saubere Druckschrift am zuverlässigsten. Handschrift ist deutlich anspruchsvoller und führt oft zu mehr Fehlern. Wie weit das mit den heutigen Modellen geht, beschreibt der Ratgeber zur Handschrift-Erkennung.

Worauf es beim Umwandeln wirklich ankommt

Sauberer Text aus einem Bild ist kein Zufall, sondern das Ergebnis von drei Entscheidungen, die Sie selbst in der Hand haben: ein scharfes, gut beleuchtetes und gerades Ausgangsbild mit ausreichender Auflösung, die passende Spracheinstellung und ein kurzer Kontrollblick auf Zahlen und Eigennamen im Ergebnis. Wer diese drei Punkte beachtet, spart sich das Abtippen fast vollständig und erhält Text, der sich direkt weiterverarbeiten lässt. Probieren Sie es mit Ihrem nächsten Dokument direkt im OCR-Tool aus.

Quellen: Tesseract OCR Engine, Dokumentation auf github.com/tesseract-ocr/tesseract; Wikipedia, Artikel Texterkennung, de.wikipedia.org/wiki/Texterkennung; Tesseract Improve Quality Guide, github.com/tesseract-ocr/tessdoc.

Quellen

Redaktioneller Inhalt, der öffentliche Quellen verständlich zusammenfasst.

Bild jetzt in Text umwandeln

Kostenlos, ohne Anmeldung, direkt im Browser. Deine Bilder verlassen dein Gerät nicht.

Zum OCR-Tool

Weiterlesen

Anleitung

Text aus gescannten Dokumenten und PDFs extrahieren

11 Min.

Grundlagen

Was ist OCR? So funktioniert Texterkennung

9 Min.

Vergleich

OCR-Tools im Vergleich: kostenlos vs. bezahlt

10 Min.