Das Umwandeln eingescannter Dokumente und PDF-Dateien in Text Das Open-Source-Tool VietOCR.NET für Texterkennung

Von Thomas Joos 1 min Lesedauer

Anbieter zum Thema

Das Open-Source-Tool „VietOCR.NET“ ist ein beliebtes Werkzeug für Texterkennung bei eingescannten Dokumenten. Das Tool unterstützt eine Reihe verschiedener Dateiformate und ist daher fast universell einsetzbar. Der Text gibt einen Überblick.

Open-Source-Tool „VietOCR.NET“ ist ein beliebtes für Texterkennung.(Bild:  frei lizenziert /  Pixabay)
Open-Source-Tool „VietOCR.NET“ ist ein beliebtes für Texterkennung.
(Bild: frei lizenziert / Pixabay)

VietOCR.NET ist ein kleines, kostenloses Open-Source-Tool, mit dem Anwender Texte aus Dateien extrahieren können, zum Beispiel nach dem Scannen. Dazu unterstützt das Tool auch abgespeicherte Bilder, zum Beispiel TIFF, JPEG, GIF, PNG, BMP und auch PDF-Dateien. Beliebt ist das Tool vor allem darum, weil die Texterkennung sehr gut funktioniert.

Sprachdateien für VietOCR.NET herunterladen und importieren

Leider ist es in vielen Umgebungen notwendig, beim ersten Start das Tool mit erhöhten Rechten ausführen zu müssen, weil ansonsten die Benutzerkontensteuerung in „Windows“ die Sprachdateien nicht herunterladen kann. Sobald die Sprachdateien aber erst einmal verfügbar sind, reichen herkömmliche Benutzerrechte aus.

Nach dem Start der Datei VietOCR.exe erfolgt zunächst in den Einstellungen (Tools) der Download der gewünschte Sprachdateien (Download Language Data). Hier stehen zahlreiche Sprachen zur Verfügung. Nach dem Download ist ein Neustart des Tools notwendig.

Über das Menü im Fenster lassen sich alle Sprachen auswählen. Sobald die gewünschte Sprache ausgewählt ist, kann die Texterkennung ein unterstütztes Format mit dem OCR-Vorgang durchführen. Wichtig ist, dass das Bild richtig eingebunden und markiert ist.

Für PDF-Dateien ist noch Ghostscript AGPL 64-Bit notwendig

Damit VietOCR.NET PDF-Dateien nutzen kann, ist „Ghostscript AGPL 64-Bit“ auf dem Rechner notwendig. Teilweise kann VietOCR nicht auf die Datei gsdll64.dll zugreifen. In diesem Fall hilft es den Installationspfad von „Ghostscript“ und das Unterverzeichnis bin in die Umgebungsvariablen einzubinden. Das geht in Windows zum Beispiel über sysdm.cpl auf der Registerkarte Erweitert mit der Schaltfläche Umgebungsvariablen.

(ID:49665941)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung