So installieren Sie Tesseract unter Windows

So Installieren Sie Tesseract Unter Windows



Tesseract ist ein frei verfügbares Open-Source-Texterkennungstool, das auch als OCR (Optical Character Recognition) bekannt ist. Es wird hauptsächlich verwendet, um Text aus Bildern zu identifizieren und zu extrahieren. Es liest Text aus Bilddaten und schreibt die Ausgabe in eine neue .txt-Datei. Tesseract funktioniert auch unter Python, da es hauptsächlich zum Erkennen von Handschriften aus Bildern verwendet wird. Es verwendet das LSTR-Modell (Long Short-Term Memory). Tesseract arbeitet unter der Apache 2.0-Lizenz.

Wir werden in diesem Blog näher auf die Methode zur Installation von Tesseract unter Windows eingehen.







Also lasst uns anfangen!



Wie installiere ich Tesseract unter Windows?

Der Tesseract ist ein Befehlszeilentool, das für die Textextraktion aus Bildern verwendet wird. Um Tesseract unter Windows zu installieren, müssen Sie die unten angegebenen Anweisungen befolgen.



Schritt 1: Laden Sie das Tesseract-Installationsprogramm herunter





Navigieren Sie zunächst zum unten angegebenen Link und laden Sie das Tesseract-Installationsprogramm gemäß Ihrer Systemspezifikation herunter:

https: // github.com / UB-Mannheim / Tesseract / Woche



Schritt 2: Führen Sie das Tesseract-Installationsprogramm aus

Besuche den ' Downloads ” Verzeichnis, in das das Tesseract-Installationsprogramm heruntergeladen wird. Um Tesseract unter Windows zu installieren, führen Sie das Tesseract-Installationsprogramm aus, indem Sie darauf doppelklicken:

Schritt 3: Sprache auswählen

Viele Sprachen werden vom Tesseract-Installationsprogramm unterstützt. Um mit der Benutzeroberfläche des Installationsprogramms zu interagieren, wählen Sie „ Englisch “ als Ihre Sprache und klicken Sie auf „ OK “:

Schritt 4: Installieren Sie Tesseract

Daraufhin erscheint der Tesseract OCR-Einrichtungsassistent auf dem Bildschirm. Um mit der Tesseract-Installation zu beginnen, klicken Sie auf „ Nächste ' Taste:

Akzeptieren Sie die „ Lizenzvereinbarung ', drücke den ' Ich stimme zu ' Taste:

Wähle aus ' Für alle Benutzer dieses Computers installieren “ Option und drücken Sie die „ Nächste ' Taste:

Wenn Sie Skriptdaten hinzufügen oder eine andere Sprache einbeziehen möchten, markieren Sie die entsprechenden Kontrollkästchen und klicken Sie auf „ Nächste ' Taste. Da wir kein zusätzliches Datenskript oder keine zusätzliche Sprache wünschen, fahren wir mit den standardmäßig ausgewählten Optionen fort:

Wählen Sie den Installationsort und klicken Sie auf „ Nächste ' Taste:

Wenn Sie keine Verknüpfung im Startmenü erstellen möchten, dann markieren Sie das „ Keine Verknüpfungen erstellen ” Kontrollkästchen und drücken Sie die “ Installieren ' Taste:

Danach wird die Tesseract-Installation gestartet. Warten Sie, bis die Installation abgeschlossen ist, und klicken Sie auf „ Nächste ' Taste:

Klicken Sie abschließend auf „ Fertig ' Taste:

Schritt 5: Umgebungsvariable festlegen

Nach der Installation müssen Sie die Umgebungsvariable des Tesseract setzen. Besuchen Sie dazu zunächst das Verzeichnis, in dem Sie den Tesseract installiert haben, und kopieren Sie den Pfad aus dem „ Adresse ' Bar:

Machen Sie eine Suche nach „ Umgebungsvariablen ' in dem ' Anlaufen „Menü und öffnen“ Bearbeiten Sie die Systemumgebungsvariablen “:

Navigieren Sie in den Einstellungen zu „ Fortschrittlich “ Einstellungsmenü und klicken Sie auf „ Umgebungsvariablen ' Taste:

Wählen Sie das ' Weg ” Variable aus dem “ Systemvariablen ” Panel, und drücken Sie die “ Bearbeiten ' Taste:

Danach ' Umgebungsvariable bearbeiten ” Fenster erscheint auf dem Bildschirm. Drücken Sie die „ Neu ” und fügen Sie hier den kopierten Tesseract-Installationsverzeichnispfad ein. Klicken Sie abschließend auf „ OK ' Taste:

Schritt 6: Überprüfen Sie die Tesseract-Installation

Um die Tesseract-Installation zu überprüfen, öffnen Sie die Windows-Eingabeaufforderung, indem Sie nach „ Eingabeaufforderung ' in dem ' Anlaufen ' Speisekarte:

Sehen Sie sich die Tesseract-Version mit dem bereitgestellten Befehl an:

> Tesseract --Ausführung

Die unten angegebene Ausgabe zeigt an, dass wir die Tesseract-Version erfolgreich installiert haben. v5.2.0 “ unter Windows:

Lassen Sie uns weitermachen, um herauszufinden, wie Tesseract unter Windows verwendet wird.

Wie verwende ich Tesseract unter Windows?

Der Tesserakt wird verwendet, um Handschrift zu lesen oder Text aus Bildern zu extrahieren. Mal sehen, wie es funktioniert:

Schritt 1: Bild auswählen

Wählen Sie das Bild aus, aus dem Sie Text extrahieren möchten. Da wir uns entschieden haben “ 1.png “:

Schritt 2: Text aus Bild extrahieren

Sobald die CMD geöffnet ist. Nutzen Sie die „ CD ” Befehl, um das Verzeichnis zu ändern, in dem das Bild gespeichert ist. Führen Sie dann das „ Tesseract ” Befehl und definieren Sie den Namen der Bilddatei, wie wir es angegeben haben “ 1.png “. Das ' Text ” Parameter zeigt den Namen der Ausgabedatei an:

> CD C:\Benutzer\anuma\OneDrive\Bilder\Gespeicherte Bilder
> Tesseract 1 .png 'Text'

Schritt 3: Überprüfen Sie die Textextraktion

Navigieren Sie zum Überprüfen der Textextraktion in das Verzeichnis, in dem sich die Bilddatei befindet. Sie können sehen, dass die Ausgabedatei „ Text “ wird hier ebenfalls gespeichert. Doppelklicken Sie auf die Ausgabedatei, um zu überprüfen, ob der Tesserakt den Text aus dem Bild extrahiert hat oder nicht:

Sie können sehen, dass wir den Text erfolgreich mit dem Tesseract-Befehlszeilentool extrahiert haben:

Wir haben die Technik zum Installieren und Verwenden von Tesseract unter Windows demonstriert.

Fazit

Um Tesseract unter Windows zu installieren, muss das Tesseract-Installationsprogramm heruntergeladen werden. Folgen Sie dazu der ersten Sitzung dieses Artikels. Legen Sie als Nächstes die Umgebungsvariable Path fest, um Tesseract von der Windows-Eingabeaufforderung aus zu verwenden und darauf zuzugreifen. Wählen Sie dann die Bilddatei aus und verwenden Sie das „ Tesseract “-Befehl, um den Text aus dem Bild zu erkennen und zu extrahieren. Hier haben Sie gelernt, das „ Tesseract “ unter Fenstern.