Dokumentenerkennung in ScanPapyrus

Erhalten Sie 500 Kostenlose Seiten zum Erkennen von Dokumenten

Ein eingescanntes Dokument besteht aus einer Menge von Grafikbildern, die in einem Format abgelegt werden. Beispielsweise sind die Formate DjVu oder TIFF ausschließlich zur Speicherung von Bildern geeignet. Im Gegensatz zum PDF-Format, welches sowohl Bilder, als auch Texte beinhalten kann. Oft ist es genug, eingescannte Seiten im PDF-Format ohne Texterkennung abzuspeichern. In diesem Fall werden Sie das ursprüngliche Erscheinungsbild des Dokuments möglichst genau erhalten, da es nicht durch die Texterkennung unweigerlich verfremdet wird.

Sollten Sie ein Dokument nacherkennen müssen, bietet ScanPapyrus Ihnen die Möglichkeit, den Clouddienst der Firma ABBYY (http://www.abbyy.com) zu nutzen. Die Algorithmen der Texterkennung dieser Firma wurden über viele Jahre entwickelt und gehören zu den besten der Welt. Sie machen selten Fehler beim Erkennen, erhalten die Dokumentformatierung möglichst originalgetreu und brauchen sehr wenig Zeit.

Für die Erkennung benötigen Sie eine Internetverbindung. Darüber hinaus ist der Zugang zum Service für ABBYY nicht kostenlos. Sie können jedoch 500 kostenlose Seiten erhalten, wenn Sie sich zum ersten Mal beim Erkennungsdienst anmelden.

Erstellen eines Kontos auf ABBYY Cloud OCR

Folgen Sie dem Link, um ein neues Konto in ABBYY Cloud OCR zu erstellen. Wenn Sie bereits bei diesem Dienst registriert sind, rufen Sie die Autorisierungsseite auf.

Geben Sie Ihre E-Mail-Adresse ein, erstellen Sie ein Passwort und geben Sie captcha ein. Nach der Registrierung können Sie sich in der Systemsteuerung anmelden.

Jetzt müssen Sie eine Erkennungsanwendung erstellen. Klicken Sie dazu auf ADD NEW APPLICATION.

Die Seite zum erstellen Ihrer Anwendung wird geöffnet. Die Anwendungs-ID wird automatisch erstellt. Sie müssen den app-Namen eingeben und den Standort des erkennungsservers (USA oder Europa) auswählen. Nachdem Sie auf die Schaltfläche CREATE APPLICATION geklickt haben, erhalten Sie das Passwort für die erstellte Anwendung an Ihre e-mail.

Wenn Sie Ihre erste App erstellen, erhalten Sie automatisch 500 kostenlose A4-Seiten zur Erkennung für einen Zeitraum von 90 Tagen.       Nach Ablauf dieses Zeitraums müssen Sie zusätzliche Seiten erwerben.

Sie können auch kostenlose Seiten erhalten. Weitere Informationen finden Sie auf der Seite Get Free.

Verbinden der erstellten Anwendung mit ScanPapyrus

Jetzt können Sie die erstellte Anwendung mit ScanPapyrus verbinden und die Texterkennung verwenden. Starten Sie ScanPapyrus, wechseln Sie zur Registerkarte Erkennung und klicken Sie auf Service Einstellungen.

Geben Sie im Fenster die Einstellungen Ihrer erstellten app ein. Kopieren Sie Application ID und Passwort von ABBYY Cloud OCR e-mail und fügen Sie in die entsprechenden Felder ein.

Wie man Texterkennung in ScanPapyrus nutzt

Jetzt können Sie Dokumente zur Erkennung an den ABBYY Cloud OCR-Dienst senden. Klicken Sie auf der Registerkarte Erkennung auf Online erkennen.

In diesem Reiter gibt es den Button Dokument erkennen. Beim Klick auf diesen Button wird ein Fenster für die Parameter der Texterkennung aufgerufen. In diesem Fenster können Sie die Sprache des Dokuments angeben. Sollte das Dokument in mehreren Sprachen vorliegen, können Sie mehrere Sprachen angeben, z.B. Englisch und Deutsch.

Auch können Sie hier das Ausgabeformat des Dokuments angeben. Es gibt mehrere Optionen:

  • Microsoft Word – das Dokument wird in einer Datei im Microsoft Word-Format gespeichert. Die Formatierung des Ausgangsdokuments wird beibehalten, Bilder werden im Dokument, ebenso wie im Original, enthalten sein.
  • Microsoft Excel – wenn das eingescannte Dokument eine Tabelle ist, können Sie es direkt im Tabellenkalkulationsformat von Microsoft Excel speichern.
  • PDF Text und Bilder – das Dokument wird im PDF-Format gespeichert. Der Text des ursprünglichen Dokuments wird als PDF-Text gespeichert, d.h., Sie können ihn kopieren oder durchsuchen. Bilder werden ins Dokument wie im Original eingebettet sein. Die Formatierung des Originaldokuments wird beibehalten.
  • Rich text – das Dokument wird im RTF-Textformat gespeichert, einem etwas einfacheren Format, als dem von Microsoft Word.
  • Nur Text – ein einfaches Textdokument ohne Bilder. Die Formatierung geht dabei verloren.

Nach der Auswahl der Optionen klicken Sie auf den Button Erkennen. Das Programm wird Ihr Dokument an den Cloud-Dienst schicken. Auf dem Bildschirm sehen Sie eine Liste von Dokumenten, die zum Erkennen geschickt wurden.

Üblicherweise werden für die Texterkennung durch den Dienst eine bis zwei Minuten benötigt. Den Stand der Erkennung können Sie im Fenster Liste der Erkennungsaufgaben sehen, welches Sie mit dem Button Aufgabenliste aus dem Programmhauptfenster aufrufen. Klicken Sie auf Status aktualisieren, um den Status der Aufgabe zu erneuern. Sobald die Erkennung fertig ist, ändert sich der Status der Aufgabe auf Abgeschlossen und in der Spalte Datei erscheint der Button Speichern unter…, mit dem Sie Ihr Dokument in einen Ordner auf Ihrer Festplatte abspeichern können.

Datensicherheit

Zur Erkennung nutzt ScanPapyrus den Clouddienst ABBYY OCR Cloud (https://www.ocrsdk.com). Ihre Daten werden von ABBYY in Übereinstimmung mit der Datenschutzrichtlinie (https://www.abbyy.com/privacy) gespeichert und verarbeitet. ABBYY hat keinen Zugang zum Durchsehen, Nutzen, Veröffentlichen, Wiedergeben oder Bekanntmachen von Ihren Daten. Die hochgeladenen Daten werden zwecks Verarbeitung auf einem Server innerhalb der EU für eine begrenzte Zeit aufbewahrt.

ABBYY entfernt alle hochgeladenen Daten innerhalb von zweiundvierzig (42) Stunden, nachdem sie in den Dienst hochgeladen wurden. Die verarbeiteten hochgeladenen Daten werden innerhalb von vierundzwanzig (24) Stunden gelöscht, nachdem der Dienst sie verarbeitet hat.

Beim Hochladen von Texten müssen Sie selbständig die Gesetzmäßigkeit, die Zuverlässigkeit, die Angemessenheit, das Recht auf Intellektuelles Eigentum sowie die Rechte an der Nutzung von Daten abwägen, die Sie an den Dienst versenden.

Alle Daten werden über das geschützte HTTPS-Protokoll hochgeladen, um das Abfangen der Daten zu verhindern.

ScanPapyrus selbst führt keine Versendung und keine Speicherung von Daten an Drittserver durch. Ihr anwendungspasswort wird auf Ihrem computer in verschlüsselter form gespeichert.