Dokumentenerkennung in ScanPapyrus

Konvertieren Sie Ihre eingescannten Dokumente nach Word oder PDF mit Beibehaltung der Textformatierung.

Ein eingescanntes Dokument besteht aus einer Menge von Grafikbildern, die in einem Format abgelegt werden. Beispielsweise sind die Formate DjVu oder TIFF ausschließlich zur Speicherung von Bildern geeignet. Im Gegensatz zum PDF-Format, welches sowohl Bilder, als auch Texte beinhalten kann. Oft ist es genug, eingescannte Seiten im PDF-Format ohne Texterkennung abzuspeichern. In diesem Fall werden Sie das ursprüngliche Erscheinungsbild des Dokuments möglichst genau erhalten, da es nicht durch die Texterkennung unweigerlich verfremdet wird.

Sollten Sie ein Dokument nacherkennen müssen, bietet ScanPapyrus Ihnen die Möglichkeit, den Clouddienst der Firma ABBYY (http://www.abbyy.com) zu nutzen. Die Algorithmen der Texterkennung dieser Firma wurden über viele Jahre entwickelt und gehören zu den besten der Welt. Sie machen selten Fehler beim Erkennen, erhalten die Dokumentformatierung möglichst originalgetreu und brauchen sehr wenig Zeit.

Für die Erkennung benötigen Sie eine Internetverbindung; zudem ist der Zugang zum Erkennungsdienst nicht kostenfrei.

Wie man Texterkennung in ScanPapyrus nutzt

Ab der Version 19.0 beinhaltet ScanPapyrus den Reiter Erkennung.

In diesem Reiter gibt es den Button Dokument erkennen. Beim Klick auf diesen Button wird ein Fenster für die Parameter der Texterkennung aufgerufen. In diesem Fenster können Sie die Sprache des Dokuments angeben. Sollte das Dokument in mehreren Sprachen vorliegen, können Sie mehrere Sprachen angeben, z.B. Englisch und Deutsch.

Auch können Sie hier das Ausgabeformat des Dokuments angeben. Es gibt mehrere Optionen:

  • Microsoft Word – das Dokument wird in einer Datei im Microsoft Word-Format gespeichert. Die Formatierung des Ausgangsdokuments wird beibehalten, Bilder werden im Dokument, ebenso wie im Original, enthalten sein.
  • Microsoft Excel – wenn das eingescannte Dokument eine Tabelle ist, können Sie es direkt im Tabellenkalkulationsformat von Microsoft Excel speichern.
  • PDF Text und Bilder – das Dokument wird im PDF-Format gespeichert. Der Text des ursprünglichen Dokuments wird als PDF-Text gespeichert, d.h., Sie können ihn kopieren oder durchsuchen. Bilder werden ins Dokument wie im Original eingebettet sein. Die Formatierung des Originaldokuments wird beibehalten.
  • Rich text – das Dokument wird im RTF-Textformat gespeichert, einem etwas einfacheren Format, als dem von Microsoft Word.
  • Nur Text – ein einfaches Textdokument ohne Bilder. Die Formatierung geht dabei verloren.

Nach der Auswahl der Optionen klicken Sie auf den Button Erkennen. Das Programm wird Ihr Dokument an den Cloud-Dienst schicken. Auf dem Bildschirm sehen Sie eine Liste von Dokumenten, die zum Erkennen geschickt wurden.

Üblicherweise werden für die Texterkennung durch den Dienst eine bis zwei Minuten benötigt. Den Stand der Erkennung können Sie im Fenster Liste der Erkennungsaufgaben sehen, welches Sie mit dem Button Aufgabenliste aus dem Programmhauptfenster aufrufen. Klicken Sie auf Status aktualisieren, um den Status der Aufgabe zu erneuern. Sobald die Erkennung fertig ist, ändert sich der Status der Aufgabe auf Abgeschlossen und in der Spalte Datei erscheint der Button Speichern unter…, mit dem Sie Ihr Dokument in einen Ordner auf Ihrer Festplatte abspeichern können.

Schlüsselaktivierung für die Erkennung

Damit Sie den Dienst zur Texterkennung nutzen können, müssen Sie erst einen Erkennungsschlüssel aktivieren. Jeder Schlüssel gibt Ihnen die Möglichkeit, 100 Seiten durch den Dienst der Texterkennung verarbeiten zu lassen. Den Schlüssel können Sie auf der Seite Preisseite erwerben. Dieselbe Seite wird aufgerufen, wenn Sie auf den Button Schlüssel kaufen im Reiter Erkennung anklicken. Nach dem Kauf wird der Schlüssel an Ihre e-Mailadresse geschickt. Sobald Sie den Schlüssel erhalten haben, müssen Sie ihn in ScanPapyrus aktivieren. Hierzu klicken Sie auf den Button Schlüssel aktivieren im Reiter Erkennung.

Fügen Sie Ihren Schlüssel ins Eingabefeld ein und klicken Sie auf Aktivieren. Es erscheint eine Meldung über die erfolgreiche Schlüsselaktivierung. Ein Schlüssel hat die Gültigkeit von 90 Tagen ab dem Aktivierungsdatum.

Sie können den Stand Ihrer Erkennungsschlüssel im Fenster Liste der aktivierten Erkennungsschlüssel sehen, das durch den Button Schlüsselstatus aufgerufen wird.

In diesem Fenster können Sie sehen, wie viele Seiten Sie noch erkennen können und wann Ihr Schlüssel abläuft.

Datensicherheit

Zur Erkennung nutzt ScanPapyrus den Clouddienst ABBYY OCR Cloud (https://www.abbyy.com). Ihre Daten werden von ABBYY in Übereinstimmung mit der Datenschutzrichtlinie (https://www.abbyy.com/privacy/) gespeichert und verarbeitet. ABBYY hat keinen Zugang zum Durchsehen, Nutzen, Veröffentlichen, Wiedergeben oder Bekanntmachen von Ihren Daten. Die hochgeladenen Daten werden zwecks Verarbeitung auf einem Server innerhalb der EU für eine begrenzte Zeit aufbewahrt.

ABBYY entfernt alle hochgeladenen Daten innerhalb von zweiundvierzig (42) Stunden, nachdem sie in den Dienst hochgeladen wurden. Die verarbeiteten hochgeladenen Daten werden innerhalb von vierundzwanzig (24) Stunden gelöscht, nachdem der Dienst sie verarbeitet hat.

Beim Hochladen von Texten müssen Sie selbständig die Gesetzmäßigkeit, die Zuverlässigkeit, die Angemessenheit, das Recht auf Intellektuelles Eigentum sowie die Rechte an der Nutzung von Daten abwägen, die Sie an den Dienst versenden.

Alle Daten werden über das geschützte HTTPS-Protokoll hochgeladen, um das Abfangen der Daten zu verhindern.

Das Programm ScanPapyrus selbst führt keine Versendung und keine Speicherung von Daten an Drittserver durch.