Hoe een gescand document of boek te herkennen

Krijg 500 gratis pagina's voor het herkennen van documenten

Een gescand document is een verzameling afbeeldingen die in een gekozen formaat is opgeslagen. De DjVu- en TIFF-formaten zijn bijvoorbeeld ontworpen om alleen afbeeldingen op te slaan, in tegenstelling tot het PDF-formaat - dit formaat kan zowel afbeeldingen als tekst opslaan. Vaak volstaat het voor je om hele gescande pagina's op te slaan als een PDF-bestand zonder tekstherkenning. In dat geval laat je het uiterlijk van het brondocument maximaal ongewijzigd, zonder dat de tekstherkenning wordt verstoord.

Als je een document wilt herkennen, kan je met ScanPapyrus gebruik maken van een OCR cloudservice van het bedrijf ABBYY (http://www.abbyy.com). De herkenningsalgoritmen van dit bedrijf worden al jaren ontwikkeld en zijn misschien wel de beste ter wereld. Ze maken zelden fouten tijdens de herkenning, behouden zo veel mogelijk opmaak en de herkenning neemt niet veel tijd in beslag.

Je hebt een internetverbinding nodig om tekstherkenning uit te voeren. Bovendien is de toegang tot de dienst niet gratis door ABBYY. Je kan echter 500 pagina's gratis krijgen als je jezelf voor het eerst aanmeldt bij de herkenningsdienst.

Een account aanmaken op ABBYY Cloud OCR

Volg de link om een nieuwe account aan te maken op ABBYY Cloud OCR. Als je al geregistreerd bent voor deze dienst, ga je naar de machtigingspagina.

Voer jouw e-mail in, maak een wachtwoord aan en voer de captcha in. Na registratie kan je inloggen op jouw controlepaneel.

Nu moet je een herkenningstoepassing maken. Klik hiervoor op ADD NEW APPLICATION.

De pagina voor het aanmaken van uw aanvraag wordt geopend. De applicatie-ID wordt automatisch aangemaakt. jJe moet de naam van de applicatie invoeren en de locatie van de herkenningsserver selecteren (VS of Europa). Nadat je op de knop CREATE APPLICATION hebt geklikt, ontvang je het wachtwoord voor de aangemaakte applicatie in jouw e-mail.

Wanneer je je eerste app aanmaakt, krijg je automatisch 500 gratis A4-pagina's ter herkenning voor een periode van 90 dagen. Na afloop van deze periode dien je extra pagina's aan te schaffen.

Je kan ook gratis pagina's krijgen. Voor meer informatie kan je terecht op de Get Free pagina.

De gemaakte toepassing verbinden met ScanPapyrus

Nu kan je de gemaakte applicatie verbinden met ScanPapyrus en tekstherkenning gebruiken. Start ScanPapyrus, ga naar de Herkennings tab en klik op Service Settings.

Voer in het venster de instellingen van jouw aangemaakte app in. Kopieer Application ID en wachtwoord uit de ABBYY Cloud OCR e-mail en plak ze in de juiste velden.

Hoe tekstherkenning te gebruiken in ScanPapyrus

Nu kan je documenten voor herkenning naar de ABBYY Cloud OCR-service sturen. Klik in het tabblad Herkenning op Online herkennen.

In het venster Herkenningsopties kan je de taal van het document opgeven - of meerdere talen, als het document in meerdere talen is opgesteld (bijvoorbeeld Duits en Engels).

Kies ook hier het uitvoerformaat van het document. Er zijn verschillende opties beschikbaar:

  • Microsoft Word – het document wordt opgeslagen als een bestand in de Microsoft Word-indeling. De opmaak van het brondocument blijft behouden, en de afbeeldingen worden in het document ingevoegd zoals ze in het oorspronkelijke document staan.
  • Microsoft Excel – als het gescande brondocument een tabel is, kan je die opslaan als spreadsheet in de Microsoft Excel-indeling.
  • PDF-tekst en -afbeeldingen – het document wordt opgeslagen als een PDF. De tekst van het brondocument wordt opgeslagen als tekst in de PDF, en je kan de tekst uit de PDF kopiëren en in het document zoeken. Afbeeldingen worden in het document ingevoegd zoals ze in het originele bestand staan. Ook de opmaak van het brondocument blijft behouden.
  • Rich tekst – het document wordt opgeslagen in het RTF-formaat, dat eenvoudiger is dan het Microsoft Word-formaat.
  • Platte tekst – het document wordt opgeslagen als een gewoon tekstdocument zonder afbeeldingen. De opmaak zal verloren gaan.

Nadat je de parameters hebt opgegeven, klik je op de knop Herkennen. Het programma stuurt jouw document naar de herkenningscloudservice. Je ziet de lijst met documenten die voor herkenning zijn verzonden op het scherm.

Gewoonlijk voltooit de dienst de herkenning in een of twee minuten. Je kan de status van het documentherkenningsproces zien in het dialoogvenster Takenlijst herkenning, dat wordt geopend door te klikken op de knop Takenlijst in het hoofdvenster van het programma. Klik op de knop Status bijwerken om de status van de taak bij te werken. Wanneer de herkenning voltooid is, wordt de status van de taak gewijzigd in Voltooid en verschijnt de knop Opslaan als... in de kolom Bestand. Klik op deze knop om het document op te slaan op de geselecteerde locatie op je harde schijf.

Je gegevensbeveiliging

ScanPapyrus maakt gebruik van de ABBYY OCR Cloud-service voor herkenning (https://www.ocrsdk.com). Jouw gegevens worden door ABBYY opgeslagen en verwerkt in overeenstemming met hun privacybeleid (https://www.abbyy.com/privacy). ABBYY heeft geen toegang tot de gegevens die je uploadt en zal deze niet bekijken, gebruiken, publiceren, reproduceren of openbaar maken. De geüploade gegevens worden met het oog op verwerking gedurende een beperkte periode opgeslagen op een server in de Europese Unie.

ABBYY verwijdert automatisch alle geüploade gegevens binnen tweeënveertig (42) uur nadat deze naar de service zijn geüpload. Verwerkte geüploade gegevens worden binnen vierentwintig (24) uur nadat ze door de service zijn verwerkt, verwijderd.

Bij het verzenden van jouw pagina's dien je zelf de wettigheid, veiligheid, geschiktheid, intellectuele eigendomsrechten en gebruiksrechten te beoordelen van de gegevens die je naar de dienst verzendt.

Alle gegevens worden verzonden via het beveiligde HTTPS-protocol, zodat je beschermd bent tegen het onderscheppen van gegevens.

ScanPapyrus verstuurt uw gegevens niet naar servers van derden en slaat deze ook niet op. Jow applicatiewachtwoord wordt gecodeerd opgeslagen op jouw computer.