Springe zum Hauptinhalt

Kleiner Erfahrungsbericht mit Online-OCR-Diensten

Ein paar habe ich ausprobiert und meinen Favoriten gefunden

/images/2014/ocr.png

heute wollte ich ein PDF, den ich gescannt hatte, als Text haben. Meine eigenen Versuche mit OCR (vor einigen Jahren) hatten unbrauchbare Ergebnisse geliefert. Da der Text, den ich haben wollte, aus einer Zeitschrift stammt und damit in keinster Weise vertraulich ist, beschloss ich, einen Online Service zu verwenden.

Hier meine Erfahrungen, unter den ersten Einträgen, die die Internetsuche ausgeschmissen hat:

  1. Ein "Free online OCR": verarbeitet nur die erste Seite des PDF. Das Ergebnis wäre aber insgesamt okay.

  2. Noch ein "Free online OCR": verarbeitet mehrere Seiten, im Ergebnis (RTF-Format) liegen aber alle Text-Rahmen auf einer Seite. Unbrauchbar. Zumal ich mehrere Anläufe gebraucht habe, um ein Ergebnis zu bekommen. Die beste Begründung dabei war: "Low Image Quality" – bei 660 dpi eine gewagte Aussage.

  3. …ich überspringe ein paar, die ich angesehen, aber nicht mehr getestet hat. Beispielsweise, weil sie auch nur die erste Seite des PDF verarbeiten.

Weiter unten in der List bin ich auf den Service von Abby Finereader gestoßen. Den hatte ich im ersten Durchgang übersprungen, weil er eine Registrierung verlangt. Es Ergebnis hat mich echt beeindruckt: Der Text scheint keine Rechtschreibfehler zu enthalten, die Bindestriche am Zeilenende werden sogar in "weiche" Trennzeichen umgewandelt, das Layout ist passabel erhalten. Ausserdem kann man viele Ausgabe-Formate wählen, unter anderem OpenDocument-Text. Was will man mehr?

Einziger "Haken" – soweit man das bei einem kostenlosen Dienst sagen kann –: Man kann nur 10 Seiten in 14 Tagen konvertieren.

Noch ein Tipp zur Registrierung: Bei meinem Versuch konnte ich irgendeine E-Mail-Adresse angeben. Denn es wird noch nicht einmal eine Bestätigungs-Mail verschickt. Ich gelange nach der Registierung direkt zum "Jetzt erkennen"-Schritt.

Ach, und um es nochmal ausdrücklich zu sagen: Vertrauliche oder persönliche Text würde ich einem Online-Dienst nicht anvertrauen.

Portrait von Hartmut Goebel
Hartmut Goebel
Diplom-Informatiker, CISSP, CSSLP, ISO 27001 Lead Implementer

Haben Sie noch Fragen?
Anruf oder Mail genügt:
Telefon:   +49 871 6606-318
Mobil:   +49 175 29 78 072
E-Mail:   h.goebel@goebel-consult.de