Wunderbare PDFs …

… stellt gscan2pdf unter Linux her. Das Frontend vereint viele vorhandene Funktionen rund um das Digitalisieren von Dokumenten unter einer einfach zu bedienenden Oberfläche. Unter Ubuntu Hardy Heron lässt sich das ganze mit dem Befehl sudo aptitude -r install gscan2pdf mit allen Featueres installieren. Nun lassen sich die Seiten via tesseract-ocr in Text umwandeln. Das funktioniert zwar nicht fehlerfrei, reicht aber zum wiederfinden der Dateien mit Desktopsuchmaschinen wie Tracker.

*update*

Hier mal ein Beispiel um sich ein Bild von der Erkennungsqualität von Tesseract zu machen.

Quelle:
beispielscan

Continue reading