Paperwork DMS: Spartanische Lösung für das papierlose Büro

Vom papierlosen Büro kann nach wie vor nicht die Rede sein, aber es bewegt sich doch einiges in diese Richtung. Mit einem System wie Paperwork DMS können Sie das Papier aus dem Heimbüro verbannen.

Auch private Haushalte müssen jede Menge Unterlagen über einen längeren Zeitraum aufbewahren, zum Beispiel Rechnungen für Handwerker oder Dienstleistungen. Das Digitalisieren von Unterlagen spart jede Menge Platz. Um die Ablage und das Wiederfinden von elektronischen Unterlagen kann sich ein Document Management System (DMS) kümmern.

Dieser Artikel stellt Ihnen das Paperwork DMS vor. Ein wichtiger Hinweis vorab: Wer als Selbständiger vorhat, Papier im Büro zu reduzieren, sollte das mit seinem Steuerberater besprechen. Das Finanzamt hat dezidierte Vorstellungen über die digitale Aufbewahrung. Wer diese nicht einhält, muss im Falle einer Steuerprüfung mit Problemen rechnen.

Einige Installationshürden zu Beginn

Das Motto von Paperwork lautet „Scan & Forget“. Die Software kümmert sich um das Einlesen von Papierbergen und wandelt diese in digitale Dokumente um. Dank der Zeichenerkennung werden die Dateien dann auch im Volltext durchsuchbar. Die OCR-Funktionalität basiert auf dem von Google gepflegten Tesseract, das etwa auch bei Google Books eingesetzt wird. Aus dieser Integration können sich aber ein paar Komplikationen für die Installation ergeben. Aktuelle Distributionen liefern Tesseract in der Version 4.0 aus. Diese arbeitet allerdings nicht mit den von Paperwork genutzten Python-Bibliotheken zusammen. Somit ergeben sich zwei Optionen:

A. Sie führen manuell ein Downgrade auf die Vorgängerversion von Tesseract aus. Danach können Sie Paperwork über eine Python-Installation einrichten.

B. Sie installieren im Flatpak-Format. Dabei handelt es sich um einen Container, der seine eigene Variante von Tesseract mitbringt. Leider darf die Flatpak-Installation nicht direkt auf die Scannerschnittstelle (Sane) zugreifen. Hier helfen aber ein paar Zeilen Code weiter:

sudo sh -c "echo 127.0.0.1 >> /etc/sane.d/saned.conf" 
sudo systemctl enable saned.socket 
sudo systemctl start saned.socket

Dies ist nur notwendig, wenn die Software via Flatpak installiert wurde. Da Paperwork ohnehin kaum Optionen für das Scannen bietet, dafür aber auch bereits vorliegende Dokumente verarbeiten kann, lassen sich die Papiere auch mit externen Programmen verarbeiten, wie beispielsweise dem kommerziellen Vuescan, das ein erstaunliches Portfolio an Geräten unterstützt (auch ältere).

Paperwork einrichten und nutzen

Nach dem ersten Start von Paperwork richten Sie das Programm über den Menüpunkt „Settings“ ein. Die wichtigste Einstellung ist der Ordner, wo Sie die Dokumente ablegen wollen. Voreingestellt ist das Verzeichnis „papers“, das die Software automatisch anlegt. Es kann aber auch jeder andere Ordner verwendet werden. Da dort im Zweifel digitale Kopien von Dokumenten liegen, deren Vorlage Sie entsorgen, achten Sie darauf, dass dieses Verzeichnis regelmäßig gesichert wird. Damit die gescannten Dokumente durchsuchbar werden, müssen diese per OCR erfasst werden. Legen Sie über das Listenfeld die Sprache für die Zeichenerkennung fest und vergewissern Sie sich, dass die Option „OCR“ aktiviert ist.

Dokumente anlegen: Paperwork wird auf zwei Wegen mit Dokumenten bestückt – entweder durch direktes Scannen im Programm oder durch den Import bereits gescannter Dokumente. Paperwork greift auf das Sane-Framework für Scanner zu. Alle Geräte, die vom System erkannt wurden, sind auch für Paperwork zu erreichen. Ein Klick auf „Scan“ genügt. Bei Einzugsscannern mit Duplexfunktion ist aber der Einsatz eines Drittprogramms die bessere Wahl, weil man dann mehr Einflussmöglichkeiten für das Einlesen hat. Die Ergebnisse werden am besten als PDF-Dateien gesichert.

Um diese in Paperwork zu übernehmen, klicken Sie auf den kleinen Pfeil neben dem Schalter „Scan“ und wählen „Import file“. Ist das Einlesen abgeschlossen, beginnt Paperwork mit der optischen Zeichenerkennung. Die Ergebnisse sind in der Regel selbst bei kleinsten Schriftgrößen gut bis sehr gut. Allerdings funktioniert Tesseract nach dem Prinzip „as is“. Sie haben keine Möglichkeit, falsch erkannte Zeichen zu korrigieren.

Dokumente organisieren: Paperwork bietet bislang keine Optionen, um Dokumente in Ordnern oder Kategorien zu organisieren. Die Entwickler gehen davon aus, dass Sie die Suchfunktion verwenden, um ein Dokument zu finden. Ansonsten stehen alle erfassten Dateien in Form der Zeitleiste am linken Rand zu Verfügung. Immerhin gibt es aber frei definierbare Etiketten (Labels), um sich die Suche und das Blättern im Stapel zu vereinfachen. Um solche Etiketten zuzuweisen, markieren Sie in der Seitenleiste das Dokument und klicken auf das kleine Bearbeitungssymbol am rechten Rand. Zusätzliche Stichwörter tragen Sie in das große Feld ein. Unter der Zeile für die Änderung des Datums finden Sie die bereits eingerichteten Etiketten. Ein Dokument darf auch mehrere Etiketten tragen, also etwa zu Kategorien wie „Verträge“ und „Kunden“ gehören. Neue Etiketten legen Sie mit einem Klick auf das Pluszeichen an. Im nachfolgenden Dialog vergeben Sie einen Namen und wählen eine der angebotenen Farben.

Dokumente finden und exportieren: Dank OCR-Behandlung liegen die gescannten Dokumente im Volltext vor. Um ein Schriftstück zu finden, geben Sie in die Suchleiste am oberen linken Rand den Suchbegriff ein und erhalten dann eine Trefferliste. Handelt es sich bei der Eingabe um ein Wort, das im Text der Datei erscheint, wird die Fundstelle farbig markiert. Bezieht sich der Treffer auf ein Stichwort, fehlt diese Kennzeichnung.

Die erweiterte Suchfunktion arbeitet mit logischen Operatoren. Die Maske dazu öffnet sich, sobald Sie auf das kleine Icon rechts neben der Suchmaske klicken. Dort kombinieren Sie eine Suche aus Stichwörtern und Etiketten oder definieren zusätzlich einen Datumsbereich. Um den Treffer weiterzubearbeiten, kennt Paperwork nicht nur den Ausdruck. Benötigen Sie einzelne Passagen, markieren Sie diese mit der Maus und klicken auf das dann eingeblendete Icon, um den Inhalt in die Zwischenablage zu übernehmen. Mit „Open Directory“ wechseln Sie im Dateimanager in den Ordner, wo das Original liegt. Außerdem gibt es eine Exportfunktion, welche die jeweils aktuelle Seite oder das gesamte Dokument exportiert. Entscheiden Sie sich für das vollständige Dokument, entsteht erneut ein PDF.

Stapelverarbeitung bei Einzugsscannern

Das Einlesen größerer Mengen an Dokumenten ist ein zeitaufwendiger Prozess. Besonders leistungsstarke Systeme wie die Scansnap-Familie von Fujitsu oder Brother bieten die Option, direkt auf einen USB-Massenspeicher zu scannen. Damit können Sie den Papierstapel einlegen, den USB-Stick anschließen und den Scanvorgang beginnen. Je nach verwendetem Modell haben Sie die Möglichkeit, das Dateiformat für diesen Weg zu bestimmen. Am Ende schließen Sie den Stick unter Linux an und lassen Paperwork die gespeicherten Dokumente von dort einlesen.