Praxisbeispiel paperless-ngx: Kassenzettel und Rechnung automatisch erkennen
Was ist paperless-ngx?
Bevor wir in die Tiefe des Programms einsteigen, möchte ich auch die Leserinnen und Leser abholen, die das Problem der Klassifizierung gerne lösen würden, aber noch kein Tool dafür haben. In diesem Artikel geht es um paperless-ngx, eine kostenlose Dokumentenmanagement-Software. Hier habe ich das Tool vorgestellt.
Außerdem gibt es hier einen umfangreichen Videokurs zu paperless-ngx.
Problemstellung: Automatische Klassifierung einer Rechnung
Heute möchte ich anhand eines sehr einfachen Praxisbeispiels zeigen, wie man mit paperless-ngx automatisiert Dokumente klassifizieren kann. Das Ziel ist es, dass eine in Papierform vorliegende Rechnung gescannt und anschließend von paperless-ngx als Rechnung erkannt wird.
Vorüberlegungen zur Klassifizierung mit paperless-ngx
Um möglichst treffsicher zu klassifizieren, müssen wir uns in die Rolle von paperless-ngx versetzen. Wie würden wir einem Grundschüler, der gerade erst lesen gelernt hat, beibringen, eine Rechnung zu erkennen?
Ganz offentlichlich kommt das Wort "Rechnung" fast immer vor. Aber leider nicht immer. Wenn es sich um eine Rechnung handelt, bei der wir beispielweise mit Karte bezahlt haben, findest du ziemlich sicher auch noch das Wort "Signaturzähler" auf dem Kassenzettel.
Und ja, mir ist bewusst, dass ein Kassenzettel nicht unbedingt das gleiche wie eine Rechnung ist, aber im privaten Alltag fallen diese beiden Typen oft in die gleiche Kategorie. Wir halten also fest: paperless-ngx soll ein Dokument genau dann als Rechnung klassifizieren, wenn es die Wörter "Rechnung" und / oder "Signaturzähler" entdeckt.
Erstellung der Klassifizierung in paperless-ngx
Es gibt in paperless-ngx mehrere Möglichkeiten zum Klassifizieren:
- Korrespondent
- Tags
- Dokumenttyp
- Speicherpfad
In unserem Beispiel wollen wir die Klasse "Dokumententyp" anhand von Regeln zuweisen ("Rechnung" und / oder "Signaturzähler" sollen vorkommen, dann ist es eine Rechnung).
Zunächst klicken wir auf "Dokumenttypen" und dann oben rechts auf "Erstellen".
Dann geben wir dem Dokumenttyp einen aussagekräftigen Namen, ich wähle hier "Rechnung".
Anschließend kommt der spannende Teil: Wir weisen dem Dokumenttyp "Rechnung" einen Zuweisungsalgorithmus zu. Dieser bestimmt, unter welchen Bedingungen ein Dokument als Rechnung erkannt wird.
Hierbei wählen wir "Irgendein Wort: Dokument enthält eines der folgenden Wörter:" und geben in die Zeile darunter "Rechnung Signaturzähler" ein.
Wichtig: die Wörter werden durch ein simples Leerzeichen voneinander getrennt.
Danach klicken wir auf "Speichern" und unsere Klassifizierung ist aktiv.
Achtung: Diese Klassifizierung gilt nur für neue Dokumente und wirkt sich vorerst nicht auf bestehende Dokumente aus! Dieses Problem lösen wir im letzten Schritt:
Bisherige Dokumente neu klassifizieren lassen
Um unsere bisherigen Dokumente neu klassifizieren zu lassen, müssen wir tiefer ins System einsteigen und uns mit SSH mit unserem Server (z.B. einem Synology NAS) verbinden:
ssh <admin-account>@<ip des servers>
Anschließend geben wir das passwort des Admin-Benutzers ein.
Jetzt navigieren wir dorthin, wo sich unsere paperless-ngx-Konfiguration befindet. Wenn du meinen Anleitungen zur Installation gefolgt bist, geht das so:
cd /volume1/docker/paperless-ngx/config
Abschließend führen wir noch den Befehl aus, der die Klassifizierung aller bisherigen Dokumente nach dem Dokumenttyp bewirkt:
sudo docker-compose exec webserver document_retagger -t
Fertig!
Noch mehr Infos zu paperless-ngx
Wenn du diesen Praxis-Artikel interessant fandest, dann könnte die paperless-ngx Masterclass genau das Richtige für dich sein: Hier erkläre ich dir in über 2:30 h Video-Laufzeit ganz genau, wie du paperless-ngx auf deinem Synology-NAS erfolgreich betreibst. Von der Installation über die Einrichtung des Scanners, vernünftige Backups und auch Verwaltung ist alles dabei.