Zu Inhalt springen
Ganze E-Mails, Word-Dokumente, Excel-Tabellen und PowerPoint-Präsentationen von paperless-ngx konsumieren lassen

Ganze E-Mails, Word-Dokumente, Excel-Tabellen und PowerPoint-Präsentationen von paperless-ngx konsumieren lassen

Paperless-ngx kann mehr als nur PDFs!

Zumindest mit gewissen Erweiterungen stimmt das:

Wer Gebrauch vom vollen Funktionsumfang von paperless-ngx machen möchte, für den ist dieser Blogbeitrag genau richtig. Hier lernst du, wie du paperless-ngx einrichtest, um die Grundlage für Folgendes zu schaffen:

  • Emails als *.eml in paperless-ngx importieren
  • Word-Dokumente in paperless importieren
  • Excel-Tabellen in paperless importieren
  • PowerPoint-Präsentationen in paperless-ngx importieren

Im Grunde also vor allem Office-Dokumente, die kein PDF sind, die du aber dennoch in paperless-ngx importieren möchtest. Legen wir los!

Die richtige Konfiguration

Docker-Compose, was ist das eigentlich?

Wie du möglicherweise schon weißt, nutzt paperless-ngx Docker, vereinfacht gesagt ein Programm, das dabei hilft, verschiedene Programme nach außen hin als ein “Tool” wirken zu lassen. Und bei paperless-ngx ist das genauso: Es gibt den Webserver, den du über den Browser erreichst, dann gibt es die Datenbank, in der die eigentlichen Daten liegen, außerdem noch Redis, ein Programm, das dafür sorgt, dass alle Aufgaben erledigt werden. All das ist dank Docker(-Compose) nach außen hin mehr oder weniger eine Einheit.

Das Schöne ist: Du kannst diese Einheit erweitern, indem du weitere nützliche Programme hinzufügst, auf die paperless-ngx zugreifen kann. Für unseren Fall, nämlich Office-Dokumente und E-Mails, heißen diese Tools tika und gotenberg.

Es gibt hierfür eine Konfigurationsdatei, die Docker(-Compose) sagt, welche Programme zu dieser Einheit gehören und wie diese Programme miteinander interagieren sollen. Diese Datei heißt meistens “docker-compose.yml”. Du kannst sie mit einem Text-Editor öffnen, ich empfehle jedoch Visual Studio Code.

Wo bekomme ich diese Konfigurationsdatei her?

Die Konfigurationsdatei kannst du dir kostenlos auf der GitHub-Seite von paperless-ngx herunterladen.

Ich habe im Shop außerdem ein speziell für Synology-NAS angepasste Konfiguration samt nötiger Ordnerstruktur im Angebot, du kannst diese einfach kaufen, herunterladen und als Basis für die nächsten Schritte nehmen.

Die Konfiguration erweitern

Öffne dazu die Datei “docker-compose.yml” im Ordner “config” in Visual Studio Code.

Füge die folgenden Zeilen im Abschnitt “webserver” > “environment” hinzu:

PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: <http://gotenberg:3000>
PAPERLESS_TIKA_ENDPOINT: <http://tika:9998>

Füge dann auf der gleichen Einzugsebene wie “webserver” und “db” folgende Zeilen hinzu:

gotenberg:
    image: docker.io/gotenberg/gotenberg:7.8
    restart: unless-stopped

    # The gotenberg chromium route is used to convert .eml files. We do not
    # want to allow external content like tracking pixels or even javascript.
    command:
      - "gotenberg"
      - "--chromium-disable-javascript=true"
      - "--chromium-allow-list=file:///tmp/.*"

  tika:
    image: ghcr.io/paperless-ngx/tika:latest
    restart: unless-stopped

Du kannst dich dabei an der folgenden Struktur orientieren:

https://github.com/paperless-ngx/paperless-ngx/blob/main/docker/compose/docker-compose.postgres-tika.yml

Aber Vorsicht: Hier sind die Pfade, etc. noch nicht an deinen Synology-NAS angepasst. Wenn du nicht sicher bist, wie das geht, habe ich dir hier die Basiskonfiguration erstellt, die du nur noch wie hier beschrieben erweitern musst:

Paperless-ngx neu starten

Jetzt musst du paperless-ngx nur noch neu starten, die neuesten Aktualisierungen installieren und schon bist du bereit für Office-Dokumente:

# Im Ordner "config":
sudo docker-compose down
sudo docker-compose pull
sudo docker-compose up -d

Hier musst du möglicherweise noch das Passwort deines Synology-Benutzers (Administrator) eingeben.

Ganzer Videokurs zu paperless-ngx auf einem Synology-NAS

Wenn dir das alles etwas zu viel ist und du lieber Schritt für Schritt begleitet werden möchtest, habe ich genau das Richtige für dich!

Ich habe einen Videokurs mit über 2 Stunden Schritt-für-Schritt-Videos erstellt, mit dem du von Anfang bis Ende alles lernst, was du über paperless-ngx auf Synology NAS wissen musst:

Hier gehts zum Videokurs (hier klicken)!

Was kann paperless-ngx mit Office-Dokumenten?

Der Workflow funktioniert nun so:

Paperless-ngx merkt, dass es kein PDF ist und lässt Tika und Gotenberg die Konvertierungsarbeit übernehmen. Hier wird aus deinen Office-Dokumenten ein PDF erstellt, welches dann in paperless-ngx importiert werden kann.

Du kannst dir jederzeit das Original wieder herunterladen, indem du in der Detailansicht auf "Herunterladen" > "Original" klickst.

Nächster Artikel Ordnerstruktur beim Import zu paperless-ngx in Tags umwandeln: So gehts!

Kommentare

Sascha – April 25, 2023

Hallo zusammen
habe gemäss dem masterclass Kurs installiert, habt ihr auch Probleme das die mails nicht korrekt angezeigt werden mit den Sonderzeichen umlaute öäü ?

hat einer eine Idee ?

Lars – April 4, 2023

Noch ein kleiner Nachtrag. Die gelöschten Zeilen mussten doch mit rein, sonst funktioniert es nicht. Allerdings musste bei mir nach dme Bindestrich bei den Ports noch ein Leerzeichen stehen. Also anstatt
-3000:3000 und -9998:9998
- 3000:3000 und – 9998:9998
Vielen Dank für die Hilfe

Lars – April 3, 2023

Vielen Dank für deine Hilfe Michael!!!! 4 Pfeile entfernt und schon läuft das ganze. Unglaublich.
Anfangs hatte ich zwar noch die Meldgung:
Error while converting document to PDF: 503 Server Error: Service Unavailable for url: http://gotenberg:3000/forms/libreoffice/convert
Aktuell gibt es keine Probleme. Die Extra Zeilen:
container_name: PaperlessNGX-GOTENBERG
ports:
– 3000:3000
und
container_name: PaperlessNGX-TIKA
ports:
– 9998:9998
habe ich wieder entfernt.
Besten Dank nochmals! 5 Sterne für Dich

Michael – April 2, 2023

für Lars

das ist der text von Stefan
PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: <http://gotenberg:3000>
PAPERLESS_TIKA_ENDPOINT: <http://tika:9998>

versuche stattdessen mal

PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
PAPERLESS_TIKA_ENDPOINT: http://tika:9998

also ohne die Pfeile

Lars – April 2, 2023

Vielen Dank für die Antwort. Habe die yml entsprechend angepasst. Leider bekomme ich weiterhin die gleiche Fehlmeldung.
Could not parse /tmp/paperless/paperless-ngxe73dnudk/Test.docx with tika server at <http://tika:9998>: No connection adapters were found for ‘://None:80/rmeta/text’

Michael Lübbehüsen – April 2, 2023

für den Fehler der teils auftritt hat bei mir folgendes geholfen.
hierfür muss die yml angepasst werden wie folgt:
Hoffe das hilft einigen.

gotenberg:
image: docker.io/gotenberg/gotenberg:7.8
restart: unless-stopped
container_name: PaperlessNGX-GOTENBERG
ports:
– 3000:3000
command:
– “gotenberg”
– “—chromium-disable-routes=true”
tika:
image: ghcr.io/paperless-ngx/tika:latest
container_name: PaperlessNGX-TIKA
ports:
– 9998:9998
restart: unless-stopped

webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
restart: unless-stopped
depends_on:
– db
– broker
– gotenberg
– tika
ports:
– 8000:8000

Lars – April 1, 2023

Hi, habe gleiches Problem. Konfiguration ist aus dem Kurs und bekomme die selbe Fehlermeldung.
Dominic wie hast du es hinbekommen.

Dominic – März 30, 2023

Es hat sich erledigt, ich habe es nach viel Recherche zum Laufen bekommen :-)

Dominic – März 26, 2023

Hallo,
ich verwende die Konfiguration, welche ich von Ihrer Webseite gekauft habe.
Soweit funktioniert auch alles.
Nun habe ich die Erweiterungen Tika / Gotenberg wie hier beschrieben installiert, erhalte beim hochladen von Mails, Word oder Excel Dokumenten aber folgende Fehlermeldung (Die meldung ist bei allen 3 Dateitypen die gleich):

Test.xlsx: Error while consuming document Test.xlsx: Could not parse /tmp/paperless/paperless-ngx33bsz2dg/Test.xlsx with tika server at <http://tika:9998>: No connection adapters were found for ‘://None:80/rmeta/text’

Haben Sie eine Idee, was hier das Problem sein könnte?

Einen Kommentar hinterlassen

* Erforderliche Felder