Tabellen aus PDF nach Excel extrahieren (ohne Abtippen)
- how-to
- pdf-to-excel
Eine Tabelle von Hand aus einem PDF herauszukopieren ist langsam und fehleranfällig. Du markierst eine Zeile, fügst sie in Excel ein, und die Zahlen landen in einer einzigen Zelle statt in fünf. Dann verbringst du zwanzig Minuten damit, Spalten zu trennen. Läuft die Tabelle über zwei Seiten, fängst du von vorne an. Dieser Beitrag erklärt, wie du Tabellen aus PDF nach Excel schneller extrahierst, was gut funktioniert und welche Teile noch ein menschliches Auge brauchen.
Erst die ehrliche Einordnung: Das funktioniert nur bei digitalen, textbasierten PDFs. Ist deine Datei ein Scan oder ein Foto einer Seite, helfen die folgenden Schritte allein nicht weiter. Ein Scan ist für den Computer nur ein Bild; es gibt keinen Text zum Herausziehen. docuconverter macht kein OCR, deshalb muss eine gescannte Datei erst woanders in ein digitales PDF verwandelt werden. Mehr dazu weiter unten.
Wer das braucht
Die meisten, die Tabellen aus einem PDF holen wollen, lassen sich in ein paar Gruppen einteilen. Die Daten sind bereits in Zeilen und Spalten angeordnet. Sie brauchen sie nur in einer Tabellenkalkulation, um sie zu sortieren, zu summieren oder als Diagramm darzustellen.
- Konto- und Kartenauszüge. Transaktionen, Daten, Beträge. Die Leute wollen sie in Excel, um Ausgaben zu verfolgen oder sie vor der Steuererklärung an die Buchhaltung zu geben.
- Rechnungen und Bestellungen. Positionen, Mengen, Einzelpreise, GST. Nützlich zum Abgleich mit Bestellungen oder zum Aufbau einer Monatssumme.
- Berichte und Forschung. Quartalszahlen, Umfrageergebnisse, Preislisten. Für alle, die mit einer Tabelle rechnen müssen, die als PDF angekommen ist.
- Behörden- und Prüfungsdaten. Ergebnislisten, Gebührentabellen, Ausschreibungslisten. Diese kommen oft als PDFs, ohne dass eine Tabellenversion angeboten wird.
In all diesen Fällen existiert die Tabelle bereits. Die Aufgabe ist, sie zu verschieben, ohne sie abzutippen und ohne die Spaltenstruktur zu zerstören.
Wie docuconverter Tabellen erkennt
docuconverter nutzt Docling, einen auf maschinellem Lernen basierenden Tabellen-Extraktor, um Tabellen in einem PDF zu finden. Es greift nicht einfach den Text und rät, wo die Spalten liegen. Es betrachtet das Layout der Seite, findet die Blöcke, die sich wie eine Tabelle verhalten, und bildet die Zeilen und Spalten in ein Raster ab.
Die Schritte sind kurz:
- Öffne das PDF-zu-Excel-Tool und lade dein PDF hoch.
- Melde dich mit deinem Google-Konto an, wenn du dazu aufgefordert wirst.
- Die Engine durchsucht die Datei und zieht jede Tabelle heraus, die sie findet.
- Lade die
.xlsx-Datei herunter und öffne sie in Excel, Google Drive oder LibreOffice Calc.
Hat dein PDF mehrere Tabellen über verschiedene Seiten verteilt, wird jede erkannte Tabelle in der Ausgabedatei auf ein eigenes Tabellenblatt gelegt. Ein sechsseitiger Bericht mit einer Tabelle pro Seite ergibt also eine Arbeitsmappe mit sechs Registerkarten, und die ursprüngliche Struktur bleibt auf jedem Blatt erhalten.
Ein Hinweis zum Zugang: Anonyme Nutzer:innen erhalten ein paar Konvertierungen pro Tag, bevor eine Anmelde-Aufforderung kommt. Es gibt keine Kreditkarte und keine Anmeldung per E-Mail. Deine hochgeladene Datei wird etwa 30 Minuten nach dem Download des Ergebnisses vom Server gelöscht, sie liegt also nicht lange auf einem Server, nachdem du fertig bist.
Saubere digitale PDFs versus unordentliche
Die Qualität des Ergebnisses hängt stark von der Tabelle in der Quelldatei ab. Bei sauberen Tabellen ist die Erkennung gut. Schwieriger wird es, wenn die Tabelle selbst ungewöhnlich ist. Hier eine grobe Orientierung.
| Tabellentyp | Was zu erwarten ist |
|---|---|
| Einfaches Raster, ein Wert pro Zelle | Wird sauber extrahiert, kaum bis keine Nacharbeit |
| Sichtbare Rahmen und Überschriften | Zuverlässig erkannt, Spalten richten sich gut aus |
| Verbundene Zellen (eine Überschrift über mehrere Spalten) | Erkannt, aber die Verbindung muss eventuell von Hand korrigiert werden |
| Mehrzeilige Zellen (Text läuft innerhalb einer Zelle um) | Kann in zusätzliche Zeilen zerfallen, die du wieder zusammenführen musst |
| Keine Rahmen, nur durch Abstände getrennte Spalten | Funktioniert meist, aber die Spaltenkanten können verrutschen |
| Zwei Tabellen, die ohne Lücke aneinanderstoßen | Können als eine Tabelle gelesen werden |
Ein sauberer, moderner Auszug oder eine gut gebaute Rechnung kommen meist mit intakten Spalten durch. Die Fälle, die einen Menschen brauchen, sind die ausgefallenen: eine Überschriftenzelle, die sich über drei Spalten erstreckt, eine Notizspalte, in der jeder Eintrag auf zwei Zeilen läuft, oder eine Tabelle, die so dicht an eine andere gepackt ist, dass die Engine nicht erkennen kann, wo die eine endet.
Das ist die ehrliche Grenze. Das Tool ist gut darin, Tabellen zu finden und herauszuheben, aber es kann deine Absicht bei einer verbundenen oder umgebrochenen Zelle nicht lesen. Es trifft eine vernünftige Entscheidung, und manchmal ist das nicht die, die du wolltest.
Was ist mit gescannten PDFs
Das ist der Punkt, bei dem Klarheit wichtig ist. Ist dein PDF ein Scan, ein Foto oder ein Export aus einem Fax, ist die Seite als Bild gespeichert. Darunter liegt keine Textebene. Für einen Tabellen-Extraktor ist diese Seite ein Bild ohne Zeilen und ohne Spalten zum Auslesen.
Text aus einem Bild zu ziehen braucht OCR, eine eigene Art der Verarbeitung. docuconverter bietet kein OCR. Ein gescanntes PDF liefert hier also keine brauchbare Tabelle. Das Tool gibt möglicherweise eine leere oder fast leere Datei zurück, weil es nichts zu lesen gab.
Hast du einen Scan, ist die Lösung, ihn zuerst in ein digitales PDF zu verwandeln, und zwar irgendwo, wo OCR gemacht wird. Viele Scanner-Apps und manche Desktop-PDF-Programme können OCR ausführen und ein "durchsuchbares PDF" mit einer echten Textebene speichern. Sobald du diese textbasierte Version hast, bring sie zurück zu docuconverter, und die Tabellenextraktion funktioniert auf die normale Weise.
Ein kurzer Test, bevor du anfängst: Öffne dein PDF und versuche, eine Textzeile mit der Maus zu markieren. Kannst du einzelne Wörter hervorheben, ist es ein digitales PDF und du kannst loslegen. Markiert dein Cursor die ganze Seite als ein einziges Bild, ist es ein Scan und braucht erst OCR.
Nacharbeit nach dem Export
Auch bei einer sauberen Datei solltest du ein paar Minuten einplanen, um die Tabelle aufzuräumen. Das ist bei jedem PDF-zu-Tabelle-Ablauf normal und kein Fehler eines einzelnen Tools. Hier ist, worauf du achten solltest.
- Zahlenformatierung. Beträge können als Text ankommen, besonders mit Währungssymbolen oder Tausendertrennzeichen. Markiere die Spalte und stelle sie auf ein Zahlenformat, damit Summen funktionieren.
- Datumsangaben. Ein als "05-06-2026" geschriebenes Datum wird möglicherweise als Text gelesen. Formatiere die Spalte neu, wenn deine Formeln die Daten nicht erkennen.
- Verbundene Überschriften. Erstreckte sich eine Überschrift im PDF über mehrere Spalten, hebe die Verbindung auf und tippe die Spaltentitel neu, damit jede Spalte einen eigenen klaren Namen hat.
- Geteilte Zeilen. Eine Zelle, die im PDF auf zwei Zeilen umbrach, kann als zwei Zeilen landen. Führe sie wieder zusammen, damit jeder Datensatz in einer Zeile sitzt.
- Verirrte Spalten. Manchmal erzeugt eine schmale Lücke im Layout eine zusätzliche leere Spalte. Lösche sie.
- Fußnoten und Summen. Eine "Summe"-Zeile oder eine Fußnote am Ende der Tabelle kann als Daten durchkommen. Verschiebe oder entferne sie, damit sie keine Summen verzerrt.
Eine gute Angewohnheit ist, erst zu extrahieren und dann eine Spalte zu sortieren. Springt ein Wert an die falsche Stelle, hat diese Zeile wahrscheinlich ein Formatierungsproblem, das sich zu beheben lohnt, bevor du den Zahlen vertraust.
Wenn Excel nicht das ist, was du willst
Manchmal ist die Tabelle Teil eines größeren Dokuments, und du willst eigentlich das Ganze bearbeiten, nicht mit Zahlen rechnen. Geht es darum, ein paar Wörter in einem Vertrag oder Bericht zu ändern, statt zu rechnen, ist der Umweg über die Tabellenkalkulation der lange Weg.
Für kleine Textänderungen direkt im PDF ist Text im PDF direkt zu bearbeiten oft schneller. Und wenn du das ganze Dokument in einem bearbeitbaren Format mit Absätzen und Überschriften statt eines Zellrasters brauchst, ist das PDF in Word umzuwandeln die bessere Wahl. Nimm den Excel-Weg, wenn es dir auf die Daten in der Tabelle ankommt.
Kurzfassung
Um Tabellen aus PDF nach Excel zu extrahieren: Stelle sicher, dass das PDF digital ist, indem du versuchst, seinen Text zu markieren, lade es in das PDF-zu-Excel-Tool hoch und lade die .xlsx herunter, mit jeder Tabelle auf einem eigenen Blatt. Rechne damit, dass saubere Raster gut durchkommen und verbundene oder mehrzeilige Zellen ein wenig manuelle Nacharbeit brauchen. Gescannte Dateien funktionieren nicht, bis sie woanders durch OCR gelaufen und als digitales PDF gespeichert wurden. Nichts davon braucht eine Kreditkarte, und deine Datei wird etwa eine halbe Stunde nach dem Download vom Server entfernt.
Fragen? Schreib an info@docuconverter.in
Sheo