Skip to main content

Come estrarre tabelle da PDF a Excel (senza riscriverle a mano)

Pubblicato ilDi Sheo
  • how-to
  • pdf-to-excel

Copiare una tabella da un PDF a mano è lento e soggetto a errori. Selezioni una riga, la incolli in Excel e i numeri finiscono tutti in una cella invece di cinque. Poi passi venti minuti a dividere le colonne. Se la tabella si estende su due pagine, ricominci da capo. Questo post spiega come estrarre tabelle da PDF a Excel nel modo più veloce, cosa funziona bene e quali parti richiedono ancora un occhio umano.

Prima un perimetro onesto: funziona solo su PDF digitali, basati su testo. Se il tuo file è una scansione o la foto di una pagina, i passaggi qui sotto da soli non ti aiuteranno. Per il computer una scansione è solo un'immagine; non c'è testo da estrarre. docuconverter non fa OCR, quindi un file scansionato va prima trasformato altrove in un PDF digitale. Ne parliamo più avanti.

Chi ne ha bisogno

La maggior parte di chi vuole estrarre tabelle da un PDF rientra in pochi gruppi. I dati sono già disposti in righe e colonne. Serve solo averli in un foglio di calcolo per poterli ordinare, sommare o trasformare in grafico.

  • Estratti conto bancari e di carte. Transazioni, date, importi. Le persone li vogliono in Excel per tenere traccia delle spese o per consegnarli a un commercialista prima della dichiarazione dei redditi.
  • Fatture e ordini d'acquisto. Voci di dettaglio, quantità, prezzi unitari, GST. Utili per riconciliare con gli ordini o per costruire un totale mensile.
  • Report e ricerche. Numeri trimestrali, risultati di sondaggi, listini prezzi. Chiunque debba fare calcoli su una tabella arrivata come PDF.
  • Dati governativi e d'esame. Fogli di risultati, tabelle delle tariffe, elenchi di gare d'appalto. Spesso arrivano come PDF senza che venga offerta una versione in foglio di calcolo.

In tutti questi casi la tabella esiste già. Il compito è spostarla senza riscriverla e senza rompere la struttura delle colonne.

Come docuconverter rileva le tabelle

docuconverter usa Docling, un estrattore di tabelle basato sul machine learning, per trovare le tabelle dentro un PDF. Non si limita a prendere il testo e a indovinare dove sono le colonne. Esamina il layout della pagina, individua i blocchi che si comportano come una tabella e mappa righe e colonne in una griglia.

I passaggi sono pochi:

  1. Apri lo strumento PDF to Excel e carica il tuo PDF.
  2. Accedi con il tuo account Google quando richiesto.
  3. Il motore analizza il file ed estrae tutte le tabelle che trova.
  4. Scarica il file .xlsx e aprilo in Excel, Google Sheets o LibreOffice Calc.

Se il tuo PDF contiene più tabelle su pagine diverse, ogni tabella rilevata viene collocata su un proprio foglio nel file di output. Così un report di sei pagine con una tabella per pagina ti dà una cartella di lavoro con sei schede, e la struttura originale viene conservata in ciascuna.

Una nota sull'accesso: gli utenti anonimi hanno un paio di conversioni al giorno prima di una richiesta di accesso. Non serve carta di credito né registrazione via email. Il file caricato viene eliminato dal server circa 30 minuti dopo che scarichi il risultato, quindi non resta sul server a lungo dopo che hai finito.

PDF digitali puliti contro quelli disordinati

La qualità del risultato dipende molto dalla tabella nel file sorgente. Il rilevamento è buono sulle tabelle pulite. Diventa più difficile quando la tabella stessa è insolita. Ecco una guida di massima.

Tipo di tabellaCosa aspettarsi
Griglia semplice, un valore per cellaSi estrae in modo pulito, poca o nessuna pulizia
Bordi e intestazioni visibiliRilevata in modo affidabile, le colonne si allineano bene
Celle unite (un'intestazione che copre più colonne)Rilevata, ma l'unione potrebbe richiedere una correzione manuale
Celle su più righe (testo a capo dentro una cella)Potrebbe dividersi in righe extra da ricongiungere
Nessun bordo, colonne separate solo da spaziDi solito funziona, ma i margini delle colonne possono spostarsi
Due tabelle attaccate senza spazioPotrebbero essere lette come un'unica tabella

Un estratto conto pulito e moderno o una fattura ben costruita di solito arrivano con le colonne intatte. I casi che richiedono un intervento umano sono quelli più elaborati: una cella di intestazione che copre tre colonne, una colonna note in cui ogni voce va a capo su due righe, oppure una tabella così appiccicata a un'altra che il motore non capisce dove finisce l'una.

Questo è il limite onesto. Lo strumento è bravo a trovare ed estrarre le tabelle, ma non può leggere le tue intenzioni su una cella unita o con testo a capo. Fa una scelta ragionevole, e a volte quella scelta non è quella che volevi.

E i PDF scansionati?

Questa è la parte da chiarire bene. Se il tuo PDF è una scansione, una foto o un'esportazione da fax, la pagina è memorizzata come immagine. Sotto non c'è alcuno strato di testo. Per un estrattore di tabelle quella pagina è un'immagine senza righe né colonne da leggere.

Estrarre testo da un'immagine richiede l'OCR, che è un tipo di elaborazione separato. docuconverter non offre l'OCR. Quindi un PDF scansionato qui non ti darà un foglio di calcolo utilizzabile. Lo strumento potrebbe restituire un file vuoto o quasi, perché non c'era nulla da leggere.

Se hai una scansione, la soluzione è trasformarla prima in un PDF digitale, in un posto che faccia OCR. Molte app per scanner e alcuni programmi PDF desktop possono eseguire l'OCR e salvare un "PDF ricercabile" con un vero strato di testo. Una volta ottenuta quella versione basata su testo, riportala su docuconverter e l'estrazione delle tabelle funzionerà nel modo normale.

Un test rapido prima di iniziare: apri il tuo PDF e prova a selezionare una riga di testo con il mouse. Se riesci a evidenziare singole parole, è un PDF digitale e sei a posto. Se il cursore seleziona l'intera pagina come un'unica immagine, è una scansione e serve prima l'OCR.

Pulizia dopo l'esportazione

Anche su un file pulito, metti in conto qualche minuto per sistemare il foglio di calcolo. È normale in qualsiasi flusso di lavoro da PDF a tabella, non un difetto di uno strumento specifico. Ecco cosa controllare.

  • Formattazione dei numeri. Gli importi possono arrivare come testo, soprattutto con simboli di valuta o separatori delle migliaia. Seleziona la colonna e impostala su un formato numerico così i totali funzionano.
  • Date. Una data scritta come "05-06-2026" potrebbe essere letta come testo. Riformatta la colonna se le tue formule non riconoscono le date.
  • Intestazioni unite. Se un'intestazione copriva più colonne nel PDF, separala e riscrivi i titoli così ogni colonna ha un nome chiaro.
  • Righe divise. Una cella andata a capo su due righe nel PDF può finire come due righe. Ricongiungile così ogni record sta su una sola riga.
  • Colonne vaganti. A volte un sottile spazio nel layout crea una colonna vuota in più. Eliminala.
  • Note a piè di pagina e totali. Una riga "Totale" o una nota a piè di pagina in fondo alla tabella può arrivare come dato. Spostala o rimuovila così non altera le somme.

Una buona abitudine è estrarre prima e poi ordinare una colonna. Se un valore salta nel posto sbagliato, quella riga ha probabilmente un problema di formattazione che vale la pena correggere prima di fidarti dei numeri.

Quando Excel non è ciò che vuoi

A volte la tabella fa parte di un documento più ampio e in realtà vuoi modificare l'intero documento, non fare calcoli. Se l'obiettivo è cambiare qualche parola in un contratto o in un report invece che fare matematica, la via del foglio di calcolo è quella più lunga.

Per piccole modifiche di testo dentro il PDF stesso, modificare il testo nel PDF direttamente è spesso più rapido. E se ti serve l'intero documento in un formato modificabile con paragrafi e titoli invece di una griglia di celle, convertire il PDF in Word è la scelta migliore. Usa la via di Excel quando ciò che ti interessa sono i dati nella tabella.

In breve

Per estrarre tabelle da PDF a Excel: conferma che il PDF sia digitale provando a selezionarne il testo, caricalo sullo strumento PDF to Excel e scarica il file .xlsx con ogni tabella sul proprio foglio. Aspettati che le griglie pulite arrivino bene e che le celle unite o su più righe richiedano un po' di pulizia manuale. I file scansionati non funzioneranno finché non vengono passati attraverso l'OCR altrove e salvati come PDF digitale. Niente di tutto questo richiede una carta di credito, e il tuo file viene rimosso dal server circa mezz'ora dopo il download.

Domande? scrivi a info@docuconverter.in

Sheo