Skip to main content

Comment extraire des tableaux d'un PDF vers Excel (sans tout retaper)

Publié lePar Sheo
  • how-to
  • pdf-to-excel

Copier un tableau d'un PDF à la main est lent et source d'erreurs. Vous sélectionnez une ligne, vous la collez dans Excel, et les chiffres atterrissent dans une seule cellule au lieu de cinq. Puis vous passez vingt minutes à découper les colonnes. Si le tableau s'étale sur deux pages, vous recommencez tout. Cet article explique comment extraire des tableaux d'un PDF vers Excel de façon plus rapide, ce qui fonctionne bien, et les parties qui demandent encore un œil humain.

Le périmètre honnête d'abord : cela ne fonctionne que sur les PDF numériques, textuels. Si votre fichier est un scan ou la photo d'une page, les étapes ci-dessous ne suffiront pas à elles seules. Pour l'ordinateur, un scan n'est qu'une image ; il n'y a aucun texte à extraire. docuconverter ne fait pas d'OCR, donc un fichier scanné doit d'abord être transformé en PDF numérique ailleurs. Nous y reviendrons plus bas.

Qui en a besoin

La plupart des gens qui veulent extraire des tableaux d'un PDF se répartissent en quelques groupes. Les données sont déjà disposées en lignes et en colonnes. Il leur faut juste les avoir dans un tableur pour pouvoir les trier, les additionner ou en faire un graphique.

  • Relevés bancaires et de carte. Transactions, dates, montants. Les gens veulent les avoir dans Excel pour suivre leurs dépenses ou les transmettre à un comptable avant de déclarer leurs impôts.
  • Factures et bons de commande. Lignes d'articles, quantités, prix unitaires, GST. Utile pour rapprocher les commandes ou construire un total mensuel.
  • Rapports et recherches. Chiffres trimestriels, résultats de sondage, listes de prix. Toute personne qui doit faire des calculs sur un tableau arrivé sous forme de PDF.
  • Données administratives et d'examens. Feuilles de résultats, grilles de frais, listes d'appels d'offres. Elles arrivent souvent en PDF sans version tableur proposée.

Dans tous ces cas, le tableau existe déjà. Le travail consiste à le déplacer sans le retaper et sans casser la structure des colonnes.

Comment docuconverter détecte les tableaux

docuconverter utilise Docling, un extracteur de tableaux à apprentissage automatique, pour trouver les tableaux à l'intérieur d'un PDF. Il ne se contente pas de récupérer le texte en devinant où sont les colonnes. Il analyse la mise en page de la page, repère les blocs qui se comportent comme un tableau, et associe les lignes et les colonnes à une grille.

Les étapes sont courtes :

  1. Ouvrez l'outil PDF vers Excel et téléversez votre PDF.
  2. Connectez-vous avec votre compte Google lorsque l'on vous le demande.
  3. Le moteur analyse le fichier et extrait chaque tableau qu'il trouve.
  4. Téléchargez le fichier .xlsx et ouvrez-le dans Excel, Google Sheets ou LibreOffice Calc.

Si votre PDF comporte plusieurs tableaux répartis sur différentes pages, chaque tableau détecté est placé sur sa propre feuille dans le fichier de sortie. Ainsi, un rapport de six pages avec un tableau par page vous donne un classeur de six onglets, et la structure d'origine est conservée sur chacun.

Une note sur l'accès : les utilisateurs anonymes ont droit à deux conversions par jour avant une invitation à se connecter. Pas de carte bancaire ni d'inscription par e-mail. Votre fichier téléversé est supprimé du serveur environ 30 minutes après que vous avez téléchargé le résultat, donc il ne reste pas sur un serveur longtemps après que vous avez terminé.

PDF numériques propres ou PDF brouillons

La qualité du résultat dépend beaucoup du tableau présent dans le fichier source. La détection est bonne sur les tableaux propres. Elle devient plus difficile quand le tableau lui-même est inhabituel. Voici un guide approximatif.

Type de tableauÀ quoi s'attendre
Grille simple, une valeur par celluleExtraction propre, peu ou pas de nettoyage
Bordures et en-têtes visiblesDétecté de façon fiable, les colonnes s'alignent bien
Cellules fusionnées (un en-tête couvrant plusieurs colonnes)Détecté, mais la fusion peut nécessiter une correction manuelle
Cellules multi-lignes (texte qui s'enroule dans une seule cellule)Peut se scinder en lignes supplémentaires à recoller
Sans bordures, colonnes définies par l'espacement seulFonctionne en général, mais les bords de colonnes peuvent se décaler
Deux tableaux accolés sans intervallePeut être lu comme un seul tableau

Un relevé propre et moderne ou une facture bien construite passe en général avec les colonnes intactes. Les cas qui demandent une intervention humaine sont les plus sophistiqués : une cellule d'en-tête qui s'étend sur trois colonnes, une colonne de notes où chaque entrée court sur deux lignes, ou un tableau si serré contre un autre que le moteur ne peut pas dire où l'un se termine.

C'est là la limite honnête. L'outil est bon pour trouver et extraire des tableaux, mais il ne peut pas lire votre intention sur une cellule fusionnée ou enroulée. Il fait un choix raisonnable, et parfois ce choix n'est pas celui que vous vouliez.

Et les PDF scannés ?

C'est le point sur lequel il faut être clair. Si votre PDF est un scan, une photo ou un export de fax, la page est stockée sous forme d'image. Il n'y a pas de couche de texte en dessous. Pour un extracteur de tableaux, cette page est une image sans ligne ni colonne à lire.

Extraire du texte d'une image nécessite l'OCR, qui est un type de traitement à part. docuconverter ne propose pas d'OCR. Donc un PDF scanné ne vous donnera pas de tableur utilisable ici. L'outil peut renvoyer un fichier vide ou quasi vide, parce qu'il n'y avait rien à lire.

Si vous avez un scan, la solution est d'abord de le transformer en PDF numérique, quelque part qui fait de l'OCR. De nombreuses applications de scan et certains logiciels PDF pour ordinateur peuvent exécuter l'OCR et enregistrer un « PDF cherchable » avec une vraie couche de texte. Une fois que vous avez cette version textuelle, ramenez-la dans docuconverter et l'extraction de tableaux fonctionnera normalement.

Un test rapide avant de commencer : ouvrez votre PDF et essayez de sélectionner une ligne de texte avec la souris. Si vous pouvez surligner des mots individuels, c'est un PDF numérique et vous êtes prêt. Si votre curseur sélectionne toute la page comme une seule image, c'est un scan qui nécessite d'abord l'OCR.

Nettoyage après l'export

Même sur un fichier propre, prévoyez de passer quelques minutes à ranger le tableur. C'est normal pour tout flux de travail PDF-vers-tableau, ce n'est pas la faute d'un outil en particulier. Voici ce qu'il faut vérifier.

  • Format des nombres. Les montants peuvent arriver sous forme de texte, surtout avec des symboles monétaires ou des séparateurs de milliers. Sélectionnez la colonne et appliquez-lui un format numérique pour que les totaux fonctionnent.
  • Dates. Une date écrite « 05-06-2026 » peut être lue comme du texte. Reformatez la colonne si vos formules ne reconnaissent pas les dates.
  • En-têtes fusionnés. Si un en-tête couvrait plusieurs colonnes dans le PDF, dissociez-le et retapez les titres pour que chaque colonne ait son propre nom clair.
  • Lignes scindées. Une cellule qui s'enroulait sur deux lignes dans le PDF peut atterrir sous forme de deux lignes. Recollez-les pour que chaque enregistrement tienne sur une seule ligne.
  • Colonnes parasites. Parfois, un mince intervalle dans la mise en page crée une colonne vide en trop. Supprimez-la.
  • Notes de bas de page et totaux. Une ligne « Total » ou une note en bas du tableau peut passer comme une donnée. Déplacez-la ou supprimez-la pour qu'elle ne fausse pas les sommes.

Une bonne habitude est d'extraire d'abord, puis de trier une colonne. Si une valeur saute au mauvais endroit, cette ligne a probablement un problème de format qui vaut la peine d'être corrigé avant de faire confiance aux chiffres.

Quand Excel n'est pas ce que vous voulez

Parfois, le tableau fait partie d'un document plus large et ce que vous voulez vraiment, c'est modifier l'ensemble, pas faire des calculs. Si le but est de changer quelques mots dans un contrat ou un rapport plutôt que de faire des maths, la voie du tableur est un détour.

Pour de petites modifications de texte directement dans le PDF, modifier le texte dans le PDF directement est souvent plus rapide. Et si vous avez besoin du document complet dans un format modifiable avec des paragraphes et des titres plutôt qu'une grille de cellules, convertir le PDF en Word est plus adapté. Empruntez la voie Excel quand ce qui vous importe, ce sont les données du tableau.

En bref

Pour extraire des tableaux d'un PDF vers Excel : confirmez que le PDF est numérique en essayant de sélectionner son texte, téléversez-le dans l'outil PDF vers Excel, et téléchargez le .xlsx avec chaque tableau sur sa propre feuille. Attendez-vous à ce que les grilles propres passent bien et à ce que les cellules fusionnées ou multi-lignes demandent un peu de nettoyage manuel. Les fichiers scannés ne fonctionneront pas tant qu'ils n'auront pas été passés à l'OCR ailleurs et enregistrés comme PDF numérique. Rien de tout cela ne nécessite de carte bancaire, et votre fichier est retiré du serveur environ une demi-heure après le téléchargement.

Des questions ? écrivez à info@docuconverter.in

Sheo