Skip to main content

Como extrair tabelas de PDF para Excel (sem redigitar)

Publicado emPor Sheo
  • how-to
  • pdf-to-excel

Copiar uma tabela de um PDF à mão é lento e propenso a erros. Você seleciona uma linha, cola no Excel, e os números caem em uma única célula em vez de cinco. Aí você passa vinte minutos separando colunas. Se a tabela se estende por duas páginas, faz tudo de novo. Este post explica como extrair tabelas de PDF para Excel do jeito mais rápido, o que funciona bem e as partes que ainda precisam de olho humano.

Primeiro o escopo honesto: isso só funciona em PDFs digitais, baseados em texto. Se o seu arquivo é um escaneamento ou uma foto de uma página, os passos abaixo não vão ajudar por si só. Para o computador, um escaneamento é apenas uma imagem; não há texto para extrair. O docuconverter não faz OCR, então um arquivo digitalizado precisa ser transformado em um PDF digital em outro lugar primeiro. Mais sobre isso adiante.

Quem precisa disso

A maioria das pessoas que quer tirar tabelas de um PDF se enquadra em alguns grupos. Os dados já estão dispostos em linhas e colunas. Elas só precisam deles em uma planilha para poder ordenar, somar ou montar gráficos.

  • Extratos bancários e de cartão. Transações, datas, valores. As pessoas querem isso no Excel para acompanhar gastos ou entregar a um contador antes de declarar impostos.
  • Faturas e ordens de compra. Itens, quantidades, preços unitários, GST. Útil para conferir contra pedidos ou montar um total mensal.
  • Relatórios e pesquisas. Números trimestrais, resultados de pesquisas, listas de preços. Qualquer pessoa que precise fazer contas em uma tabela que chegou como PDF.
  • Dados de governo e provas. Boletins de resultado, tabelas de taxas, listas de licitação. Esses muitas vezes chegam como PDFs sem nenhuma versão em planilha disponível.

Em todos esses casos, a tabela já existe. O trabalho é movê-la sem redigitar e sem quebrar a estrutura das colunas.

Como o docuconverter detecta tabelas

O docuconverter usa o Docling, um extrator de tabelas baseado em aprendizado de máquina, para encontrar tabelas dentro de um PDF. Ele não apenas captura o texto e adivinha onde estão as colunas. Ele observa o layout da página, encontra os blocos que se comportam como uma tabela e mapeia as linhas e colunas em uma grade.

Os passos são curtos:

  1. Abra a ferramenta de PDF para Excel e envie o seu PDF.
  2. Faça login com a sua conta do Google quando solicitado.
  3. O motor escaneia o arquivo e extrai cada tabela que encontra.
  4. Baixe o arquivo .xlsx e abra no Excel, Google Sheets ou LibreOffice Calc.

Se o seu PDF tem várias tabelas em páginas diferentes, cada tabela detectada é colocada em sua própria planilha no arquivo de saída. Então um relatório de seis páginas com uma tabela por página dá a você uma pasta de trabalho com seis abas, e a estrutura original é mantida em cada uma.

Uma observação sobre acesso: usuários anônimos têm algumas conversões por dia antes de um pedido de login. Não há cartão de crédito nem cadastro por e-mail. O arquivo que você envia é apagado do servidor cerca de 30 minutos depois que você baixa o resultado, então ele não fica num servidor por muito tempo depois que você termina.

PDFs digitais limpos versus bagunçados

A qualidade do resultado depende muito da tabela no arquivo de origem. A detecção é boa em tabelas limpas. Fica mais difícil quando a tabela em si é incomum. Aqui vai um guia aproximado.

Tipo de tabelaO que esperar
Grade simples, um valor por célulaExtrai de forma limpa, pouca ou nenhuma limpeza
Bordas e cabeçalhos visíveisDetectada de forma confiável, colunas se alinham bem
Células mescladas (um cabeçalho cobrindo colunas)Detectada, mas a mescla pode precisar de ajuste manual
Células com várias linhas (texto quebrando dentro de uma célula)Pode se dividir em linhas extras que você terá de juntar
Sem bordas, colunas só por espaçamentoGeralmente funciona, mas as bordas das colunas podem deslocar
Duas tabelas encostadas sem espaçoPodem ser lidas como uma só tabela

Um extrato limpo e moderno ou uma fatura bem montada geralmente sai com as colunas intactas. Os casos que precisam de uma pessoa são os mais elaborados: uma célula de cabeçalho que cobre três colunas, uma coluna de observações em que cada entrada se estende por duas linhas, ou uma tabela tão grudada em outra que o motor não consegue dizer onde uma termina.

Esse é o limite honesto. A ferramenta é boa em encontrar e extrair tabelas, mas não consegue ler a sua intenção em uma célula mesclada ou quebrada. Ela faz uma escolha razoável, e às vezes essa escolha não é a que você queria.

E quanto aos PDFs digitalizados

Esta é a parte que precisa ficar clara. Se o seu PDF é um escaneamento, uma foto ou uma exportação de fax, a página é armazenada como imagem. Não há uma camada de texto por baixo. Para um extrator de tabelas, essa página é uma figura sem linhas nem colunas para ler.

Tirar texto de uma imagem exige OCR, que é um tipo separado de processamento. O docuconverter não oferece OCR. Então um PDF digitalizado não vai te dar uma planilha utilizável aqui. A ferramenta pode retornar um arquivo vazio ou quase vazio, porque não havia nada que ela pudesse ler.

Se você tem um escaneamento, a solução é transformá-lo em um PDF digital primeiro, em algum lugar que faça OCR. Muitos aplicativos de scanner e alguns programas de PDF de desktop conseguem rodar OCR e salvar um "PDF pesquisável" com uma camada de texto de verdade. Quando você tiver essa versão baseada em texto, traga-a de volta ao docuconverter e a extração de tabelas vai funcionar normalmente.

Um teste rápido antes de começar: abra o seu PDF e tente selecionar uma linha de texto com o mouse. Se você consegue destacar palavras individuais, é um PDF digital e está tudo certo. Se o cursor seleciona a página inteira como uma única imagem, é um escaneamento e precisa de OCR primeiro.

Limpeza depois da exportação

Mesmo em um arquivo limpo, conte com alguns minutos arrumando a planilha. Isso é normal em qualquer fluxo de PDF para tabela, não é falha de uma ferramenta específica. Aqui vai o que verificar.

  • Formatação de números. Os valores podem vir como texto, especialmente com símbolos de moeda ou separadores de milhar. Selecione a coluna e defina um formato de número para que os totais funcionem.
  • Datas. Uma data escrita como "05-06-2026" pode ser lida como texto. Reformate a coluna se as suas fórmulas não estiverem reconhecendo as datas.
  • Cabeçalhos mesclados. Se um cabeçalho cobria várias colunas no PDF, desmescle-o e redigite os títulos para que cada coluna tenha um nome claro próprio.
  • Linhas divididas. Uma célula que quebrou em duas linhas no PDF pode cair como duas linhas. Junte-as para que cada registro fique em uma só linha.
  • Colunas extras. Às vezes um espaço fino no layout cria uma coluna vazia a mais. Apague-a.
  • Notas de rodapé e totais. Uma linha de "Total" ou uma nota de rodapé no fim da tabela pode vir como dado. Mova-a ou remova-a para que não distorça as somas.

Um bom hábito é extrair primeiro e depois ordenar uma coluna. Se um valor pular para o lugar errado, aquela linha provavelmente tem um problema de formatação que vale corrigir antes de você confiar nos números.

Quando o Excel não é o que você quer

Às vezes a tabela faz parte de um documento maior e você na verdade quer editar a coisa toda, não fazer contas. Se o objetivo é mudar algumas palavras em um contrato ou relatório em vez de fazer cálculos, o caminho da planilha é o jeito mais longo.

Para pequenas mudanças de texto dentro do próprio PDF, editar o texto direto no PDF costuma ser mais rápido. E se você precisa do documento inteiro em um formato editável com parágrafos e títulos em vez de uma grade de células, converter o PDF para Word é a melhor opção. Use o caminho do Excel quando o que importa para você são os dados da tabela.

Versão curta

Para extrair tabelas de PDF para Excel: confirme que o PDF é digital tentando selecionar o texto dele, envie-o para a ferramenta de PDF para Excel e baixe o .xlsx com cada tabela em sua própria planilha. Espere que grades limpas saiam bem e que células mescladas ou de várias linhas precisem de um pouco de limpeza manual. Arquivos digitalizados não vão funcionar até serem passados por OCR em outro lugar e salvos como PDF digital. Nada disso exige cartão de crédito, e o seu arquivo é removido do servidor cerca de meia hora após o download.

Dúvidas? envie um e-mail para info@docuconverter.in

Sheo