Como extrair tabelas de PDF para Excel (sem redigitar)
- how-to
- pdf-to-excel
Copiar uma tabela de um PDF à mão é lento e propenso a erros. Você seleciona uma linha, cola no Excel, e os números caem em uma única célula em vez de cinco. Aí você passa vinte minutos separando colunas. Se a tabela se estende por duas páginas, faz tudo de novo. Este post explica como extrair tabelas de PDF para Excel do jeito mais rápido, o que funciona bem e as partes que ainda precisam de olho humano.
Primeiro o escopo honesto: isso só funciona em PDFs digitais, baseados em texto. Se o seu arquivo é um escaneamento ou uma foto de uma página, os passos abaixo não vão ajudar por si só. Para o computador, um escaneamento é apenas uma imagem; não há texto para extrair. O docuconverter não faz OCR, então um arquivo digitalizado precisa ser transformado em um PDF digital em outro lugar primeiro. Mais sobre isso adiante.
Quem precisa disso
A maioria das pessoas que quer tirar tabelas de um PDF se enquadra em alguns grupos. Os dados já estão dispostos em linhas e colunas. Elas só precisam deles em uma planilha para poder ordenar, somar ou montar gráficos.
- Extratos bancários e de cartão. Transações, datas, valores. As pessoas querem isso no Excel para acompanhar gastos ou entregar a um contador antes de declarar impostos.
- Faturas e ordens de compra. Itens, quantidades, preços unitários, GST. Útil para conferir contra pedidos ou montar um total mensal.
- Relatórios e pesquisas. Números trimestrais, resultados de pesquisas, listas de preços. Qualquer pessoa que precise fazer contas em uma tabela que chegou como PDF.
- Dados de governo e provas. Boletins de resultado, tabelas de taxas, listas de licitação. Esses muitas vezes chegam como PDFs sem nenhuma versão em planilha disponível.
Em todos esses casos, a tabela já existe. O trabalho é movê-la sem redigitar e sem quebrar a estrutura das colunas.
Como o docuconverter detecta tabelas
O docuconverter usa o Docling, um extrator de tabelas baseado em aprendizado de máquina, para encontrar tabelas dentro de um PDF. Ele não apenas captura o texto e adivinha onde estão as colunas. Ele observa o layout da página, encontra os blocos que se comportam como uma tabela e mapeia as linhas e colunas em uma grade.
Os passos são curtos:
- Abra a ferramenta de PDF para Excel e envie o seu PDF.
- Faça login com a sua conta do Google quando solicitado.
- O motor escaneia o arquivo e extrai cada tabela que encontra.
- Baixe o arquivo
.xlsxe abra no Excel, Google Sheets ou LibreOffice Calc.
Se o seu PDF tem várias tabelas em páginas diferentes, cada tabela detectada é colocada em sua própria planilha no arquivo de saída. Então um relatório de seis páginas com uma tabela por página dá a você uma pasta de trabalho com seis abas, e a estrutura original é mantida em cada uma.
Uma observação sobre acesso: usuários anônimos têm algumas conversões por dia antes de um pedido de login. Não há cartão de crédito nem cadastro por e-mail. O arquivo que você envia é apagado do servidor cerca de 30 minutos depois que você baixa o resultado, então ele não fica num servidor por muito tempo depois que você termina.
PDFs digitais limpos versus bagunçados
A qualidade do resultado depende muito da tabela no arquivo de origem. A detecção é boa em tabelas limpas. Fica mais difícil quando a tabela em si é incomum. Aqui vai um guia aproximado.
| Tipo de tabela | O que esperar |
|---|---|
| Grade simples, um valor por célula | Extrai de forma limpa, pouca ou nenhuma limpeza |
| Bordas e cabeçalhos visíveis | Detectada de forma confiável, colunas se alinham bem |
| Células mescladas (um cabeçalho cobrindo colunas) | Detectada, mas a mescla pode precisar de ajuste manual |
| Células com várias linhas (texto quebrando dentro de uma célula) | Pode se dividir em linhas extras que você terá de juntar |
| Sem bordas, colunas só por espaçamento | Geralmente funciona, mas as bordas das colunas podem deslocar |
| Duas tabelas encostadas sem espaço | Podem ser lidas como uma só tabela |
Um extrato limpo e moderno ou uma fatura bem montada geralmente sai com as colunas intactas. Os casos que precisam de uma pessoa são os mais elaborados: uma célula de cabeçalho que cobre três colunas, uma coluna de observações em que cada entrada se estende por duas linhas, ou uma tabela tão grudada em outra que o motor não consegue dizer onde uma termina.
Esse é o limite honesto. A ferramenta é boa em encontrar e extrair tabelas, mas não consegue ler a sua intenção em uma célula mesclada ou quebrada. Ela faz uma escolha razoável, e às vezes essa escolha não é a que você queria.
E quanto aos PDFs digitalizados
Esta é a parte que precisa ficar clara. Se o seu PDF é um escaneamento, uma foto ou uma exportação de fax, a página é armazenada como imagem. Não há uma camada de texto por baixo. Para um extrator de tabelas, essa página é uma figura sem linhas nem colunas para ler.
Tirar texto de uma imagem exige OCR, que é um tipo separado de processamento. O docuconverter não oferece OCR. Então um PDF digitalizado não vai te dar uma planilha utilizável aqui. A ferramenta pode retornar um arquivo vazio ou quase vazio, porque não havia nada que ela pudesse ler.
Se você tem um escaneamento, a solução é transformá-lo em um PDF digital primeiro, em algum lugar que faça OCR. Muitos aplicativos de scanner e alguns programas de PDF de desktop conseguem rodar OCR e salvar um "PDF pesquisável" com uma camada de texto de verdade. Quando você tiver essa versão baseada em texto, traga-a de volta ao docuconverter e a extração de tabelas vai funcionar normalmente.
Um teste rápido antes de começar: abra o seu PDF e tente selecionar uma linha de texto com o mouse. Se você consegue destacar palavras individuais, é um PDF digital e está tudo certo. Se o cursor seleciona a página inteira como uma única imagem, é um escaneamento e precisa de OCR primeiro.
Limpeza depois da exportação
Mesmo em um arquivo limpo, conte com alguns minutos arrumando a planilha. Isso é normal em qualquer fluxo de PDF para tabela, não é falha de uma ferramenta específica. Aqui vai o que verificar.
- Formatação de números. Os valores podem vir como texto, especialmente com símbolos de moeda ou separadores de milhar. Selecione a coluna e defina um formato de número para que os totais funcionem.
- Datas. Uma data escrita como "05-06-2026" pode ser lida como texto. Reformate a coluna se as suas fórmulas não estiverem reconhecendo as datas.
- Cabeçalhos mesclados. Se um cabeçalho cobria várias colunas no PDF, desmescle-o e redigite os títulos para que cada coluna tenha um nome claro próprio.
- Linhas divididas. Uma célula que quebrou em duas linhas no PDF pode cair como duas linhas. Junte-as para que cada registro fique em uma só linha.
- Colunas extras. Às vezes um espaço fino no layout cria uma coluna vazia a mais. Apague-a.
- Notas de rodapé e totais. Uma linha de "Total" ou uma nota de rodapé no fim da tabela pode vir como dado. Mova-a ou remova-a para que não distorça as somas.
Um bom hábito é extrair primeiro e depois ordenar uma coluna. Se um valor pular para o lugar errado, aquela linha provavelmente tem um problema de formatação que vale corrigir antes de você confiar nos números.
Quando o Excel não é o que você quer
Às vezes a tabela faz parte de um documento maior e você na verdade quer editar a coisa toda, não fazer contas. Se o objetivo é mudar algumas palavras em um contrato ou relatório em vez de fazer cálculos, o caminho da planilha é o jeito mais longo.
Para pequenas mudanças de texto dentro do próprio PDF, editar o texto direto no PDF costuma ser mais rápido. E se você precisa do documento inteiro em um formato editável com parágrafos e títulos em vez de uma grade de células, converter o PDF para Word é a melhor opção. Use o caminho do Excel quando o que importa para você são os dados da tabela.
Versão curta
Para extrair tabelas de PDF para Excel: confirme que o PDF é digital tentando selecionar o texto dele, envie-o para a ferramenta de PDF para Excel e baixe o .xlsx com cada tabela em sua própria planilha. Espere que grades limpas saiam bem e que células mescladas ou de várias linhas precisem de um pouco de limpeza manual. Arquivos digitalizados não vão funcionar até serem passados por OCR em outro lugar e salvos como PDF digital. Nada disso exige cartão de crédito, e o seu arquivo é removido do servidor cerca de meia hora após o download.
Dúvidas? envie um e-mail para info@docuconverter.in
Sheo