Cómo extraer tablas de PDF a Excel (sin volver a teclear)
- how-to
- pdf-to-excel
Copiar a mano una tabla de un PDF es lento y propenso a errores. Seleccionas una fila, la pegas en Excel y los números caen en una sola celda en lugar de cinco. Después pasas veinte minutos separando columnas. Si la tabla se extiende a lo largo de dos páginas, lo haces todo de nuevo. Esta entrada explica cómo extraer tablas de PDF a Excel de la forma más rápida, qué funciona bien y las partes que todavía necesitan un ojo humano.
Primero, el alcance honesto: esto solo funciona con PDFs digitales, basados en texto. Si tu archivo es un escaneo o una foto de una página, los pasos de abajo no servirán por sí solos. Para la computadora, un escaneo es solo una imagen; no hay texto que extraer. docuconverter no hace OCR, así que un archivo escaneado primero tiene que convertirse en un PDF digital en otro lugar. Más sobre esto más adelante.
Quién necesita esto
La mayoría de las personas que quieren sacar tablas de un PDF caen en unos pocos grupos. Los datos ya están dispuestos en filas y columnas. Solo necesitan tenerlos en una hoja de cálculo para poder ordenarlos, sumarlos o graficarlos.
- Estados de cuenta de banco y tarjeta. Transacciones, fechas, importes. La gente los quiere en Excel para controlar sus gastos o para entregárselos a un contador antes de declarar impuestos.
- Facturas y órdenes de compra. Líneas de detalle, cantidades, precios unitarios, GST. Útiles para conciliar contra los pedidos o armar un total mensual.
- Informes e investigación. Cifras trimestrales, resultados de encuestas, listas de precios. Cualquiera que necesite hacer cálculos sobre una tabla que llegó como PDF.
- Datos gubernamentales y de exámenes. Hojas de resultados, tablas de tarifas, listas de licitaciones. Estas suelen llegar como PDFs sin ninguna versión en hoja de cálculo disponible.
En todos estos casos, la tabla ya existe. El trabajo es moverla sin volver a teclear y sin romper la estructura de columnas.
Cómo detecta las tablas docuconverter
docuconverter usa Docling, un extractor de tablas con aprendizaje automático, para encontrar tablas dentro de un PDF. No se limita a tomar el texto y adivinar dónde están las columnas. Mira la disposición de la página, encuentra los bloques que se comportan como una tabla y mapea las filas y columnas en una cuadrícula.
Los pasos son cortos:
- Abre la herramienta de PDF a Excel y sube tu PDF.
- Inicia sesión con tu cuenta de Google cuando se te pida.
- El motor analiza el archivo y extrae todas las tablas que encuentra.
- Descarga el archivo
.xlsxy ábrelo en Excel, Google Sheets o LibreOffice Calc.
Si tu PDF tiene varias tablas en distintas páginas, cada tabla detectada se coloca en su propia hoja dentro del archivo de salida. Así, un informe de seis páginas con una tabla por página te da un libro con seis pestañas, y se conserva la estructura original en cada una.
Una nota sobre el acceso: los usuarios anónimos obtienen un par de conversiones al día antes de un aviso de inicio de sesión. No hay tarjeta de crédito ni registro por correo. Tu archivo subido se elimina del servidor unos 30 minutos después de que descargas el resultado, así que no queda en un servidor mucho tiempo después de que terminas.
PDFs digitales limpios frente a los desordenados
La calidad del resultado depende mucho de la tabla en el archivo de origen. La detección es buena en tablas limpias. Se complica cuando la tabla en sí es inusual. Aquí tienes una guía aproximada.
| Tipo de tabla | Qué esperar |
|---|---|
| Cuadrícula simple, un valor por celda | Se extrae limpiamente, poca o ninguna corrección |
| Bordes y encabezados visibles | Se detecta de forma fiable, las columnas se alinean bien |
| Celdas combinadas (un encabezado que abarca columnas) | Se detecta, pero la combinación puede necesitar arreglarse a mano |
| Celdas de varias líneas (texto que se ajusta dentro de una celda) | Puede dividirse en filas extra que tienes que volver a unir |
| Sin bordes, columnas solo por espaciado | Suele funcionar, pero los bordes de columna pueden desplazarse |
| Dos tablas pegadas sin separación | Pueden leerse como una sola tabla |
Un estado de cuenta limpio y moderno o una factura bien hecha normalmente sale con las columnas intactas. Los casos que necesitan un humano son los rebuscados: una celda de encabezado que abarca tres columnas, una columna de notas donde cada entrada se extiende a dos líneas, o una tabla tan apretada contra otra que el motor no distingue dónde termina una.
Este es el límite honesto. La herramienta es buena encontrando y levantando tablas, pero no puede leer tu intención en una celda combinada o ajustada. Toma una decisión razonable, y a veces esa decisión no es la que querías.
Qué pasa con los PDFs escaneados
Esta es la parte que conviene dejar clara. Si tu PDF es un escaneo, una foto o una exportación de un fax, la página se guarda como una imagen. No hay una capa de texto debajo. Para un extractor de tablas, esa página es una imagen sin filas ni columnas que leer.
Sacar texto de una imagen requiere OCR, que es un tipo de procesamiento aparte. docuconverter no ofrece OCR. Así que un PDF escaneado no te dará una hoja de cálculo utilizable aquí. La herramienta puede devolver un archivo vacío o casi vacío, porque no había nada que pudiera leer.
Si tienes un escaneo, la solución es convertirlo primero en un PDF digital en algún lugar que haga OCR. Muchas apps de escáner y algunos programas de PDF para escritorio pueden ejecutar OCR y guardar un "PDF buscable" con una capa de texto real. Una vez que tengas esa versión basada en texto, tráela de vuelta a docuconverter y la extracción de tablas funcionará de la forma normal.
Una prueba rápida antes de empezar: abre tu PDF e intenta seleccionar una línea de texto con el ratón. Si puedes resaltar palabras individuales, es un PDF digital y todo va bien. Si tu cursor selecciona la página entera como una sola imagen, es un escaneo y necesita OCR primero.
Limpieza después de exportar
Incluso con un archivo limpio, cuenta con pasar unos minutos ordenando la hoja de cálculo. Esto es normal en cualquier flujo de PDF a tabla, no un defecto de una herramienta en particular. Esto es lo que conviene revisar.
- Formato de números. Los importes pueden llegar como texto, sobre todo con símbolos de moneda o separadores de miles. Selecciona la columna y dale un formato de número para que los totales funcionen.
- Fechas. Una fecha escrita como "05-06-2026" podría leerse como texto. Vuelve a dar formato a la columna si tus fórmulas no reconocen las fechas.
- Encabezados combinados. Si un encabezado abarcaba varias columnas en el PDF, descombínalo y vuelve a teclear los títulos para que cada columna tenga su propio nombre claro.
- Filas divididas. Una celda que se ajustaba en dos líneas en el PDF puede caer como dos filas. Vuelve a unirlas para que cada registro quede en una sola fila.
- Columnas sueltas. A veces una rendija fina en la disposición crea una columna vacía extra. Elimínala.
- Notas al pie y totales. Una fila de "Total" o una nota al pie de la tabla puede llegar como dato. Muévela o quítala para que no distorsione las sumas.
Un buen hábito es extraer primero y luego ordenar una columna. Si un valor salta al lugar equivocado, es probable que esa fila tenga un problema de formato que vale la pena arreglar antes de confiar en los números.
Cuándo Excel no es lo que quieres
A veces la tabla es parte de un documento más grande y en realidad quieres editar todo el documento, no calcular números. Si la meta es cambiar unas pocas palabras en un contrato o un informe en lugar de hacer cálculos, la ruta de la hoja de cálculo es el camino largo.
Para pequeños cambios de texto dentro del propio PDF, editar el texto directamente en el PDF suele ser más rápido. Y si necesitas el documento completo en un formato editable con párrafos y encabezados en lugar de una cuadrícula de celdas, convertir el PDF a Word encaja mejor. Usa la ruta de Excel cuando lo que te importa son los datos de la tabla.
Versión corta
Para extraer tablas de PDF a Excel: confirma que el PDF es digital intentando seleccionar su texto, súbelo a la herramienta de PDF a Excel y descarga el .xlsx con cada tabla en su propia hoja. Espera que las cuadrículas limpias salgan bien y que las celdas combinadas o de varias líneas necesiten algo de limpieza manual. Los archivos escaneados no funcionarán hasta que pasen por OCR en otro lugar y se guarden como un PDF digital. Nada de esto necesita tarjeta de crédito, y tu archivo se elimina del servidor cosa de media hora después de la descarga.
¿Preguntas? escribe a info@docuconverter.in
Sheo