Как извлечь таблицы из PDF в Excel (без перепечатывания)
- how-to
- pdf-to-excel
Копировать таблицу из PDF вручную — медленно и легко ошибиться. Вы выделяете строку, вставляете её в Excel, и все числа оказываются в одной ячейке вместо пяти. Потом вы тратите двадцать минут на разбиение по столбцам. Если таблица идёт через две страницы, всё повторяется заново. В этой статье объясняется, как извлечь таблицы из PDF в Excel более быстрым способом, что работает хорошо, а что по-прежнему требует человеческого глаза.
Сначала честно о границах: это работает только с цифровыми, текстовыми PDF. Если ваш файл — это скан или фотография страницы, шаги ниже сами по себе не помогут. Для компьютера скан — это просто изображение; никакого текста, который можно было бы вытащить, там нет. docuconverter не делает OCR, поэтому отсканированный файл сначала нужно где-то превратить в цифровой PDF. Подробнее об этом ниже.
Кому это нужно
Большинство людей, которым нужны таблицы из PDF, попадают в несколько групп. Данные уже разложены по строкам и столбцам. Им просто нужно получить их в таблице, чтобы сортировать, суммировать или строить графики.
- Банковские выписки и выписки по картам. Транзакции, даты, суммы. Люди хотят перенести их в Excel, чтобы отслеживать расходы или передать бухгалтеру перед подачей налогов.
- Счета и заказы на закупку. Позиции, количества, цены за единицу, GST. Полезно для сверки с заказами или для подсчёта месячного итога.
- Отчёты и исследования. Квартальные показатели, результаты опросов, прайс-листы. Любой, кому нужно посчитать что-то по таблице, пришедшей в виде PDF.
- Государственные и экзаменационные данные. Списки результатов, таблицы сборов, перечни тендеров. Они часто приходят в виде PDF, а версии в формате таблицы не предлагается.
Во всех этих случаях таблица уже существует. Задача — перенести её без перепечатывания и не сломав структуру столбцов.
Как docuconverter находит таблицы
docuconverter использует Docling — экстрактор таблиц на машинном обучении — чтобы найти таблицы внутри PDF. Он не просто берёт текст и гадает, где столбцы. Он смотрит на разметку страницы, находит блоки, которые ведут себя как таблица, и раскладывает строки и столбцы в сетку.
Шаги короткие:
- Откройте инструмент PDF в Excel и загрузите свой PDF.
- Войдите через свой аккаунт Google, когда появится запрос.
- Движок сканирует файл и вытаскивает каждую найденную таблицу.
- Скачайте файл
.xlsxи откройте его в Excel, Google Sheets или LibreOffice Calc.
Если в вашем PDF несколько таблиц на разных страницах, каждая обнаруженная таблица помещается на свой лист в итоговом файле. Так что отчёт на шесть страниц с одной таблицей на странице даёт вам книгу из шести вкладок, и исходная структура сохраняется на каждой.
Замечание про доступ: анонимные пользователи получают пару конвертаций в день до запроса на вход. Никакой банковской карты и никакой регистрации по почте. Ваш загруженный файл удаляется с сервера примерно через 30 минут после того, как вы скачали результат, так что он не лежит на сервере долго после того, как вы закончили.
Чистые цифровые PDF против неаккуратных
Качество результата сильно зависит от таблицы в исходном файле. На чистых таблицах распознавание хорошее. Сложнее становится, когда сама таблица необычна. Вот примерный ориентир.
| Тип таблицы | Чего ожидать |
|---|---|
| Простая сетка, одно значение на ячейку | Извлекается чисто, доводки почти или совсем нет |
| Видимые границы и заголовки | Распознаётся надёжно, столбцы выстраиваются хорошо |
| Объединённые ячейки (заголовок на несколько столбцов) | Распознаётся, но объединение может потребовать ручной правки |
| Многострочные ячейки (текст с переносом внутри одной ячейки) | Может разбиться на лишние строки, которые придётся соединять обратно |
| Без границ, столбцы только за счёт отступов | Обычно работает, но края столбцов могут смещаться |
| Две таблицы вплотную без зазора | Могут прочитаться как одна таблица |
Чистая современная выписка или хорошо свёрстанный счёт обычно проходят с сохранёнными столбцами. Случаи, которым нужен человек, — это вычурные: ячейка-заголовок, растянутая на три столбца, столбец с примечаниями, где каждая запись идёт на две строки, или таблица, прижатая к другой так плотно, что движок не может понять, где одна заканчивается.
Это и есть честный предел. Инструмент хорошо находит и поднимает таблицы, но он не может прочитать ваше намерение по объединённой ячейке или ячейке с переносом. Он делает разумный выбор, и иногда этот выбор — не тот, который вы хотели.
А что насчёт отсканированных PDF
Об этом стоит сказать прямо. Если ваш PDF — это скан, фотография или экспорт из факса, страница хранится как изображение. Текстового слоя под ним нет. Для экстрактора таблиц такая страница — картинка без строк и без столбцов, которые можно прочитать.
Вытаскивание текста из изображения требует OCR — это отдельный вид обработки. docuconverter не предлагает OCR. Поэтому отсканированный PDF здесь не даст вам пригодной таблицы. Инструмент может вернуть пустой или почти пустой файл, потому что читать было нечего.
Если у вас скан, решение — сначала превратить его в цифровой PDF где-то, где есть OCR. Многие приложения для сканирования и некоторые десктопные программы для PDF умеют запускать OCR и сохранять «searchable PDF» с настоящим текстовым слоем. Как только у вас есть эта текстовая версия, вернитесь с ней в docuconverter, и извлечение таблиц будет работать обычным образом.
Быстрая проверка перед началом: откройте свой PDF и попробуйте выделить строку текста мышью. Если вы можете подсветить отдельные слова — это цифровой PDF, и можно приступать. Если курсор выделяет всю страницу как одно изображение — это скан, и ему сначала нужен OCR.
Доводка после экспорта
Даже на чистом файле заложите несколько минут на приведение таблицы в порядок. Это нормально для любого процесса «PDF в таблицу», а не недостаток какого-то одного инструмента. Вот что стоит проверить.
- Формат чисел. Суммы могут прийти как текст, особенно с символами валюты или разделителями тысяч. Выделите столбец и задайте ему числовой формат, чтобы итоги работали.
- Даты. Дата, записанная как «05-06-2026», может прочитаться как текст. Переформатируйте столбец, если ваши формулы не распознают даты.
- Объединённые заголовки. Если заголовок в PDF растянут на несколько столбцов, разъедините его и перепечатайте названия столбцов, чтобы у каждого столбца было своё понятное имя.
- Разбитые строки. Ячейка, которая в PDF перенеслась на две строки, может оказаться двумя строками. Соедините их обратно, чтобы каждая запись находилась в одной строке.
- Лишние столбцы. Иногда тонкий зазор в разметке создаёт лишний пустой столбец. Удалите его.
- Сноски и итоги. Строка «Итого» или сноска внизу таблицы может прийти как данные. Перенесите её или удалите, чтобы она не искажала суммы.
Хорошая привычка — сначала извлечь, потом отсортировать один столбец. Если какое-то значение прыгает не туда, у этой строки, вероятно, есть проблема с форматированием, которую стоит исправить, прежде чем доверять числам.
Когда Excel — не то, что вам нужно
Иногда таблица — часть более крупного документа, и вы на самом деле хотите отредактировать его целиком, а не считать числа. Если цель — поменять несколько слов в договоре или отчёте, а не делать вычисления, путь через таблицу — это окольная дорога.
Для небольших правок текста внутри самого PDF часто быстрее редактировать текст в PDF напрямую. А если вам нужен весь документ в редактируемом формате с абзацами и заголовками, а не сетка ячеек, лучше подойдёт конвертация PDF в Word. Используйте путь через Excel, когда то, что вам важно, — это данные в таблице.
Кратко
Чтобы извлечь таблицы из PDF в Excel: убедитесь, что PDF цифровой, попробовав выделить его текст, загрузите его в инструмент PDF в Excel и скачайте .xlsx, где каждая таблица на своём листе. Ожидайте, что чистые сетки пройдут хорошо, а объединённые или многострочные ячейки потребуют немного ручной доводки. Отсканированные файлы не сработают, пока их не прогонят через OCR где-то ещё и не сохранят как цифровой PDF. Ничего из этого не требует банковской карты, а ваш файл удаляется с сервера примерно через полчаса после скачивания.
Вопросы? напишите на info@docuconverter.in
Sheo