PDF-இலிருந்து Excel-க்கு Tables-ஐ எப்படி Extract செய்வது (மீண்டும் type செய்யாமல்)
- how-to
- pdf-to-excel
ஒரு PDF-இலிருந்து ஒரு table-ஐ கையால் நகலெடுப்பது மெதுவானது மற்றும் தவறுகள் நிறைந்தது. நீங்கள் ஒரு row-ஐ தேர்ந்தெடுத்து, அதை Excel-இல் paste செய்கிறீர்கள், மற்றும் எண்கள் ஐந்து cells-க்கு பதிலாக ஒரு cell-இல் வந்திறங்குகின்றன. பிறகு நீங்கள் columns-ஐ பிரிப்பதில் இருபது நிமிடங்களை செலவழிக்கிறீர்கள். Table இரண்டு pages-இல் ஓடினால், நீங்கள் எல்லாவற்றையும் மீண்டும் செய்கிறீர்கள். இந்த post PDF-இலிருந்து Excel-க்கு tables-ஐ வேகமான வழியில் எப்படி extract செய்வது, எது நன்றாக வேலை செய்கிறது, மற்றும் இன்னும் ஒரு மனிதனின் கண் தேவைப்படும் பகுதிகள் எவை என்பதை விளக்குகிறது.
முதலில் நேர்மையான எல்லை: இது digital, text-அடிப்படையிலான PDF-களில் மட்டுமே வேலை செய்கிறது. உங்கள் கோப்பு ஒரு scan அல்லது ஒரு page-இன் ஒரு photo என்றால், கீழே உள்ள படிநிலைகள் தாங்களாகவே உதவாது. கணினிக்கு ஒரு scan என்பது வெறும் ஒரு image; இழுக்க உரை எதுவும் இல்லை. docuconverter OCR செய்யாது, எனவே ஒரு scanned கோப்பை முதலில் வேறு எங்காவது ஒரு digital PDF-ஆக மாற்ற வேண்டும். இதைப் பற்றி கீழே மேலும்.
இது யாருக்குத் தேவை
ஒரு PDF-இலிருந்து tables வேண்டிய பெரும்பாலான மக்கள் சில குழுக்களில் அடங்குகிறார்கள். தரவு ஏற்கனவே rows மற்றும் columns-இல் அமைக்கப்பட்டிருக்கிறது. அவர்களுக்கு அது ஒரு spreadsheet-இல் வேண்டும், அதனால் அவர்கள் அதை sort, sum, அல்லது chart செய்ய முடியும்.
- Bank மற்றும் card statements. Transactions, தேதிகள், தொகைகள். மக்கள் செலவைக் கண்காணிக்க அல்லது வரி தாக்கல் செய்வதற்கு முன் ஒரு accountant-க்கு கொடுக்க அவற்றை Excel-இல் வேண்டும்.
- Invoices மற்றும் purchase orders. Line items, அளவுகள், unit prices, GST. Orders-க்கு எதிராக reconcile செய்ய அல்லது ஒரு monthly total-ஐ உருவாக்க பயனுள்ளது.
- Reports மற்றும் research. Quarterly எண்கள், survey முடிவுகள், price lists. ஒரு PDF-ஆக வந்த ஒரு table-இல் கணக்கு செய்ய வேண்டிய எவருக்கும்.
- அரசு மற்றும் exam தரவு. Result sheets, fee tables, tender lists. இவை பெரும்பாலும் spreadsheet version எதுவும் வழங்கப்படாமல் PDF-களாக வருகின்றன.
இவை அனைத்திலும், table ஏற்கனவே உள்ளது. வேலை என்னவென்றால் அதை மீண்டும் type செய்யாமல் மற்றும் column structure-ஐ உடைக்காமல் நகர்த்துவது.
docuconverter எப்படி tables-ஐ கண்டறிகிறது
docuconverter ஒரு PDF-க்குள் tables-ஐ கண்டுபிடிக்க Docling எனும் ஒரு machine-learning table extractor-ஐ பயன்படுத்துகிறது. இது வெறுமனே உரையை எடுத்து columns எங்கே உள்ளன என்று யூகிக்கவில்லை. இது page-இன் layout-ஐ பார்க்கிறது, ஒரு table போல நடந்துகொள்ளும் blocks-ஐ கண்டுபிடிக்கிறது, மற்றும் rows மற்றும் columns-ஐ ஒரு grid-இல் map செய்கிறது.
படிநிலைகள் சுருக்கமானவை:
- PDF to Excel கருவியை திறந்து உங்கள் PDF-ஐ upload செய்யவும்.
- கேட்கப்படும்போது உங்கள் Google account-உடன் sign in செய்யவும்.
- Engine கோப்பை scan செய்து அது கண்டுபிடிக்கும் ஒவ்வொரு table-ஐயும் வெளியே இழுக்கிறது.
.xlsxகோப்பை download செய்து அதை Excel, Google Sheets, அல்லது LibreOffice Calc-இல் திறக்கவும்.
உங்கள் PDF-இல் வெவ்வேறு pages முழுவதும் பல tables இருந்தால், கண்டறியப்பட்ட ஒவ்வொரு table-ம் வெளியீட்டு கோப்பில் அதன் சொந்த sheet-இல் வைக்கப்படுகிறது. எனவே ஒரு page-க்கு ஒரு table கொண்ட ஒரு ஆறு-பக்க report உங்களுக்கு ஆறு tabs கொண்ட ஒரு workbook-ஐ தருகிறது, மற்றும் ஒவ்வொன்றிலும் original structure பாதுகாக்கப்படுகிறது.
Access பற்றிய ஒரு குறிப்பு: anonymous பயனர்கள் ஒரு sign-in prompt-க்கு முன் ஒரு நாளுக்கு இரண்டு மாற்றங்களைப் பெறுகிறார்கள். credit card இல்லை, email signup இல்லை. நீங்கள் முடிவை download செய்த சுமார் 30 நிமிடங்களுக்குப் பிறகு உங்கள் upload செய்த கோப்பு server-இலிருந்து நீக்கப்படுகிறது, எனவே நீங்கள் முடித்தபின் அது நீண்ட நேரம் ஒரு server-இல் இருக்காது.
சுத்தமான digital PDF-கள் vs குழப்பமானவை
முடிவின் தரம் source கோப்பில் உள்ள table-ஐ பெரிதும் சார்ந்துள்ளது. சுத்தமான tables-இல் detection நன்றாக உள்ளது. Table-ஏ அசாதாரணமாக இருக்கும்போது அது கடினமாகிறது. இங்கே ஒரு தோராயமான வழிகாட்டி.
| Table வகை | என்ன எதிர்பார்க்கலாம் |
|---|---|
| Plain grid, ஒரு cell-க்கு ஒரு மதிப்பு | சுத்தமாக extract ஆகிறது, கொஞ்சம் கூட cleanup இல்லை |
| தெரியும் borders மற்றும் headers | நம்பகமாக கண்டறியப்படுகிறது, columns நன்றாக வரிசையாகின்றன |
| Merged cells (columns முழுவதும் பரவும் ஒரு header) | கண்டறியப்படுகிறது, ஆனால் merge-ஐ கையால் சரிசெய்ய வேண்டியிருக்கலாம் |
| Multi-line cells (ஒரு cell-க்குள் உரை wrap ஆகிறது) | நீங்கள் மீண்டும் சேர்க்க வேண்டிய கூடுதல் rows-ஆக பிரியலாம் |
| Borders இல்லை, spacing மட்டுமே columns | பொதுவாக வேலை செய்கிறது, ஆனால் column edges நகரலாம் |
| இடைவெளி இல்லாமல் தொடும் இரண்டு tables | ஒரு table-ஆக படிக்கப்படலாம் |
ஒரு சுத்தமான, நவீன statement அல்லது நன்கு கட்டப்பட்ட ஒரு invoice பொதுவாக columns அப்படியே வந்துசேருகிறது. ஒரு மனிதன் தேவைப்படும் cases fancy-ஆனவை: மூன்று columns முழுவதும் பரவும் ஒரு header cell, ஒவ்வொரு entry-ம் இரண்டு வரிகளுக்கு ஓடும் ஒரு notes column, அல்லது ஒன்று எங்கே முடிகிறது என்று engine-ஆல் சொல்ல முடியாத அளவுக்கு மற்றொன்றுக்கு எதிராக நெருக்கமாக நிரம்பிய ஒரு table.
இது நேர்மையான எல்லை. கருவி tables-ஐ கண்டுபிடித்து தூக்குவதில் நல்லது, ஆனால் ஒரு merged அல்லது wrapped cell-இல் உங்கள் நோக்கத்தை அதனால் படிக்க முடியாது. இது ஒரு நியாயமான தேர்வை செய்கிறது, மற்றும் சில நேரம் அந்த தேர்வு நீங்கள் விரும்பியது அல்ல.
Scanned PDF-களைப் பற்றி என்ன
இது தெளிவாக இருக்க வேண்டிய பகுதி. உங்கள் PDF ஒரு scan, ஒரு photo, அல்லது ஒரு fax-இலிருந்து ஒரு export என்றால், page ஒரு image-ஆக சேமிக்கப்படுகிறது. அதன் கீழே ஒரு text layer இல்லை. ஒரு table extractor-க்கு, அந்த page படிக்க rows இல்லாத மற்றும் columns இல்லாத ஒரு படம்.
ஒரு image-இலிருந்து உரையை இழுப்பதற்கு OCR தேவை, அது ஒரு தனி வகை processing. docuconverter OCR-ஐ வழங்கவில்லை. எனவே ஒரு scanned PDF இங்கே உங்களுக்கு ஒரு பயன்படக்கூடிய spreadsheet-ஐ தராது. கருவி ஒரு காலி அல்லது கிட்டத்தட்ட காலியான கோப்பை திருப்பித் தரலாம், ஏனெனில் அதனால் படிக்க எதுவும் இல்லை.
உங்களிடம் ஒரு scan இருந்தால், சரிசெய்வது என்னவென்றால் அதை முதலில் OCR செய்யும் எங்காவது ஒரு digital PDF-ஆக மாற்றுவது. பல scanner apps மற்றும் சில desktop PDF programs OCR-ஐ இயக்கி ஒரு உண்மையான text layer கொண்ட ஒரு "searchable PDF"-ஐ சேமிக்க முடியும். அந்த text-அடிப்படையிலான version கிடைத்தவுடன், அதை docuconverter-க்கு திரும்ப கொண்டு வாருங்கள், table extraction வழக்கமான வழியில் வேலை செய்யும்.
நீங்கள் தொடங்குவதற்கு முன் ஒரு விரைவான சோதனை: உங்கள் PDF-ஐ திறந்து உங்கள் mouse-உடன் ஒரு வரி உரையைத் தேர்ந்தெடுக்க முயற்சிக்கவும். தனிப்பட்ட சொற்களை நீங்கள் highlight செய்ய முடிந்தால், அது ஒரு digital PDF மற்றும் நீங்கள் தயார். உங்கள் cursor முழு page-ஐயும் ஒரு image-ஆக தேர்ந்தெடுத்தால், அது ஒரு scan மற்றும் முதலில் OCR தேவை.
Export-க்குப் பிறகு cleanup
ஒரு சுத்தமான கோப்பில் கூட, spreadsheet-ஐ ஒழுங்குபடுத்த சில நிமிடங்களை செலவழிக்க திட்டமிடுங்கள். இது எந்த PDF-to-table workflow-க்கும் சாதாரணம், ஒரு கருவியின் தவறு அல்ல. சரிபார்க்க வேண்டியது இங்கே.
- Number formatting. தொகைகள் உரையாக வரலாம், குறிப்பாக currency symbols அல்லது thousands separators-உடன். Column-ஐ தேர்ந்தெடுத்து அதை ஒரு number format-க்கு அமைக்கவும், அதனால் totals வேலை செய்யும்.
- தேதிகள். "05-06-2026" என்று எழுதப்பட்ட ஒரு தேதி உரையாக படிக்கப்படலாம். உங்கள் formulas தேதிகளை அங்கீகரிக்கவில்லை என்றால் column-ஐ மீண்டும் format செய்யவும்.
- Merged headers. PDF-இல் ஒரு header பல columns முழுவதும் பரவியிருந்தால், அதை unmerge செய்து column titles-ஐ மீண்டும் type செய்யவும், அதனால் ஒவ்வொரு column-க்கும் அதன் சொந்த தெளிவான பெயர் இருக்கும்.
- Split rows. PDF-இல் இரண்டு வரிகளுக்கு wrap ஆன ஒரு cell இரண்டு rows-ஆக வந்திறங்கலாம். ஒவ்வொரு record-ம் ஒரு row-இல் அமரும்படி அவற்றை மீண்டும் சேர்க்கவும்.
- Stray columns. சில நேரம் layout-இல் ஒரு மெல்லிய இடைவெளி ஒரு கூடுதல் காலி column-ஐ உருவாக்குகிறது. அதை delete செய்யவும்.
- Footnotes மற்றும் totals. Table-இன் கீழே உள்ள ஒரு "Total" row அல்லது ஒரு footnote தரவாக வந்துவிடலாம். அது sums-ஐ skew செய்யாதபடி அதை நகர்த்தவும் அல்லது அகற்றவும்.
ஒரு நல்ல பழக்கம் முதலில் extract செய்து, பிறகு ஒரு column-ஐ sort செய்வது. ஒரு மதிப்பு தவறான இடத்துக்கு குதித்தால், அந்த row-க்கு ஒருவேளை எண்களை நீங்கள் நம்புவதற்கு முன் சரிசெய்யத் தகுந்த ஒரு formatting பிரச்சினை உள்ளது.
Excel நீங்கள் விரும்புவது இல்லாதபோது
சில நேரம் table ஒரு பெரிய ஆவணத்தின் ஒரு பகுதி மற்றும் நீங்கள் உண்மையில் எண்களை கணக்கிட விரும்பாமல் முழுதையும் edit செய்ய விரும்புகிறீர்கள். கணக்கு செய்வதற்கு பதிலாக ஒரு contract அல்லது report-இல் சில சொற்களை மாற்றுவது இலக்காக இருந்தால், spreadsheet பாதை நீண்ட சுற்றுவழி.
PDF-க்குள்ளேயே சிறிய உரை மாற்றங்களுக்கு, PDF-இல் உரையை நேரடியாக edit செய்வது பெரும்பாலும் வேகமானது. மேலும் cells-இன் ஒரு grid-க்கு பதிலாக paragraphs மற்றும் headings கொண்ட ஒரு edit-செய்யக்கூடிய வடிவத்தில் முழு ஆவணமும் உங்களுக்குத் தேவைப்பட்டால், PDF-ஐ Word-க்கு convert செய்வது சிறந்த பொருத்தம். நீங்கள் கவனிக்கும் விஷயம் table-இல் உள்ள தரவாக இருக்கும்போது Excel பாதையைப் பயன்படுத்துங்கள்.
சுருக்கமான பதிப்பு
PDF-இலிருந்து Excel-க்கு tables-ஐ extract செய்ய: PDF-இன் உரையைத் தேர்ந்தெடுக்க முயற்சித்து அது digital என்பதை உறுதிப்படுத்தவும், அதை PDF to Excel கருவிக்கு upload செய்யவும், மற்றும் ஒவ்வொரு table-ம் அதன் சொந்த sheet-இல் உள்ள .xlsx-ஐ download செய்யவும். சுத்தமான grids நன்றாக வந்துசேரும் என்றும், merged அல்லது multi-line cells கொஞ்சம் கையேடு cleanup தேவைப்படும் என்றும் எதிர்பார்க்கவும். Scanned கோப்புகள் வேறு எங்காவது OCR வழியாக இயக்கப்பட்டு ஒரு digital PDF-ஆக சேமிக்கப்படும் வரை வேலை செய்யாது. இவற்றில் எதற்கும் ஒரு credit card தேவையில்லை, மற்றும் download செய்த சுமார் அரை மணி நேரத்துக்குப் பிறகு உங்கள் கோப்பு server-இலிருந்து அகற்றப்படுகிறது.
கேள்விகளா? info@docuconverter.in-க்கு email செய்யவும்
Sheo