PDF से Excel में टेबल कैसे निकालें (बिना दोबारा टाइप किए)
- how-to
- pdf-to-excel
किसी PDF से टेबल हाथ से कॉपी करना धीमा है और इसमें ग़लती की पूरी गुंजाइश रहती है। आप एक पंक्ति चुनते हैं, उसे Excel में पेस्ट करते हैं, और सारे नंबर पाँच की बजाय एक ही सेल में जा गिरते हैं। फिर आप बीस मिनट कॉलम बाँटने में लगा देते हैं। अगर टेबल दो पन्नों में फैली हो, तो यह सब फिर से दोहराना पड़ता है। यह पोस्ट बताती है कि PDF से Excel में टेबल तेज़ तरीक़े से कैसे निकालें, क्या अच्छे से काम करता है, और कौन-से हिस्सों को अब भी इंसानी नज़र की ज़रूरत है।
पहले ईमानदार दायरा: यह सिर्फ़ डिजिटल, टेक्स्ट-आधारित PDF पर काम करता है। अगर आपकी फाइल किसी पन्ने का स्कैन या फोटो है, तो नीचे दिए स्टेप अकेले उसमें मदद नहीं करेंगे। कंप्यूटर के लिए स्कैन बस एक इमेज है; उसमें खींचने लायक कोई टेक्स्ट होता ही नहीं। docuconverter OCR नहीं करता, तो स्कैन की गई फाइल को पहले कहीं और से डिजिटल PDF में बदलना पड़ता है। इस पर आगे और बात होगी।
इसकी ज़रूरत किसे है
जो लोग PDF से टेबल बाहर निकालना चाहते हैं, उनमें से ज़्यादातर कुछ समूहों में आते हैं। डेटा पहले से ही पंक्तियों और कॉलम में सजा होता है। उन्हें बस उसे स्प्रेडशीट में चाहिए ताकि वे उसे सॉर्ट कर सकें, जोड़ सकें, या उसका चार्ट बना सकें।
- बैंक और कार्ड स्टेटमेंट। ट्रांज़ैक्शन, तारीख़ें, रकम। लोग इन्हें Excel में चाहते हैं ताकि ख़र्च ट्रैक कर सकें या टैक्स भरने से पहले अकाउंटेंट को सौंप सकें।
- इनवॉइस और परचेज़ ऑर्डर। लाइन आइटम, मात्रा, यूनिट प्राइस, GST। ऑर्डर से मिलान करने या महीने का कुल बनाने में काम आते हैं।
- रिपोर्ट और रिसर्च। तिमाही के आँकड़े, सर्वे के नतीजे, प्राइस लिस्ट। कोई भी जिसे PDF के रूप में आई किसी टेबल पर हिसाब लगाना है।
- सरकारी और परीक्षा डेटा। रिज़ल्ट शीट, फ़ीस टेबल, टेंडर लिस्ट। ये अक्सर PDF के रूप में आती हैं जिनका कोई स्प्रेडशीट वर्ज़न नहीं दिया जाता।
इन सबमें टेबल पहले से मौजूद होती है। काम बस उसे बिना दोबारा टाइप किए और बिना कॉलम स्ट्रक्चर तोड़े हटाने का है।
docuconverter टेबल का पता कैसे लगाता है
docuconverter किसी PDF के अंदर टेबल ढूँढने के लिए Docling नाम के एक मशीन-लर्निंग टेबल एक्सट्रैक्टर का इस्तेमाल करता है। यह सिर्फ़ टेक्स्ट उठाकर अंदाज़ा नहीं लगाता कि कॉलम कहाँ हैं। यह पन्ने के लेआउट को देखता है, उन ब्लॉकों को ढूँढता है जो टेबल जैसा बर्ताव करते हैं, और पंक्तियों व कॉलम को एक ग्रिड में मैप कर देता है।
स्टेप छोटे हैं:
- PDF to Excel टूल खोलें और अपनी PDF अपलोड करें।
- प्रॉम्प्ट आने पर अपने Google अकाउंट से साइन इन करें।
- इंजन फाइल को स्कैन करता है और हर मिलने वाली टेबल को बाहर खींच लेता है।
.xlsxफाइल डाउनलोड करें और उसे Excel, Google Drive के Sheets, या LibreOffice Calc में खोलें।
अगर आपकी PDF में अलग-अलग पन्नों पर कई टेबल हैं, तो हर पता चली टेबल आउटपुट फाइल में अपनी अलग शीट पर रखी जाती है। तो एक छह-पन्ने की रिपोर्ट जिसमें हर पन्ने पर एक टेबल है, आपको छह टैब वाली एक वर्कबुक देगी, और हर एक पर ओरिजिनल स्ट्रक्चर बना रहता है।
एक्सेस पर एक नोट: अनाम यूज़र को साइन-इन प्रॉम्प्ट से पहले रोज़ दो-तीन कन्वर्ज़न मिलते हैं। कोई क्रेडिट कार्ड नहीं और कोई ईमेल साइनअप नहीं। आपकी अपलोड की गई फाइल नतीजा डाउनलोड करने के लगभग 30 मिनट बाद सर्वर से डिलीट कर दी जाती है, तो आपका काम ख़त्म होने के बाद वह सर्वर पर ज़्यादा देर नहीं पड़ी रहती।
साफ़ डिजिटल PDF बनाम गड़बड़ वाली
नतीजे की क्वालिटी बहुत हद तक सोर्स फाइल की टेबल पर निर्भर करती है। साफ़ टेबल पर पहचान अच्छी होती है। जब टेबल ख़ुद असामान्य हो तो यह मुश्किल हो जाता है। यहाँ एक मोटा गाइड है।
| टेबल का प्रकार | क्या उम्मीद करें |
|---|---|
| सादा ग्रिड, हर सेल में एक मान | साफ़-साफ़ निकलती है, सफ़ाई की ज़रूरत न के बराबर |
| दिखने वाली बॉर्डर और हेडर | भरोसेमंद ढंग से पता चलती है, कॉलम ठीक से लाइन में आते हैं |
| मर्ज की गई सेल (एक हेडर कई कॉलम पर फैला) | पता चलती है, पर मर्ज को हाथ से ठीक करना पड़ सकता है |
| मल्टी-लाइन सेल (एक ही सेल के अंदर टेक्स्ट लपेटा गया) | अतिरिक्त पंक्तियों में बँट सकती है जिन्हें आपको दोबारा जोड़ना पड़ेगा |
| कोई बॉर्डर नहीं, सिर्फ़ स्पेसिंग वाले कॉलम | आमतौर पर काम करती है, पर कॉलम के किनारे खिसक सकते हैं |
| दो टेबल बिना किसी गैप के सटी हुई | एक ही टेबल के रूप में पढ़ी जा सकती हैं |
एक साफ़, आधुनिक स्टेटमेंट या अच्छी तरह बनी इनवॉइस आमतौर पर कॉलम सही-सलामत के साथ आ जाती है। जिन मामलों में इंसान की ज़रूरत होती है, वे फ़ैंसी वाले हैं: एक हेडर सेल जो तीन कॉलम पर फैली हो, एक नोट्स कॉलम जहाँ हर एंट्री दो लाइनों में चलती हो, या एक टेबल जो दूसरी के इतने पास सटी हो कि इंजन यह न बता सके कि एक कहाँ ख़त्म होती है।
यह ईमानदार सीमा है। टूल टेबल ढूँढने और उठाने में अच्छा है, पर वह किसी मर्ज की गई या लपेटी हुई सेल पर आपका इरादा नहीं पढ़ सकता। यह एक वाजिब चुनाव करता है, और कभी-कभी वह चुनाव वही नहीं होता जो आप चाहते थे।
स्कैन की गई PDF का क्या
यही वह हिस्सा है जिसके बारे में साफ़ रहना ज़रूरी है। अगर आपकी PDF एक स्कैन है, एक फोटो है, या किसी फ़ैक्स से एक्सपोर्ट है, तो पन्ना एक इमेज के रूप में स्टोर होता है। उसके नीचे कोई टेक्स्ट लेयर नहीं होती। एक टेबल एक्सट्रैक्टर के लिए वह पन्ना एक तस्वीर है जिसमें पढ़ने लायक न कोई पंक्ति है न कोई कॉलम।
इमेज में से टेक्स्ट खींचने के लिए OCR चाहिए, जो एक अलग तरह की प्रोसेसिंग है। docuconverter OCR नहीं देता। तो स्कैन की गई PDF आपको यहाँ काम लायक स्प्रेडशीट नहीं देगी। टूल एक ख़ाली या लगभग-ख़ाली फाइल लौटा सकता है, क्योंकि पढ़ने लायक कुछ था ही नहीं।
अगर आपके पास स्कैन है, तो उपाय यह है कि उसे पहले किसी ऐसी जगह से डिजिटल PDF में बदलें जो OCR करती हो। कई स्कैनर ऐप और कुछ डेस्कटॉप PDF प्रोग्राम OCR चला सकते हैं और एक असली टेक्स्ट लेयर वाली "खोजने योग्य PDF" सेव कर सकते हैं। एक बार जब आपके पास वह टेक्स्ट-आधारित वर्ज़न हो, तो उसे वापस docuconverter पर लाएँ और टेबल एक्सट्रैक्शन सामान्य तरीक़े से काम करेगा।
शुरू करने से पहले एक झटपट टेस्ट: अपनी PDF खोलें और माउस से टेक्स्ट की एक लाइन चुनने की कोशिश करें। अगर आप अलग-अलग शब्द हाइलाइट कर पा रहे हैं, तो यह डिजिटल PDF है और आप तैयार हैं। अगर आपका कर्सर पूरे पन्ने को एक इमेज की तरह चुन लेता है, तो यह स्कैन है और इसे पहले OCR चाहिए।
एक्सपोर्ट के बाद सफ़ाई
साफ़ फाइल पर भी, स्प्रेडशीट को संवारने में कुछ मिनट लगाने की योजना रखें। यह किसी भी PDF-से-टेबल वर्कफ़्लो के लिए सामान्य है, किसी एक टूल की कमी नहीं। यहाँ देखने लायक चीज़ें हैं।
- नंबर फ़ॉर्मेटिंग। रकम टेक्स्ट के रूप में आ सकती हैं, ख़ासकर करेंसी चिह्नों या हज़ार के विभाजकों के साथ। कॉलम चुनें और उसे नंबर फ़ॉर्मेट पर सेट करें ताकि कुल ठीक से बने।
- तारीख़ें। "05-06-2026" के रूप में लिखी तारीख़ टेक्स्ट के रूप में पढ़ी जा सकती है। अगर आपके फ़ॉर्मूले तारीख़ों को नहीं पहचान रहे, तो कॉलम को दोबारा फ़ॉर्मेट करें।
- मर्ज किए हेडर। अगर PDF में कोई हेडर कई कॉलम पर फैला था, तो उसे अनमर्ज करें और कॉलम के शीर्षक दोबारा टाइप करें ताकि हर कॉलम का अपना साफ़ नाम हो।
- बँटी हुई पंक्तियाँ। PDF में दो लाइनों में लपेटी गई सेल दो पंक्तियों के रूप में आ सकती है। उन्हें दोबारा जोड़ें ताकि हर रिकॉर्ड एक पंक्ति पर बैठे।
- भटके हुए कॉलम। कभी-कभी लेआउट में एक पतला गैप एक अतिरिक्त ख़ाली कॉलम बना देता है। उसे डिलीट कर दें।
- फ़ुटनोट और कुल। टेबल के नीचे की "Total" पंक्ति या कोई फ़ुटनोट डेटा के रूप में आ सकता है। उसे हटा दें या खिसका दें ताकि वह जोड़ को बिगाड़ न दे।
एक अच्छी आदत है पहले एक्सट्रैक्ट करना, फिर किसी एक कॉलम को सॉर्ट करना। अगर कोई मान ग़लत जगह कूद जाता है, तो उस पंक्ति में शायद फ़ॉर्मेटिंग की कोई दिक़्क़त है जिसे नंबरों पर भरोसा करने से पहले ठीक कर लेना बेहतर है।
जब आपको Excel नहीं चाहिए
कभी-कभी टेबल किसी बड़े डॉक्यूमेंट का हिस्सा होती है और आप असल में पूरी चीज़ को संपादित करना चाहते हैं, नंबरों पर हिसाब नहीं लगाना। अगर लक्ष्य किसी कॉन्ट्रैक्ट या रिपोर्ट के कुछ शब्द बदलना है, न कि गणित करना, तो स्प्रेडशीट वाला रास्ता घुमावदार है।
PDF के अंदर ही छोटे टेक्स्ट बदलावों के लिए, PDF में सीधे टेक्स्ट संपादित करना अक्सर ज़्यादा तेज़ होता है। और अगर आपको पूरा डॉक्यूमेंट सेल के ग्रिड की बजाय पैराग्राफ़ और हेडिंग वाले संपादन-योग्य फ़ॉर्मेट में चाहिए, तो PDF को Word में कन्वर्ट करना ज़्यादा सही बैठता है। Excel वाला रास्ता तब इस्तेमाल करें जब आपकी असली चिंता टेबल के अंदर का डेटा हो।
संक्षेप में
PDF से Excel में टेबल निकालने के लिए: टेक्स्ट चुनने की कोशिश करके पुष्टि करें कि PDF डिजिटल है, उसे PDF to Excel टूल पर अपलोड करें, और .xlsx डाउनलोड करें जिसमें हर टेबल अपनी अलग शीट पर हो। साफ़ ग्रिड के अच्छे से आने की उम्मीद रखें और मर्ज की गई या मल्टी-लाइन सेल को थोड़ी हाथ से सफ़ाई की ज़रूरत होगी। स्कैन की गई फाइलें तब तक काम नहीं करेंगी जब तक उन्हें कहीं और OCR से चलाकर डिजिटल PDF के रूप में सेव न किया जाए। इसमें से किसी के लिए क्रेडिट कार्ड नहीं चाहिए, और आपकी फाइल डाउनलोड के लगभग आधे घंटे बाद सर्वर से हटा दी जाती है।
सवाल हैं? info@docuconverter.in पर ईमेल करें
Sheo