Skip to main content

PDF से Excel में टेबल कैसे निकालें (बिना दोबारा टाइप किए)

प्रकाशितलेखक Sheo
  • how-to
  • pdf-to-excel

किसी PDF से टेबल हाथ से कॉपी करना धीमा है और इसमें ग़लती की पूरी गुंजाइश रहती है। आप एक पंक्ति चुनते हैं, उसे Excel में पेस्ट करते हैं, और सारे नंबर पाँच की बजाय एक ही सेल में जा गिरते हैं। फिर आप बीस मिनट कॉलम बाँटने में लगा देते हैं। अगर टेबल दो पन्नों में फैली हो, तो यह सब फिर से दोहराना पड़ता है। यह पोस्ट बताती है कि PDF से Excel में टेबल तेज़ तरीक़े से कैसे निकालें, क्या अच्छे से काम करता है, और कौन-से हिस्सों को अब भी इंसानी नज़र की ज़रूरत है।

पहले ईमानदार दायरा: यह सिर्फ़ डिजिटल, टेक्स्ट-आधारित PDF पर काम करता है। अगर आपकी फाइल किसी पन्ने का स्कैन या फोटो है, तो नीचे दिए स्टेप अकेले उसमें मदद नहीं करेंगे। कंप्यूटर के लिए स्कैन बस एक इमेज है; उसमें खींचने लायक कोई टेक्स्ट होता ही नहीं। docuconverter OCR नहीं करता, तो स्कैन की गई फाइल को पहले कहीं और से डिजिटल PDF में बदलना पड़ता है। इस पर आगे और बात होगी।

इसकी ज़रूरत किसे है

जो लोग PDF से टेबल बाहर निकालना चाहते हैं, उनमें से ज़्यादातर कुछ समूहों में आते हैं। डेटा पहले से ही पंक्तियों और कॉलम में सजा होता है। उन्हें बस उसे स्प्रेडशीट में चाहिए ताकि वे उसे सॉर्ट कर सकें, जोड़ सकें, या उसका चार्ट बना सकें।

  • बैंक और कार्ड स्टेटमेंट। ट्रांज़ैक्शन, तारीख़ें, रकम। लोग इन्हें Excel में चाहते हैं ताकि ख़र्च ट्रैक कर सकें या टैक्स भरने से पहले अकाउंटेंट को सौंप सकें।
  • इनवॉइस और परचेज़ ऑर्डर। लाइन आइटम, मात्रा, यूनिट प्राइस, GST। ऑर्डर से मिलान करने या महीने का कुल बनाने में काम आते हैं।
  • रिपोर्ट और रिसर्च। तिमाही के आँकड़े, सर्वे के नतीजे, प्राइस लिस्ट। कोई भी जिसे PDF के रूप में आई किसी टेबल पर हिसाब लगाना है।
  • सरकारी और परीक्षा डेटा। रिज़ल्ट शीट, फ़ीस टेबल, टेंडर लिस्ट। ये अक्सर PDF के रूप में आती हैं जिनका कोई स्प्रेडशीट वर्ज़न नहीं दिया जाता।

इन सबमें टेबल पहले से मौजूद होती है। काम बस उसे बिना दोबारा टाइप किए और बिना कॉलम स्ट्रक्चर तोड़े हटाने का है।

docuconverter टेबल का पता कैसे लगाता है

docuconverter किसी PDF के अंदर टेबल ढूँढने के लिए Docling नाम के एक मशीन-लर्निंग टेबल एक्सट्रैक्टर का इस्तेमाल करता है। यह सिर्फ़ टेक्स्ट उठाकर अंदाज़ा नहीं लगाता कि कॉलम कहाँ हैं। यह पन्ने के लेआउट को देखता है, उन ब्लॉकों को ढूँढता है जो टेबल जैसा बर्ताव करते हैं, और पंक्तियों व कॉलम को एक ग्रिड में मैप कर देता है।

स्टेप छोटे हैं:

  1. PDF to Excel टूल खोलें और अपनी PDF अपलोड करें।
  2. प्रॉम्प्ट आने पर अपने Google अकाउंट से साइन इन करें।
  3. इंजन फाइल को स्कैन करता है और हर मिलने वाली टेबल को बाहर खींच लेता है।
  4. .xlsx फाइल डाउनलोड करें और उसे Excel, Google Drive के Sheets, या LibreOffice Calc में खोलें।

अगर आपकी PDF में अलग-अलग पन्नों पर कई टेबल हैं, तो हर पता चली टेबल आउटपुट फाइल में अपनी अलग शीट पर रखी जाती है। तो एक छह-पन्ने की रिपोर्ट जिसमें हर पन्ने पर एक टेबल है, आपको छह टैब वाली एक वर्कबुक देगी, और हर एक पर ओरिजिनल स्ट्रक्चर बना रहता है।

एक्सेस पर एक नोट: अनाम यूज़र को साइन-इन प्रॉम्प्ट से पहले रोज़ दो-तीन कन्वर्ज़न मिलते हैं। कोई क्रेडिट कार्ड नहीं और कोई ईमेल साइनअप नहीं। आपकी अपलोड की गई फाइल नतीजा डाउनलोड करने के लगभग 30 मिनट बाद सर्वर से डिलीट कर दी जाती है, तो आपका काम ख़त्म होने के बाद वह सर्वर पर ज़्यादा देर नहीं पड़ी रहती।

साफ़ डिजिटल PDF बनाम गड़बड़ वाली

नतीजे की क्वालिटी बहुत हद तक सोर्स फाइल की टेबल पर निर्भर करती है। साफ़ टेबल पर पहचान अच्छी होती है। जब टेबल ख़ुद असामान्य हो तो यह मुश्किल हो जाता है। यहाँ एक मोटा गाइड है।

टेबल का प्रकारक्या उम्मीद करें
सादा ग्रिड, हर सेल में एक मानसाफ़-साफ़ निकलती है, सफ़ाई की ज़रूरत न के बराबर
दिखने वाली बॉर्डर और हेडरभरोसेमंद ढंग से पता चलती है, कॉलम ठीक से लाइन में आते हैं
मर्ज की गई सेल (एक हेडर कई कॉलम पर फैला)पता चलती है, पर मर्ज को हाथ से ठीक करना पड़ सकता है
मल्टी-लाइन सेल (एक ही सेल के अंदर टेक्स्ट लपेटा गया)अतिरिक्त पंक्तियों में बँट सकती है जिन्हें आपको दोबारा जोड़ना पड़ेगा
कोई बॉर्डर नहीं, सिर्फ़ स्पेसिंग वाले कॉलमआमतौर पर काम करती है, पर कॉलम के किनारे खिसक सकते हैं
दो टेबल बिना किसी गैप के सटी हुईएक ही टेबल के रूप में पढ़ी जा सकती हैं

एक साफ़, आधुनिक स्टेटमेंट या अच्छी तरह बनी इनवॉइस आमतौर पर कॉलम सही-सलामत के साथ आ जाती है। जिन मामलों में इंसान की ज़रूरत होती है, वे फ़ैंसी वाले हैं: एक हेडर सेल जो तीन कॉलम पर फैली हो, एक नोट्स कॉलम जहाँ हर एंट्री दो लाइनों में चलती हो, या एक टेबल जो दूसरी के इतने पास सटी हो कि इंजन यह न बता सके कि एक कहाँ ख़त्म होती है।

यह ईमानदार सीमा है। टूल टेबल ढूँढने और उठाने में अच्छा है, पर वह किसी मर्ज की गई या लपेटी हुई सेल पर आपका इरादा नहीं पढ़ सकता। यह एक वाजिब चुनाव करता है, और कभी-कभी वह चुनाव वही नहीं होता जो आप चाहते थे।

स्कैन की गई PDF का क्या

यही वह हिस्सा है जिसके बारे में साफ़ रहना ज़रूरी है। अगर आपकी PDF एक स्कैन है, एक फोटो है, या किसी फ़ैक्स से एक्सपोर्ट है, तो पन्ना एक इमेज के रूप में स्टोर होता है। उसके नीचे कोई टेक्स्ट लेयर नहीं होती। एक टेबल एक्सट्रैक्टर के लिए वह पन्ना एक तस्वीर है जिसमें पढ़ने लायक न कोई पंक्ति है न कोई कॉलम।

इमेज में से टेक्स्ट खींचने के लिए OCR चाहिए, जो एक अलग तरह की प्रोसेसिंग है। docuconverter OCR नहीं देता। तो स्कैन की गई PDF आपको यहाँ काम लायक स्प्रेडशीट नहीं देगी। टूल एक ख़ाली या लगभग-ख़ाली फाइल लौटा सकता है, क्योंकि पढ़ने लायक कुछ था ही नहीं।

अगर आपके पास स्कैन है, तो उपाय यह है कि उसे पहले किसी ऐसी जगह से डिजिटल PDF में बदलें जो OCR करती हो। कई स्कैनर ऐप और कुछ डेस्कटॉप PDF प्रोग्राम OCR चला सकते हैं और एक असली टेक्स्ट लेयर वाली "खोजने योग्य PDF" सेव कर सकते हैं। एक बार जब आपके पास वह टेक्स्ट-आधारित वर्ज़न हो, तो उसे वापस docuconverter पर लाएँ और टेबल एक्सट्रैक्शन सामान्य तरीक़े से काम करेगा।

शुरू करने से पहले एक झटपट टेस्ट: अपनी PDF खोलें और माउस से टेक्स्ट की एक लाइन चुनने की कोशिश करें। अगर आप अलग-अलग शब्द हाइलाइट कर पा रहे हैं, तो यह डिजिटल PDF है और आप तैयार हैं। अगर आपका कर्सर पूरे पन्ने को एक इमेज की तरह चुन लेता है, तो यह स्कैन है और इसे पहले OCR चाहिए।

एक्सपोर्ट के बाद सफ़ाई

साफ़ फाइल पर भी, स्प्रेडशीट को संवारने में कुछ मिनट लगाने की योजना रखें। यह किसी भी PDF-से-टेबल वर्कफ़्लो के लिए सामान्य है, किसी एक टूल की कमी नहीं। यहाँ देखने लायक चीज़ें हैं।

  • नंबर फ़ॉर्मेटिंग। रकम टेक्स्ट के रूप में आ सकती हैं, ख़ासकर करेंसी चिह्नों या हज़ार के विभाजकों के साथ। कॉलम चुनें और उसे नंबर फ़ॉर्मेट पर सेट करें ताकि कुल ठीक से बने।
  • तारीख़ें। "05-06-2026" के रूप में लिखी तारीख़ टेक्स्ट के रूप में पढ़ी जा सकती है। अगर आपके फ़ॉर्मूले तारीख़ों को नहीं पहचान रहे, तो कॉलम को दोबारा फ़ॉर्मेट करें।
  • मर्ज किए हेडर। अगर PDF में कोई हेडर कई कॉलम पर फैला था, तो उसे अनमर्ज करें और कॉलम के शीर्षक दोबारा टाइप करें ताकि हर कॉलम का अपना साफ़ नाम हो।
  • बँटी हुई पंक्तियाँ। PDF में दो लाइनों में लपेटी गई सेल दो पंक्तियों के रूप में आ सकती है। उन्हें दोबारा जोड़ें ताकि हर रिकॉर्ड एक पंक्ति पर बैठे।
  • भटके हुए कॉलम। कभी-कभी लेआउट में एक पतला गैप एक अतिरिक्त ख़ाली कॉलम बना देता है। उसे डिलीट कर दें।
  • फ़ुटनोट और कुल। टेबल के नीचे की "Total" पंक्ति या कोई फ़ुटनोट डेटा के रूप में आ सकता है। उसे हटा दें या खिसका दें ताकि वह जोड़ को बिगाड़ न दे।

एक अच्छी आदत है पहले एक्सट्रैक्ट करना, फिर किसी एक कॉलम को सॉर्ट करना। अगर कोई मान ग़लत जगह कूद जाता है, तो उस पंक्ति में शायद फ़ॉर्मेटिंग की कोई दिक़्क़त है जिसे नंबरों पर भरोसा करने से पहले ठीक कर लेना बेहतर है।

जब आपको Excel नहीं चाहिए

कभी-कभी टेबल किसी बड़े डॉक्यूमेंट का हिस्सा होती है और आप असल में पूरी चीज़ को संपादित करना चाहते हैं, नंबरों पर हिसाब नहीं लगाना। अगर लक्ष्य किसी कॉन्ट्रैक्ट या रिपोर्ट के कुछ शब्द बदलना है, न कि गणित करना, तो स्प्रेडशीट वाला रास्ता घुमावदार है।

PDF के अंदर ही छोटे टेक्स्ट बदलावों के लिए, PDF में सीधे टेक्स्ट संपादित करना अक्सर ज़्यादा तेज़ होता है। और अगर आपको पूरा डॉक्यूमेंट सेल के ग्रिड की बजाय पैराग्राफ़ और हेडिंग वाले संपादन-योग्य फ़ॉर्मेट में चाहिए, तो PDF को Word में कन्वर्ट करना ज़्यादा सही बैठता है। Excel वाला रास्ता तब इस्तेमाल करें जब आपकी असली चिंता टेबल के अंदर का डेटा हो।

संक्षेप में

PDF से Excel में टेबल निकालने के लिए: टेक्स्ट चुनने की कोशिश करके पुष्टि करें कि PDF डिजिटल है, उसे PDF to Excel टूल पर अपलोड करें, और .xlsx डाउनलोड करें जिसमें हर टेबल अपनी अलग शीट पर हो। साफ़ ग्रिड के अच्छे से आने की उम्मीद रखें और मर्ज की गई या मल्टी-लाइन सेल को थोड़ी हाथ से सफ़ाई की ज़रूरत होगी। स्कैन की गई फाइलें तब तक काम नहीं करेंगी जब तक उन्हें कहीं और OCR से चलाकर डिजिटल PDF के रूप में सेव न किया जाए। इसमें से किसी के लिए क्रेडिट कार्ड नहीं चाहिए, और आपकी फाइल डाउनलोड के लगभग आधे घंटे बाद सर्वर से हटा दी जाती है।

सवाल हैं? info@docuconverter.in पर ईमेल करें

Sheo