Skip to main content

PDF থেকে Excel-এ টেবিল কীভাবে বের করবেন (নতুন করে টাইপ না করে)

প্রকাশিতলেখক Sheo
  • how-to
  • pdf-to-excel

হাতে হাতে PDF থেকে টেবিল কপি করা ধীর এবং ভুলে ভরা। আপনি একটা সারি সিলেক্ট করেন, Excel-এ পেস্ট করেন, আর সংখ্যাগুলো পাঁচটার বদলে একটাই সেলে গিয়ে পড়ে। তারপর কলাম ভাগ করতে বিশ মিনিট চলে যায়। টেবিল যদি দুই পৃষ্ঠায় বিস্তৃত হয়, তাহলে পুরোটা আবার করতে হয়। এই পোস্ট ব্যাখ্যা করে কীভাবে PDF থেকে Excel-এ টেবিল দ্রুত উপায়ে বের করবেন, কী ভালো কাজ করে, এবং কোন অংশে এখনও মানুষের চোখ দরকার।

আগে সৎ পরিসর: এটা কেবল ডিজিটাল, টেক্সট-ভিত্তিক PDF-এ কাজ করে। আপনার ফাইল যদি একটা স্ক্যান বা পৃষ্ঠার ছবি হয়, নিচের ধাপগুলো নিজে থেকে সাহায্য করবে না। কম্পিউটারের কাছে স্ক্যান কেবল একটা ছবি; বের করার মতো কোনো টেক্সট নেই। docuconverter OCR করে না, তাই স্ক্যান করা ফাইলকে আগে অন্য কোথাও ডিজিটাল PDF-এ রূপান্তর করতে হয়। এ নিয়ে আরও নিচে।

কাদের এটা দরকার

PDF থেকে টেবিল বের করতে চান এমন বেশিরভাগ মানুষ কয়েকটি দলে পড়েন। ডেটা ইতিমধ্যেই সারি ও কলামে সাজানো আছে। তাদের শুধু এটা একটা স্প্রেডশিটে চাই যাতে তারা সাজাতে, যোগ করতে, বা চার্ট করতে পারে।

  • ব্যাঙ্ক ও কার্ড স্টেটমেন্ট। লেনদেন, তারিখ, পরিমাণ। মানুষ এগুলো Excel-এ চায় খরচ ট্র্যাক করতে বা ট্যাক্স ফাইল করার আগে অ্যাকাউন্ট্যান্টকে দিতে।
  • ইনভয়েস ও পারচেজ অর্ডার। লাইন আইটেম, পরিমাণ, ইউনিট দাম, GST। অর্ডারের সঙ্গে মিলিয়ে দেখতে বা মাসিক মোট তৈরি করতে উপকারী।
  • রিপোর্ট ও গবেষণা। ত্রৈমাসিক সংখ্যা, সমীক্ষার ফলাফল, দামের তালিকা। PDF হিসেবে আসা টেবিলের উপর যাদের অঙ্ক কষতে হয়।
  • সরকারি ও পরীক্ষার ডেটা। ফলাফলের শিট, ফি টেবিল, টেন্ডার তালিকা। এগুলো প্রায়ই PDF হিসেবে আসে, কোনো স্প্রেডশিট সংস্করণ দেওয়া হয় না।

এই সবগুলোতে টেবিল ইতিমধ্যেই আছে। কাজটা হলো এটাকে নতুন করে টাইপ না করে এবং কলাম স্ট্রাকচার না ভেঙে সরিয়ে নেওয়া।

docuconverter কীভাবে টেবিল শনাক্ত করে

docuconverter একটি PDF-এর ভেতরের টেবিল খুঁজে পেতে Docling নামের একটি মেশিন-লার্নিং টেবিল এক্সট্র্যাক্টর ব্যবহার করে। এটা শুধু টেক্সট ধরে কলাম কোথায় তা আন্দাজ করে না। এটা পৃষ্ঠার লেআউট দেখে, টেবিলের মতো আচরণ করা ব্লকগুলো খুঁজে বের করে, এবং সারি ও কলামকে একটি গ্রিডে ম্যাপ করে।

ধাপগুলো ছোট:

  1. PDF থেকে Excel টুল খুলুন এবং আপনার PDF আপলোড করুন।
  2. প্রম্পট এলে আপনার Google অ্যাকাউন্ট দিয়ে সাইন ইন করুন।
  3. ইঞ্জিন ফাইল স্ক্যান করে এবং যত টেবিল পায় সব বের করে আনে।
  4. .xlsx ফাইল ডাউনলোড করুন এবং Excel, Google Drive-এর Sheets বা LibreOffice Calc-এ খুলুন।

আপনার PDF-এ যদি বিভিন্ন পৃষ্ঠা জুড়ে একাধিক টেবিল থাকে, তাহলে প্রতিটি শনাক্ত করা টেবিল আউটপুট ফাইলে নিজস্ব আলাদা শিটে বসানো হয়। তাই প্রতি পৃষ্ঠায় একটি করে টেবিলসহ ছয়-পৃষ্ঠার রিপোর্ট আপনাকে ছয়টি ট্যাবের একটি ওয়ার্কবুক দেয়, এবং মূল স্ট্রাকচার প্রতিটিতে ধরে রাখা হয়।

অ্যাক্সেস নিয়ে একটা কথা: বেনামি ব্যবহারকারীরা সাইন-ইন প্রম্পটের আগে দিনে দুয়েকটি রূপান্তর পান। কোনো ক্রেডিট কার্ড নেই, কোনো ইমেইল সাইনআপ নেই। আপনার আপলোড করা ফাইল আপনি ফলাফল ডাউনলোড করার প্রায় ৩০ মিনিট পরে সার্ভার থেকে মুছে ফেলা হয়, তাই কাজ শেষ হওয়ার অনেকক্ষণ পরেও এটা সার্ভারে পড়ে থাকে না।

পরিষ্কার ডিজিটাল PDF বনাম এলোমেলো PDF

ফলাফলের গুণমান অনেকটাই নির্ভর করে সোর্স ফাইলের টেবিলের উপর। পরিষ্কার টেবিলে শনাক্তকরণ ভালো হয়। টেবিল নিজেই অস্বাভাবিক হলে এটা কঠিন হয়ে পড়ে। এখানে একটা মোটামুটি নির্দেশিকা।

টেবিলের ধরনকী আশা করবেন
সাধারণ গ্রিড, প্রতি সেলে একটি মানপরিষ্কারভাবে বের হয়, প্রায় কোনো পরিচ্ছন্নতা লাগে না
দৃশ্যমান বর্ডার ও হেডারনির্ভরযোগ্যভাবে শনাক্ত হয়, কলাম ভালোভাবে সারিবদ্ধ হয়
মার্জ করা সেল (একটি হেডার একাধিক কলাম জুড়ে)শনাক্ত হয়, কিন্তু মার্জ হাতে ঠিক করতে হতে পারে
বহু-লাইন সেল (একটি সেলের ভেতরে টেক্সট মোড়ানো)অতিরিক্ত সারিতে ভাগ হতে পারে যা আপনাকে আবার জোড়া দিতে হবে
বর্ডার নেই, শুধু ফাঁকা জায়গায় কলামসাধারণত কাজ করে, কিন্তু কলামের প্রান্ত সরে যেতে পারে
দুটি টেবিল কোনো ফাঁক ছাড়াই লাগোয়াএকটি টেবিল হিসেবে পড়া হতে পারে

একটি পরিষ্কার, আধুনিক স্টেটমেন্ট বা ভালোভাবে তৈরি ইনভয়েস সাধারণত কলাম অক্ষত রেখেই চলে আসে। যেসব ক্ষেত্রে মানুষ দরকার সেগুলো হলো জটিল ধরনের: একটি হেডার সেল যা তিনটি কলাম জুড়ে আছে, একটি নোটস কলাম যেখানে প্রতিটি এন্ট্রি দুই লাইনে গড়ায়, বা এমন আঁটসাঁটভাবে অন্য টেবিলের গায়ে চাপা একটি টেবিল যে ইঞ্জিন বুঝতে পারে না কোনটা কোথায় শেষ।

এটাই সৎ সীমা। টুলটা টেবিল খুঁজে বের করতে ও তুলে আনতে ভালো, কিন্তু মার্জ করা বা মোড়ানো সেলে এটা আপনার উদ্দেশ্য পড়তে পারে না। এটা একটা যুক্তিসঙ্গত পছন্দ করে, আর কখনো কখনো সেই পছন্দটা আপনি যা চেয়েছিলেন তা নয়।

স্ক্যান করা PDF সম্পর্কে কী

এই অংশটা স্পষ্ট করে বলা দরকার। আপনার PDF যদি একটা স্ক্যান, একটা ছবি, বা ফ্যাক্স থেকে এক্সপোর্ট হয়, তাহলে পৃষ্ঠাটা একটি ছবি হিসেবে সংরক্ষিত থাকে। নিচে কোনো টেক্সট লেয়ার নেই। একটি টেবিল এক্সট্র্যাক্টরের কাছে সেই পৃষ্ঠা পড়ার মতো সারি বা কলামহীন একটি ছবি।

ছবি থেকে টেক্সট বের করতে OCR দরকার, যা আলাদা ধরনের প্রসেসিং। docuconverter OCR দেয় না। তাই একটি স্ক্যান করা PDF এখানে আপনাকে ব্যবহারযোগ্য স্প্রেডশিট দেবে না। টুলটা একটা খালি বা প্রায়-খালি ফাইল ফেরত দিতে পারে, কারণ পড়ার মতো কিছুই ছিল না।

আপনার কাছে স্ক্যান থাকলে সমাধান হলো এটাকে আগে এমন কোথাও ডিজিটাল PDF-এ রূপান্তর করা যেখানে OCR হয়। অনেক স্ক্যানার অ্যাপ এবং কিছু ডেস্কটপ PDF প্রোগ্রাম OCR চালিয়ে একটি সত্যিকারের টেক্সট লেয়ারসহ "সার্চযোগ্য PDF" সেভ করতে পারে। সেই টেক্সট-ভিত্তিক সংস্করণ পেয়ে গেলে এটাকে docuconverter-এ ফিরিয়ে আনুন এবং টেবিল এক্সট্র্যাকশন স্বাভাবিক উপায়ে কাজ করবে।

শুরুর আগে একটি দ্রুত পরীক্ষা: আপনার PDF খুলুন এবং মাউস দিয়ে এক লাইন টেক্সট সিলেক্ট করার চেষ্টা করুন। আপনি যদি আলাদা আলাদা শব্দ হাইলাইট করতে পারেন, তাহলে এটা একটা ডিজিটাল PDF এবং আপনি এগোতে পারবেন। আপনার কার্সার যদি পুরো পৃষ্ঠাকে একটা ছবি হিসেবে সিলেক্ট করে, তাহলে এটা একটা স্ক্যান এবং আগে OCR দরকার।

এক্সপোর্টের পরে পরিচ্ছন্নতা

একটা পরিষ্কার ফাইলেও স্প্রেডশিট গোছাতে কয়েক মিনিট খরচ করার পরিকল্পনা রাখুন। যেকোনো PDF-থেকে-টেবিল ওয়ার্কফ্লোর জন্য এটা স্বাভাবিক, কোনো একটি টুলের ত্রুটি নয়। এখানে কী যাচাই করবেন।

  • নম্বর ফরম্যাটিং। পরিমাণ টেক্সট হিসেবে আসতে পারে, বিশেষ করে মুদ্রার চিহ্ন বা হাজার বিভাজকসহ। কলামটা সিলেক্ট করে একটা নম্বর ফরম্যাটে সেট করুন যাতে মোট কাজ করে।
  • তারিখ। "05-06-2026" হিসেবে লেখা একটা তারিখ টেক্সট হিসেবে পড়া হতে পারে। আপনার ফর্মুলা তারিখ চিনতে না পারলে কলামটা আবার ফরম্যাট করুন।
  • মার্জ করা হেডার। PDF-এ একটা হেডার যদি একাধিক কলাম জুড়ে থাকে, এটা আনমার্জ করুন এবং কলামের শিরোনাম আবার টাইপ করুন যাতে প্রতিটি কলামের নিজের স্পষ্ট নাম থাকে।
  • ভাগ হওয়া সারি। PDF-এ দুই লাইনে মোড়ানো একটা সেল দুটি সারিতে গিয়ে পড়তে পারে। এগুলো আবার জোড়া দিন যাতে প্রতিটি রেকর্ড একটি সারিতে বসে।
  • বেমানান কলাম। কখনো কখনো লেআউটে একটা সরু ফাঁক একটা অতিরিক্ত খালি কলাম তৈরি করে। এটা মুছে দিন।
  • ফুটনোট ও মোট। টেবিলের নিচে একটা "Total" সারি বা একটা ফুটনোট ডেটা হিসেবে চলে আসতে পারে। এটা সরান বা মুছে দিন যাতে এটা যোগফলকে বিকৃত না করে।

একটা ভালো অভ্যাস হলো আগে এক্সট্র্যাক্ট করা, তারপর একটা কলাম সাজানো। কোনো মান যদি ভুল জায়গায় লাফিয়ে যায়, তাহলে সেই সারিতে সম্ভবত একটা ফরম্যাটিং সমস্যা আছে যা সংখ্যাগুলোকে বিশ্বাস করার আগে ঠিক করা ভালো।

যখন Excel আপনার চাওয়া জিনিস নয়

কখনো কখনো টেবিল একটা বড় ডকুমেন্টের অংশ আর আপনি আসলে পুরোটা সম্পাদনা করতে চান, সংখ্যা নিয়ে অঙ্ক কষতে নয়। লক্ষ্য যদি একটা চুক্তি বা রিপোর্টে কয়েকটা শব্দ বদলানো হয় অঙ্ক করার বদলে, তাহলে স্প্রেডশিটের পথ লম্বা ঘুরপথ।

PDF-এর ভেতরেই ছোট টেক্সট পরিবর্তনের জন্য, PDF-এ সরাসরি টেক্সট সম্পাদনা করা প্রায়ই দ্রুত হয়। আর সেলের গ্রিডের বদলে অনুচ্ছেদ ও শিরোনামসহ সম্পাদনাযোগ্য ফরম্যাটে আপনার পুরো ডকুমেন্ট দরকার হলে, PDF থেকে Word-এ রূপান্তর আরও উপযুক্ত। Excel-এর পথ ব্যবহার করুন যখন আপনার কাছে গুরুত্বপূর্ণ জিনিসটা হলো টেবিলের ভেতরের ডেটা।

সংক্ষিপ্ত সংস্করণ

PDF থেকে Excel-এ টেবিল বের করতে: টেক্সট সিলেক্ট করার চেষ্টা করে নিশ্চিত করুন PDF-টা ডিজিটাল, এটা PDF থেকে Excel টুল-এ আপলোড করুন, এবং প্রতিটি টেবিল নিজস্ব শিটে রেখে .xlsx ডাউনলোড করুন। পরিষ্কার গ্রিড ভালোভাবে আসবে আশা করুন আর মার্জ করা বা বহু-লাইন সেলে একটু হাতে পরিচ্ছন্নতা দরকার হবে। স্ক্যান করা ফাইল কাজ করবে না যতক্ষণ না সেগুলো অন্য কোথাও OCR দিয়ে চালিয়ে একটি ডিজিটাল PDF হিসেবে সেভ করা হয়। এর কোনোটারই ক্রেডিট কার্ড লাগে না, আর ডাউনলোডের প্রায় আধ ঘণ্টা পরে আপনার ফাইল সার্ভার থেকে সরিয়ে ফেলা হয়।

প্রশ্ন আছে? info@docuconverter.in-এ ইমেইল করুন

Sheo