PDF الجدول مستخرج

تم إنشاء مستخرج الجدول PDF كأداة جديدة لتلبية هذه الحاجة.

الوصف

تتيح المكتبة استخراج هياكل الجداول من مجموعة من الصفحات داخل ملف PDF

يوفر قائمة بالعناصر ، والتي يمكن أن تتضمن أسطرًا من النص أو الجداول

يتم تنظيم الجداول في بعدين، تتكون من الخلايا الفردية التي يمكن الوصول إليها لاسترداد محتوياتها.

وصف الكود

مع الإصدار 3.0 من المكتبة، يتم اتباع استراتيجية أكثر ملاءمة لتحديد مناطق خلايا الجدول.

يتم تطبيق نوع من الكشف عن الحافة ، ولكن أكثر ملاءمة للخطوط الأفقية والرأسية تماما.

بعد الحصول على حواف الجدول، يتم تنفيذ معالجة إضافية، ويتم الحصول على مواقع كل خلية، تليها النص الوارد داخل كل من تلك الخلايا.

ويبدو أن هذه هي النسخة النهائية، في انتظار الكشف عن الحالات المكشوفة وجمعها والقدرة على تغطيتها بشكل صحيح.

ويندوز

PDF جدول مستخرج v1.0 (2024)

تحميل

PDF جدول مستخرج v2.0 (2024-2025)

تحميل

PDF جدول مستخرج v3.0 (2025)

تحميل

إصدارات الإصدار

image

الاستفادة من الطبقات المبرمجة لتطبيق ChessPdfBrowser، وهو تطبيق يقوم بمسح واستخراج ألعاب الشطرنج من ملفات PDF، قمت بإنشاء نسخة تجريبية من المكتبة لاستخراج النص من ملفات PDF، بما في ذلك عناصر الجدولة

تقوم المكتبة بمسح الصفحات المحددة واستخراج نصها. أثناء استخراج النص ، فإنه يبحث عن أنماط جداول ويستخرجها بتنسيق صفيف مستطيل

آمل أن يكون هذا مفيدًا لشخص ما.

image

لدي إمكانية الوصول إلى العديد من ملفات PDF التي تحتوي على جداول يمكنني تجربتها

لقد لاحظت أن v1.0 من المكتبة ليست متعددة الاستخدامات للغاية ؛ يعمل بشكل جيد مع بعض ملفات PDF ولكن ليس مع الآخرين

يقدم إصدار المكتبة الجديد إعدادات متعددة استنادًا إلى التجربة والخطأ في اختبار ملفات PDF.

قد يعمل كل إعداد بشكل جيد مع بعض ملفات PDF وسيئة مع الآخرين.

الهدف من الإصدار الجديد هو استخراج الجداول باستخدام جميع الإعدادات التي تم إنشاؤها وتطوير مزيج مثالي من النتائج من خلال تنفيذ محدد ملاءمة.

هذا لا يؤدي دائمًا إلى استخراج مثالي ، ولكن يمكن أن يكون بداية جيدة.


إذا لم يؤد أي من الإعدادات إلى استخراج جدول مناسب ، فلا تتردد في الاتصال بي حول إمكانية إضافة إعداد جديد يعمل مع الجدول الخاص بك.

image
image

تظهر النسخة الجديدة من المكتبة بهدف تحسين استخراج الجدول.


التحسين المقترح لهذا الإصدار هو الكشف عن حواف الجدول قبل القيام بأي معالجة على النصوص، واستخراج نصوص كل خلية معرفة موقعها مسبقا.

يتم استخراج الحواف من خلال تطبيق الارتباطات الأساسية للخطوط الأفقية والرأسية تمامًا ، ومع معالجة إضافية قليلاً ، يمكن استخراج حواف الجدول الكاملة.

بمجرد الحصول على الحواف ، يتم إنشاء رسم بياني مع الاتصالات المباشرة لكل قمة ، وعبر هذا الرسم البياني ، يمكن استرداد مناطق خلايا الجدول.


تُرجع المكتبة مزيجًا مرتبًا من الجداول والفقرات غير الموجودة في أي جدول ، في محاولة لاحترام الترتيب في تخطيط PDF.

يمكن للمحلل نظريًا اكتشاف التخطيطات في عمود واحد أو أكثر ، أو مجموعة معينة ، والتي سيستنتجها محلل الفقرة بقليل من الحظ.

يجب أن يحدث هذا دون أي تدخل إضافي في المكالمات ، وذلك ببساطة باستخدام المنشئات الافتراضية.

تأخذ منشئات المحلل الأخرى كائنات التكوين مع العديد من المعلمات ، لذلك إذا لم يعمل المحلل بشكل مثالي مع ملف PDF الخاص بك ، فمن الممكن تمامًا أنه يمكنه إصلاحه "ببساطة" عن طريق تعديل كائن التكوين هذا.

إنها مهمة صعبة إذا لم تكن مطور المكتبة ، لذلك أنا على استعداد لمحاولة تعديل هذا التكوين في حالة عدم عمل المكتبة بشكل مثالي مع ملف PDF الخاص بك. frojasg1@hotmail.com)

التنزيلات