Εξαγωγέας πινάκων PDF

Ο εκχυλιστής πινάκων PDF δημιουργήθηκε ως ένα νέο εργαλείο για την αντιμετώπιση αυτής της ανάγκης.

Περιγραφή

Η βιβλιοθήκη επιτρέπει την εξαγωγή των δομών πινάκων από μια σειρά σελίδων μέσα σε ένα PDF

Παρέχει μια λίστα με στοιχεία, τα οποία μπορούν να περιλαμβάνουν γραμμές κειμένου ή πίνακες

Οι πίνακες είναι δομημένοι σε δύο διαστάσεις, που αποτελούνται από μεμονωμένα κύτταρα που μπορούν να προσπελαστούν για να ανακτήσουν το περιεχόμενό τους.

Περιγραφή κώδικα

Με την έκδοση 3.0 της βιβλιοθήκης, ακολουθείται μια πιο κατάλληλη στρατηγική για τον προσδιορισμό των περιοχών των επιτραπέζιων κελιών.

Εφαρμόζεται ένας τύπος ανίχνευσης άκρων, αλλά πιο κατάλληλος για απόλυτα οριζόντιες και κάθετες γραμμές.

Μετά την απόκτηση των ακμών του πίνακα, εκτελείται πρόσθετη επεξεργασία, και λαμβάνονται οι θέσεις κάθε κελιού, ακολουθούμενο από το κείμενο που περιέχεται μέσα σε κάθε ένα από αυτά τα κελιά.

Αυτή φαίνεται να είναι η τελική έκδοση, εν αναμονή της ανίχνευσης και της συλλογής ακάλυπτων περιπτώσεων και της δυνατότητας να τις καλύψει σωστά.

Παράθυρα

Εξαγωγέας πινάκων PDF v1.0 (2024)

Λήψη

Εξαγωγέας πινάκων PDF v2.0 (2024-2025)

Λήψη

Εξαγωγέας πινάκων PDF v3.0 (2025)

Λήψη

Εκδόσεις

image

Επωφελούμενος από τα μαθήματα που προγραμματίστηκαν για την ChessPdfBrowser εφαρμογή, η οποία είναι μια εφαρμογή που σαρώνει και εξάγει παιχνίδια σκακιού από PDF, δημιούργησα μια beta έκδοση της βιβλιοθήκης για την εξαγωγή κειμένου από PDF, συμπεριλαμβανομένων των στοιχείων πίνακα

Η βιβλιοθήκη σαρώνει τις καθορισμένες σελίδες και εξάγει το κείμενό τους. Ενώ εξάγει το κείμενο, αναζητά μοτίβα σε μορφή πίνακα και τα εξάγει σε μορφή ορθογώνιου πίνακα

Ελπίζω ότι αυτό θα είναι χρήσιμο σε κάποιον.

image

Έχω πρόσβαση σε αρκετά PDF που περιέχουν πίνακες με τους οποίους μπορώ να πειραματιστώ

Έχω παρατηρήσει ότι το v1.0 της βιβλιοθήκης δεν είναι πολύ ευπροσάρμοστο. λειτουργεί καλά με μερικά PDF αλλά όχι με άλλα

Η νέα έκδοση της βιβλιοθήκης εισάγει πολλαπλές ρυθμίσεις με βάση τη δοκιμή και το σφάλμα με τα δοκιμαστικά PDF.

Κάθε ρύθμιση μπορεί να λειτουργήσει καλά με ορισμένα PDF και κακώς με άλλα.

Ο στόχος της νέας έκδοσης είναι η εξαγωγή πινάκων χρησιμοποιώντας όλες τις δημιουργημένες ρυθμίσεις και η ανάπτυξη ενός βέλτιστου συνδυασμού αποτελεσμάτων με την εφαρμογή ενός επιλογέα καταλληλότητας.

Αυτό δεν έχει πάντα ως αποτέλεσμα μια τέλεια εξαγωγή, αλλά μπορεί να είναι μια καλή αρχή.


Αν καμία από τις ρυθμίσεις δεν οδηγήσει σε ευνοϊκή εξαγωγή πίνακα, μη διστάσετε να επικοινωνήσετε μαζί μου σχετικά με τη δυνατότητα προσθήκης μιας νέας ρύθμισης που λειτουργεί με το τραπέζι σας.

image
image

Η νέα έκδοση της βιβλιοθήκης εμφανίζεται με την πρόθεση της βελτίωσης της εξαγωγής πινάκων.


Η βελτίωση που προτείνεται για αυτή την έκδοση είναι να εντοπιστούν οι άκρες των πινάκων πριν γίνει οποιαδήποτε επεξεργασία στα κείμενα, και να εξαχθούν τα κείμενα κάθε κελιού γνωρίζοντας την τοποθεσία τους a priori.

Οι ακμές εξάγονται με την εφαρμογή βασικών συσχετίσεων απόλυτα οριζόντιων και κάθετων γραμμών, και με λίγη επιπλέον επεξεργασία, μπορούν να εξαχθούν πλήρεις ακμές τραπεζιού.

Μόλις ληφθούν οι άκρες, δημιουργείται ένα γράφημα με τις άμεσες συνδέσεις κάθε κορυφής, και διασχίζοντας αυτό το γράφημα, μπορούν να ανακτηθούν οι περιοχές των επιτραπέζιων κυττάρων.


Η βιβλιοθήκη επιστρέφει ένα διατεταγμένο μείγμα πινάκων και παραγράφων που δεν βρίσκονται σε κανέναν πίνακα, προσπαθώντας να σεβαστεί τη σειρά στη διάταξη PDF.

Ο αναλυτής μπορεί θεωρητικά να ανιχνεύσει διατάξεις σε μία ή περισσότερες στήλες, ή έναν συγκεκριμένο συνδυασμό, τον οποίο ο αναλυτής παραγράφου θα συμπεράνει με λίγη τύχη.

Αυτό θα πρέπει να συμβεί χωρίς καμία επιπλέον παρέμβαση στις κλήσεις, απλά με τη χρήση των προεπιλεγμένων κατασκευαστών.

Οι άλλοι κατασκευαστές αναλυτών παίρνουν αντικείμενα διαμόρφωσης με πολλές παραμέτρους, οπότε αν ο αναλυτής δεν λειτουργεί τέλεια με το PDF σας, είναι αρκετά πιθανό ότι μπορεί να το διορθώσει "απλά" τροποποιώντας αυτό το αντικείμενο ρύθμισης.

Είναι δύσκολο έργο αν δεν είστε ο προγραμματιστής της βιβλιοθήκης, οπότε είμαι πρόθυμος να προσπαθήσω να τροποποιήσω αυτή τη διαμόρφωση σε περίπτωση που η βιβλιοθήκη δεν λειτουργεί τέλεια με το PDF σας. (frojasg1@hotmail.com)

Λήψεις