Estrattore da tavola PDF

L'estrattore di tabelle PDF è stato creato come un nuovo strumento per rispondere a questa esigenza.

Descrizione

La libreria consente l'estrazione di strutture di tabella da un intervallo di pagine all'interno di un PDF

Fornisce un elenco di elementi, che possono includere righe di testo o tabelle

Le tabelle sono strutturate in due dimensioni, costituite da singole celle a cui è possibile accedere per recuperarne il contenuto.

Descrizione del codice

Con la versione 3.0 della libreria, viene seguita una strategia più appropriata per determinare le aree delle celle di tabella.

Viene applicato un tipo di rilevamento del bordo, ma più adatto a linee perfettamente orizzontali e verticali.

Dopo aver ottenuto i bordi della tabella, viene eseguita un'ulteriore elaborazione e vengono ottenute le posizioni di ciascuna cella, seguite dal testo contenuto all'interno di ciascuna di tali celle.

Questa sembra essere la versione finale, in attesa del rilevamento e della raccolta dei casi scoperti e della capacità di coprirli correttamente.

Finestre

Estrattore da tavola PDF v1.0 (2024)

Scarica

Estrattore da tavola PDF v2.0 (2024-2025)

Scarica

Estrattore da tavolo PDF v3.0 (2025)

Scarica

Versioni

image

Approfittando delle classi programmate per l'applicazione ChessPdfBrowser, che è un'applicazione che scansiona ed estrae i giochi di scacchi dai PDF, ho creato una versione beta della libreria per estrarre testo dai PDF, inclusi gli elementi tabulari

La libreria esegue la scansione delle pagine specificate ed estrae il loro testo. Mentre estrae il testo, cerca i modelli tabulari e li estrae in un formato di matrice rettangolare

Spero che questo possa essere utile a qualcuno

image

Ho accesso a diversi PDF contenenti tabelle che posso sperimentare con

Ho notato che la v1.0 della libreria non è molto versatile; funziona bene con alcuni PDF ma non con altri

La nuova versione della libreria introduce più impostazioni basate su tentativi ed errori con i PDF di prova.

Ogni impostazione può funzionare bene con alcuni PDF e male con gli altri.

L'obiettivo della nuova versione è quello di estrarre le tabelle utilizzando tutte le impostazioni create e di sviluppare una combinazione ottimale di risultati implementando un selettore di idoneità.

Questo non sempre si traduce in un'estrazione perfetta, ma può essere un buon inizio


Se nessuna delle impostazioni porta a un'estrazione della tabella favorevole, non esitate a contattarmi per la possibilità di aggiungere una nuova impostazione che funziona con il tavolo.

image
image

La nuova versione della libreria appare con l'intenzione di migliorare l'estrazione della tabella.


Il miglioramento proposto per questa versione è quello di rilevare i bordi della tabella prima di eseguire qualsiasi elaborazione sui testi e di estrarre i testi di ogni cella conoscendo la loro posizione a priori.

I bordi vengono estratti applicando correlazioni di base di linee perfettamente orizzontali e verticali, e con un po 'di elaborazione extra, è possibile estrarre i bordi completi del tavolo.

Una volta ottenuti i bordi, viene generato un grafico con le connessioni immediate di ciascun vertice e, attraversando questo grafico, è possibile recuperare le aree delle celle della tabella.


La libreria restituisce un mix ordinato di tabelle e paragrafi che non si trovano in alcuna tabella, cercando di rispettare l'ordine nel layout PDF.

Il parser può teoricamente rilevare layout in una o più colonne, o una particolare combinazione, che il parser paragrafo dedurrà con un po 'di fortuna.

Ciò dovrebbe avvenire senza alcun intervento aggiuntivo nelle chiamate, semplicemente utilizzando i costruttori predefiniti.

Gli altri costruttori di parser prendono oggetti di configurazione con molti parametri, quindi se il parser non funziona perfettamente con il tuo PDF, è del tutto possibile che possa risolverlo "semplicemente" modificando quell'oggetto di configurazione.

It's a difficult task if you're not the library developer, so I'm willing to try to tweak that configuration in case the library doesn't work perfectly with your PDF. (frojasg1@hotmail.com)

Scaricamenti