PDF 表格提取器

PDF 表格提取器是作为满足这一需要的新工具创建的。

说明说明

图书馆使得能够从PDF内一系列页面中提取表格结构

它提供一份要素清单,其中可以包括文字或表格的行数。

表格分为两个层面,由单个细胞组成,可以检索其内容。

代码描述

图书馆3.0版采用更适当的战略来确定表格单元格区域。

采用了一种边缘探测方法,但更适合完全横向和纵向线条。

在获得表边之后,进行额外处理,并获得每个牢房的位置,然后是每个牢房的文字。

这似乎是最后版本,有待发现和收集未发现案件,并具备适当处理这些案件的能力。

视窗窗

PDF 表抽取器 v1.0 (2024)

下载下载

PDF表抽选器 v2.0 (2024-2025)

下载下载

PDF表提取器 v3.0 (2025年)

下载下载

版本版本

image

利用为ChessPdfBrowser应用程序(110)编程的分类(110),即从PDFs中扫描和提取象棋游戏的应用程序,我创建了一个Beta版图书馆,用于从PDFs中提取文字,包括表格元素

图书馆扫描指定页面并摘录其文本。在提取文本时,图书馆会搜索表格模式,并以矩形阵列格式提取这些模式。

我希望这将对某个人有所帮助。

image

我可以访问几个PDF,里面有表格,我可以做实验

我注意到图书馆的 v1.0 并不非常多才多艺,

新版本的图书馆根据测试 PDF 的试验和错误引入多个设置。

每种环境都可能与某些PDF系统合作良好,而与其他PDF系统合作差。

新版本的目标是利用所有创建的设置来提取表格,并通过使用适合性选择器来形成最佳的结果组合。

这并不总是导致 完美的抽取, 但它可能是一个良好的开始


如果这些设置都没有导致有利的桌子抽取, 请不要犹豫与我联系, 探讨增加一个与您的桌子相配合的新设置的可能性 。

image
image

新版本图书馆的出现是为了改进表格提取。


对这一版本的拟议改进是,在对文本进行任何处理之前先发现表格边缘,并提取每个单元的文本,事先知道它们的位置。

边缘通过应用完全横向和纵向线的基本相关性来提取,如果再加处理,就可以提取完整的表边。

一旦获得边缘,将生成一个带有每个顶点直接连接的图表,通过横穿此图,可以找到表格单元格的区域。


库返回一个非在任何表格中的表格和段落的顺序组合, 试图尊重 PDF 版式的顺序 。

分析器理论上可以检测一个或多个列的布局,或某个特定的组合,段落分析器会略微幸运地推断出这一点。

发生这种情况时不应对电话进行任何额外的干预,只需使用默认的建筑师即可。

其它的分析器构造器 采用多个参数的配置对象, 所以如果分析器不完全配合您的 PDF, 它很有可能通过调整配置对象来修补“ 简单” 。

如果你不是图书馆的开发者,这任务很困难, 所以我愿意尝试调整这个配置, 以防图书馆不能完全配合你的PDF。 ((frojasg1@hotmail.com)

下载下载