图书馆使得能够从PDF内一系列页面中提取表格结构
它提供一份要素清单,其中可以包括文字或表格的行数。
表格分为两个层面,由单个细胞组成,可以检索其内容。
PDF 表格提取器是作为满足这一需要的新工具创建的。
图书馆使得能够从PDF内一系列页面中提取表格结构
它提供一份要素清单,其中可以包括文字或表格的行数。
表格分为两个层面,由单个细胞组成,可以检索其内容。
图书馆3.0版采用更适当的战略来确定表格单元格区域。
采用了一种边缘探测方法,但更适合完全横向和纵向线条。
在获得表边之后,进行额外处理,并获得每个牢房的位置,然后是每个牢房的文字。
这似乎是最后版本,有待发现和收集未发现案件,并具备适当处理这些案件的能力。
利用为ChessPdfBrowser应用程序(110)编程的分类(110),即从PDFs中扫描和提取象棋游戏的应用程序,我创建了一个Beta版图书馆,用于从PDFs中提取文字,包括表格元素
图书馆扫描指定页面并摘录其文本。在提取文本时,图书馆会搜索表格模式,并以矩形阵列格式提取这些模式。
我希望这将对某个人有所帮助。
我可以访问几个PDF,里面有表格,我可以做实验
我注意到图书馆的 v1.0 并不非常多才多艺,
新版本的图书馆根据测试 PDF 的试验和错误引入多个设置。
每种环境都可能与某些PDF系统合作良好,而与其他PDF系统合作差。
新版本的目标是利用所有创建的设置来提取表格,并通过使用适合性选择器来形成最佳的结果组合。
这并不总是导致 完美的抽取, 但它可能是一个良好的开始
如果这些设置都没有导致有利的桌子抽取, 请不要犹豫与我联系, 探讨增加一个与您的桌子相配合的新设置的可能性 。
新版本图书馆的出现是为了改进表格提取。
对这一版本的拟议改进是,在对文本进行任何处理之前先发现表格边缘,并提取每个单元的文本,事先知道它们的位置。
边缘通过应用完全横向和纵向线的基本相关性来提取,如果再加处理,就可以提取完整的表边。
一旦获得边缘,将生成一个带有每个顶点直接连接的图表,通过横穿此图,可以找到表格单元格的区域。
库返回一个非在任何表格中的表格和段落的顺序组合, 试图尊重 PDF 版式的顺序 。
分析器理论上可以检测一个或多个列的布局,或某个特定的组合,段落分析器会略微幸运地推断出这一点。
发生这种情况时不应对电话进行任何额外的干预,只需使用默认的建筑师即可。
其它的分析器构造器 采用多个参数的配置对象, 所以如果分析器不完全配合您的 PDF, 它很有可能通过调整配置对象来修补“ 简单” 。
如果你不是图书馆的开发者,这任务很困难, 所以我愿意尝试调整这个配置, 以防图书馆不能完全配合你的PDF。 ((frojasg1@hotmail.com)