PDF вытяжка из столовых двигателей

В качестве нового инструмента для удовлетворения этой потребности был создан экстрактор таблиц PDF.

Описание

Библиотека позволяет вытаскивать конференционные структуры из ряда страниц в рамках PDF

В нем содержится перечень элементов, которые могут включать строки текста или таблицы

Таблицы состоят из двух измерений, состоящих из отдельных ячеек, которые могут быть получены для получения их содержания.

Описание кода

При использовании версии 3.0 библиотеки применяется более подходящая стратегия для определения районов, в которых расположены столовые ячейки.

Применяется тип обнаружения края, но он в большей степени соответствует идеальным горизонтальным и вертикальным линиям.

После получения краев таблицы производится дополнительная обработка и определяется расположение каждой ячейки, за которой следует текст, содержащийся в каждой из этих ячеек.

Как представляется, этот вариант является окончательным до выявления и сбора вскрытых дел и обеспечения их надлежащего охвата.

Окна

PDF вытяжка из столовых двигателей v1.0 (2024 год)

Загрузка

PDF вытяжка из столовых материалов No 2.0 (2024-2025 годы)

Загрузка

PDF вытяжка из столовых двигателей v3.0 (2025 год)

Загрузка

Версия

image

Используя классы, запрограммированные для приложения ChessPdfBrowser, которое сканирует и выводит шахматные игры из PDF, я создал бета-версия библиотеки для извлечения текста из PDF, включая табличные элементы

Библиотека сканирует указанные страницы и извлекает их текст.

Я надеюсь, что это будет полезно для кого-то

image

У меня есть доступ к нескольким PDF, содержащим таблицы, с которыми я могу экспериментировать.

Я заметил, что V1.0 библиотеки не очень многообразна; она хорошо работает с некоторыми PDF, но не с другими.

Новая библиотечная версия вводит несколько параметров, основанных на пробах и ошибках с тестовыми PDF.

Каждая установка может работать хорошо с некоторыми PDF и плохо с другими.

Цель новой версии заключается в том, чтобы извлечь таблицы с использованием всех созданных параметров и разработать оптимальное сочетание результатов путем внедрения соответствующего устройства.

Это не всегда приводит к идеальному извлечению, но это может быть хорошим началом.


Если ни одна из настройок не приведет к благоприятному извлечению столов, не стесняйтесь связаться со мной по поводу возможности добавления новой настройки, которая работает с вашим столом.

image
image

Новая версия библиотеки появляется с намерением улучшить добычу столов.


Предлагается усовершенствовать этот вариант, с тем чтобы выявить края столиков до любой обработки текстов и априори извлечь тексты каждой ячейки, зная их местоположение.

Краи извлекаются путем применения базовых корреляций идеально горизонтальных и вертикальных линий, и при небольшой дополнительной обработке могут быть извлечены полные кромки стола.

После того как края получены, составляется график с непосредственными соединениями каждой вершины, и, проходя по этому графику, площади клеток таблицы могут быть извлечены.


Библиотека возвращает заказное сочетание таблиц и пунктов, которых нет ни в одной таблице, пытаясь соблюдать порядок в PDF-образце.

Теоретически parseer может обнаружить компоновки в одной или нескольких колонках или в определенном сочетании, которое parser может сделать с небольшой удачей.

Это должно происходить без какого-либо дополнительного вмешательства в звонки, просто с помощью конструкторов по умолчанию.

Другие конструкторы принимают объекты конфигурации со многими параметрами, так что, если парзер не работает идеально с вашим PDF, вполне возможно, что он может исправить его "скрытно" путем подкручивания объекта конфигурации.

Это трудная задача, если вы не создатель библиотеки, так что я готов попробовать подстроить эту конфигурацию на случай, если библиотека не будет идеально работать с вашим PDF. (frojasg1@hotmail.com)

Загрузка