Інструмент витягування таблиць PDF

Для вирішення цієї потреби було створено інструмент dractor для таблиць PDF.

Опис

Бібліотека дозволяє видобування структури таблиці з діапазону сторінок у форматі PDF.

Тут наведено список елементів, які можуть містити рядки тексту або таблиць

Таблиці розміщені у двох вимірах: вони складаються з окремих клітин, які можна отримати, щоб отримати їх вміст.

Опис коду

З версії 3. 0 бібліотеки слід дотримуватися більш відповідної стратегії визначення клітин таблиці.

Застосовано тип визначення ребер, але більш пристосований до абсолютно горизонтальних і вертикальних ліній.

Після отримання країв таблиці виконується додаткова обробка, і кожна клітина отримує місцезнаходження, за яким іде текст, що міститься в кожній з цих клітин.

Здається, що це остання версія, в очікуванні виявлення і збирання виявлених випадків, а також можливість належно прикривати їх.

Вікна

Інструмент видобування таблиць PDF v0. 0 (2024)

Звантажити

dractor PDF table v2. 0 (2024- 2025)

Звантажити

Видобуток таблиці PDF v3. 0 (2025)

Звантажити

Версії

image

Користуючись класами, запрограмованими для ChessPdfBrowser програми, яка є програмою, яка сканує і видобуває шахові ігри з PDFs, я створив бета-версію бібліотеки для видобування тексту з PDF, зокрема табличних елементів

Бібліотека сканує вказані сторінки і видобуває їх текст. Під час видобування тексту вона шукає табличні візерунки і витягує їх у прямокутному форматі масиву.

Я сподіваюся, що це буде корисно для кого-небудь

image

У мене є доступ до декількох PDF, що містять таблиці, з якими я можу експериментувати.

Я помітив, що v1, 000 бібліотеки не дуже багатофункціональна; вона добре працює з деякими PDFs, але не з іншими.

У новій версії бібліотеки буде показано декілька параметрів, заснованих на пробах і помилках з тестом PDFs.

Кожне з параметрів може працювати з певними PDF, а інші - погано.

Метою нової версії є видобування таблиць з використанням всіх створених параметрів і розробки оптимальної комбінації результатів шляхом реалізації інструменту вибору відповідності.

Це не завжди приносить ідеальні результати, але може бути хорошим початком.


Якщо жодне з параметрів не приведе до корисної обробки таблиці, не вагайтеся зв'язатися зі мною щодо можливості додавання нового параметра, який працює з вашою таблицею.

image
image

З'являється нова версія бібліотеки з наміром поліпшити видобуток стола.


Покращення, запропоноване для цієї версії, полягає в тому, щоб виявити краї таблиці, перш ніж робити обробку текстів, і видобути тексти кожної клітини, знаючи їхнє місцезнаходження.

Краї виділяються за допомогою застосування базових кореляцій абсолютно горизонтальних і вертикальних ліній, а з невеликою кількістю додаткової обробки можна видобути всі краї стола.

Після отримання країв графік створюється безпосередніми з'єднаннями кожної вершини, і, рухаючись цим графіком, можна відновити площу клітин таблиці.


Бібліотека повертає впорядковану суміш таблиць і абзаців, яких немає у жодному зі таблиць, намагаючись увічнити порядок компонування PDF.

Теоретично інструмент обробки може визначати розкладки у одному або декількох стовпчиках або окремій комбінації, яку інструмент обробки абзаців має на меті.

Це має відбуватися без додаткового втручання у виклики, просто за допомогою типових конструкторів.

Інші конструктори обробки отримують об' єкти налаштування з багатьма параметрами, отже, якщо інструмент обробки не працює ідеально з вашим PDF, цілком можливо, що він може виправити об' єкт налаштування за допомогою простого налаштування.

Це складне завдання, якщо ви не бібліотечний розробник, тому я бажаю спробувати налаштувати це налаштування на випадок, якщо бібліотека не працюватиме ідеально з вашою PDF. (frojasg1@hotmail.com)

Звантаження