dedoc
dedoc copied to clipboard
Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic...
При прочтении следующего файла [2 — копия.docx](https://github.com/user-attachments/files/16495055/2.docx) ``` document1 = reader.read("2 — копия.docx", parameters={"with_attachments": "false", "need_header_footer_analysis": "True"}) print(document1.lines) ``` При прочтении второй и третьей строки, они отображается как bold: ```...
Hi again Is there a way to get cells colors code/name? Sometimes it represent an information (just like in the last column of the attached table*). * Image erased
Здравствуйте! Мы решили скрестить дедок с нашим etl-сервисов по обработке сырых данных. И вот с чем мы столкнулись: Контейнерный дедок однопоточный. FastApi ендпоинт /upload работает со статическим DedocManager, внутри которого...
# Reader to extract code from PDF with complex background using information from PDF added my code from project needed to extract text: 1. reader 2. config 3. h5 models...
Сам файл pdf весит 2Мб. Но если его отправить в dedoc, то он зависнет там на неизмеримо долго. Другие pdf обрабатываются относительно быстро. Возможно дело в том, что в pdf...
Проблема, озвученная в https://github.com/ispras/dedoc/issues/489, полностью актуальна для версии 2.3 и 2.3.2 (докер образ). Полностью воспроизводится с тем же файлом из прошлого ишью. ```bash Exception in thread "main" java.lang.OutOfMemoryError: Java heap...
Добрый день! При извлечении таблицы из PDF-документа, оформленного с рамками ГОСТ, последняя строка таблицы распознаётся неправильно как обычный текст (raw_text). Рамки таблицы ровные и чёткие. **Неверно распознанный фрагмент:** ``` Приложение...