dedoc icon indicating copy to clipboard operation
dedoc copied to clipboard

Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic...

Results 13 dedoc issues
Sort by recently updated
recently updated
newest added

При прочтении следующего файла [2 — копия.docx](https://github.com/user-attachments/files/16495055/2.docx) ``` document1 = reader.read("2 — копия.docx", parameters={"with_attachments": "false", "need_header_footer_analysis": "True"}) print(document1.lines) ``` При прочтении второй и третьей строки, они отображается как bold: ```...

Hi again Is there a way to get cells colors code/name? Sometimes it represent an information (just like in the last column of the attached table*). * Image erased

enhancement

Здравствуйте! Мы решили скрестить дедок с нашим etl-сервисов по обработке сырых данных. И вот с чем мы столкнулись: Контейнерный дедок однопоточный. FastApi ендпоинт /upload работает со статическим DedocManager, внутри которого...

# Reader to extract code from PDF with complex background using information from PDF added my code from project needed to extract text: 1. reader 2. config 3. h5 models...

enhancement

Сам файл pdf весит 2Мб. Но если его отправить в dedoc, то он зависнет там на неизмеримо долго. Другие pdf обрабатываются относительно быстро. Возможно дело в том, что в pdf...

bug

Проблема, озвученная в https://github.com/ispras/dedoc/issues/489, полностью актуальна для версии 2.3 и 2.3.2 (докер образ). Полностью воспроизводится с тем же файлом из прошлого ишью. ```bash Exception in thread "main" java.lang.OutOfMemoryError: Java heap...

enhancement

Добрый день! При извлечении таблицы из PDF-документа, оформленного с рамками ГОСТ, последняя строка таблицы распознаётся неправильно как обычный текст (raw_text). Рамки таблицы ровные и чёткие. **Неверно распознанный фрагмент:** ``` Приложение...