dedoc issues

1

При прочтении следующего файла [2 — копия.docx](https://github.com/user-attachments/files/16495055/2.docx) ``` document1 = reader.read("2 — копия.docx", parameters={"with_attachments": "false", "need_header_footer_analysis": "True"}) print(document1.lines) ``` При прочтении второй и третьей строки, они отображается как bold: ```...

ValiullinAlbert

Tables cells colors

4

Hi again Is there a way to get cells colors code/name? Sometimes it represent an information (just like in the last column of the attached table*). * Image erased

Scoutink

enhancement

Tabby remove frame

sunveil

enhancement

Однопоточность дедок-конетейнера при парсинге множества документов

2

Здравствуйте! Мы решили скрестить дедок с нашим etl-сервисов по обработке сырых данных. И вот с чем мы столкнулись: Контейнерный дедок однопоточный. FastApi ендпоинт /upload работает со статическим DedocManager, внутри которого...

FatherOctber

pdf broken encoding reader

1

# Reader to extract code from PDF with complex background using information from PDF added my code from project needed to extract text: 1. reader 2. config 3. h5 models...

sinkudo

enhancement

Fix rotated pages

sunveil

bug

[Bug] Сканы в pdf не обрабатываются - обработка надолго зависает

Сам файл pdf весит 2Мб. Но если его отправить в dedoc, то он зависнет там на неизмеримо долго. Другие pdf обрабатываются относительно быстро. Возможно дело в том, что в pdf...

psydok

bug

[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов

3

Проблема, озвученная в https://github.com/ispras/dedoc/issues/489, полностью актуальна для версии 2.3 и 2.3.2 (докер образ). Полностью воспроизводится с тем же файлом из прошлого ишью. ```bash Exception in thread "main" java.lang.OutOfMemoryError: Java heap...

psydok

enhancement

Extracting tables from pdf

Добрый день! При извлечении таблицы из PDF-документа, оформленного с рамками ГОСТ, последняя строка таблицы распознаётся неправильно как обычный текст (raw_text). Рамки таблицы ровные и чёткие. **Неверно распознанный фрагмент:** ``` Приложение...

faust58

dedoc
dedoc copied to clipboard

Metadata

TLDR-635 retrain classifiers

Ошибка в определении bold

Tables cells colors

Tabby remove frame

Однопоточность дедок-конетейнера при парсинге множества документов

pdf broken encoding reader

Fix rotated pages

[Bug] Сканы в pdf не обрабатываются - обработка надолго зависает

[Bug] java.lang.OutOfMemoryError: Java heap space при парсинге документов

Extracting tables from pdf

← Metadata

Owner

Metadata

dedoc dedoc copied to clipboard

Metadata

← Metadata

Owner

Metadata

dedoc
dedoc copied to clipboard