MaxKB icon indicating copy to clipboard operation
MaxKB copied to clipboard

[BUG]PDF 文件导入后字符数是 0

Open colicoyzo opened this issue 1 year ago • 3 comments

联系方式

[email protected]

MaxKB 版本

v1.1.3

问题描述

导入部分pdf文件后,显示导入成功,但是导入字符数为0
17d05f5187f019a727f4fe04ea5ddad

重现步骤

部分的pdf没有复制权限的,导入后字符数为0,还有docx文件也有存在类似的问题

期待的正确结果

能正常导入,并客户进行分段

相关日志输出

No response

附加信息

No response

colicoyzo avatar May 23 '24 05:05 colicoyzo

我也遇到过类似的事。分段是0,你点进去看看分段,是不是导入的pdf是乱码。pdf格式很多文件并不适合直接导入。

prodcd avatar May 23 '24 05:05 prodcd

PDF 目前只能识别文本,PDF 中的图片无法识别。需要排查一下内容为 0 的 PDF 文件是不是都是图片?

baixin513 avatar May 24 '24 06:05 baixin513

不是图片,是有文字的,有部分是纯文字的内容

colicoyzo avatar May 25 '24 02:05 colicoyzo

方便的话提供一下导入为 0 的 PDF 文件,发送到 [email protected]

baixin513 avatar May 28 '24 05:05 baixin513

如果 PDF 文本字迹不清晰也是识别不到的,目前 PDF 这块还没有好的解决方案。 未收到您的文档,建议您先优化一下文档。

baixin513 avatar May 31 '24 01:05 baixin513