MaxKB
MaxKB copied to clipboard
[BUG]PDF 文件导入后字符数是 0
联系方式
MaxKB 版本
v1.1.3
问题描述
导入部分pdf文件后,显示导入成功,但是导入字符数为0
重现步骤
部分的pdf没有复制权限的,导入后字符数为0,还有docx文件也有存在类似的问题
期待的正确结果
能正常导入,并客户进行分段
相关日志输出
No response
附加信息
No response
我也遇到过类似的事。分段是0,你点进去看看分段,是不是导入的pdf是乱码。pdf格式很多文件并不适合直接导入。
PDF 目前只能识别文本,PDF 中的图片无法识别。需要排查一下内容为 0 的 PDF 文件是不是都是图片?
不是图片,是有文字的,有部分是纯文字的内容
方便的话提供一下导入为 0 的 PDF 文件,发送到 [email protected]。
如果 PDF 文本字迹不清晰也是识别不到的,目前 PDF 这块还没有好的解决方案。 未收到您的文档,建议您先优化一下文档。