OCR AI Support
例行检查
- [x] 我已确认目前没有类似 features
- [x] 我已确认我已升级到最新版本
- [x] 我已完整查看过项目 README,已确定现有版本无法满足需求
- [x] 我理解并愿意跟进此 features,协助测试和提供反馈
- [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 features 可能会被无视或直接关闭
功能描述 关于PDF影印版本的OCR识别能力或者接入,OCR-Loader 应用场景 存在大量影印版本的知识内容需要上传识别 相关示例 上传pdf-影印版,上传完成后进行向量化等其他操作
我用mupdf和tesseract.js实现了一版,基本上能实现OCR功能
可否分享下
---Original--- From: "Zhedong @.> Date: Mon, Jul 22, 2024 16:21 PM To: @.>; Cc: @.@.>; Subject: Re: [labring/FastGPT] OCR AI Support (Issue #2067)
我用mupdf和tesseract.js实现了一版,基本上能实现OCR功能
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>
可否分享下 … ---Original--- From: "Zhedong @.> Date: Mon, Jul 22, 2024 16:21 PM To: @.>; Cc: @.@.>; Subject: Re: [labring/FastGPT] OCR AI Support (Issue #2067) 我用mupdf和tesseract.js实现了一版,基本上能实现OCR功能 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>
可以,感兴趣的话给我发邮件,我附件发给你。不过这有一个最近的针对OCR的PR:https://github.com/labring/FastGPT/pull/2097 ,比我那个简陋的效果强多了,不着急的话可以等等这个
tesseract.js 识别很差
node 分离 pdf 图文去个头大事情