Yin Zhang
Yin Zhang
如果是MacBook的话,从tpyec转可以吗
有些论文专有名词用英文可以理解,但是大量的例如 “improve”、“dimension” 、“problem” 这样的单词,非常伤害阅读体验。
> Hello, I am using Windows 10 and receive the same error. I am using cygwin for creating the Makefile with cmake. I get the same error when running the...
> Once you unpack the pdfs and convert the parquet back to json (sorry I dont have a guide for this step yet), then you can see the commands used...
Yes, the core issue at the moment is how to establish the mapping between the JSON and the PDFs. I noticed that in the parquet files you saved on Hugging...
After checking the datasets, I found that the IDs in the s2pdf data (example: 8e99d7b772b3a792a33f0de6849a5c14fb252767-4)are correct and can be matched, but the iabook data cannot be matched (example: direct-put-2024-03-05-12-50-00-f1a4b703-2f8c-4b3b-bc79-742f3c311821.pdf-52). Does...
I found it in the extracted files, thank you for your response. I will try to reproduce your work as soon as possible.
使用 qwen-mt 配置,点此测试服务一直没有通过 safari浏览器,版本 1.19.5 [点此测试服务](https://dash.immersivetranslate.com/#)
> > 使用 qwen-mt 配置,点此测试服务一直没有通过 safari浏览器,版本 1.19.5 [点此测试服务](https://dash.immersivetranslate.com/#) > > [@MIracleyin](https://github.com/MIracleyin) 看下我上面发的,用 1.19.6版本,用新的 Qwen-mt,不要用百炼的那个 使用的是 qwen-mt,当时 safari 最新版本是 1.19.5,麻烦推送成 1.19.6 版本
专利和论文 PDF 可以参考这个仓库进行基础解析 https://github.com/MIracleyin/docling_parse_mnbvc 核心思路是把 PDF 使用工具结构化,但是存在准确性,多模态(图片、表格)内容丢失问题 word 等 office 格式可以参考 https://github.com/microsoft/markitdown 现代 office 格式本质上是可解析的 xml 文件,因此可以比较准确的获取内容结构