pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

去除页眉页脚的工作

Open lbboier opened this issue 2 years ago • 4 comments

我之前实习时做了pdf转txt的工作,其中pdf转word使用的该库(pdf2docx),然后word转txt是手写的。也在很大程度上实现了去除页眉页脚,但仅仅能满足于输出端是txt(不提取多列的表格)。在我实习期间处理了500w+本的pdf转txt,并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化,具体改进我没问。 我想看看大家对这个需求大不大,我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

lbboier avatar Jan 13 '24 03:01 lbboier

请问是什么思路呢?我尝试用文本相似性仅去除了一部分页眉页脚

parksmallfish avatar Jan 16 '24 08:01 parksmallfish

我之前实习时做了pdf转txt的工作,其中pdf转word使用的该库(pdf2docx),然后word转txt是手写的。也在很大程度上实现了去除页眉页脚,但仅仅能满足于输出端是txt(不提取多列的表格)。在我实习期间处理了500w+本的pdf转txt,并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化,具体改进我没问。 我想看看大家对这个需求大不大,我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

目前页眉页脚都被当成正文处理,很多人都对识别页眉页脚这个功能提出了期待。欢迎分享识别页眉页脚的思路,或者直接提PR。

dothinking avatar Jan 16 '24 10:01 dothinking

使用layoutlmv3,可以识别出页眉,页脚的blocks,然后过滤掉区域即可

nunamia avatar Mar 26 '24 06:03 nunamia

使用layoutlmv3,可以识别出页眉,页脚的blocks,然后过滤掉区域即可

pdf情况太复杂了,我去年也尝试过直接页眉页脚的区域(每页的上面和下面,检测文本变化,然后去除block),但是效果很不好。你有测试出比较好的效果吗?最好数据量大一点的

lbboier avatar Mar 26 '24 07:03 lbboier