pdf2docx 去除页眉页脚的工作

我之前实习时做了pdf转txt的工作，其中pdf转word使用的该库（pdf2docx），然后word转txt是手写的。也在很大程度上实现了去除页眉页脚，但仅仅能满足于输出端是txt（不提取多列的表格）。在我实习期间处理了500w+本的pdf转txt，并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化，具体改进我没问。我想看看大家对这个需求大不大，我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

Jan 13 '24 03:01 lbboier

请问是什么思路呢？我尝试用文本相似性仅去除了一部分页眉页脚

Jan 16 '24 08:01 parksmallfish

我之前实习时做了pdf转txt的工作，其中pdf转word使用的该库（pdf2docx），然后word转txt是手写的。也在很大程度上实现了去除页眉页脚，但仅仅能满足于输出端是txt（不提取多列的表格）。在我实习期间处理了500w+本的pdf转txt，并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化，具体改进我没问。我想看看大家对这个需求大不大，我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

目前页眉页脚都被当成正文处理，很多人都对识别页眉页脚这个功能提出了期待。欢迎分享识别页眉页脚的思路，或者直接提PR。

Jan 16 '24 10:01 dothinking

使用layoutlmv3,可以识别出页眉，页脚的blocks，然后过滤掉区域即可

Mar 26 '24 06:03 nunamia

使用layoutlmv3,可以识别出页眉，页脚的blocks，然后过滤掉区域即可

pdf情况太复杂了，我去年也尝试过直接页眉页脚的区域（每页的上面和下面，检测文本变化，然后去除block），但是效果很不好。你有测试出比较好的效果吗？最好数据量大一点的

Mar 26 '24 07:03 lbboier