FastGPT icon indicating copy to clipboard operation
FastGPT copied to clipboard

文档解析待优化

Open Essence9999 opened this issue 1 year ago • 2 comments

1,word文档:上传word文档,拆块,有些层级标题没有涵盖子层内容

2,Excel文件,单表拆块后,块与块直接没有关联(可考虑文件名做标题,类似markdown标题,可以关联各个子块) image

3,pdf文档:pdf解析也待提升,标题层级关系不明;建议统一标准,都转成md

强烈建议优先考虑文本解析提取 Quality in,quality out Garbage in,garbage out

Essence9999 avatar May 20 '24 09:05 Essence9999

支持将文档的文件名作为元数据加入各个分块中。

yibohub avatar May 20 '24 11:05 yibohub

1,word文档:上传word文档,拆块,有些层级标题没有涵盖子层内容

2,Excel文件,单表拆块后,块与块直接没有关联(可考虑文件名做标题,类似markdown标题,可以关联各个子块) image

3,pdf文档:pdf解析也待提升,标题层级关系不明;建议统一标准,都转成md

强烈建议优先考虑文本解析提取 Quality in,quality out Garbage in,garbage out

建议不要直接上传用知识库里面的文件解析,因为内建解析完全不会标层级,你要是担心GIGO的话,先用MinerU或是Marker先自己做好了再用上传文件自定义进去。

tunglinwood avatar Feb 27 '25 00:02 tunglinwood