FastGPT
FastGPT copied to clipboard
文档解析待优化
1,word文档:上传word文档,拆块,有些层级标题没有涵盖子层内容
2,Excel文件,单表拆块后,块与块直接没有关联(可考虑文件名做标题,类似markdown标题,可以关联各个子块)
3,pdf文档:pdf解析也待提升,标题层级关系不明;建议统一标准,都转成md
强烈建议优先考虑文本解析提取 Quality in,quality out Garbage in,garbage out
支持将文档的文件名作为元数据加入各个分块中。
1,word文档:上传word文档,拆块,有些层级标题没有涵盖子层内容
2,Excel文件,单表拆块后,块与块直接没有关联(可考虑文件名做标题,类似markdown标题,可以关联各个子块)
3,pdf文档:pdf解析也待提升,标题层级关系不明;建议统一标准,都转成md
强烈建议优先考虑文本解析提取 Quality in,quality out Garbage in,garbage out
建议不要直接上传用知识库里面的文件解析,因为内建解析完全不会标层级,你要是担心GIGO的话,先用MinerU或是Marker先自己做好了再用上传文件自定义进去。