文档分段的设置
例行检查
- [x] 我已确认目前没有类似 issue
- [x] 我已完整查看过项目 README,以及项目文档
- [ ] 我使用了自己的 key,并确认我的 key 是可正常使用的
- [x] 我理解并愿意跟进此 issue,协助测试和提供反馈
- [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭
你的版本
- [ ] 公有云版本
- [x] 私有部署版本, 具体版本号: v4.9.6
问题描述, 日志截图,配置文件等 上传时文档分段时设置自定义字符分割无效
复现步骤
通过API上传一个md或pdf等文档,配置自定义分段,目的是设置一个不存在的分隔符,以使整个文档不被分割,整体式一段内容,结果还是被分为若干段
curl --location --request POST 'http://12.1.1.218/api/core/dataset/collection/create/localFile'
--header 'Authorization: Bearer fastgpt-apikey'
--header 'User-Agent: '
--header 'Accept: /'
--header 'Host: 12.1.1.218'
--header 'Connection: keep-alive'
--header 'Content-Type: multipart/form-data; boundary=--------------------------123846217707093821238858'
--form 'file=@"E:\使用常见问题_1745283893.9742563_new.md"'
--form 'data="{"datasetId":"67c6b8af7cceedcdac5af2b3","parentId":null,"trainingType":"chunk","chunkSettingMode":"custom", "chunkSplitMode":"char" , "chunkSize":,"chunkSplitter":"===etc===\n;===","qaPrompt":"","metadata":{}}";type=application/json'
在web界面上传,自定义分隔符也是无法达到目的
预期结果 整个内容是一段 相关截图
建议增加一个分段设置,实现整个文档不分段
把分块大小设置大点不就可以了么?不过 md 的话,目前都会强制按段落分割,段落优先级大于长度。
明白了,主要使看到fastgpt会把md中的base64图片解析出来存到mongodb里去,所以想用md方式上传。如果能有ragflow中那样,有个设置为一个分段(其实是部分)就方便了。pdf我看到是可以不分段的,目前pdf解析时内容识别结果需要调整。 建议增加一个不分段
明白了,主要使看到fastgpt会把md中的base64图片解析出来存到mongodb里去,所以想用md方式上传。如果能有ragflow中那样,有个设置为一个分段(其实是部分)就方便了。pdf我看到是可以不分段的,目前pdf解析时内容识别结果需要调整。 建议增加一个不分段
嗯,有类似计划:增加一个标题划分深度,如果设置 0 的话,就不会按标题来划分了。