PDF解析器配置说明

概述

支持配置多个PDF解析器，用户可以在创建知识库和聊天文件设置中选择不同的PDF解析器。
针对不同的解析器可以自定义需要增强解析的文件格式

配置结构

customPdfParse 现在是一个数组类型，每个解析器包含以下字段：

{
  "systemEnv": {
    "customPdfParse": [
      {
        "name": "解析器名称",
        "desc": "解析器描述",
        "url": "解析器API地址（可选）",
        "key": "API密钥（可选）",
        "doc2xKey": "Doc2x API密钥（可选）",
        "price": "每页价格",
        "extension": "支持的文件扩展名，用逗号分隔"
      }
    ]
  }
}

前端变化

知识库创建页面: 在训练参数设置中，PDF增强解析从复选框改为下拉选择器
聊天文件设置: 在应用配置的文件上传设置中，PDF增强解析也改为下拉选择器
价格显示: 根据选择的解析器动态显示对应的价格

知识库配置

---

应用配置

数据库变化

customPdfParse 字段从 Boolean 类型改为 String 类型，存储选中的解析器名称
空字符串表示使用系统默认解析器

API变化

新增 /api/system/getPdfParsers 接口，用于获取可用的PDF解析器列表
新增/api/admin/migratePdfParseConfig接口，用于将历史数据中使用了pdf解析的数据修改为数组的第一个解析器
所有涉及 customPdfParse 参数的API，参数类型从 boolean 改为 string

Aug 08 '25 09:08 shilin66

There is too much information in the pull request to test.

Aug 08 '25 09:08 gru-agent[bot]

Preview sandbox Image:

registry.cn-hangzhou.aliyuncs.com/fastgpt/fastgpt-pr:fatsgpt_sandbox_b80de4d5e36a4c02eaccf54937e0aff803758f55

Aug 08 '25 09:08 github-actions[bot]

Preview mcp_server Image:

registry.cn-hangzhou.aliyuncs.com/fastgpt/fastgpt-pr:fatsgpt_mcp_server_b80de4d5e36a4c02eaccf54937e0aff803758f55

Aug 08 '25 09:08 github-actions[bot]

Preview fastgpt Image:

registry.cn-hangzhou.aliyuncs.com/fastgpt/fastgpt-pr:fatsgpt_b80de4d5e36a4c02eaccf54937e0aff803758f55

Aug 11 '25 03:08 github-actions[bot]

什么时候可以合并更新呢

Aug 14 '25 08:08 bravegoo

这个就不叫 pdf 增强解析了，有点像选不同文件的解析器了。而且还需要考虑多语言配置，需要等产品单独对这块交互进行设计。

Aug 16 '25 05:08 c121914yu

这个就不叫 pdf 增强解析了，有点像选不同文件的解析器了。而且还需要考虑多语言配置，需要等产品单独对这块交互进行设计。

是的，我原本准备直接改成叫文件增强解析的，想了一下还是先提个pr过来看看你们的意见

Aug 18 '25 00:08 shilin66

feat: 支持配置多个pdf解析器

PDF解析器配置说明

概述

配置结构

前端变化

知识库配置

应用配置

数据库变化

API变化

Preview sandbox Image:

Preview mcp_server Image:

Preview fastgpt Image: