Results 15 comments of ting

执行:trainer.train(train_dataset, epochs=3, batch_size=32, eval_dataset=dev_dataset, save_interval=1) # 配置训练参数,启动训练,并指定验证集 报错:KeyError -100 项目链接: https://paddlehub.readthedocs.io/zh_CN/release-v2.1/finetune/sequence_labeling.html

> 这个我测过 batch_size=2和batch_size=32 64基本时间没差距,就是GPU内存使用率的问题。cpu拉过来的数据到GPU都是瞬间算完,影响预测时间主要卡在cpu到GPU这个过程

可以参考Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案) https://aistudio.baidu.com/aistudio/projectdetail/4337189?contributionType=1

> evaluate.py debug输出的各类别集合和数据集内"prompt"字段内容集合是一样的 那样不是很不友好呀,关系抽取得prompt好像是 “” xxx的xxx“” 做关系抽取关系数据,希望看到所有“”高管“”关系抽取的ACC等指标,这样一条一条看有点麻烦呀:

> 1. 学生模型支持同时进行实体、关系和事件抽取任务,观点抽取前后处理和其他类型任务稍微有些区别 > 2. 同源指的是和已有标注数据来源相同的无监督数据,在具体的业务场景中就是业务相关的无标注文本 > 3. 示例主要展示的是小样本定制模型从开放域到封闭域迁移的流程,当然如果标注数据足够多的话是可以直接用封闭域模型训练的 好的十分感谢! 在这个蒸馏版本基础上,想请问一下后续UIE也会支持量化、剪枝、NAS等方案嘛,以及cpu多核多进程处理,多卡推理部署等

更新一步,通过修改召回数量,从100---》10,发现在运行结果上与官方成功案例一致,但上述疑问仍存在。 ``` PipelineClient::predict pack_data time:1690963720.3993883 PipelineClient::predict before time:1690963720.4000175 Extract feature time to cost :0.009766101837158203 seconds === start connecting to Milvus === === Connect collection literature_search === Search milvus time cost...

> > > > 您是多卡训练的吗?训练配置是啥?我记得我训练的时候是多卡 训练配置单卡V100 ,不用全量训练只是验证一下流程,反馈的内容主要是推理阶段遇到的问题

> 您说的是召回的数量对结果的影响是吗?这个可能是重排序模型引起的 * 第一个问题: 首先是提供码源有bug,run.system.py文件中一个bug ``` def rerank(df): .... result = np.array(eval(ret.value[0])) df["distance"] = result ... [0.00703308 0.00505753 0.00439458 0.00474953 0.00432936 0.00410844 ^ SyntaxError: invalid syntax ``` 修改后可运行排序 ``` #修改如下:...