ting comments

Results 15 comments of


                                            ting

执行：trainer.train(train_dataset, epochs=3, batch_size=32, eval_dataset=dev_dataset, save_interval=1) # 配置训练参数，启动训练，并指定验证集报错：KeyError -100

执行：trainer.train(train_dataset, epochs=3, batch_size=32, eval_dataset=dev_dataset, save_interval=1) # 配置训练参数，启动训练，并指定验证集报错：KeyError -100 项目链接： https://paddlehub.readthedocs.io/zh_CN/release-v2.1/finetune/sequence_labeling.html

UIE 定制模型一键预测中Taskflow中batch_size参数没有作用

> 这个我测过 batch_size=2和batch_size=32 64基本时间没差距，就是GPU内存使用率的问题。cpu拉过来的数据到GPU都是瞬间算完，影响预测时间主要卡在cpu到GPU这个过程

UIE文本分类

可以参考Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案） https://aistudio.baidu.com/aistudio/projectdetail/4337189?contributionType=1

[UIE Issue]UIE关系抽取后执行evaluate.py文件发现，对性能评估的问题：关系的类居然是一条一条class 输出的，不应该是都属于一类输出吗

> evaluate.py debug输出的各类别集合和数据集内"prompt"字段内容集合是一样的那样不是很不友好呀，关系抽取得prompt好像是 “” xxx的xxx“” 做关系抽取关系数据，希望看到所有“”高管“”关系抽取的ACC等指标，这样一条一条看有点麻烦呀：

[UIE Slim Issue]UIE Slim 数据蒸馏中：预测无监督数据的标签以及学生模型训练中样本处理方式选择是否可以多样化？

> 1. 学生模型支持同时进行实体、关系和事件抽取任务，观点抽取前后处理和其他类型任务稍微有些区别 > 2. 同源指的是和已有标注数据来源相同的无监督数据，在具体的业务场景中就是业务相关的无标注文本 > 3. 示例主要展示的是小样本定制模型从开放域到封闭域迁移的流程，当然如果标注数据足够多的话是可以直接用封闭域模型训练的好的十分感谢！在这个蒸馏版本基础上，想请问一下后续UIE也会支持量化、剪枝、NAS等方案嘛，以及cpu多核多进程处理，多卡推理部署等

[Bug]: UIE蒸馏后预测推理是有bug，会卡死在Taskflow预测步骤，具体问题见详细描述？

顶楼一下

请问是否可以增加paddle版本的MAPPO算法和示例呢？

顶一下

[Bug]: 手把手搭建一个语义检索系统BUG，run.system.py在rank时出错，个人进行了修复，不过返回结果超级小和官方提供的有点出路。

更新一步，通过修改召回数量，从100---》10，发现在运行结果上与官方成功案例一致，但上述疑问仍存在。 ``` PipelineClient::predict pack_data time:1690963720.3993883 PipelineClient::predict before time:1690963720.4000175 Extract feature time to cost :0.009766101837158203 seconds === start connecting to Milvus === === Connect collection literature_search === Search milvus time cost...

[Bug]: 手把手搭建一个语义检索系统BUG，run.system.py在rank时出错，个人进行了修复，不过返回结果超级小和官方提供的有点出路。

> > > > 您是多卡训练的吗？训练配置是啥？我记得我训练的时候是多卡训练配置单卡V100 ，不用全量训练只是验证一下流程，反馈的内容主要是推理阶段遇到的问题

[Bug]: 手把手搭建一个语义检索系统BUG，run.system.py在rank时出错，个人进行了修复，不过返回结果超级小和官方提供的有点出路。

> 您说的是召回的数量对结果的影响是吗？这个可能是重排序模型引起的 * 第一个问题：首先是提供码源有bug，run.system.py文件中一个bug ``` def rerank(df): .... result = np.array(eval(ret.value[0])) df["distance"] = result ... [0.00703308 0.00505753 0.00439458 0.00474953 0.00432936 0.00410844 ^ SyntaxError: invalid syntax ``` 修改后可运行排序 ``` #修改如下：...