[UIE Slim Issue]UIE Slim 数据蒸馏中:预测无监督数据的标签以及学生模型训练中样本处理方式选择是否可以多样化?
[UIE Slim Issue]UIE Slim 数据蒸馏中:预测无监督数据的标签以及学生模型训练中样本处理方式选择是否可以多样化?
因为是:基于数据蒸馏技术构建了UIE Slim数据蒸馏系统的技术
首先 Step 2: 用户提供大规模无标注数据,需与标注数据同源。使用Taskflow UIE对无监督数据进行预测。
step2中:数据同源是指同类型数据嘛,只是未标注即可?
Step 3: 使用标注数据以及步骤2得到的合成数据训练出封闭域Student Model。
Step 3中:通过训练好的UIE定制模型预测无监督数据的标签得到标签数据’;再学生模型训练。 这能能否提供多场景, 1.当标注样本少的时候,维持原样 2.当标注样本比较多的时候,能否提供脚本把数据doccano处理过的数据直接转化为student model需要的数据类型,我发现doccano脚本处理的和student_model需要的貌似有点不一样。
当然这里直接使用全标注数据 和使用少量标注和合成数据,应该前者准确率是否会高点,以及对student模型会有影响吗?
- 学生模型支持同时进行实体、关系和事件抽取任务,观点抽取前后处理和其他类型任务稍微有些区别
- 同源指的是和已有标注数据来源相同的无监督数据,在具体的业务场景中就是业务相关的无标注文本
- 示例主要展示的是小样本定制模型从开放域到封闭域迁移的流程,当然如果标注数据足够多的话是可以直接用封闭域模型训练的
- 学生模型支持同时进行实体、关系和事件抽取任务,观点抽取前后处理和其他类型任务稍微有些区别
- 同源指的是和已有标注数据来源相同的无监督数据,在具体的业务场景中就是业务相关的无标注文本
- 示例主要展示的是小样本定制模型从开放域到封闭域迁移的流程,当然如果标注数据足够多的话是可以直接用封闭域模型训练的
好的十分感谢! 在这个蒸馏版本基础上,想请问一下后续UIE也会支持量化、剪枝、NAS等方案嘛,以及cpu多核多进程处理,多卡推理部署等
会的,UIE后续会提供更多模型压缩的解决方案来进一步提升预测性能,欢迎持续关注~CPU端目前Taskflow在paddlenlp 2.3.2版本之后会默认使用多核推理,多卡推理目前可以通过Taskflow传入device_id来实现
- 学生模型支持同时进行实体、关系和事件抽取任务,观点抽取前后处理和其他类型任务稍微有些区别
- 同源指的是和已有标注数据来源相同的无监督数据,在具体的业务场景中就是业务相关的无标注文本
- 示例主要展示的是小样本定制模型从开放域到封闭域迁移的流程,当然如果标注数据足够多的话是可以直接用封闭域模型训练的
您好,请问事件抽取时蒸馏策略是将知识蒸馏到 paddlenlp.layers.GPLinkerForEventExtraction模型上去吗?
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。