zhangyuanscall

Results 12 comments of zhangyuanscall

假如我进行multi label text classification的文本(此文本与**领域相关**)是: - 我有一个空气炸锅 - 吉普棒球帽男帽子春秋 - 男士睡衣冬季珊瑚绒夹棉加厚中老年 - 伟g男性成人用品口服持久1粒 - 华为mate30pro手机壳 - 售楼处洽谈桌椅组合一桌四椅实木简约现代轻奢 - 星特朗新款天文望远镜80 -瑞格尔投影仪 ... 为了提升多标签分类的效果,是不是需要自己使用content.txt训练词向量,而且content.txt最好需要包含这些类似的文本?毕竟在非领域相关的word-embedding语料中很多领域相关词语(空气炸锅,星特朗,瑞格尔...)属于未登录词?如果不是自己训练领域相关的word2vec语料,使用其他语料会导致多标签分类效果变差么,从理论上来说? 再问个问题,有哪些方法能够处理**具有排序信息的多标签分类任务**?例如,在电商领域中,苹果即可以属于手机,又可以属于水果,但是在与电子产品相关的电商(也卖水果,主营3C)中**苹果**属于手机的概率要比属于苹果的概率大;自己去了解了下,没有发现这个方向有比较好的解决办法

> DualPrompt validates that share prefixtuning is better in paper 5.4?

> LazyInit is a new good choice. For large models causing OOM in init, you can use "lazy init + from huggingface config", through gemini, then load checkpoint. > >...

> A workaround is to construct the model first and then load the weights manually. > > ```python > with ColoInitContext( > device=get_current_device(), > dtype=torch.half, > default_pg=ProcessGroup(tp_degree=world_size), > default_dist_spec=ShardSpec([-1], [world_size]),...

> Thanks for your help. I have successfully fine-tuned using this method in a single-node multi-GPU environment. However, I am now encountering issues when saving the model in a multi-node...

> > 你可以去我的fork,去最新的分支Add_GLMChat,我重构了代码,并且把GLM自己的(bs,1,seq,seq)的attention mask加进去了,训练时候,critic默认把use action设置为False,loss下降的更符合GLM的风格(下降很迅速) 请问(bs,1,seq,seq)的attention mask是必须的么,我看chatglm官方的代码里面是没有需要使用attention mask的

> > 有没有attention mask,chatglm输出结果截然不同 可以说说原因么

> 运行GPT2 gemini的examples时候,我用nvidia-smi命令,观察单卡和多卡占用的显存都是一样的,batch=16时候单卡15935Mi,但是在日志中观察发现: `[03/27/23 17:24:22] INFO colossalai - colossalai - INFO: ./train_gpt2.py:366 train_step INFO colossalai - colossalai - INFO: [1/20] Forward GPU memory usage: 2034.80 MB, CPU memory usage: 15982.80...

> Hi, thx for your attention! You need to apply and download the pre-trained BriVL model from [here](https://wudaoai.cn/model/detail/BriVL). Dear authors: I want to download BriVL model weights,but the pre-trained BriVL...