TestNLP

Results 22 comments of TestNLP

> LLAMA-13b LLAMA-13b这个原始的模型有吗?BELLE优化的,需要原始的模型才可以使用

> 感谢评估,目前开源的模型还比较早期,后续我们也会在指令理解安全性上持续迭代,期待能release 更多更好的模型回馈社区 模型进一步训练的话,需要多少卡?能把你们训练的资源列出来吗?

http://www.it1352.com/496364.html,有人这么写的,但是我试了还是不行啊

> 就是用几个质数做的简单的哈希函数,这些数都是可以改的,你也可以自己定义一个哈希函数,目的就是把所有n-gram都映射到一个词表中。 (每个n-gram会得到一个数值,该数值对词表大小取模,得到它在词表中的位置) > 词表大小也是自己定的,理论上词表越大,效果越好;词表越小,不同的n-gram就越有可能映射到词表的同一个位置。 但是这里要考虑到内存、耗时的问题(性价比),还有就是有的n-gram组合可能永远不会出现,所以词表也不是越大越好的。 你好,我想问一下,你这个函数计算,比如t1 = sequence[t - 1] if t - 1 >= 0 else 0 return (t1 * 14918087) % buckets 输入是一个句子的token的idx列表,然后依次输入idx,通过这个公式算的值是buckets中的一个位置,我想问的是,这个位置如何体现2-gram思想的呢?还有那个3-gram公式映射和2-gram相似,怎么体现出2-gram和3-gram的差异的呢?

> 就是用几个质数做的简单的哈希函数,这些数都是可以改的,你也可以自己定义一个哈希函数,目的就是把所有n-gram都映射到一个词表中。 (每个n-gram会得到一个数值,该数值对词表大小取模,得到它在词表中的位置) > 词表大小也是自己定的,理论上词表越大,效果越好;词表越小,不同的n-gram就越有可能映射到词表的同一个位置。 但是这里要考虑到内存、耗时的问题(性价比),还有就是有的n-gram组合可能永远不会出现,所以词表也不是越大越好的。 正常的逻辑不应该是构造一个2-gram和3-gram字典,然后根据这个字典对句子进行idx转换吗?不理解使用哈希的目的。个人觉得没有体现出gram思想中的上下文顺序,因为只要字相同,其n-gram就一样,实际的情况是字一样,上下文也不一定一样。

模型进一步训练的化,需要多少卡?8张A100 42G显存够不够?

@jiangxinyang227 ,能加个微信聊聊嘛,我最近也在研究这小样本,18392408198,同微信号

> @jiangxinyang227 同问如何预测一个样本,预测时可以不传支撑集吗? 我觉得是这样的,如果在训练集上是10way-5shot,由于模型结构限制,在测试集上构造support set,也只能是10way-5shot这种形式,那么最后上线的时候,也只能预测10个类别,我做过测试,5way的性能比10way好很多,如果小样本的类别个数有50个,后续性能会下降很多