jielong.wang

Results 7 comments of jielong.wang

@qiny1012 直接取cosine的最大值作为预测结果, cosine是测试样本的特征向量和类别特征向量的相似度,最像的就是预测结果。或者取训练集的特征向量中心作为类别特征向量也行吧。我在cifar10上精度89.8%,比正常交叉熵损失训练掉3个点吧。

> 有详细的报错日志吗 ![企业微信截图_17295648956851](https://github.com/user-attachments/assets/dcd4469e-b751-4245-a2c2-248e2ca4caa4)

> 有详细的报错日志吗 2.1版本更多,2.2少了很多,但也有。 2.2版本很多推理为空,第一个token就预测成了eot估计,没细看。估计和推理有关(每次推理12个token,初始的填充全为prompt token,这步感觉怪怪的)。自研了一套whisper转rknn推理的,精度和onnx差不多。

> 1.初始的填充全为prompt token,因为固定输入长度的需要所以才这么处理,推理为空的测试样例可以发出来我这边查一下原因 2.那你的whisper模型用的和model zoo的一样吗,以及也是定长的吗?推理和model zoo的有不同吗,可以简要说说看 1. 这边网页无法上传音频文件。 2. 我用tiny.en,base.en,tiny和base也可以。也是定长。decoder每次输入1个token+等长的kv_cache。kv_cache每次更新一个token计算你的中间结果,比较复杂的是需要在模型中过滤掉填充的kv_cache带来的推理影响。 3. rknn_model_zoo的推理方式还有个问题是:每次推理12个token丢失了位置信息,whisper的decoder的位置编码是带参数的,你的做法不管是句子什么位置的token,位置永远是0-12。 4. 按照rknn_model_zoo的推理,很容易出现死循环输出。不知道你发现没有。虽然whisper会有这样预测不到eot的问题,但是很少。

> > > 1.初始的填充全为prompt token,因为固定输入长度的需要所以才这么处理,推理为空的测试样例可以发出来我这边查一下原因 2.那你的whisper模型用的和model zoo的一样吗,以及也是定长的吗?推理和model zoo的有不同吗,可以简要说说看 > > > > > > > > 1. 这边网页无法上传音频文件。 > > 2. 我用tiny.en,base.en,tiny和base也可以。也是定长。decoder每次输入1个token+等长的kv_cache。kv_cache每次更新一个token计算你的中间结果,比较复杂的是需要在模型中过滤掉填充的kv_cache带来的推理影响。 > > 3. rknn_model_zoo的推理方式还有个问题是:每次推理12个token丢失了位置信息,whisper的decoder的位置编码是带参数的,你的做法不管是句子什么位置的token,位置永远是0-12。 > > 4. 按照rknn_model_zoo的推理,很容易出现死循环输出。不知道你发现没有。虽然whisper会有这样预测不到eot的问题,但是很少。...

I encountered the same issue! I am using various models with the AiHubMix node, but Claude and Gemini can only be used in chat mode. Here is my config: ```yaml...