Zhipeng Wang
Zhipeng Wang
https://github.com/yizt/numpy_neural_network/blob/master/nn/losses.py dy = y_probability - y_true 这个地方的推导不是很理解。大佬这个多分类的损失函数求梯度咋来的啊。
在单片gpu上跑没事,变成4卡就导致服务器重启,这是咋回事,这大概是咋回事。
我换了数据集adj(65W, 65W), 发现 matrix.A 特别慢,请问这个是咋回事啊
ELMo-data
数据可用分享一份吗
Is the batch_size=1 when training?
Is there an evaluation result of RoBERTa of STS-B test datasets here?
大佬,我运行了你run.sh,然后在目录下生成了 ~ 。我开始没注意,然后rm -rf 。哎,然后我的主目录没了。你这个是怎么弄的啊,我在run.sh train.sh 也没看到硬链接。哭了~