LLLLLLoki
LLLLLLoki
请问为什么要mask的时候为什么保留左上角中的右上角的值,有什么理由吗,这个过程是怎么推理出来的呢?
不太会java,只会python ,这个项目怎么启动啊,有比较详细的启动说明吗 ?感谢分享以下
我在蚂蚁金融数据集上进行了测试,一个中文的句子对相似任务[0,1] 分类,进行了如下实验: 1.bash scripts/train_siamese.sh train \ "--exp_name=exp_${BERT_NAME}_${RANDOM_SEED} \ --num_train_epochs=1.0 \ --learning_rate=2e-5 \ --train_batch_size=16 \ --cached_dir=${CACHED_DIR}" 在eval 中的acc 为85左右 2.bash scripts/train_siamese.sh train \ "--exp_name_prefix=exp \ --cached_dir=${CACHED_DIR} \ --flow=1 --flow_loss=1 \ --num_examples=0...
how to get knn_file?
1.Thanks a lot for the code you shared, I would like to know why you set the learning rate to 0.0024129869604528702(WebQSP) or 0.000999196499343006 (MetaQA-3) 2.how to get knn_file ? when...
while decoder process ,the output, state = self.gru(x), output, state = self.gru(x,initial_state = hidden)?
感谢您的代码分享,拜读了您的文章之后感觉这是一个很实用的方法,但我有一个问题想问一下,论文中做了很多组对比试验,但是没有最经典的CRF 框架?请问您做了BERT+CRF 与KNN-BERT 的对比吗
cd 到code/run 下运行run_OntoEa.sh 或者python 运行 都提示openea 找不到 这个是不是要修改以下import openea 的路径?