geolvr
geolvr
I'm confused about this. NCEloss can determine the lower bound of mutual information. In this implementation, should NCEloss be minimized in order to increase mutual information?
提问时请尽可能提供如下信息: ### 基本信息 - 你使用的**操作系统**: Linux - 你使用的**Python**版本: 3.7.1 - 你使用的**Tensorflow**版本: 1.14.0 - 你使用的**Keras**版本: 2.3.1 - 你使用的**bert4keras**版本: - 你使用纯**keras**还是**tf.keras**: - 你加载的**预训练模型**:roformer, bert ### 核心代码 观察到在task_seq2seq_autotitle.py中,Datagenerator yield的是[batch_token_ids, batch_segment_ids], None。而其多GPU版本 task_seq2seq_autotitle_multigpu.py中,Datagenerator yield的是token_ids,...
提问时请尽可能提供如下信息: ### 基本信息 - 你使用的**操作系统**: linux - 你使用的**Python**版本: 3.7 - 你使用的**Tensorflow**版本:1.14.0 - 你使用的**Keras**版本: 2.3.1 - 你使用的**bert4keras**版本: - 你使用纯**keras**还是**tf.keras**: tf.keras - 你加载的**预训练模型**:bert ### 核心代码 ```python config_path = '../chinese_L-12_H-768_A-12/bert_config.json' checkpoint_path = '..chinese_L-12_H-768_A-12/bert_model.ckpt'...
### 自我尝试 在https://github.com/ZhuiyiTechnology/roformer/blob/main/train.py 看到预训练的例子。但只有MLM的实现,且是词粒度的。另一方面,在本repo中指明了预训练只支持Roberta和GPT方式。而在models.py中看到RoFormer的实现是基于NEZHA的,NEZHA又继承了BERT。比较迷惑现有的实现究竟是否支持RoFormer预训练。 具体而言,如果想在自己的数据上,做字粒度(比如从chinese_roformer-char_L-12_H-768_A-12开始,或从头开始)预训练,能否实现呢?
train_sample.py中的np.random.choice(np.arange(0, num_parts), 1, p=part_weights) 处报错 “probabilities contain NaN”. 使用batchsize=1, 12, 16, 32均不报错。请问是为什么呢?该算法对batchsize有特殊限制?
Dense layer: Wx+b, My_Dor: Wx ?
暂时没法在自己的数据集上构造query和正负样本数据。请问只做无监督微调能否让模型更适应领域数据?如果可以,能否提供相应的代码示例呢?(看到的教程都是有监督微调的)
不然都不知道文档对应的是哪个pytorch版本,翻译是否还在更新。
是否有考虑借助Langchain复现本工作?