Jiacheng Zhang
Jiacheng Zhang
Would you provide the detailed setting? That will help us reproduce this error.
请问你训练英中的时候,loss的变化正常么?你可以尝试就拿数据集的几十句话训练,再在相同的几十句话上进行解码看看是否正常,如果仍然不正常可能是数据处理的问题。另外可以把测试用的命令也给我们发一下。
训练脚本中--parameter这一行双引号嵌套了,双引号都可以去掉 `--parameter train_steps=1000000,...,position_info_type=absolute,...` 另外测试脚本中--checkpoint应使用${model_storage_path}\eval。eval里存的是在开发集上最好的几个模型点,不过这个应该不会导致完全翻不出东西。
空行是随机出现的还是固定几句话就是空?如果是后者单独检查下那几句话。
可以试试看把训练数据的id打出来,问题应该是很多输入正常的时候输出的第一个token id是1,对应句尾符,可能训练数据里面存在一部分数据就是这样的。
One model. You can manually average the checkpoints with scripts/checkpoint_averageing.py
Using the same processing steps as standard NMT systems is OK (e.g. tokenization and BPE for English) You may refer to the user manual at https://github.com/THUNLP-MT/THUMT for detail
> > Using the same processing steps as standard NMT systems is OK (e.g. tokenization and BPE for English) > > You may refer to the user manual at https://github.com/THUNLP-MT/THUMT...
你好,感谢你对这篇工作的关注。法英数据集[从这](https://wit3.fbk.eu/mt.php?release=2016-01)下载。中英LDC数据集因为有版权问题,如果确定北大有这些数据集的使用权的话,可以通过邮件联系我。 预处理方面,对于中文的预处理是normalize+thulac分词+tokenize+lowercase,对其他语言的预处理是normalize+tokenize+lowercase。
LDC的数据是按学校卖使用权的,所以这个应该没有问题。normalize使用的是实验室写的一个脚本,我先找一下,稍后通过邮箱一起给你吧。