BayLing icon indicating copy to clipboard operation
BayLing copied to clipboard

/data 中关于约束项的疑问

Open DirtyKnightForVi opened this issue 2 years ago • 1 comments

测试下来发现:中文的输出还是带有英式中文的痕迹,但总体来说效果还行。观察到一些数据样例,发现翻译对的约束项似乎是标准译文的随机分割。这和论文中的 Ch 3. 的展示内容有些出入。是否实际训练时这种对于模型的约束并不强?有相关分析吗?

DirtyKnightForVi avatar Jul 12 '23 01:07 DirtyKnightForVi

实验Ch 4.1.5,data/constrained_translation中的数据是采用以往词汇约束机器翻译任务(Lexically Constrained Machine Translation)的标准化流程构造的(通过源句子和目标句子之间的fastalign对齐从目标句子抽取的约束项),不准确的对齐可能导致一些约束项不是特别严格。

Ch 3. 的展示内容是训练中采用的交互式翻译数据,训练数据中的约束项是比较准确和严格的。实验Ch 4.2的人工评价中,人类交互中的约束项是比较严格的,更能反映BayLing对严格约束项的指令遵循能力。

zhangshaolei1998 avatar Jul 12 '23 03:07 zhangshaolei1998