PaddleNLP
PaddleNLP copied to clipboard
[Bug]: ERNIE 3.0系列词表存在重复token
软件环境
- paddlepaddle:2.5.1
- paddlepaddle-gpu: 无
- paddlenlp: 2.6.0
重复问题
- [X] I have searched the existing issues
错误描述
token_id 12084和18005的token重复,均为美元符号`$`。load vocab的时候为map赋值操作,未检测重复token,导致token_id=12084没有对应token。
相关issue:https://github.com/PaddlePaddle/PaddleNLP/issues/6429
稳定复现步骤 & 代码
vocab.txt
line 12085: $ line 18006: $
感谢您的反馈,这是一个已知的问题。