shunjiu

Results 6 comments of shunjiu

> 下游任务是中文任务型对话中系统回复生成,context是中文任务型对话的对话历史。

理想情况下,生成的结果应该是中文的,但是我这里得到的这种乱码,不确定是什么情况。Wenzhong2.0-GPT2-3.5B中的tokenizer会给每个中文字符两个token_id,不知道会不会影响生成。

> 因为wenzhong采用的是和GPT一致的bpe编码方式,所以一个中文字符会被拆成2-3个byte,然后每个byte对应一个token_id。我们这边也拿中文对话历史finetune过,暂时没有发现生成英文的情况。wenzhong当时也是用的绝对位置编码,所以只有1024长度,你的context大概有多长? 这个例子中context长度68,整个微调过程所有长度都不超过500。这种生成英文可能是什么原因导致的呢?🙏

> 内部试了下现在IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese这个模型没有出现英文的情况 我们使用的是IDEA-CCNL/Wenzhong2.0-GPT2-3.5B这个模型来生成中文,是不是这个模型的问题? 而且这个模型在huggingface右侧Hosted inference API进行示例生成也报错,`penalty` has to be a strictly positive float, but is 25。IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese进行示例生成正常。怀疑是DEA-CCNL/Wenzhong2.0-GPT2-3.5B的问题。

setting,在fileheader.configObj下language字典中添加: ```json "py":{ "head":"\"\"\"", "middle":"", "end":"\"\"\"" } ```