EasyTransfer icon indicating copy to clipboard operation
EasyTransfer copied to clipboard

请问text在转化为id时使用的是哪个版本的BERT vocab?

Open ggxxding opened this issue 5 years ago • 3 comments

ggxxding avatar Jan 13 '21 05:01 ggxxding

取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。

minghui avatar Jan 15 '21 03:01 minghui

谢谢,另外我在尝试用自己的一些图片和文本进行训练,训练数据的schema大致清楚了,但是其中nx_sent_labels:int:1这个字段没有说明,它是不是表示图文是否匹配的label?还有eval数据的schema和训练数据不完全一样,下面这几个字段我不能完全明白它的意思,可以解释一下吗? nx_sent_labels:int:1,prod_desc:str:1,text_prod_id:str:1,image_prod_id:str:1,prod_img_id:str:1

取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。

ggxxding avatar Jan 15 '21 08:01 ggxxding

谢谢,另外我在尝试用自己的一些图片和文本进行训练,训练数据的schema大致清楚了,但是其中nx_sent_labels:int:1这个字段没有说明,它是不是表示图文是否匹配的label?还有eval数据的schema和训练数据不完全一样,下面这几个字段我不能完全明白它的意思,可以解释一下吗? nx_sent_labels:int:1,prod_desc:str:1,text_prod_id:str:1,image_prod_id:str:1,prod_img_id:str:1

取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。

这个格式是field_name:data_type:column_number, 所以nx_sent_labels:int:1表示nx_sent_labels这个field是integer的数字,只有一列。

minghui avatar Mar 02 '21 08:03 minghui