Minghui
Minghui
取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。
> 谢谢,另外我在尝试用自己的一些图片和文本进行训练,训练数据的schema大致清楚了,但是其中nx_sent_labels:int:1这个字段没有说明,它是不是表示图文是否匹配的label?还有eval数据的schema和训练数据不完全一样,下面这几个字段我不能完全明白它的意思,可以解释一下吗? > nx_sent_labels:int:1,prod_desc:str:1,text_prod_id:str:1,image_prod_id:str:1,prod_img_id:str:1 > > > 取决于你用的pretrained模型,每个模型有个对应的vocab和tokenizer。BERT系列一般是一样的,ALBERT有一点不一样。 这个格式是field_name:data_type:column_number, 所以nx_sent_labels:int:1表示nx_sent_labels这个field是integer的数字,只有一列。
可以 wget一下。那个链接是可以下载的
label列的输入应该是int的,schema改成:label:int:1
测过了,本地运行正常。可能是odps table reader的问题
how to reproduce this?
Unfortunately no... You may need to implement one by fixing those counts like C_lv, C_word, C_b if I remember correctly...
Please find them in Fig. 2 of the T-LDA paper: https://pdfs.semanticscholar.org/2cf3/79819632deb93b2cd9250da25bf21fa25171.pdf beta_word and beta_background are priors for phi' and phi^B respectively, gamma is the prior for pi.
Probably yes, need to double check though. On 12/11/2018 04:16, Nima Moradi wrote: @minghui are you removing stopword and having stemming the words —You are receiving this because you were...