请问新训练数据需要生成新的feat_dict_10.pkl2文件吗?
刚使用这个库在新数据上用没什么效果,请问是需要根据新的训练数据生成feat_dict_10.pkl2吗?还是说用已下载的就可以了。
feat_dict_10.pkl2这个文件在rank下的fm,deepfm等模型中的数据处理过程中使用,是下载数据集时自带的文件。在get_slot_data.py文件中用于生成特征字典。将数据集中的格式转化为可以直接输入模型的slot格式数据。如果您需要使用自己的数据集的话,需要自己根据数据集做数据处理。关于slot的数据格式您可以参考这个:https://github.com/PaddlePaddle/PaddleRec/blob/master/doc/slot_reader.md 如果您需要将数据集用自定义的方式输入模型,可以参考这个:https://github.com/PaddlePaddle/PaddleRec/blob/master/doc/custom_reader.md
@yinhaofeng 谢谢,但是和 https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/deepfm/data/get_slot_data.py 的写法还是有些区别的,那我应该以哪种为标准呢?
处理方式不同是由于dnn模型和deepfm模型在各自的config.yaml中输入时写法不同而引起的,两种写法都能正常输入。您看的是deepfm模型的数据处理的话,可以结合deepfm模型的config.yaml中的sparse_slots,dense_slots输入方式进行理解。一个slot_name可以只对应一个值,也可以根据需要对应多个值。
处理方式不同是由于dnn模型和deepfm模型在各自的config.yaml中输入时写法不同而引起的
好的,多谢您。