PaddleRec icon indicating copy to clipboard operation
PaddleRec copied to clipboard

关于criteo_reader.py修改的问题

Open DXQer opened this issue 4 years ago • 2 comments

您好,注意到在sample_data里给出的样本数据中,dense_features的名字都是一样的,所以在数据处理是会有相应的reshape的过程,如果dense_features的名字都不一样呢,要如何修改,有修改样例吗?我尝试对dense_features的获取方式修改成与sparse_features的获取方式一样,但似乎会造成内存泄漏😢,即程序运行过程中所申请虚拟内存一直增加,最后被killed。。

DXQer avatar Dec 07 '21 13:12 DXQer

这里dense_feature的名字一致是因为我们在reader中将其处理为一个np.array,最后以一个tensor的形式输入模型。所以单独的dense_features数据的名字并不重要,在reader中已经舍去了,目前没有多个dense_feature名字的样例。您反馈的修改成sparse_features一致的获取方式是指什么样?能提供运行复现样例吗?

yinhaofeng avatar Dec 08 '21 09:12 yinhaofeng

在criteo_reader中是假设对所有的dense feature做统一的处理 所以是用相同的名字。如果需要不同的处理方式可以相应的在dygraph_model中的create_feeds中做相对应的处理https://github.com/PaddlePaddle/PaddleRec/blob/master/models/rank/dnn/dygraph_model.py#L40,和criteo_reader保持一致即可

frankwhzhang avatar Dec 08 '21 09:12 frankwhzhang