WinnieZM

Results 8 comments of WinnieZM

你好这个连接失效了,能否再发一下呢?非常感谢!

> 链接: https://pan.baidu.com/s/1cLsf6zo-zmixy5BKsyO-xg?pwd=mca6 提取码: mca6 非常感谢!

想请问一下是不是DDPG部分并没有复现Deep Reinforcement Learning for List-wise Recommendations这篇论文Online User-Agent Interaction Environment Simulator部分?

> 想请问一下是不是DDPG部分并没有复现Deep Reinforcement Learning for List-wise Recommendations这篇论文Online User-Agent Interaction Environment Simulator部分? 我大概明白了,作者在博客里写了是用了离线强化学习,这样的话也不用再写一个环境与Actor来进行交互,而是直接用已有的轨迹(历史数据)与actor进行交互。这样说应该没问题吧

> Sorry, I just saw your reply.Thank you very much for your reply. But the dataset I use is downloaded from your Google drive,

> @massquantity 我发现你有把求平均注释掉,可为什么我得到的效果还是这么差,so sad 我跑这个程序的时候用DPPG的方法跑的结果确实不好,但是你试试用BCQ的方法。我不知道说得对不对,我觉得是因为所有数据都是在离线训练的,用DDPG算法的时候也没有说用训练好的策略去收集新数据再训练,整个代码的运行过程都是离线训练,所以用BCQ的方法得到的结果会好一些。我也在做这个方向,或许可以交流一下

> > > @massquantity 我发现你有把求平均注释掉,可为什么我得到的效果还是这么差,so sad > > > > > > 我跑这个程序的时候用DPPG的方法跑的结果确实不好,但是你试试用BCQ的方法。我不知道说得对不对,我觉得是因为所有数据都是在离线训练的,用DDPG算法的时候也没有说用训练好的策略去收集新数据再训练,整个代码的运行过程都是离线训练,所以用BCQ的方法得到的结果会好一些。我也在做这个方向,或许可以交流一下 > > 我试了一下bcq,但是actor_loss一下子就变成了绝对值很大的负值,不知道是不是我实现的有问题。。。 这个代码我用几个方法跑都loss很大,但是BCQ至少可以看到reward是有变化的,我也不知道问题到底出现在哪里