Neu-Review-Rec icon indicating copy to clipboard operation
Neu-Review-Rec copied to clipboard

关于data_pro.py的若干问题

Open zhhhzhang opened this issue 5 years ago • 8 comments

作者你好! 首先感谢您的分享!我在别的数据集运行了data_pro.py,比如reviews_Amazon_Instant_Video_data,报错了,有几个问题想请教一下作者

  1. index = data_test.index[data_test['item_id'] == iid].tolist()[0] 这个地方为什么只取索引[0]?这样处理并没有真正把所有的测试集都去掉,之去掉了相同item_id的第一个
  2. data_train = pd.concat([data_train, data_test.iloc[uid_concat_index]]) ,iloc是按照位置进行查找的,我看了作者的代码应该想按照索引index进行删除,此处会报错,是不是应该替换成loc?
  3. 作者换份train test和val,但是并没有用val,不知道是怎么考虑的?

谢谢!

zhhhzhang avatar Jun 15 '20 04:06 zhhhzhang

你好,谢谢提出问题。 (1,2)这两个地方我会再check一下,建议先用pr1之前的代码: https://github.com/ShomyLiu/Neu-Review-Rec/tree/9313266f307acbe504759fa0eddf0c562c524748

(3) val与test是55分的, 因此后续模型验证,在val上进行的调参验证。不过后续没有使用test再做的进一步的测试

ShomyLiu avatar Jun 15 '20 04:06 ShomyLiu

@zhhhzhang 你好! 新发布的代码已经修改。数据处理的问题已经解决。 此外,新加入了使用test 进行测试。val 进行验证。

ShomyLiu avatar Jul 07 '20 13:07 ShomyLiu

太棒啦!多谢大佬 期待更新

---原始邮件--- 发件人: "HT Liu"<[email protected]> 发送时间: 2020年7月7日(周二) 晚上9:30 收件人: "ShomyLiu/Neu-Review-Rec"<[email protected]>; 抄送: "Mention"<[email protected]>;"zhhhzhang"<[email protected]>; 主题: Re: [ShomyLiu/Neu-Review-Rec] 关于data_pro.py的若干问题 (#5)

@zhhhzhang 你好! 新发布的代码已经修改。数据处理的问题已经解决。 此外,新加入了使用test 进行测试。val 进行验证。

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

zhhhzhang avatar Jul 07 '20 13:07 zhhhzhang

大佬你好,小白问一个比较愚蠢的问题,the pretrained word2vec.bin 是什么文件/文本的词嵌入呢?

PanTings avatar Sep 12 '20 14:09 PanTings

@PanTings 就是常用的谷歌的word2vec.bin, 导入代码: https://github.com/ShomyLiu/Neu-Review-Rec/blob/master/pro_data/data_pro.py#L472

具体的word2vec.bin 可以在网上下载,比如 https://github.com/mmihaltz/word2vec-GoogleNews-vectors

ShomyLiu avatar Sep 12 '20 14:09 ShomyLiu

你好,另外,运行data_pro报错,错误出在执行numerize的时候,KeyError:'.....'(json里第一条数据的reviewerID)。

PanTings avatar Sep 13 '20 03:09 PanTings

@PanTings 你好,这个问题我这里无法复现呀,能在详细一些?比如用的是哪个数据集,运行环境等

ShomyLiu avatar Sep 13 '20 07:09 ShomyLiu

@ShomyLiu ShomyLiu 大佬下午好,我用的就是亚马逊的review data,试了两个类musical_instrument_5.json和digital_music_5.json,都是出现一样的问题。环境是windows10,pycharm2019,python3.7,tf2.2.0(此函数好像用不到tf.... ===============End: rawData size======================== Traceback (most recent call last): File "data_pro.py", line 224, in data = numerize(data)
File "data_pro.py", line 34, in numerize uid = list(map(lambda x: user2id[x], data['user_id'])) File "data_pro.py", line 34, in uid = list(map(lambda x: user2id[x], data['user_id'])) KeyError: 'A3EBHHCZO6V2A4' # 这是digital_musica_5.json的第一条数据的reviewerID

PanTings avatar Sep 13 '20 07:09 PanTings