Zunwen You
Zunwen You
1亿规模的节点,30亿左右的边,训练GraphSage模型。 训练参数如下: ``` --max_id 90170696 --feature_idx 0 --feature_dim 1 --learning_rate 0.00005 --num_epochs 1 --dim 128 --batch_size 128 ``` 首先,模型的收敛性并不好,loss没怎么下降 ``` INFO:tensorflow:loss = 437.71362, mrr = 0.39257812, step = 1488562 INFO:tensorflow:loss...
Spark的executor用HDFSWriter生成part_x.dat二进制文件,部分part读取报“data error”的错误; 我们排除了数据格式不对可能性(用生成的json文件,单机生成dat文件这种方式是OK的) 现象如下: 1. 读取失败的part都是在解析最后若干行出错 2. 部分失败的part再一次加载训练的时候,load又不出错  Update: Spark executor的Core改成1,问题就解决了。 是Writer的flush出现问题了吗?