euler icon indicating copy to clipboard operation
euler copied to clipboard

Euler2.0分布式训练遇到的问题

Open John1203 opened this issue 5 years ago • 8 comments

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。

2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part

3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

John1203 avatar Aug 11 '20 09:08 John1203

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 meta文件是使用索引的时候的配置文件,不使用不需要写

2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 对

3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。 参考这个https://github.com/alibaba/euler/wiki/Euler-2.0-%E5%9C%A8%E5%A4%A7%E8%A7%84%E6%A8%A1%E5%9B%BE%E4%B8%8A%E7%9A%84%E5%BA%94%E7%94%A8#%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8Ceuler%E5%90%AF%E5%8A%A8python%E8%84%9A%E6%9C%AC zk 负责client和server同步状态,module表示图需要load 节点 还是边 还是都load

alinamimi avatar Aug 11 '20 09:08 alinamimi

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 meta文件是使用索引的时候的配置文件,不使用不需要写 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 对 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。 参考这个https://github.com/alibaba/euler/wiki/Euler-2.0-%E5%9C%A8%E5%A4%A7%E8%A7%84%E6%A8%A1%E5%9B%BE%E4%B8%8A%E7%9A%84%E5%BA%94%E7%94%A8#%E5%9C%A8%E4%B8%8D%E5%90%8C%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8Ceuler%E5%90%AF%E5%8A%A8python%E8%84%9A%E6%9C%AC zk 负责client和server同步状态,module表示图需要load 节点 还是边 还是都load

比如对于这个cora的数据集,在启动分布式训练的时候,zk_addr,zk_path,应该怎么填呢?因为以前没有部署过分布式训练的东西,想学习一下,是否可以提供一个完整的例子呢?

John1203 avatar Aug 11 '20 09:08 John1203

具体参考一下zk的文档,需要启动zk,euler需要启动的zk_addr 和 一个指定的zk_path

alinamimi avatar Aug 11 '20 10:08 alinamimi

好的,我查一下,谢谢了

John1203 avatar Aug 11 '20 15:08 John1203

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问

1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。

2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part

3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

ergouy avatar Aug 13 '20 00:08 ergouy

把一个文件,切分成多个二进制文件

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

把一个文件切分成多个二进制文件

John1203 avatar Aug 13 '20 14:08 John1203

把一个文件,切分成多个二进制文件

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

把一个文件切分成多个二进制文件

那分布式的时候怎样保证哪些服务器处理那些二进制数据文件?

ergouy avatar Aug 13 '20 23:08 ergouy

把一个文件,切分成多个二进制文件

我使用cora的数据,在单机上跑通了graphsage模型。 使用中间生成的json文件(convert_data.json),执行了下面的命令 sh gen_partitioned_data.sh ./cora/convert_data.json ./cora/meta ./temp/ 2 0 请问 1、 这里的meta文件是在起什么作用?因为我看在cora的处理中,meta是空的。 2、在只有一个json文件的时候,执行这一个命令是否就可以把数据分成了2两个part 3、在接下来启动分布式训练的时候,zk_addr,zk_path,module,应该怎么填呢?分别起了什么样的作用。

你的第二个问题是要把一个json文件切分成多个json文件,还是要切分成多个二进制文件?

把一个文件切分成多个二进制文件

那分布式的时候怎样保证哪些服务器处理那些二进制数据文件?

取模

alinamimi avatar Aug 21 '20 09:08 alinamimi