plato icon indicating copy to clipboard operation
plato copied to clipboard

plato如何将其它文件系统作为数据源?

Open jievince opened this issue 5 years ago • 4 comments

在文件系统层面,Plato提供了多种接口支持主流的文件系统,如HDFS、Ceph等等

看到文档中有提到plato可以从hdfs, ceph和本地csv中读取数据, 那如何判断其它的文件系统是否适合作为plato的数据源?如何从其他的文件系统中读取数据? 需要实现哪些接口?

jievince avatar Feb 07 '21 05:02 jievince

可以参考从文件系统读取数据的代码:https://github.com/Tencent/plato/blob/master/plato/graph/structure.hpp 建议使用CSV格式的数据源,其他格式需要自行解析

ustcyu avatar Feb 14 '21 11:02 ustcyu

可以参考从文件系统读取数据的代码:https://github.com/Tencent/plato/blob/master/plato/graph/structure.hpp 建议使用CSV格式的数据源,其他格式需要自行解析

非常感谢回复🙏。 还有个问题, 如果我搭建了plato集群, 那数据源必须上传到hdfs上才能使plato拥有并行计算的能力吗?

jievince avatar Feb 14 '21 12:02 jievince

并行计算和数据源没有关系,plato出于易用性考虑,支持从hdfs读取数据。读取数据后,会按照一定策略切分图数据,然后加载到内存做并行计算。

ustcyu avatar Feb 14 '21 13:02 ustcyu

[使用hdfs当做数据源时,由于我们目前用的集群是华为的安全版本,需要访问hdfs需要kerberos认证,否则不能识别hdfs文件系统,想问下有碰到类似问题的吗 WechatIMG2

Henryzhao-666 avatar Feb 26 '21 02:02 Henryzhao-666