plato
plato copied to clipboard
plato如何将其它文件系统作为数据源?
在文件系统层面,Plato提供了多种接口支持主流的文件系统,如HDFS、Ceph等等
看到文档中有提到plato可以从hdfs, ceph和本地csv中读取数据, 那如何判断其它的文件系统是否适合作为plato的数据源?如何从其他的文件系统中读取数据? 需要实现哪些接口?
可以参考从文件系统读取数据的代码:https://github.com/Tencent/plato/blob/master/plato/graph/structure.hpp 建议使用CSV格式的数据源,其他格式需要自行解析
可以参考从文件系统读取数据的代码:https://github.com/Tencent/plato/blob/master/plato/graph/structure.hpp 建议使用CSV格式的数据源,其他格式需要自行解析
非常感谢回复🙏。 还有个问题, 如果我搭建了plato集群, 那数据源必须上传到hdfs上才能使plato拥有并行计算的能力吗?
并行计算和数据源没有关系,plato出于易用性考虑,支持从hdfs读取数据。读取数据后,会按照一定策略切分图数据,然后加载到内存做并行计算。
[使用hdfs当做数据源时,由于我们目前用的集群是华为的安全版本,需要访问hdfs需要kerberos认证,否则不能识别hdfs文件系统,想问下有碰到类似问题的吗
