Frank Dai comments

Results 66 comments of


                                            Frank Dai

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

恩，好，分布式调度系统，分布式文件系统，等，都是学术界研究了多年的东西，有一些成熟的开源项目或论文了，可以选择一个好的去实现。例如， - 分布式调度系统有 [Sparrow](https://github.com/radlab/sparrow) - 分布式文件系统，就更多了，Linux上的Ceph, Lustre；OpenStack 里的Swift；Hadoop上的HDFS - NoSQL数据库，耳熟能详的有redis, MongoDb, Cassandra等可以重新实现轮子，但是不可以重新发明轮子 :)

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

恩，你说的有道理，2相比3，完全没优势，不过我的意思也不是方案2，不是完整实现Spark，而是实现它论文里的RDD，这个是Spark的核心，比MapReduce 抽象程度高，表达力更强，性能也高。我的重点关注的问题是，编程接口，即抽象工具。裸用MPI, socket之类的API来写分布式算法，太麻烦太容易出错了。就像设计一门新语言一样，编程范式是最重要的，性能什么的可以慢慢优化。做一个分布式算法，我所了解的编程接口有： 1. MPI，这种方法比较底层，编程繁琐，类似于C语言至于Java语言。目前有人提出了MPI的改进版，把接口变得更易用了，[MPI-D](://datampi.org/)，但是抽象程度依然不高。国内的公司例如百度，目前基本还是用MPI，因为他们人多，可以慢慢写。Google估计是在用MapReduce的下一代吧 2. Map-Reduce，比较成熟的实现是Hadoop。这个抽象工具比较不错，Mahout基于Hadoop实现了一些算法，但是，已经证明有些机器学习算法不适合用Map-Reduce来表达，Mahout 0.9相比0.8，就少了几个算法，官方的说法是用mapreduce无法写出高性能的实现，就去掉了，见首页原文： > As the project moves towards a 1.0 release, the community is working to clean up and/or remove parts of...

Frank Dai

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

有没有考虑过先实现一下Apache Spark里的RDD，在此基础上实现分布式机器学习算法?

增加了三道动态规划的题目

找茬

找茬

heap_sort 内存泄露

生成可重集的排列

support streaming read

How to get a specific options contract history data?