zhangkaihuo
zhangkaihuo
how to add cublas sgemm to cudaGraph by cudaGraphAddKernelNode?
### PR types Others ### PR changes Others ### Describe sparse支持静态图: 1. 添加infer_meta:[#46016](https://github.com/PaddlePaddle/Paddle/pull/46016) 2. framework,pybind添加对SparseCooTensor的支持,后面再支持SparseCsrTensor 3. feed_op、fetch_op添加SparseCooTensor的支持,后面再支持SparseCsrTensor 4. 添加sparse_manual_op_sig.cc,sparse_manual_op.cc,当前主要添加3D点云模型中使用的算子: - sparse_coo_tensor,indices,values,to_dense, conv, relu, add 5. 当前先支持静态图的推理,后续再添加反向op。
### PR types Others ### PR changes OPs ### Describe 因为:当前batch_norm是通过前端调用dense的batch_norm,需要多调用一次values和sparse_coo_tensor,也同时引入了对应的反向操作。 所以:添加batch_norm_kernel和batch_norm_grad_kernel,后端调用dense的kernel避免引入values和sparse_coo_tensor的调用。
添加SubmConv3D中文文档
Support https://huggingface.co/openbmb/MiniCPM-2B-128k.
### Have I written custom code (as opposed to using a stock example script provided in MediaPipe) None ### OS Platform and Distribution mac os ### Mobile device if the...
topk算子添加几个mmdnn模型中的shape: ``` #shape, k, axis (-1, 32, 8, 64) 4 -1 (-1, 32, 13, 200) 18 -1 (-1, 32, 18, 128) 12 -1 ```
支持matmul_v2_grad,对于`scale->gemm->scale`这种结构,反向可以省去两次scale操作。当seq_len比较大的时候,attention中q*k的输出矩阵比较大,单独执行scale,耗时也会比较高。
请问能支持下[MiniCPM](https://huggingface.co/openbmb/MiniCPM-2B-dpo-bf16/tree/main)吗?