yangshanjun
yangshanjun
> @jxt1234 > > 1、就是使用了MNN demo里的模型 链接:https://pan.baidu.com/s/1-M4iNsJa75kTt47QUW3Jgg?pwd=jceg 提取码:jceg > > 这里面的两个模型都是相同的错误。 > > 2、我也尝试跳过这句话(先不管预测结果对不对,将 `origAxis.push_back(reduce_dim[i]);` 这句话直接改成 `origAxis.push_back(1);`)。 随后发现,NPUbackend 的 onResizeEnd 会出错。 > > ``` > I/aiclient: HIAI_GetVersion_Config ERROR __system_property_get I/aiclient:...
> 在图中的这个场景中,本地 mlx5_6 和远程 mlx5_3,mlx5_5,...等直接联通吗? 我直接用 ib_write_bw 是通的
> 你可以尝试导出完整的日志记录,可能的原因包括握手阶段对端发出的错误(如 GID 选择出错等) **Prefill 的日志:** I1105 08:49:14.909394 567554 rdma_context.cpp:133] RDMA device: mlx5_3, LID: 0, GID: (GID_Index 3) 00:00:00:00:00:00:00:00:00:00:ff:ff:0d:0d:02:0d I1105 08:49:14.912278 567553 rdma_context.cpp:540] Find best gid index: 3 on mlx5_2/...
> 在 TE 初始化日志里 有获取当前可用 rdma 以及 当前选择的gid index 我之前也遇到类似的情况 是因为 GID 选择错误导致 我在这个 pr [#947](https://github.com/kvcache-ai/Mooncake/pull/947) 有修复之前选择 gid index 的错误 > > 也可以通过 MC_GID_INDEX 来设置正确的 gid 我用的是单节点,日志看我上面发的那个
> > > 在 TE 初始化日志里 有获取当前可用 rdma 以及 当前选择的gid index 我之前也遇到类似的情况 是因为 GID 选择错误导致 我在这个 pr [#947](https://github.com/kvcache-ai/Mooncake/pull/947) 有修复之前选择 gid index 的错误 > > > 也可以通过 MC_GID_INDEX 来设置正确的 gid >...