chillingche
chillingche
CONVOLUTION_ALGORITHM_GEMM不支持nchw排布的输入,如果模型第一层是dilated conv,选到CONVOLUTION_ALGORITHM_GEMM会计算错误:https://github.com/huawei-noah/bolt/blob/master/compute/tensor/src/cpu/arm/convolution.cpp#L72
展开前: ``` c #define DOT_A4B16C4(a, b, c) \ { \ c.x += (a.x * b.s0 + a.y * b.s1 + a.z * b.s2 + a.w * b.s3); \ c.y +=...
GPU的算法文件包含algorithmMap和kernelThreadMap,当模型仅包含一些简单OP(eltwise, power等)时,不需要对tiling等参数做搜索,这时algorithmMap就是空的,kernelThreadMap中仍然包含着这些OP的local搜索结果。 因此存在一种corner case:algorithmMap.size() == 0 && kernelThreadMap.size() > 0 这时`void saveMapToFile()` 就会出现bug,导致这种模型的local搜索结果不会被保存到算法文件中。从而,模型下次初始化时虽然链接了这个算法文件,仍然需要重新搜索local。这时模型的第一次执行就会非常慢。具体表现是-w 0和-w 1的执行时间差异非常明显。
10月到了,为啥还没有1.3.1 :laughing: