chillingche issues

Results 4 issues of


                                            chillingche

arm cpu dilated conv遇到nchw类型的输入会出错

CONVOLUTION_ALGORITHM_GEMM不支持nchw排布的输入，如果模型第一层是dilated conv，选到CONVOLUTION_ALGORITHM_GEMM会计算错误：https://github.com/huawei-noah/bolt/blob/master/compute/tensor/src/cpu/arm/convolution.cpp#L72

展开OCL kernel中的标量dot操作可以获得更高的GFLOPs

展开前： ``` c #define DOT_A4B16C4(a, b, c) \ { \ c.x += (a.x * b.s0 + a.y * b.s1 + a.z * b.s2 + a.w * b.s3); \ c.y +=...

使用GPU算法选择文件加速模型初始化，存在corner case未被加速

GPU的算法文件包含algorithmMap和kernelThreadMap，当模型仅包含一些简单OP（eltwise, power等）时，不需要对tiling等参数做搜索，这时algorithmMap就是空的，kernelThreadMap中仍然包含着这些OP的local搜索结果。因此存在一种corner case：algorithmMap.size() == 0 && kernelThreadMap.size() > 0 这时`void saveMapToFile()` 就会出现bug，导致这种模型的local搜索结果不会被保存到算法文件中。从而，模型下次初始化时虽然链接了这个算法文件，仍然需要重新搜索local。这时模型的第一次执行就会非常慢。具体表现是-w 0和-w 1的执行时间差异非常明显。

请问bolt有1.3.1的发布计划吗？

10月到了，为啥还没有1.3.1 :laughing: