M comments

Results 26 comments of

嗯嗯好，谢谢你的项目，找工作还得靠它呢！

作者你好，请问cuda程序在运行时，你是用的什么工具测得它的计算速度(FLOPS/s)的呀？

谢谢指导。准确来说，1GB = 2^30B，那表达式是不是这样：performance (GFLOPS) = 2 * m * n * k /（2^30 * elapsed_time)

您好，我又来问问题了。在gemm优化中，一个线程最终计算了矩阵C中8乘8个元素，这样做使得计算密度更大了。那如果继续增大处理元素的个数，如16乘16,32乘32，这样做带来的弊端将会是什么呢？谢谢您的解答！

我试了batchsize为2，没出现什么问题。你试试当batchsize=4,8时有没问题

我截你的第一张图，复制4份，然后设置batchsize=2,跑出来是正常的。你首先确定图像是小于3000*3000的，然后换个batchsize（3，4，8等等）试试，看有没问题

我这边不同的图片也是正确的。你重新生成引擎了吧？

总结一下，你的情况是：只有batchsize=1的时候，输出才是正确的，试过的其他batchszie都是错的？

我这边的输出都是正常的。不过我的代码是刚加cuda预处理后的版本。最新版本的代码我还没尝试。等到下周我忙完了再帮你看看吧

有啥事就在这上面说吧，或者群里问就行