M

Results 26 comments of M

嗯嗯好,谢谢你的项目,找工作还得靠它呢!

作者你好,请问cuda程序在运行时,你是用的什么工具测得它的计算速度(FLOPS/s)的呀?

谢谢指导。准确来说,1GB = 2^30B,那表达式是不是这样:performance (GFLOPS) = 2 * m * n * k /(2^30 * elapsed_time)

您好,我又来问问题了。在gemm优化中,一个线程最终计算了矩阵C中8乘8个元素,这样做使得计算密度更大了。那如果继续增大处理元素的个数,如16乘16,32乘32,这样做带来的弊端将会是什么呢?谢谢您的解答!

我试了batchsize为2,没出现什么问题。你试试当batchsize=4,8时有没问题

我截你的第一张图,复制4份,然后设置batchsize=2,跑出来是正常的。 你首先确定图像是小于3000*3000的,然后换个batchsize(3,4,8等等)试试,看有没问题

我这边不同的图片也是正确的。你重新生成引擎了吧?

总结一下,你的情况是: 只有batchsize=1的时候,输出才是正确的,试过的其他batchszie都是错的?

我这边的输出都是正常的。不过我的代码是刚加cuda预处理后的版本。最新版本的代码我还没尝试。等到下周我忙完了再帮你看看吧