M
M
嗯嗯好,谢谢你的项目,找工作还得靠它呢!
作者你好,请问cuda程序在运行时,你是用的什么工具测得它的计算速度(FLOPS/s)的呀?
谢谢指导。准确来说,1GB = 2^30B,那表达式是不是这样:performance (GFLOPS) = 2 * m * n * k /(2^30 * elapsed_time)
您好,我又来问问题了。在gemm优化中,一个线程最终计算了矩阵C中8乘8个元素,这样做使得计算密度更大了。那如果继续增大处理元素的个数,如16乘16,32乘32,这样做带来的弊端将会是什么呢?谢谢您的解答!
我试了batchsize为2,没出现什么问题。你试试当batchsize=4,8时有没问题
我截你的第一张图,复制4份,然后设置batchsize=2,跑出来是正常的。 你首先确定图像是小于3000*3000的,然后换个batchsize(3,4,8等等)试试,看有没问题
我这边不同的图片也是正确的。你重新生成引擎了吧?
总结一下,你的情况是: 只有batchsize=1的时候,输出才是正确的,试过的其他batchszie都是错的?
我这边的输出都是正常的。不过我的代码是刚加cuda预处理后的版本。最新版本的代码我还没尝试。等到下周我忙完了再帮你看看吧
有啥事就在这上面说吧,或者群里问就行