Ostnie
Ostnie
遇到许多问题
我是个初学者,所以可能遇到很多问题不会解决,目前遇到过的有: 1.在导入模块那里无法导入core_rnn,以及impl,我把这些话全都注释了才得以继续 2.return data_lists_to_batches([np.load(os.path.join(mfccPath, fn)) for fn in os.listdir(mfccPath)], OSError: [Errno 2] No such file or directory: '/home/pony/github/data/timit/phn/train/mfcc' 现在卡在这里不知道怎么办
今天偶然发现,在您的程序中完成特征提取之后的npy文件里面的数据不是39*1,而是39*n(根据不同的语音n取值不一样,有292,370等),我之前一直以为您的预处理程序处理完语料产生的就是一个长度为39的特征向量,之前接触的其他的语音识别特征提取都是一个39维的特征向量,为什么您特征提取完的矩阵这么大?后面是否有将他转化为长度为39的特征向量的操作?我并没有在您的程序中找到,望能指教,非常感谢
I don't know how to draw the PER form like the author, and I also want to use the trained model to identify my own voice data, and I don't...
您好,最近我在使用bn层的时候遇到点问题,就是收敛的确加快了但是精度下降了大约3%,这个问题不是第一次出现了,这让我很困惑,正好在您的博客中看到这么一句:注意:不要随便加BN,有些问题加了后会导致loss变大,我想请问一下是什么样的问题可能会导致这个结果呢?
I have run the demo successfully,but 24 hours later,it's still running,and I am using 1080ti,Losses are always fluctuating between 5 and 10,I don't know whether the train has been finished,so...
In roi_pool.py, line 38, pooledFeatures = tf.image.crop_and_resize(image=featureMaps, boxes=boxes, box_ind=box_ind, crop_size=crop_size) Just as I know, the featureMaps should be [batch,width,height,channels],Although batch is one,but it shouldn't be ignored. After your convnet the...
看了您的知乎文章,感觉应该输入数据格式是 batchsize,time,w,h,channels,应该是五个维度,为何您在代码中是四个维度呢,您似乎去掉了time这个维度,keras的ConvLSTM也只能处理五维数据啊
我在看RCNN论文时就是没看懂边框回归这一块应该如何实现,我现在最大的疑问是您代码的边框回归为什么会产生五个值,第一个表示什么?这个我在作者的论文中完全没有看到,能不能解释一下 以及,为什么边框回归的训练数据是用的4096维的特征数据,按说不应该就是这些区域的图片信息么? 
论文流程理解
打算用tensorflow复现RACNN,但是中间有几步总是觉得难以实现,说一下我对全程的理解,希望能有人帮忙看看是否有误 1、用普通VGG进行分类,微调,直到分类效果不再提升 2、固定住VGG参数,输出最后一层卷积层的输出到APN里面,输出三个用于定位的参数, 3、裁剪图片,用1固定住的VGG继续做分类,将公式8计算出来的loss作为APN的loss(实际是由VGG计算出来的)进行优化,改变三个定位参数 4、重新循环2,3直至VGG分类效果不再提升 5、循环1234
Judging from the papers, the rpn_out_class size should be 18 instead of 9, because background is also contained, I think x_class = Conv2D(num_anchors, (1, 1), activation='sigmoid', kernel_initializer='uniform', name='rpn_out_class')(x) should be...