Boosting-R-CNN icon indicating copy to clipboard operation
Boosting-R-CNN copied to clipboard

数据集及其划分

Open skro123 opened this issue 2 years ago • 11 comments

您好,这篇工作非常有意思,我想问一下,这个数据集是水下目标检测比赛2020年的训练集吗? 是总共6461张图片,然后手动划分的验证集5168张和验证集1293张吗?

skro123 avatar Apr 03 '23 07:04 skro123

您好,这篇工作非常有意思,我想问一下,这个数据集是水下目标检测比赛2020年的训练集吗? 是总共6461张图片,然后手动划分的验证集5168张和验证集1293张吗?

是的

mousecpn avatar Apr 03 '23 07:04 mousecpn

谢谢,您回复的好快,我逐渐意识到水下目标检测的难点是在这些难分样本的处理,另外您是否注意到了这个数据集中有大量的漏标样本?

skro123 avatar Apr 03 '23 07:04 skro123

是的,噪声很多。 有一篇水下的工作就是解决这个问题的,好像叫SWIPENET。 虽然我觉得最好的办法就是人手工重新标过。

mousecpn avatar Apr 03 '23 07:04 mousecpn

是的,我看到了这篇工作,同样是re-weight,不同之处是在后者需要重复迭代很多次,看起来更像是对数据集的修改,并且我看到超过两次迭代后再训练模型,精度会下降。额,我刚才又去看了一下,貌似最新版的22年的第三版和20年的第一版不太一样了。 在这个数据集上人工标注的话感觉过于费眼^-^

skro123 avatar Apr 03 '23 07:04 skro123

是的,我看到了这篇工作,同样是re-weight,不同之处是在后者需要重复迭代很多次,看起来更像是对数据集的修改,并且我看到超过两次迭代后再训练模型,精度会下降。额,我刚才又去看了一下,貌似最新版的22年的第三版和20年的第一版不太一样了。 在这个数据集上人工标注的话感觉过于费眼^-^

也就6000多张图片 其实要标真的很快的····

mousecpn avatar Apr 03 '23 07:04 mousecpn

不清楚这些漏标的对学习的影响有多大,也许我应该做一个实验,故意删除一些标注。

skro123 avatar Apr 03 '23 07:04 skro123

大佬,我看到当年比赛官网关于数据集大小的描述是5543张训练集,800张TestA,1200张TestB。您这里用的是6461张,请问您中间是进行了去重还是什么其他操作?比赛官网:https://www.heywhale.com/home/competition/5e535a612537a0002ca864ac/content/2

skro123 avatar Apr 09 '23 08:04 skro123

我也给忘了QvQ。 我应该也只有5543张吧。

mousecpn avatar Apr 09 '23 08:04 mousecpn

我发现这些都是视频切帧的,如果直接均匀划分为训练集和验证集,也就是从视频抽一些帧作为验证集,这是不是会存在过拟合风险?还有大佬你为何回复的如此之快

skro123 avatar Apr 09 '23 08:04 skro123

是有过拟合风险。但好像这个数据集22年的量上来之后感觉还行。 我github接入了邮箱,所以我看到邮箱提醒我就回了

mousecpn avatar Apr 09 '23 08:04 mousecpn

好的,谢谢您了!

skro123 avatar Apr 09 '23 08:04 skro123