LLFlow icon indicating copy to clipboard operation
LLFlow copied to clipboard

训练阶段与测试阶段评价指标不一致

Open LiChangYu1997 opened this issue 2 years ago • 10 comments

您好,在代码运行中发现以下情况:使用train.py训练的过程中的评价指标数值与其所保存权重使用test.py得到的评价指标具有较大偏差,检查代码发现在训练与测试过程中项目使用了两组不同的评价指标计算代码,且在训练阶段似乎是使用RGB图像进行评价而在测试阶段使用灰度图像进行评价(在自述文件中有提到)。请问这样的设计是否会对结果产生影响?并且在test.py中同样使用RGB图像进行评价后两阶段得到的评价指标数值仍然存在较小的偏差,这是否会对结果产生影响?

LiChangYu1997 avatar Apr 11 '23 08:04 LiChangYu1997

We just upload the README file just now.

For details:

  1. From the instruction of the author of SSIM, the correct usage of SSIM is to evaluate on the grayscale images as below, i.e., the RGB image needs to be converted to the gray-scale image first. (From the official website of SSIM: https://ece.uwaterloo.ca/~z70wang/research/ssim/)

  2. The results in Table 1 of our paper are collected from other papers. For example, in Table 1, LIME (Guo, Li, and Ling 2016) and RetinexNet (Wei et al. 2018) reported in KinD (Zhang et al. 2019) are evaluated using gray-scale images. We default that other papers also use the correct/standard evaluating pipeline.

  3. A recent benchmarking paper [1] published on top-tier IJCV also adopts the standard evaluation pipeline (i.e., evaluated on gray-scale images), For Table 2, we keep the results the same with [1].

  4. For the results we implemented by ourselves, i.e., Table 3, we use the same evaluation prototype of SSIM for both baseline methods and the proposed one.

  5. Besides, even if we evaluate on non-standard evaluation pipeline of SSIM, we also achieve the best performance among other competitors in all the tables. The updated results in brackets are evaluted on RGB space. Please feel free to report the corresponding results based on your setting.

wyf0912 avatar Apr 24 '23 06:04 wyf0912

我们刚刚更新了README文件。

详情:

  1. 根据SSIM作者的官方说明,SSIM的正确使用方法是在灰度图上进行如下评估,即需要先将RGB图转为灰度图。 (来自SSIM官网:https://ece.uwaterloo.ca/~z70wang/research/ssim/)

  2. 我们论文表 1 中的结果是从其他论文中收集的。 例如,在表 1 中, KinD(Zhang 等人,2019 年)中报告的 LIME(Guo、Li 和 Ling,2016 年)和 RetinexNet(Wei 等人,2018 年)都是基于用官方的SSIM测试得到的结果。 我们默认其他论文也使用正确/标准的评估管道。

  3. 最近发表在顶级 IJCV 上的基准测试论文 [1] 也采用标准评估管道(即在灰度图像上评估),对于表 2,我们保持与 [1] 相同的结果。

  4. 对于我们自己实现的结果,即表 3,我们对基线方法和提出的方法都使用了相同的 SSIM 评估原型。

  5. 此外,即使我们在非标准SSIM 上进行评估,我们在所有表中也取得了相对其他方法最好的表现。 括号中的结果在 RGB 空间上进行评估。 你可以根据你的实验设置自由报告相应的结果。

wyf0912 avatar Apr 24 '23 06:04 wyf0912

感谢,对于表1结果我进行了复现,确实如此。 但对于论文 [1] 结果(表2),我使用项目中提供的LOLv2训练权重进行复现,发现文中结果似乎是在VE-LOL的现实图像测试集(cap)中100对图像测试得出?我同时对现实图像(cap)以及合成图像(syn)进行测试,ssim指标似乎只达到了0.77,但仅对现实图像(cap)进行测试得到了近似文中结果。但对于论文[1]官方给出的result文件我进行了测试,论文[1]结果似乎是同时对现实图像(cap)以及合成图像(syn)进行评估得出

LiChangYu1997 avatar Apr 27 '23 03:04 LiChangYu1997

结果我之前上传到网盘了 你看下用的数据集一不一样 https://drive.google.com/file/d/1BloLmwpuoJ8Vw5T6UL5lJt1HuKWRzlN5/view

wyf0912 avatar Apr 27 '23 03:04 wyf0912

我检查了数据集,是同样的,并且使用https://drive.google.com/file/d/1BloLmwpuoJ8Vw5T6UL5lJt1HuKWRzlN5/view中的数据以及VE-LOL数据进行评估得到了近似论文中的结果。 但很奇怪我使用项目中给出的权重文件以及本项目模型进行评估得到的结果对现实图像结果良好但难以处理合成图像 A light weight model with promising performance trained on LOL [Google drive] with training config file ./confs/LOL_smallNet.yml A standard-sized model trained on LOL [Google drive] with training config file ./confs/LOL-pc.yml. A standard-sized model trained on VE-LOL [Google drive] with training config file ./confs/LOLv2-pc.yml. 或许我未使用某些数据增强方法或者需要对预训练模型进行微调?

LiChangYu1997 avatar Apr 27 '23 04:04 LiChangYu1997

可以邮箱发我下你复现的结果图吗?

wyf0912 avatar Apr 27 '23 05:04 wyf0912

我在LOL以及LOLV2权重上分别做了测试如下 链接: https://pan.baidu.com/s/1Ix9shNAYtPm4H1nkYEzVog 提取码: 8xen

LiChangYu1997 avatar Apr 27 '23 05:04 LiChangYu1997

百度网盘在国外太慢了打不开...

wyf0912 avatar Apr 27 '23 05:04 wyf0912

https://drive.google.com/file/d/18mtsn3CHwR-VG7RHlz3yk6VQvYDGPCL-/view?usp=sharing

LiChangYu1997 avatar Apr 27 '23 05:04 LiChangYu1997

谢谢反馈 我先查找下原因 因为最近DDL稍等段时间回复 如果有用到,你可以按自己复现的结果报

wyf0912 avatar Apr 29 '23 11:04 wyf0912